Sistemas de Geração de Língua Natural (GLN) são centrais para o desenvolvimento de comunicação humano-computador realista e psicologicamente plausível que não recorra ao uso de texto fixo ou predefinido, fazendo uso de uma ampla gama de estratégias para modelar alguma forma de variação estilística. Entre estas estratégias, o uso de modelos computacionais da personalidade humana emergiu como uma alternativa popular na área. Neste contexto, o presente trabalho apresenta um modelo de GLN do tipo texto-para-texto (ou reescrita sentencial) para o português que leva em conta, além da sentença a ser reescrita, informações sobre a personalidade de um locutor-alvo de interesse. Mais especificamente, o modelo transforma a sentença de entrada em outra na qual certas formas lexicais são substituídas por termos mais adequados ao tipo de personalidade-alvo fornecido. Resultados sugerem que as sentenças geradas com base em personalidade são mais próximas das que seriam produzidas por um locutor humano com as características de personalidade fornecidas do que seria possível sem acesso a essa informação, e abrem assim caminho para futuros estudos de geração de língua natural personalizada em português.
Sistemas de Geração de Língua Natural tentam produzir textos de maneira automatizada. Em sistemas desse tipo,é desejável produzir textos de forma realista-ou psicologicamente plausível-como forma de aumentar o engajamento do leitor. Uma das formas de alcançar esse objetivoé gerando textos de modo a refletir uma personalidade-alvo de interesse. Por exemplo, uma pessoa extrovertida usaria palavras mais simples e seus textos teriam mais interjeições e traços de oralidade. Esse trabalho tem o objetivo de desenvolver um modelo de reescrita sentencial para o português brasileiro com base em traços de personalidade de um locutor-alvo. Para isso, foi coletado um córpus de textos e inventários de personalidade e, com base em uma análise preliminar desses dados, foram encontrados fortes indícios de correlação entre os fatores de personalidade e as características observadas dos textos em português brasileiro. Foram gerados três modelos de lexicalização, referentes a adjetivos, substantivos e verbos. Esses modelos de lexicalização, então, foram utilizados na proposta de um modelo de reescrita sentencial para selecionar as palavras mais adequadas a personalidade-alvo. Os resultados demonstram que o uso de personalidade permite que o texto gerado seja mais próximo do desempenho humano se comparado a um sistema de baseline que faz escolhas lexicais mais frequentes. Palavras-chave: Processamento de linguagem natural, Texto-para-texto, Reescrita de texto, Big Five.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.