Abstract.Identifying similar text passages plays an important role in many applications in NLP, such as paraphrase generation, automatic summarization, etc. This paper presents some experiments on detecting and clustering similar sentences of texts in Brazilian Portuguese. We propose an evalution framework based on an incremental and unsupervised clustering method which is combined with statistical similarity metrics to measure the semantic distance between sentences. Experiments show that this method is robust even to treat small data sets. It has achieved 86% and 93% of F-measure and Purity, respectively, and 0.037 of Entropy for the best case.
The ability to recognize distinct word sequences which refer to the same meaning is of extreme relevance for many applications in NLP, such as automatic summarization, question answering, generation, etc. In this paper we describe our first attempt at aligning common information between portuguese similar sentences. We propose a method based on lexical and syntatic information and some paraphrase rules to find different strings with the same meaning. A preliminary experiment suggests that the method has potential for identifying strings which are semantically related but lexically different, as is the case of lexical paraphrases.
This paper presents a Portuguese sentence fusion model. Sentence fusion is a text-to-text generation task which takes a set of similar sentences as input and combines these into a single output sentence. This process is of extreme relevance in many NLP applications, for instance, to treat redundancies in Multidocument Summarization by fusing information from a set of related sentences into a new one. We present three intrinsic evaluations of the model and the results obtained suggest that it has potential.Resumo. Este artigo apresenta um modelo para a fusão automática de sentenças do Português. A fusão de sentenças é uma tarefa de geração de texto a partir de texto que, dado um conjunto de sentenças similares, produz uma nova sentença por meio da combinação de informações de várias sentenças do conjunto. Esse processo é desejável em várias aplicações do PLN, por exemplo, para eliminar informações redundantes na Sumarização Multidocumento, a partir da fusão de várias sentenças que expressam uma mesma informação em uma única sentença. Três avaliações intrínsecas do modelo são apresentadas e os resultados mostram que ele tem potencial. IntroduçãoNos últimos anos há um crescente interesse por aplicações do Processamento de Língua Natural (PLN) que produzem textos a partir de textos (text-to-text generation, no inglês), em oposição à geração de textos tradicional baseada em uma representação não-lingüística subjacente à informação (como proposta por Reiter and Dale, 2000). Neste trabalho, o objeto de discussão é a fusão de sentenças, uma variante da geração de textos a partir de textos. A fusão de sentenças consiste em produzir, dadas duas ou mais sentenças similares de entrada, uma única sentença que combina informações daquelas sentenças, ao mesmo tempo em que elimina as informações redundantes. (2005), a fusão sentencial pode ser de duas formas: por interseção e por união de informações. A fusão por interseção combina na sentença de saída somente as informações comuns que se repetem nas sentenças de entrada. A fusão por união preserva todas as informações das sentenças de entrada na sentença de saída. A Figura 1 apresenta um exemplo de interseção e de união de duas sentenças similares extraídas do corpus de trabalho (Seção 3). A escolha por uma forma ou por outra depende do objetivo da aplicação (Krahmer et al., 2008). Em Krahmer et al. (2008, experimentos realizados com usuários de um sistema de Perguntas e Respostas do domínio médico mostraram que a fusão por união é mais adequada nesse caso, pois há uma preferência maior por respostas mais longas. Já a fusão por interseção é de grande interesse na Sumarização Automática, especialmente na sumarização multidocumento em que a redundância de informações é um problema (principalmente para os métodos extrativos), pois remete a um processo de síntese 2009 Seventh Brazilian Symposium in Information and Human Language Technology 978-0-7695-3945-4/09 $26.00 Segundo Marsi and Krahmer
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.