This paper presents a system that identifies coreferent elements in Spanish texts, with the purpose of contributing to an opinion extraction project. In particular, the system looks for the actual source when it is not identified in the opinion and solves coreferences between opinion sources in digital media texts in Spanish. The developed system takes as input texts where the opinions have already been identified, and uses syntactic and semantic information to identify the relationships between the different entities, in order to create coreference chains between the sources of the opinions in the text. The algorithm uses a score method to select the correct antecedent between the candidates. It achieved a precision of 82.8% and a recall of 85.6%.
Keywords -information extraction; opinion analysis; coreference resolution; Spanish.
I. INTRODUCCIÓNEn la actualidad es muy común la lectura de prensa digital, por lo que resulta interesante contar con herramientas que permitan extraer información a partir de grandes repositorios de textos periodísticos. Un fenómeno frecuente en este tipo de texto es la introducción de diferentes participantes, por lo general personalidades públicas, a través de la reproducción de sus palabras o del análisis de sus posturas respecto a diferentes temas. Resulta de interés, por lo tanto, poder identificar los segmentos de texto que contienen opiniones correspondientes a diferentes fuentes (personas, instituciones, publicaciones). Este tipo de información podría constituir la base de diferentes aplicaciones: obtener todas las opiniones correspondientes a una determinada fuente; analizar la evolución en el tiempo de las opiniones de una fuente, sobre un tema particular; saber qué fuentes opinaron sobre un tema dado, incluso poder decir si esas opiniones son positivas o negativas; entre otras.En este artículo se abordan algunos problemas relacionados con la atribución de opiniones a sus fuentes correspondientes. Se trabaja con textos periodísticos en español, partiendo de un sistema ya desarrollado que identifica las opiniones y sus elementos.En este contexto, se entiende por opinión la reproducción de un acto verbal en el cual un enunciador se pronuncia sobre algún tema, o cualquier mención a creencias o posturas de participantes del discurso distintos del autor del texto [1]. La opinión puede contener los siguientes elementos: el predicado (verbos como decir, opinar, apoyar, rechazar, nombres como opinión, declaración, apoyo; expresiones introductoras de fuente como según, de acuerdo con), la fuente (persona, institución o publicación autora de la opinión), el asunto (tema sobre el cual se opina) y el mensaje (contenido de la opinión).Un ejemplo de opinión es el siguiente:(1) [[Hasta el momento el virus H1N1 tiene una predominancia mayor que la de los demás virus en esos estudios] mensaje [precisó] predicado [la ministra] fuente ] opiniónNormalmente, las fuentes aparecen referenciadas a lo largo de un texto por medio de diferentes expresiones. Cuando dos o más expresiones diferentes hacen...