ESLORA is a corpus of Spanish made up of semi-directed interviews and spontaneous conversations recorded in Galicia between 2007 and 2015. The design and construction of the corpus meets three objectives: to register the use of a variety of Spanish which to date has been scarcely documented, to gain additional insight into the methods for the construction of spoken corpora, and to develop computational tools for corpus search. The paper presents the main characteristics of ESLORA and the criteria followed in the corpus building process. It also includes a brief description of the tools used to build the corpus and how they work together to achieve the project needs and, moreover, it shows that the decisions taken at various stages of the compilation of the corpus are closely related to the wide range of possibilities for retrieving the lexical, grammatical and contextual information provided by the materials.
Neste traballo avaliamos, dende o punto de vista lingüístico, un etiquetador automático estatístico, desenvolto conxuntamente polo Centro Ramón Piñeiro para a Investigación en Humanidades e o Grupo COLE das Universidades de Vigo e A Coruña, destinado a etiquetar os documentos do Corpus de Referencia do Galego Actual co obxecto de proporcionar recursos e ferramentas para a análise lingüística computacional do galego actual.
O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.