Se presenta un algoritmo descriptivo para un corpus léxico de cata de vinos. Primero, se presentan algunas características idiosincrásicas del corpus. En segundo lugar, se discute la similitud estructural de las ontologías, gramáticas y el algoritmo propuesto. En tercer lugar, se debate la propuesta de Langacker de separar ontológicamente entre objetos e interacciones. Finalmente, se discute una propuesta de etiquetado anotativo y se presentan algunos ejemplos.
Se pretende mostrar los avances en las pruebas de validez de un procedimiento de identificación computacional de los componentes que constituyen el significado de las expresiones en el restringido subdominio de las notas de cata de los vinos. El procedimiento consiste en un algoritmo de enlace que incluye un conjunto de componentes etiquetados. Dichos componentes van desde los no lingüísticos, con etiquetas para la “entrada perceptiva” y el “conocimiento del mundo”, hasta los propiamente lingüísticos, tales como analizadores y definiciones de diccionario. Se utiliza la metodología Clashing Identification Procedure (CIP), que permite la reducción progresiva del corpus a un tamaño manejable. El interés de diseñar un sistema de etiquetado semántico reside en su contribución a la identificación de las expresiones metafóricas y sinestésicas que se usan frecuentemente en las notas de cata, y también a las tareas de desambiguación. En definitiva, se trata de mostrar cómo deducir computacionalmente la información relevante para la construcción de las metáforas en las que se basan las notas de cata y cómo un diseño de este tipo permite conectar conocimiento lingüístico y enciclopédico de una forma efectiva.
One problem at the linguistic preprocessing stage has to do with the concepts included in existing linguistic models. Part of the problem of codifying ontological and contextual information focuses on the lack of differentiation between communication and cognition that some linguistic models present. Besides, there are some described linguistic concepts that are lightly marked and which lack enough empirical textual, lexical or grammatical evidence that support them. Because a unified linguist model able to account for ontological and contextual information is not yet available, a simpler mechanism capturing linguistic, ontological and contextual information can be simpler at a preprocessing stage. Instead of using whole linguistic models, it is explained here how an algorithm describing the components that make up linguistic codification can be used to facilitate precomputational codification. This algorithm is based on the structural similarity of the grammar of a language, the ontology supporting it and the proper descriptive algorithm. Finally, the use of this algorithm illustrates how to extract this information from a corpus.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.