Este artículo presenta un sistema basado en métodos de regrupamiento no supervisado que detecta algorítmicamente las raíces o lexemas de familias morfológicas. La idea principal es la constitución de familias morfológicas a través de reagrupamientos iterativos. Los criterios de este reagrupamiento se basan en la similitud gráfica de las palabras, en su representación vectorial y en la correcta utilización de pares de sufijos (o firma de la familia) extraídos automáticamente. Las pruebas sobre corpora en francés, inglés y español muestran resultados muy interesantes en los tres idiomas, con una gran robustez e independencia del idioma.
IntroducciónLas palabras están compuestas por lexemas y morfemas. El lexema o raíz es la parte que no varía y que contiene su significado. El morfema es la parte variable, que se añade al lexema para completar su significado y formar nuevas palabras. De manera simplificada, una familia morfológica es un grupo de palabras relacionadas entre sí por un enlace morfológico de afijación. En la afijación se combinan una raíz y un afijo (prefijo o sufijo), ya sea para crear una nueva palabra (derivación) o bien para construir variantes de la misma (flexión). El análisis morfológico de las palabras es una fase muy importante en la construcción de sistemas de Procesamiento de Lenguaje Natural (PLN), porque tiene muchas aplicaciones en tareas como el resúmen automático de textos, la indexación de documentos, la clasificación textual y en sistemas de pregunta-respuesta a base de queries, entre otros [4]. Sin embargo, la realización de este análisis puede requerir el uso de recursos externos (como diccionarios, analizadores, reglas, etc.) que pueden ser caros, difíciles de construir y demasiado dependientes de un idioma o de un dominio específico [34]. Un ejemplo de este análisis es la lematización de palabras, que permite reducir la dimensión del espacio vectorial de representación (es decir, el léxico) en los sistemas de búsqueda y extracción de información [4,34].Este artículo ofrece un nuevo algoritmo de adquisición estadística de familias morfológicas, capaz de obtener su lexema, evitando el uso de recursos externos o el conocimiento a priori de una lengua. Para ello se formula la adquisición de familias morfológicas como un problema de clasificación no supervisada. Es decir, el objetivo es organizar un conjunto de datos en grupos homogéneos y contrastados: en nuestro caso, los grupos son familias de palabras morfológicamente relacionadas. El método propuesto tiene