Detecting Inflection Patterns in Natural Language by Minimization of Morphological Model

Gelbukh, Alexander; Alexandrov, Mikhail; Han, Sangyong

doi:10.1007/978-3-540-30463-0_54

Cited by 21 publications

(14 citation statements)

References 3 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…There have been several works applying GAs [9] to different aspects of information retrieval, and also to the stemming problem [10]. Proposals devoted to the query expansion problem with GAs can be classified into relevance feedback techniques and Inductive Query by Example (IQBE) algorithms.…”

Section: Modelmentioning

confidence: 99%

Structure of morphologically expanded queries: A genetic algorithm approach

Araujo

Zaragoza

Pérez-Agüera

et al. 2010

Data & Knowledge Engineering

View full text Add to dashboard Cite

a b s t r a c tIn this paper we deal with two issues. First, we discuss the negative effects of term correlation in query expansion algorithms, and we propose a novel and simple method (query clauses) to represent expanded queries which may alleviate some of these negative effects. Second, we discuss a method to optimize local query-expansion methods using genetic algorithms, and we apply this method to improve stemming. We evaluate this method with the novel query representation method and show very significant improvements for the problem of stemming optimization.

show abstract

Section: Modelmentioning

confidence: 99%

Structure of morphologically expanded queries: A genetic algorithm approach

Araujo

Zaragoza

Pérez-Agüera

et al. 2010

Data & Knowledge Engineering

View full text Add to dashboard Cite

show abstract

“…Esto permite a los autores el uso de los modelos morfológicos orientados a la generación, en lugar de desarrollar modelos de análisis especiales. En [17] se presenta un algoritmo no supervisado para el stemming de lenguas flexionales. Según los autores, el algoritmo podría aplicarse a lenguajes aglutinantes, con las modificaciones adecuadas.…”

Section: Algoritmos De Stemming Y De Lematizaciónunclassified

Reagrupamiento en familias y lexematización automática independientes del idioma

Torres‐Moreno¹

2010

Int. Artif.

View full text Add to dashboard Cite

Este artículo presenta un sistema basado en métodos de regrupamiento no supervisado que detecta algorítmicamente las raíces o lexemas de familias morfológicas. La idea principal es la constitución de familias morfológicas a través de reagrupamientos iterativos. Los criterios de este reagrupamiento se basan en la similitud gráfica de las palabras, en su representación vectorial y en la correcta utilización de pares de sufijos (o firma de la familia) extraídos automáticamente. Las pruebas sobre corpora en francés, inglés y español muestran resultados muy interesantes en los tres idiomas, con una gran robustez e independencia del idioma. IntroducciónLas palabras están compuestas por lexemas y morfemas. El lexema o raíz es la parte que no varía y que contiene su significado. El morfema es la parte variable, que se añade al lexema para completar su significado y formar nuevas palabras. De manera simplificada, una familia morfológica es un grupo de palabras relacionadas entre sí por un enlace morfológico de afijación. En la afijación se combinan una raíz y un afijo (prefijo o sufijo), ya sea para crear una nueva palabra (derivación) o bien para construir variantes de la misma (flexión). El análisis morfológico de las palabras es una fase muy importante en la construcción de sistemas de Procesamiento de Lenguaje Natural (PLN), porque tiene muchas aplicaciones en tareas como el resúmen automático de textos, la indexación de documentos, la clasificación textual y en sistemas de pregunta-respuesta a base de queries, entre otros [4]. Sin embargo, la realización de este análisis puede requerir el uso de recursos externos (como diccionarios, analizadores, reglas, etc.) que pueden ser caros, difíciles de construir y demasiado dependientes de un idioma o de un dominio específico [34]. Un ejemplo de este análisis es la lematización de palabras, que permite reducir la dimensión del espacio vectorial de representación (es decir, el léxico) en los sistemas de búsqueda y extracción de información [4,34].Este artículo ofrece un nuevo algoritmo de adquisición estadística de familias morfológicas, capaz de obtener su lexema, evitando el uso de recursos externos o el conocimiento a priori de una lengua. Para ello se formula la adquisición de familias morfológicas como un problema de clasificación no supervisada. Es decir, el objetivo es organizar un conjunto de datos en grupos homogéneos y contrastados: en nuestro caso, los grupos son familias de palabras morfológicamente relacionadas. El método propuesto tiene

show abstract

“…For the problem of word segmentation, EM is typically applied by first extracting a set of candidate multi-grams from a given training corpus [8], initializing a probability distribution over this set, and then using the standard iteration to adjust the probabilities of the multi-grams to increase the posterior probability of the training data. Somewhat similar tasks of segmenting words into morphemes, where methods use minimal length description were shown to give good results [13].…”

Section: Of Tokens T H E M O S T F a V O U R I T E M U S I C O F A L mentioning

confidence: 99%

A Generalized Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate

Islam

Inkpen

Kiringa

2007

Computational Linguistics and Intelligent Text Processing

View full text Add to dashboard Cite

Abstract. In this paper, we formulate a generalized method of automatic word segmentation. The method uses corpus type frequency information to choose the type with maximum length and frequency from "desegmented" text. It also uses a modified forward-backward matching technique using maximum length frequency and entropy rate if any non-matching portions of the text exist. The method is also extendible to a dictionary-based or hybrid method with some additions to the algorithms. Evaluation results show that our method outperforms several competing methods.

show abstract

Detecting Inflection Patterns in Natural Language by Minimization of Morphological Model

Cited by 21 publications

References 3 publications

Structure of morphologically expanded queries: A genetic algorithm approach

Structure of morphologically expanded queries: A genetic algorithm approach

Reagrupamiento en familias y lexematización automática independientes del idioma

A Generalized Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate

Contact Info

Product

Resources

About