El presente artículo tiene como objetivo generar una manera de clasificar automáticamente los alófonos de /s/ retenidos y debilitados tras encontrar una correspondencia entre sus parámetros acústicos y el tipo cualitativo de la realización. El conjunto de datos utilizado para este studio proviene del CHARG (Corpus de Habla Radiofónica de Guayaquil). Los parámetros considerados para la descripción acústica de la consonante fricativa en cuestión son: la duración (DUR), el centro de gravedad (COG) y el porcentaje de ensordecimiento (UNVOI). Esta elección se fundamenta en la ratificación de su valor indicativo de la lenición del fonema. Para llevar a cabo la tarea, se extrajeron los valores de los parámetros acústicos. Como siguiente paso, se seleccionaron aleatoriamente el 30% de las observaciones y se clasificaron perceptivamente como retenidas o debilitadas. El análisis estadístico reveló una correlación débil pero significativa entre los parámetros, y una correlación satisfactoria entre los valores de DUR/COG/UNVOI y los resultados de la evaluación perceptiva de las fricativas. El presente estudio es una etapa inicial para elaborar un algoritmo entrenado para la clasificación de consonantes en categorías discretas basadas en medidas acústicas objetivas, trabajando con grandes bases de datos obtenidos fuera de laboratorio.
The present paper aims to describe the process of creating CHARG—Corpus de Habla Radiofónica de Guayaquil (the Guayaquil Radiophonic Speech Corpus). It is the first systematized spoken corpus for this rather under-researched variety of Spanish. Guayaquil is the most populated city of Ecuador, while its capital city is Quito. Therefore, Ecuador is a rare case of a Spanish-speaking country with two major urban centers that belong to two separate dialectal zones, offering a very peculiar sociolinguistic context. CHARG is a corpus composed of Guayaquil radio programs. Its structure is organized by non-linguistic criteria (program type) in order to ensure a representative and balanced sample. The paper describes the design of the corpus (defining the study population, sample and stratification) and its construction (recording procedure, speakers and speech style coding, transcription and annotation). As a result, CHARG consists of 24 h of transcriptions and annotations of recordings from 142 speakers. The paper’s potential use is twofold: since it presents a step-by-step procedure of corpus construction that can be replicated, the readers might be interested in both the procedure and the corpus itself as a research material.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.