El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural. En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.
El procesamiento del lenguaje natural es un campo dentro de la inteligencia artificial que estudia cómo modelar computacionalmente el lenguaje humano. La representación de palabras a través de vectores, conocida como Word embeddings, se populariza en los últimos años a través de técnicas como Doc2Vec o Word2Vec. El presente estudio evalúa el uso de Doc2Vec en un conjunto de conversaciones recopiladas por el centro de emergencia ECU911, perteneciente al cantón Cuenca de la provincia del Azuay durante el año 2020, con el fin de clasificar los incidentes para que el operador pueda tomar la mejor decisión, en cuanto a las acciones a realizar cuando se presente una emergencia. Además, se compara Doc2Vec con la técnica Word2Vec para verificar su nivel de desempeño tanto en precisión como en tiempo. A base de las pruebas realizadas se concluye que Doc2Vec tiene un desempeño sólido al utilizar modelos entrenados con gran corpus, superando a Word2Vec en este aspecto.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.