In this paper, we proposed a novel approach to improve the performance of multiple choice question answering (MCQA) system using distributed semantic similarity and classification approach. We mainly focus on science-based MCQ which is really difficult to handle. Our proposed method is based on the hypothesis that the relation between question and answer of that question will be high in distributional semantic model rather than other options of that question. We are using IJCNLP shared Task 5 and SciQ dataset for our experiments. We have built three Models (i.e., Model 1, Model 2, Model 3) based on the dataset format. The basic difference between IJCNLP Task 5 and SciQ datasets is that SciQ dataset contains supporting text with questions whereas IJCNLP Task 5 dataset does not contain supporting text. Model 1 and Model 2 are mainly built to deal with IJCNLP Task 5 dataset whereas Model 3 is mainly built for SciQ dataset. Model 2 is mainly built to deal with the dependencies between options (i.e., all of these, two of them, none of them) whereas Model 1 is the basic model for MCQA and it cannot capture the dependencies between options. We also compare the result of SciQ dataset with supporting text (i.e., using Model 3) and without supporting text (i.e., using Model 1). We also compared our system with other existing methods. Though in some cases the performance of our proposed method is not satisfactory, we have noted that our submission is simple and robust that allows it to be more easily integrated into complex applications. This work investigates different techniques for choosing the correct answer of a given question in MCQA system. These experiments may therefore be useful to improve the performance of current science-based question answering (QA) systems. For IJCNLP Task 5 dataset, we achieved 44.5% using Model 2 and PubMed Dataset. Similarly for SciQ dataset we achieved 82.25% using Model 3 and PubMed dataset.
La finalidad de este trabajo es presentar una metodología que permita combinar las estrategias del Procesamiento del Lenguaje Natural (PLN) con la capacidad de selección de un algoritmo genético para crear un generador de frases automático. Partiendo de textos en el idioma español, siendo un corpus de naturaleza literaria, se propone la aplicación de las técnicas comunes de extracción, etiquetado y un taggeador de manera paralela con los procesos de búsqueda de soluciones que aportan los algoritmos genéticos. Las palabras obtenidas, por medio de las técnicas del PLN, son consideradas como aminoácidos, estos entran en el algoritmo genético y son recombinados según reglas sintácticas previamente configuradas dentro de su fitness. Las mezclas efectuadas por el algoritmo genético, generan hileras de aminoácidos, que pueden ser tomadas como proteínas o priones. Como resultado se generan las proteínas que son interpretadas como frases correctas desde su enfoque sintáctico, dejando el aspecto semántico para investigaciones a futuro. En este documento se describe la metodología propuesta para la generación de frases donde se menciona sobre como el uso de la frecuencia de ocurrencia de palabras es indispensable para la re formulación de frases, se mencionan los dos trabajos que fueron utilizados para los experimentos realizados. También se describen las fases que son requeridas para el procesamiento de las frases como la extracción de palabras, el pre-procesamiento de texto, el análisis de frecuencias, el etiquetado de las palabras, la necesidad de vincular un algoritmo genético para aplicar reglas gramaticales en la formación de frases, las características de los aminoácidos involucrados en las estrategias que aplica el algoritmo genético, la importancia de segmentar los genes para detectar repeticiones, el uso del fitness del algoritmo genético y los pasos por los que pasa dicho algoritmo para poder generar frases. Este trabajo toma la funcionalidad de un algoritmo genético considerando la estrategia de cruzamiento por medio de ruleta, las mutaciones múltiples y la selección de genes por medio del elitismo. Todas estas estrategias posteriormente validadas por su fitness que se encarga de detectar repeticiones en los genes, segmentando estos últimos en bloques para concretar dicha tarea. también se relacionan estos procedimientos con elementos biológicos conocidos como priones, los cuales son proteínas mal formadas que pueden generar afectaciones de salud en un organismo vivo. Los priones son comparados con la gramática que contienen las frases en un texto, con la intención de poder descartar todas aquellas frases que sean generadas por el algoritmo genético. Finalmente se muestran los experimentos realizados con los dos textos de entrada El Laberinto de la Soledad y El Sombrero de Tres Picos, junto con los resultados obtenidos en estas pruebas. Se agregan las conclusiones en donde se indica la importancia de contemplar el costo computacional necesario para la formación de frases y la discusión de resultados que muestra las limitaciones, fortalezas y aportaciones de este trabajo.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.