This paper presents a new approach to retrieve and further integrate tabular datasets (collections of rows and columns) using union and join operations. In this work, both processes were carried out using a similarity measure based on contextual word embeddings, which allows finding semantically similar tables and overcome the recall problem of lexical approaches based on string similarity. This work is the first attempt to use contextual word embeddings in the whole pipeline of table search and integration, including for the first time their use in the join operation. A comprehensive analysis of their performance was carried out on both retrieving and integrating tabular datasets, comparing them with context-free models. Column headings and cell values were used as contextual information and their impact on each task was evaluated. The results revealed that contextual models significantly outperform context-free models and a traditional weighting schema in ad hoc table retrieval. In the data integration task, contextual models also improved the results on union operation compared to context-free approaches.
El hormigón, mezcla de cemento Portland, agua, y agregados, es comúnmente utilizado en la industria de la construcción con un alto porcentaje de fabricación in-situ. Las proporciones de cada uno de los componentes de la mezcla es de mucha importancia para asegurar la calidad producto (esfuerzo de compresión). Actualmente, varios métodos empíricos para el diseño de mezclas de hormigón son utilizados; sin embargo, éstos son basados en su mayoría en ecuaciones, tablas y/o correlaciones, sin considerarse experiencias pasadas y/o datos experimentales. El presente estudio ilustra la aplicación de la teoría de lógica difusa para desarrollar un modelo que permite estimar las proporciones de los componentes del hormigón al peso, sin utilizar aditivo. Las variables independientes (datos de entrada) seleccionadas fueron las que comúnmente se usan para diseño de mezclas. Datos históricos experimentales y la experiencia del técnico de hormigón fue empleada para la construcción de las funciones de membresía (FMs) y las reglas difusas. El sistema de inferencia lógico (SIL) Mamdani fue escogido para construir el modelo en razón de que éste permite trabajar con varias salidas (relación agua – cemento y agregados). Los resultados indican que el SIL es capaz de estimar las proporciones de una mezcla de hormigón de manera aceptable (R2=95.1%); sin embargo, el modelo se lo puede mejorar a medida que se disponga de mayor conocimiento del sistema. Además, el modelo puede hacer uso de la información que reposa en archivos y las experiencias personales de los técnicos para la elaboración de modelos particulares para cada proyecto.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.