Portuguese word embeddings for the oil and gas industry: Development and evaluation

Gomes, Diogo da Silva Magalhães; Cordeiro, Fábio Corrêa; Consoli, Bernardo Scapini; Santos, Nikolas Lacerda; Moreira, Viviane Pereira; Vieira, Renata; Moraes, Sílvia María Wanderley; Evsukoff, Alexandre G.

doi:10.1016/j.compind.2020.103347

“…Table 5. 16 shows that while multimodality did not manage to improve the best F-score achieved by the best Text-Only model, Standardized NILCFT300, it did raise another model, Standardized NILCW2V100, to tie with this score. Otherwise, whatever increases in F-score as a result of the multimodal fusion that can be observed are minimal at best for this task.…”

Section: Selective Trackmentioning

confidence: 96%

“…BERTimbau [44], a Portuguese language BERT model, was recently developed and added to the Hugging Face 4 library. These models, and others, have been used to advance the state-of-the-art in several Portuguese language NLP tasks [40,26,16].…”

Section: Introductionmentioning

confidence: 99%

Enriching Portuguese Word Embeddings with Visual Information

Consoli

¹

,

Vieira

²

2022

Lecture Notes in Computer Science

Self Cite

0

View full text Add to dashboard Cite

Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.

show abstract

“…Two new geosciences domain embeddings were developed during the course of this study as part of a collaboration with experts from Petrobras' CENPES research nucleus through the Geologia Digital project: PetroVec and PetroVec-Hybrid 3 . These models were thoroughly tested using both intrinsic and extrinsic tasks, and the results were compiled into an article published in the Computers in Industry journal 4 [16]. These are the current state-of-the-art models for the Portuguese language in the Geosciences domain.…”

Section: Textual Embeddingsmentioning

confidence: 99%

“…The test corpus for the geosciences domain, henceforth called GeoSim, was developed as part of the Geologia Digital project, and was used to test the PetroVec word embeddings [16]. It was developed in collaboration with several industry experts, Geology students and a PhD in Geology.…”

Section: Geosciences Domainmentioning

confidence: 99%

See 1 more Smart Citation

Enriching Portuguese Word Embeddings with Visual Information

Consoli

¹

,

Vieira

²

2021

Intelligent Systems

Self Cite

1

0

View full text Add to dashboard Cite

Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.

show abstract