Anais Do IV Dataset Showcase Workshop (DSW 2022) 2022
DOI: 10.5753/dsw.2022.224294
|View full text |Cite
|
Sign up to set email alerts
|

Textual Datasets For Portuguese-Brazilian Language Models

Abstract: Advances in Natural Language Processing have generated new models that push forward the state of the art. This reached new heights in complex tasks in handling unstructured texts. Most of the new architectures and models focus on the English language. There is a lack of available datasets that can be used during the training of new models. This investigation presents four new textual datasets for language modeling in Brazilian Portuguese. Our datasets were generated from several specific methodologies that aim… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
0
0
2

Year Published

2023
2023
2024
2024

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 8 publications
(13 reference statements)
0
0
0
2
Order By: Relevance
“…Como baseline, foi utilizado o trabalho de [Souibgui et al 2021] 4 , no intuito de, a posteriori, aplicar o presente conjunto de dados no Fine-Tuning do modelo fornecido no baseline. Tal aplicac ¸ão foi escolhida dada a precariedade de dados anotados em português, como uma alternativa ao treinamento do zero de modelos que demandam alto custo de processamento, fazendo uso, portanto, de uma quantidade reduzida de dados para o aprendizado e considerando que a maior parte dos componentes já foram aprendidos no desenvolvimento do modelo [Sanches et al 2022].…”
Section: Metodologia Para Criac ¸ãO Do Datasetunclassified
See 1 more Smart Citation
“…Como baseline, foi utilizado o trabalho de [Souibgui et al 2021] 4 , no intuito de, a posteriori, aplicar o presente conjunto de dados no Fine-Tuning do modelo fornecido no baseline. Tal aplicac ¸ão foi escolhida dada a precariedade de dados anotados em português, como uma alternativa ao treinamento do zero de modelos que demandam alto custo de processamento, fazendo uso, portanto, de uma quantidade reduzida de dados para o aprendizado e considerando que a maior parte dos componentes já foram aprendidos no desenvolvimento do modelo [Sanches et al 2022].…”
Section: Metodologia Para Criac ¸ãO Do Datasetunclassified
“…A anotac ¸ão deve conter os dois aspectos principais do processo, ou seja, onde estão os símbolos textuais na imagem e a transcric ¸ão léxica de tais símbolos. Por conta disso, o processo de HTR demanda uma grande quantidade de dados e processamentos custosos em valor e tempo [Sanches et al 2022] para alcanc ¸ar o desempenho esperado nos mecanismos utilizados.…”
Section: Introduc ¸ãOunclassified