Textual Datasets For Portuguese-Brazilian Language Models

Sanches, Matheus Ferraroni; Sá, Jader M. C. de; Foerste, Henrique Theodor Schutz; Souza, Rafael Borim de; Reis, Júlio Cesar dos; Villas, Leandro A.

doi:10.5753/dsw.2022.224294

Cited by 2 publications

(2 citation statements)

References 8 publications

(13 reference statements)

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Como baseline, foi utilizado o trabalho de [Souibgui et al 2021] 4 , no intuito de, a posteriori, aplicar o presente conjunto de dados no Fine-Tuning do modelo fornecido no baseline. Tal aplicac ¸ão foi escolhida dada a precariedade de dados anotados em português, como uma alternativa ao treinamento do zero de modelos que demandam alto custo de processamento, fazendo uso, portanto, de uma quantidade reduzida de dados para o aprendizado e considerando que a maior parte dos componentes já foram aprendidos no desenvolvimento do modelo [Sanches et al 2022].…”

Section: Metodologia Para Criac ¸ãO Do Datasetunclassified

“…A anotac ¸ão deve conter os dois aspectos principais do processo, ou seja, onde estão os símbolos textuais na imagem e a transcric ¸ão léxica de tais símbolos. Por conta disso, o processo de HTR demanda uma grande quantidade de dados e processamentos custosos em valor e tempo [Sanches et al 2022] para alcanc ¸ar o desempenho esperado nos mecanismos utilizados.…”

Section: Introduc ¸ãOunclassified

See 1 more Smart Citation

LHTR.br: em Busca de um Conjunto Anotado de Textos Manuscritos em Português

da Silva,

de Oliveira,

Rosseti

et al. 2023

Anais Do v Dataset Showcase Workshop (DSW 2023)

View full text Add to dashboard Cite

Atividades diversas utilizam registros escritos à mão, tais como receituários e prontuários médicos e serviços de segurança. Embora recursos tecnológicos, como tablets e celulares, permitam a escrita à mão usando meios digitais, muitos ainda utilizam papel para registrar sua escrita. Em todos os casos, automatizar a transcrição de tais registros para um formato digital implica no reconhecimento de seus conteúdos textuais. Embora métodos baseados em redes neurais profundas auxiliem este processo, eles carecem de conjuntos de dados anotados de idiomas específicos. Porém, majoritariamente, os dados disponibilizados estão na língua inglesa, que não faz uso de símbolos de acentuação. Também, a escrita pode conter estilos culturais que podem não ser parte de falantes de outros idiomas. Para abordar este problema, este artigo contribui com o LHTR.br (Labeled Handwritten Text Recognition in Brazilian Portuguese), um conjunto de dados com demarcações de textos em imagens e transcrição do texto em Português. Espera-se que esse conjunto de dados possa ser utilizado para o treinamento de modelos baseados em redes neurais.

show abstract

Section: Metodologia Para Criac ¸ãO Do Datasetunclassified

Section: Introduc ¸ãOunclassified

LHTR.br: em Busca de um Conjunto Anotado de Textos Manuscritos em Português

da Silva,

de Oliveira,

Rosseti

et al. 2023

Anais Do v Dataset Showcase Workshop (DSW 2023)

View full text Add to dashboard Cite

show abstract

Dataset Anotado de Sentimentos a partir de comentários de Aplicativos Móveis

Siqueira,

Hentges Costa,

Soares

et al. 2024

Anais Do VI Dataset Showcase Workshop (DSW 2024)

View full text Add to dashboard Cite

Este trabalho apresenta um novo dataset em português brasileiro para análise de sentimentos, composto por 3.000 avaliações de usuários extraídas de 10 aplicativos populares da Google Play Store. As avaliações foram manualmente classificadas em sete emoções básicas através de um processo de anotação colaborativa e validado por múltiplos avaliadores. A análise demonstra uma predominância de emoções negativas, indicando potencial para pesquisas sobre a relação entre emoções e satisfação dos usuários. Este trabalho visa suprir a lacuna de datasets em português e impulsionar o desenvolvimento de ferramentas e pesquisas em áreas como interação humano-computador, marketing e engenharia de software.

show abstract

Textual Datasets For Portuguese-Brazilian Language Models

Cited by 2 publications

References 8 publications

LHTR.br: em Busca de um Conjunto Anotado de Textos Manuscritos em Português

LHTR.br: em Busca de um Conjunto Anotado de Textos Manuscritos em Português

Dataset Anotado de Sentimentos a partir de comentários de Aplicativos Móveis

Contact Info

Product

Resources

About