Anais Do XVIII Encontro Nacional De Inteligência Artificial E Computacional (ENIAC 2021) 2021
DOI: 10.5753/eniac.2021.18301
|View full text |Cite
|
Sign up to set email alerts
|

LegalNLP - Natural Language Processing methods for the Brazilian Legal Language

Abstract: We present and make available pre-trained language models (Phraser, Word2Vec, Doc2Vec, FastText, and BERT) for the Brazilian legal language, a Python package with functions to facilitate their use, and a set of demonstrations/tutorials containing some applications involving them. Given that our material is built upon legal texts coming from several Brazilian courts, this initiative is extremely helpful for the Brazilian legal field, which lacks other open and specific tools and language models. Our main object… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
0
0
1

Year Published

2022
2022
2023
2023

Publication Types

Select...
3
2
1

Relationship

0
6

Authors

Journals

citations
Cited by 8 publications
(5 citation statements)
references
References 11 publications
0
0
0
1
Order By: Relevance
“…O projeto Sinapse propõe a otimização de processo de reconhecimento de padrões em textos judiciais, auxiliando em tarefas repetitivas do trâmite de processos judiciais. Polo (2021) propõe modelos de linguagem pré-treinados (Phraser, Word2Vec, Doc2Vec, FastText e BERT) para textos jurídicos brasileiros, a ferramenta está disponível publicamente 4 e é uma importante contribuição para modelos de análise de texto jurídico. O conjunto de textos de treinamento conta com documentos de quase todos os tribunais do país, com destaque para o Tribunal de Justiça de São Paulo.…”
Section: Trabalhos Relacionadosunclassified
“…O projeto Sinapse propõe a otimização de processo de reconhecimento de padrões em textos judiciais, auxiliando em tarefas repetitivas do trâmite de processos judiciais. Polo (2021) propõe modelos de linguagem pré-treinados (Phraser, Word2Vec, Doc2Vec, FastText e BERT) para textos jurídicos brasileiros, a ferramenta está disponível publicamente 4 e é uma importante contribuição para modelos de análise de texto jurídico. O conjunto de textos de treinamento conta com documentos de quase todos os tribunais do país, com destaque para o Tribunal de Justiça de São Paulo.…”
Section: Trabalhos Relacionadosunclassified
“…Os experimentos apontaram resultados superiores para o Word2vec do tipo CBOW. Também ressaltando essa peculiaridade no meio jurídico, [Polo et al 2021] treinaram e disponibilizaram modelos de representac ¸ões de palavras (Phraser, Word2Vec, Doc2Vec, FastText, e BERT), utilizando dados públicos da justic ¸a brasileira. Realizaram experimentos com classificac ¸ão de status (arquivado, ativo ou suspenso) de processos judiciais como demonstrac ¸ão de uso dos modelos treinados.…”
Section: Embeddings Orientado Ao Segmento Jurídicounclassified
“…O presente estudo teve como objetivo a construc ¸ão e a divulgac ¸ão de modelos embeddings orientados ao segmento jurídico brasileiro, com o intuito de fomentar aplicac ¸ões NLP no setor. Tal como enfatizado em [Polo et al 2021], a área jurídica compreende uma linguagem peculiar, requerendo representac ¸ões que discriminem com maior eficiência o comportamento dos documentos jurídicos. Outro ponto que incentiva o desenvolvimento deste estudo é a falta de um volume significativo de dados disponíveis para o treinamento de modelos embeddings nesse domínio de aplicac ¸ão.…”
Section: Trabalho Propostounclassified
See 2 more Smart Citations