Automatic Construction of a Polish Legal Dictionary with Mappings to Extra-Legal Terms Established via Word Embeddings

Smywiński-Pohl, Aleksander; Lasocki, Karol; Wróbel, Krzysztof; Strzała, Marek

doi:10.1145/3322640.3326727

Cited by 6 publications

(5 citation statements)

References 5 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Word2vec is a word embedding method proposed by Mikolov, et al, in 2013 [19]. Since then, word2vec has been widely applied in the literature [20], [21]. Word2vec is a two-layer shallow neural network used to learn the embedding of words by exploiting word co-occurrence in a contextual window.…”

Section: ) Word2vecmentioning

confidence: 99%

See 1 more Smart Citation

Space mission design ontology: extraction of domain-specific entities and concepts similarity analysis

Berquand

Moshfeghi

Riccardi

2020

AIAA Scitech 2020 Forum

View full text Add to dashboard Cite

Expert Systems, computer programs able to capture human expertise and mimic experts' reasoning, can support the design of future space missions by assimilating and facilitating access to accumulated knowledge. To organise these data, the virtual assistant needs to understand the concepts characterising space systems engineering. In other words, it needs an ontology of space systems. Unfortunately, there is currently no official European space systems ontology. Developing an ontology is a lengthy and tedious process, involving several human domain experts, and therefore prone to human error and subjectivity. Could the foundations of an ontology be instead semi-automatically extracted from unstructured data related to space systems engineering? This paper presents an implementation of the first layers of the Ontology Learning Layer Cake, an approach to semi-automatically generate an ontology. Candidate entities and synonyms are extracted from three corpora: a set of 56 feasibility reports provided by the European Space Agency, 40 books on space mission design publicly available and a collection of 273 Wikipedia pages. Lexica of relevant space systems entities are semi-automatically generated based on three different methods: a frequency analysis, a term frequency-inverse document frequency analysis, and a Weirdness Index filtering. The frequency-based lexicon of the combined corpora is then fed to a word embedding method, word2vec, to learn the context of each entity. With a cosine similarity analysis, concepts with similar contexts are matched.

show abstract

Section: ) Word2vecmentioning

confidence: 99%

“…To find terms with close contexts, the cosine similarity is computed in-between the context vectors provided by the word2vec models. The cosine similarity cos(θ), between two vectors A and B, of dimension n, is computed as follow [21]:…”

Section: ) Cosine Similaritymentioning

confidence: 99%

Space mission design ontology: extraction of domain-specific entities and concepts similarity analysis

Berquand

Moshfeghi

Riccardi

2020

AIAA Scitech 2020 Forum

View full text Add to dashboard Cite

show abstract

“…Tal como no setor de petróleo e gás, a área jurídica compreende uma linguagem com características próprias na qual, por vezes, determinadas palavras possuem significados totalmente diferente da linguagem dita natural. Em [Smywiński-Pohl et al 2019], são treinados modelos Word2vec e Glove e visando a criac ¸ão de dicionário que fornec ¸a uma interface entre palavras técnicas da justic ¸a polonesa e palavras que possam ser compreendidas por leigos. Os experimentos apontaram resultados superiores para o Word2vec do tipo CBOW.…”

Section: Embeddings Orientado Ao Segmento Jurídicounclassified

Embeddings Jurídico: Representações Orientadas à Linguagem Jurídica Brasileira

Carmo,

Serejo,

Jacob Junior

et al. 2023

Anais Do XI Workshop De Computação Aplicada Em Governo Eletrônico (WCGE 2023)

View full text Add to dashboard Cite

O processamento automático de textos jurídicos dispostos em linguagem natural proporciona o desenvolvimento de diversas aplicações para o setor, como a classificação de processos por assunto, sumarização de documentos, tradução para linguagem cidadã etc. Nesse sentido, o judiciário brasileiro lançou o programa Justiça 4.0, buscando soluções que ofereçam celeridade nas atividades processuais. Convém pontuar que a linguagem técnica predomina nesse domínio de aplicação, o que adiciona desafios para modelagem dos dados, exigindo modelos especializados para o segmento. Frente ao exposto, esse trabalho tem como objetivo a construção de modelos embeddings orientados ao âmbito jurídico visando alimentar aplicações na área. Para isso, foram extraídos aproximadamente 500.000 documentos de instituições de justiça do Brasil das mais variadas esferas (civil, criminal, trabalhista etc). Os modelos foram avaliados por meio da classificação de petições iniciais e os resultados mostraram-se competitivos quando comparados a modelos generalistas da língua portuguesa. Tais resultados mostram que modelos treinados com documentos jurídicos compreendem melhor as especificidades da linguagem do segmento e têm o potencial de fomentar novas aplicações para o setor.

show abstract

“…A abordagem lexical é um recurso presente em várias atividades de processamento de linguagem natural, como análise de sentimentos, classificac ¸ão de textos, recuperac ¸ão de opinião e identificac ¸ão de temas, entre outras. Quando elaborados de forma adequada, os léxicos podem fornecer uma boa capacidade de classificac ¸ão, além de poderem ser utilizados como recursos adicionais aos modelos de aprendizagem de máquina [Oliveira et al 2016] Detectar subjetividades em sentenc ¸as e classificálas em uma classe é um desafio, especialmente em domínios específicos, como o mercado de ac ¸ões [Das et al 2022], doenc ¸as [Jung et al 2021], documentos jurídicos [Smywiński-Pohl et al 2019] e outros que exigem corpora especializado.…”

Section: Trabalhos Relacionadosunclassified

“…Para isso, foi utilizado documentos de textos extraídos do portal U.S Securities and Exchange Commission entre 1994 e 2008, resultando em seis grupos de palavras. Outra abordagem é de forma automática, como o realizado por [Smywiński-Pohl et al 2019]. Neste é proposta a construc ¸ão de um dicionário polonês, que mapeia a relac ¸ão entre os termos jurídicos e extrajurídicos.…”

Section: Trabalhos Relacionadosunclassified

Expansão automática de léxico para Análise de Sentimentos de Twitter no domínio do Mercado Financeiro Brasileiro

de Sousa,

Fernandes

2023

Anais Da XI Escola Regional De Informática De Goiás (ERI-GO 2023)

View full text Add to dashboard Cite

Este artigo investiga as oportunidades na criação de léxicos especializados com foco na construção de um glossário em Português voltado para o Mercado Financeiro Brasileiro (MFB). A metodologia empregada envolve a concepção de uma sequência de etapas visando enriquecer um conjunto de palavras semente, que é posteriormente utilizado na tarefa de análise de sentimentos em tweets e notícias relacionadas ao domínio do MFB. Como resultados, foram alcançados um f1-score de 71,5% na classificação de tweets e um f1-score de 67,9% em notícias, ambos na abordagem lexical. Além disso, uma abordagem mista, combinando o léxico com o modelo de aprendizagem de máquina support vector machine, atingiu um f1-score de 77,4% na classificação de tweets.

show abstract

Automatic Construction of a Polish Legal Dictionary with Mappings to Extra-Legal Terms Established via Word Embeddings

Cited by 6 publications

References 5 publications

Space mission design ontology: extraction of domain-specific entities and concepts similarity analysis

Space mission design ontology: extraction of domain-specific entities and concepts similarity analysis

Embeddings Jurídico: Representações Orientadas à Linguagem Jurídica Brasileira

Expansão automática de léxico para Análise de Sentimentos de Twitter no domínio do Mercado Financeiro Brasileiro

Contact Info

Product

Resources

About