RESUMO -Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classifi car os constituintes de derivados por meio da sufi xação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefi xação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti-ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afi xos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográfi cas desse fragmento do léxico, formalizada nas linguagens de programação de estados fi nitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afi xos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afi xos derivacionais referidos frequentemente são insufi cientemente detalhadas ou simplesmente incorretas.Palavras-chave: derivação, sufi xação, prefi xação, autômatos, transdutores lexicais, morfologia de estados fi nitos, anotação automática de corpora, linguística computacional, linguística de corpus. IntroduçãoSegundo Lemnitzer e Wagner (2004, p. 246), sistemas de tecnologia da linguagem natural "necessitam de informações lexicais de forma muito mais abrangente e explícita do que usuários humanos de dicionários". Para esses dois autores, os recursos lexicais de um sistema desse tipo desempenham um papel equivalente ao do léxico mental de falantes humanos na produção e compreensão da linguagem.Uma descrição de forma não só detalhada, mas também formalizada das estruturas lexicais constitui, portanto, pré-requisito para o processamento computacional de uma língua natural. Dicionários tradicionais como o ABSTRACT -This paper presents LEXPOR, a prototype of a morphological component of Portuguese capable of segmenting and classifying the constituents of complex words resulting from suffi xation of -ismo, -iano, -ês and -mente as well as from prefi xing the words so derived with Greek or Latin prefi xes such as neo-, pseudo-, anti-, or ultra-. We assume that a representation of complex words in terms of morphemes and morphosyntactic categories plays an important role not only in corpus linguistics, but also in other subf...
ResumoNo desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis.
Este trabalho objetiva, primeiramente, evidenciar a utilidade da CFG e da FCFG no estudo da sintaxe formal. A aplicação de parsers baseados nesses formalismos na análise de um corpus pode revelar consequências de uma dada análise que de outro modo passariam despercebidas. O NLTK é uma caixa de ferramentas para o PLN em Python que possibilita a construção de parsers em diferentes arquiteturas. No entanto, para uma utilização não trivial dessa biblioteca na análise sintática automática são necessários conhecimentos de programação. Para permitir o acesso de não programadores à implementação e testagem de parsers, desenvolvemos o Donatus, uma interface gráfica amigável para as facilidades de parsing do NLTK, dotada de recursos adicionais que a tornam interessante também para programadores. Como exemplo do funcionamento da ferramenta e demonstração da sua relevância na investigação sintática formal, comparamos implementações de duas análises alternativas da modificação adjetival em português. A primeira abordagem, baseada na Teoria X-barra tradicional, produziu um grande número de pseudoambiguidades. Esse problema foi evitado por um parser baseado em abordagem no âmbito do Programa Minimalista. Sem o recurso do computador, essa diferença entre as duas abordagens não seria facilmente revelada.
ResumoEste trabalho descreve a implementação de um parser para um fragmento do português no XLE, sistema que constitui o estado da arte para o desenvolvimento de gramáticas computacionais baseadas no modelo gerativo da LFG. O fragmento abrange os seguintes aspectos da concordância verbal, sujeitos à variação dialetal: (i) concordância sintática do chamado pronome a gente, com formas verbais de terceira pessoa do singular e semântica com a primeira e terceira do plural; (ii) concordância do pronome tu, com a segunda e a terceira do singular e do pronome vocês, com a segunda e terceira do plural; (iii) concordância semântica de um DP definido no plural, com a primeira pessoa do plural. Para derivar os diferentes padrões de concordância nesse domínio, constatados no português padrão e em alguns dialetos não padrão tanto do português do Brasil quanto do português europeu, são propostas estruturas de traços para os DPs e flexões verbais em que se distingue entre traços sintático-formais e traços semântico-discursivos. Mostra-se que as diferenças entre os dialetos investigados em relação a (i) -(iii) podem ser derivadas por meio da ativação ou desativação desses traços.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.