Resumo: As ferramentas desenvolvidas com recursos de Processamento de Linguagem Natural apresentam crescentes possibilidades de apoiar trabalhos em diversas áreas. Uma das atividades em que este tipo de ferramenta pode ser bastante útil é a correção ortográfica. Entretanto ainda são escassos trabalhos desse tipo voltados à língua portuguesa. Neste trabalho, é apresentado o Certografia, um sistema que permite fazer correções ortográficas automáticas em textos de língua portuguesa com o foco em textos da área jurídica. São apresentadas, ainda, as técnicas utilizadas para o seu desenvolvimento, os trabalhos relacionados que apoiaram a sua definição e também a arquitetura utilizado pelo sistema. O protótipo desenvolvido foi avaliado em testes que indicaram preliminarmente resultados bastante promissores.
Palavras-chave:Corretor ortográfico, Processamento de Linguagem Natural.
Abstract:The tools developed in Natural Language Processing field present increasing opportunities to support work in several areas. One of the activities in which this kind of tool can be very useful is spell checking. This work presents Certografia, a system that allows automatic spelling corrections in Portuguese texts with focus on legal area. In this article are commented techniques used for it's development, related works in several languages and system architecture. The developed prototype was evaluated in preliminary tests that showed promising results.Keywords: Spell Checker, Natural Language Processing.
IntroduçãoCom os avanços na área de Processamento de Linguagem Natural (PLN), surgiu também a necessidade de ferramentas para auxiliar nas diversas atividades envolvidas no processo de entendimento da linguagem [1]. Para que uma informação textual seja processada de forma adequada é preciso que ela esteja descrita de forma correta. No caso de sistemas para PLN, tais como os sistemas de Extração de Informações ou geração de resumos, entre outros, é importante garantir que os dados recebidos estejam corretos e de acordo com a língua que está sendo considerada no processamento. Para isso, antes de fazer o processamento de um texto é de grande valia verificar em que medida ele está escrito de forma apropriada. Os sistemas de computação tratam as palavras a partir de seu armazenamento como dados em formato numérico, onde uma palavra é uma sequência de caracteres codificados em números. Em vários contextos de sistemas de computação, não é possível identificar se a palavra que está sendo processada está escrita corretamente ou não. Para resolver esse problema, é possível aplicar técnicas baseadas em métodos probabilísticos que empregam recursos adicionais, tais como léxicos e dicionários. Utilizando esses métodos é possível obter eficiência em procedimentos dedicados a identificar se uma palavra está escrita corretamente e, caso necessário, indicar qual palavra pode substituí-la.Esse trabalho possui como motivação tratar o problema de verificação da correção ortográfica em textos da língua portuguesa. Este objetivo está relacionado a um trab...