Com o crescimento da quantidade de informações referente à transparência governamental disponíveis nos últimos anos devido as exigências legislativas, o acesso à informação desejada torna-se cada vez mais difícil. Buscadores tradicionais como Google, Yahoo e Bing retornam os documentos ordenados pela relevância perante a consulta informada. A área cujo objetivo é retornar os documentos relevantes é conhecida como Recuperação de Informação à qual pode ser auxiliada por algoritmos de aprendizado de máquina para melhorar a ordenação dos documentos, denominada nesse contexto como Aprendizado de Ranking. Existem na literatura diversos algoritmos para resolver problemas de Aprendizado de Ranking, onde cada um busca resolver o problema de ordenação com base em diferentes critérios. No contexto de documentos governamentais observa-se a possibilidade de identiĄcar quais são as principais entidades presentes nos documentos mais relevantes retornados em uma determinada consulta. Essa dissertação visou obter uma ordenação dos documentos disponíveis no Porta de Dados do Governo Brasileiro utilizando Aprendizado de Ranking e extrair informação de entidades de bases de dados não-estruturadas, semi-estruturas e tabulares, que são comuns entre as fontes disponibilizadas no Portal. Para atingir tal objetivo recorreu-se às técnicas disponíveis no estado da arte para reconhecimento de entidade nomeadas e utilizou-se das técnicas de otimização convexa para modelar o processo de aprendizado de ranking. Os resultados obtidos demonstraram-se superiores aos buscadores disponíveis no mercado (Google, Yahoo e Bing) visto que esses indexam somente o resumo dos conjuntos de dados do Portal de Dados.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.