Dissertação apresentada ao Instituto de Ciências Matemáticas e de Computação -ICMC-USP, como parte dos requisitos para obtenção do título de Mestre em Ciências -Ciências de Computação e Matemática Computacional
USP -São CarlosAgosto/2010iii
AgradecimentosAos meus pais, Vera e Agnaldo, pelo apoio e compreensão nessa jornada tão difícil qué e criar um filho para o mundo.A Rafaela, minha namorada, pelo carinho e atenção mesmo nos momentos mais conturbados deste trabalho.Aos amigos do LABIC pelas horas de boas risadas e discussões. Aos "irmãos de orientação" que tornaram possível a realização deste trabalho. A Veronica, cujas contribuições foram fundamentais para os rumos deste trabalho. A minha orientadora, Solange, que não desistiu de mim mesmo quando nem mesmo eu acreditava que terminaria este trabalho.A todos os amigos que direta ou indiretamente contribuíram para a minha formação pessoal e profissional.A CAPES pelo auxílio financeiro.v Resumo Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção noś ultimos anos,é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica,é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes gruposé uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalhoé avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídasà partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam queé possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais.vii
AbstractOne way to organize knowledge, that has received much attention