AgradecimentosMinha gratidãoàs pessoas com as quais tive a sorte de trabalhar nesses quatro anos vai além do que as palavras podem expressar.Ao Professor André Carvalho, obrigado por ter estado sempre presente e por ter proporcionado as condições para que este trabalho pudesse ser desenvolvido. Suas idéias, sua dedicação e seu entusiasmo foram essenciais. Obrigado pelos conselhos, pela paciência, e pela generosidade em todos os momentos, e em cada um.Ao Professor João Gama, obrigado por ter aceito o convite para me co-orientar neste projeto, pela atenção durante o estágio, e pelas contribuições que tanto enriqueceram este trabalho.A Professora Carolina Monard, obrigado pelas orientações, pelos ensinamentos, e pelo privilégio da convivência.Aos professores, obrigado por compartilharem suas experiências e conhecimento. Aos colegas, obrigado pelo companheirismo. Aos funcionários do ICMC, parabéns pela competência e dedicação, qualidades que se refletem em um ambiente de trabalho produtivo e agradável.Ao CNPq eà CAPES, obrigado pelo apoio.i ii Agradecimentos
ResumoNeste trabalho a detecção de novidadeé tratada como o problema de identificação de conceitos emergentes em dados que podem ser apresentados em um fluxo contínuo. Considerando a relação intrínseca entre tempo e novidade e os desafios impostos por fluxos de dados, uma nova abordagemé proposta. OLINDDA (OnLIne Novelty and Drift Detection Algorithm) vai além da classificação com uma classe e concentra-se no aprendizado contínuo não-supervisionado de novos conceitos. Tendo aprendido uma descrição inicial de um conceito normal, prossegueà análise de novos dados, tratando-os como um fluxo contínuo em que novos conceitos podem aparecer a qualquer momento. Com o uso de técnicas de agrupamento, OLINDDA pode empregar diversos critérios de validação para avaliar grupos em termos de sua coesão e representatividade. Grupos considerados válidos produzem conceitos que podem sofrer fusão, e cujo conhecimentoé continuamente incorporado. A técnicaé avaliada experimentalmente com dados artificiais e reais. O módulo de classificação com uma classeé comparado a outras técnicas de detecção de novidade, e a abordagem como um todoé analisada sob vários aspectos por meio da evolução temporal de diversas métricas. Os resultados reforçam a importância da detecção contínua de novos conceitos, assim como as dificuldades e desafios do aprendizado não-supervisionado de novos conceitos em fluxos de dados.iii iv
Resumo
AbstractIn this work novelty detection is treated as the problem of identifying emerging concepts in data that may be presented in a continuous flow. Considering the intrinsic relationship between time and novelty and the challenges imposed by data streams, a novel approach is proposed. OLINDDA, an OnLIne Novelty and Drift Detection Algorithm, goes beyond one-class classification and focuses on the unsupervised continuous learning of novel concepts. Having learned an initial description of a normal concept, it proceeds to the analysis of new data, treating them as a continuo...