Resumo -Em análises periciais de computadores, usualmente são examinados centenas de milhares de arquivos. Grande parte dos dados desses arquivos é constituída por texto não estruturado, cuja análise por parte dos peritos é difícil de ser realizada. Nesse contexto, o uso de métodos automatizados de análise baseados na mineração de textos é de grande interesse. Particularmente, algoritmos de agrupamento podem facilitar a descoberta de conhecimentos novos e úteis nos textos sob análise. Este trabalho apresenta uma abordagem para aplicar agrupamento de documentos em análises periciais de computadores apreendidos em operações policiais. Para ilustrar tal abordagem, foi realizado um estudo comparativo de seis algoritmos de agrupamento de dados (K-means, K-medoids, Single Link, Complete Link, Average Link e CSPA) aplicados a cinco bases de dados textuais provenientes de investigações reais. Foram realizados experimentos utilizando-se diferentes combinações de parâmetros, totalizando dezesseis instanciações diferentes dos algoritmos. Adicionalmente, dois índices de validade relativos (Silhueta e sua versão simplificada) foram utilizados para estimar automaticamente o número de grupos. Estudos relacionados encontrados na literatura se mostram significativamente mais limitados do que o estudo aqui apresentado, especialmente ao se considerar a combinação de características do estudo experimental realizado, que envolve uma significativa variedade de algoritmos e a estimativa automática do número de grupos. Nesse contexto, o presente estudo poderá servir como ponto de partida para aqueles interessados em desenvolver pesquisas neste domínio de aplicação específico. Além disso, os experimentos realizados mostram que os algoritmos hierárquicos Average Link e Complete Link proporcionaram os melhores resultados. Os algoritmos particionais K-means e K-medoids, quando adequadamente inicializados, apresentaram resultados similares àqueles obtidos pelos algoritmos hierárquicos. Este estudo também apresenta e discute diversos resultados práticos mais específicos que podem ser úteis para pesquisadores e praticantes de análises forenses computacionais.Palavras-chave -Agrupamento de dados, mineração de textos, Computação Forense.
IntroduçãoEstima-se que o volume de dados no universo digital aumentou de 161 hexabytes em 2006 para 988 hexabytes em 2010 [1] -aproximadamente 18 vezes a quantidade de informação presente em todos os livros já escritos -e continua crescendo de forma exponencial. Essa grande quantidade de dados tem impacto direto na área da Computação Forense, que trata da análise ou perícia de vestígios digitais visando à produção de provas durante investigações e processos judiciais, tanto cíveis quanto criminais, contribuindo, dessa forma, para a melhoria da Segurança Pública e da Justiça. Normalmente as análises periciais de computadores envolvem examinar centenas de milhares de arquivos por disco rígido, excedendo a capacidade de análise e interpretação dos vestígios por parte do perito e tornando imprescindível o uso de m...