Investigações de forense digital enfrentam um importante problema: a grande quantidade de arquivos armazenados em dispositivos apreendidos. Para analisar esses dispositivos de forma mais eficiente, utilizam-se estratégias de busca de similaridade, capazes de encontrar arquivos idênticos, ou até mesmo similares, à um dado conjunto de arquivos, usando técnicas de pareamento aproximado. No entanto, esta busca pode ser prejudicada devido a blocos comuns, como cabeçalhos, presentes em diferentes arquivos. Este trabalho objetiva avaliar o impacto da remoção de blocos comuns na performance das estratégias. Os resultados mostram uma redução significativa na taxa de falsos positivos com um aumento aceitável no tempo de execução.
Peritos em forense digital têm dois grandes desafios: o aumento no número de dispositivos digitais em uso e as dificuldades em analisá-los. Funções de Pareamento Aproximado (PA) são utilizadas para encontrar dados relevantes através da avaliação de similaridade entre objetos de forma eficiente. Contudo, métodos tradicionais (força bruta) consomem muito tempo e recursos. Para mitigar este problema, as estratégias de busca de similaridade permitem rápidas comparações por meio das funções de PA. Este artigo compara algumas destas estratégias e métodos de força bruta, mostrando suas taxas de precision e recall. Também apresentamos o tempo de execução das estratégias, o impacto do tipo de arquivo na similaridade e propomos melhorias.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.