Neste estudo, investigamos algumas das ferramentas utilizadas para a extração de características estáticas de aplicações Android, que são frequentemente utilizadas por métodos de detecção de malwares. Demonstramos que as ferramentas podem diferir quanto ao quantitativo e a apresentação dos dados extraídos, o que acaba condicionando sua aplicabilidade às necessidades específicas de cada projeto.
Neste trabalho nós avaliamos uma amostra inicial de 38 trabalhos de pesquisa que utilizam aprendizado de máquina para detecção de malwares Android. Analisamos, em particular, o detalhamento e a disponibilidade dos datasets, que são cruciais para a validação e a reprodutibilidade do trabalho. Nossos resultados sugerem que 100% das pesquisas não são reprodutíveis por falta de informações e/ou acesso aos dados originais da pesquisa.
O desenvolvimento de modelos preditivos corretos e eficazes requer um conhecimento técnico e do domínio do problema, o que muitas vezes não ocorre na prática, levando a soluções enviesadas e pouco eficazes. Ferramentas de AutoML surgiram com o propósito automatizar as etapas que envolvem o treinamento de modelos de machine learning. Neste contexto, trazemos uma avaliação de desempenho de quatro ferramentas de AutoML (Auto-Sklearn, AutoGluon, TPOT, QuickAutoML) na geração de classificadores de aplicações Android, considerando três métricas: acurácia, revocação e tempo de execução. Utilizamos sete datasets distintos para demonstrar a variação de desempenho entre as ferramentas.
Além da quantidade de aplicativos benignos e malignos, outro fator que dificulta a detecção de malwares Android é o grande número de características para análise estática ou dinâmica utilizando métodos de aprendizagem de máquina. Como forma de atacar o desafio de escalabilidade derivado deste contexto, há trabalhos que propõem a utilização de um número reduzido de permissões, como é o caso do SigPID. Neste trabalho, apresentamos um passo inicial na realização do (a) mapeamento das permissões mais recorrentes em trabalhos existentes; (b) mapeamento dos requisitos para a reprodução do SigPID; e (c) implementação e avaliação dos métodos de aprendizagem do SigPID, utilizando um dataset publicamente disponível. Nós comparamos o trabalho original do SigPID, que utiliza 22 permissões, com as 32 permissões identificadas como mais recorrentes; as 113 permissões do dataset público escolhido; e as 22 permissões (contidas no dataset) consideradas perigosas pela Google. Nosso estudo inicial indica que o número de permissões impacta o tempo de treinamento e execução, bem como a acurácia dos modelos. Entretanto, o tempo de execução pode não ser significativo a ponto de justificar um número menor de permissões para detecção de malwares em tempo de instalação do APK (e.g., no próprio smartphone do usuário final).
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.