A eficiência e o baixo custo da Computação em Nuvem dependem do gerenciamento de recursos computacionais. Um aspecto vital dessa tarefa é a estimativa do tempo de execução a fim de definir bons escalonamentos. Este artigo analisa a previsibilidade desse tempo de um serviço em Nuvem para o alinhamento de sequências de DNA projetado com o fim de utilizar recursos eficientemente e viabilizar a análise pelos cientistas dos milhares de alinhamentos que podem compor um único experimento. Entretanto, a qualidade da alocação de recursos é baseada na hipótese de que todos os alinhamentos do experimento demandam o mesmo tempo. Este trabalho visa à análise de fatores e os respectivos graus com que impactam o tempo de execução de cada alinhamento.
Provedores de nuvens públicas oferecem uma grande variedade de serviços e recursos computacionais. A utilização de serviços mais especializados e automaticamente gerenciados pelos provedores, tal como o modelo de Plataforma como Serviço (PaaS), é uma das causas para o aumento de custos monetários cobrados aos usuários. Neste trabalho apresentamos uma ferramenta de implantação e execução de clusters Spark que utiliza o modelo de Infraestrutura como Serviço (IaaS). Os resultados obtidos a partir de diversos casos de uso apontam que a ferramenta proposta, comparada ao PaaS, é capaz de reduzir razoavelmente os custos de execução de aplicações Spark na nuvem.
O Apache Spark tem se mostrado um framework promissor para auxiliar na execução de experimentos científicos baseados em simulação e que demandam execuções em ambientes de alto desempenho. Entretanto, o Spark possui mais de 180 parâmetros para serem configurados, o que torna a tarefa de configuração entediante e propensa a erros, se realizada manualmente. O presente artigo explora a utilização de múltiplos métodos de aprendizado de máquina para auxiliar na configuração dos parâmetros do Spark. Tais modelos foram treinados na plataforma Orange e posteriormente incorporados a ferramenta SpaCE, desenvolvida em um trabalho anterior. Os modelos foram treinados a partir de um dataset com dados de proveniência de mais de 500 execuções de dataflows de astronomia. Os resultados mostraram que o uso de métodos de aprendizado de máquina nesse contexto é promissor. Além disso, os resultados mostraram que a estratégia de partição dos dados de entrada do dataflow é o atributo que que tem maior relevância na obtenção de menores tempos de execução e que as Redes Neurais Artificiais são o método de aprendizado de máquina que traz os melhores resultados.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.