2020
DOI: 10.1007/978-3-030-59051-2_4
|View full text |Cite
|
Sign up to set email alerts
|

Distributed Caching of Scientific Workflows in Multisite Cloud

Abstract: Many scientific experiments are performed using scientific workflows, which are becoming more and more data-intensive. We consider the efficient execution of such workflows in the cloud, leveraging the heterogeneous resources available at multiple cloud sites (geo-distributed data centers). Since it is common for workflow users to reuse code or data from other workflows, a promising approach for efficient workflow execution is to cache intermediate data in order to avoid re-executing entire workflows. In this … Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1

Citation Types

0
1
0
2

Year Published

2021
2021
2023
2023

Publication Types

Select...
3
2
1

Relationship

1
5

Authors

Journals

citations
Cited by 6 publications
(3 citation statements)
references
References 19 publications
0
1
0
2
Order By: Relevance
“…Field-based high-throughput phenotyping has been an active area of interest and made possible through platforms that help monitor plant attributes using high-throughput phenotyping. 11,12 Efficient online database for phenotypic data for retrieval and analytics has been explored in References 2-4, allowing users an accumulated repository for scientific data.…”
Section: Related Workmentioning
confidence: 99%
“…Field-based high-throughput phenotyping has been an active area of interest and made possible through platforms that help monitor plant attributes using high-throughput phenotyping. 11,12 Efficient online database for phenotypic data for retrieval and analytics has been explored in References 2-4, allowing users an accumulated repository for scientific data.…”
Section: Related Workmentioning
confidence: 99%
“…Apesar desses arcabouc ¸os oferecerem mecanismos eficientes para execuc ¸ões distribuídas de dataflows, o tempo de execuc ¸ão de um dataflow ainda pode ser demasiadamente elevado, dependendo do volume de dados a ser processado. Esse tempo de execuc ¸ão poderia ser reduzido caso dados intermediários previamente produzidos pudessem ser reaproveitados, evitando assim a execuc ¸ão de certas tarefas computacionalmente intensivas do dataflow [Heidsieck et al 2020]. A grande maioria dos arcabouc ¸os tratam execuc ¸ões de múltiplos dataflows de forma independente, i.e., o que foi produzido em uma execuc ¸ão não pode ser reutilizado em outra, mesmo em casos em que os parâmetros de entrada das duas execuc ¸ões são idênticos, o que fará com que os resultados finais e intermediários sejam exatamente iguais.…”
Section: Introduc ¸ãOunclassified
“…Nesse sentido, cientistas estão sendo cada vez mais impulsionados a colaborar e compartilhar informações com outros membros da comunidade, bem como a reutilizar dados de seus pares (AMBRÓSIO et al, 2018a;BELLOUM et al, 2011;CLASSE et al, 2016;JANDRE;DIIRR;BRAGANHOLO, 2020;TENOPIR et al, 2015). Por outro lado, na última década, o paradigma da ciência orientada a dados tornou-se uma realidade amplamente difundida (HEY et al, 2009;TREFETHEN, 2020;HIMANEN et al, 2019) e fenômenos complexos passaram a ser simulados por supercomputadores através de ferramentas computacionais que exigem cada vez mais processamento e análise de grandes quantidades de dados LIU;PACITTI, 2019;HEIDSIECK et al, 2020;LIU et al, 2015). Gerenciar e integrar esses projetos científicos orientados a dados é uma tarefa complexa.…”
Section: Contextualizaçãounclassified