A Review of Monitoring Probes for Cloud Computing Continuum

Verginadis, Yiannis

doi:10.1007/978-3-031-28694-0_59

Cited by 4 publications

(3 citation statements)

References 14 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…The system monitoring landscape features numerous monitoring tools that span the compute continuum [26]. These include Nagios [27] and Zabbix [28] for the physical (bare metal) level, Netdata [15] and Ganglia [29] for virtual machines, and cAdvisor [22] and Prometheus [21] for containerized execution environments.…”

Section: Related Workmentioning

confidence: 99%

FedMon: A Federated Learning Monitoring Toolkit

Symeonides,

Trihinas,

Nikolaidis

2024

IoT

View full text Add to dashboard Cite

Federated learning (FL) is rapidly shaping into a key enabler for large-scale Artificial Intelligence (AI) where models are trained in a distributed fashion by several clients without sharing local and possibly sensitive data. For edge computing, sharing the computational load across multiple clients is ideal, especially when the underlying IoT and edge nodes encompass limited resource capacity. Despite its wide applicability, monitoring FL deployments comes with significant challenges. AI practitioners are required to invest a vast amount of time (and labor) in manually configuring state-of-the-art monitoring tools. This entails addressing the unique characteristics of the FL training process, including the extraction of FL-specific and system-level metrics, aligning metrics to training rounds, pinpointing performance inefficiencies, and comparing current to previous deployments. This work introduces FedMon, a toolkit designed to ease the burden of monitoring FL deployments by seamlessly integrating the probing interface with the FL deployment, automating the metric extraction, providing a rich set of system, dataset, model, and experiment-level metrics, and providing the analytic means to assess trade-offs and compare different model and training configurations.

show abstract

Section: Related Workmentioning

confidence: 99%

FedMon: A Federated Learning Monitoring Toolkit

Symeonides,

Trihinas,

Nikolaidis

2024

IoT

View full text Add to dashboard Cite

show abstract

“…В области мониторинга существует обширный набор различных технологий и программных систем, предназначенных для эффективного наблюдения, анализа и оценки аспектов наблюдаемых систем и процессов [8], таких как Zabbix, Nagios, Ganglia. Подобные в большей степени пригодны для мониторинга отдельных серверов, для кластерных систем существует более современная система NetData [9], но и ее эффективность на крупных кластерных системах не нашла подтверждения, несмотря на обширный набор собираемых метрик. С целью решения проблемы мониторинга гетерогенной вычислительной среды предложена архитектура прототипа системы мониторинга (рис.…”

Section: материалы и методы исследованияunclassified

“…Следующим компонентом системы мониторинга является комплекс визуализации метрик и отправки уведомлений администратору вычислительной системы. В нашей системе мониторинга используется система Graphana [9], которая наряду с Prometheus является стандартизированным решением [10]. Graphana имеет встроенную поддержку метрик из Prometheus, что позволяет использовать единую точку мониторинга вычислительной инфраструктуры в виде приборной панели.…”

Section: материалы и методы исследованияunclassified

Aspects of Implementing a Monitoring System in a Heterogeneous Computing Environment

Kostromin

2023

СНТ (MHT)

View full text Add to dashboard Cite

В статье обсуждаются вопросы мониторинга гетерогенных распределенных вычислительных сред, включающих как выделенные ресурсы вычислительных кластеров, так и облачные ресурсы. Особенностью мониторинга кластерных систем является необходимость мониторинга не только вычислительных узлов, но и сетевых компонентов и инженерной инфраструктуры. Инженерная инфраструктура кластера, как правило, состоит из систем электроснабжения, вентиляции и охлаждения. Данные компоненты не всегда имеют техническую возможность предоставлять доступ к показателям работы по сетевым и цифровым протоколам. Кроме того, в системах мониторинга необходимо обеспечивать методы длительного, надежного и эффективного хранения накопленных данных с возможностью быстрого и гибкого доступа к ним. К сожалению, готового решения данных проблем не существует, что подчеркивает актуальность исследований, связанных с разработкой и внедрением специализированных систем мониторинга. В работе предложена архитектура и особенности реализации прототипа модульной системы мониторинга, предназначенной для сбора, обработки, визуализации метрик и автоматизированного мониторинга состояния гетерогенной вычислительной среды. Практические эксперименты подтвердили работоспособность прототипа и определили дальнейшие направления развития системы мониторинга, предполагающие использование методов искусственного интеллекта для обнаружения и прогнозирования сбоев в компонентах вычислительной среды. Ключевые слова: системы мониторинга, вычислительный кластер, облачные вычисления, гетерогенные вычислительные средыИсследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации, проект № FWEW-2021-0005 «Технологии разработки и анализа предметно-ориентированных интеллектуальных систем группового управления в недетерминированных распределенных средах» (рег. № 121032400051-9).

show abstract