В статье обсуждаются вопросы мониторинга гетерогенных распределенных вычислительных сред, включающих как выделенные ресурсы вычислительных кластеров, так и облачные ресурсы. Особенностью мониторинга кластерных систем является необходимость мониторинга не только вычислительных узлов, но и сетевых компонентов и инженерной инфраструктуры. Инженерная инфраструктура кластера, как правило, состоит из систем электроснабжения, вентиляции и охлаждения. Данные компоненты не всегда имеют техническую возможность предоставлять доступ к показателям работы по сетевым и цифровым протоколам. Кроме того, в системах мониторинга необходимо обеспечивать методы длительного, надежного и эффективного хранения накопленных данных с возможностью быстрого и гибкого доступа к ним. К сожалению, готового решения данных проблем не существует, что подчеркивает актуальность исследований, связанных с разработкой и внедрением специализированных систем мониторинга. В работе предложена архитектура и особенности реализации прототипа модульной системы мониторинга, предназначенной для сбора, обработки, визуализации метрик и автоматизированного мониторинга состояния гетерогенной вычислительной среды. Практические эксперименты подтвердили работоспособность прототипа и определили дальнейшие направления развития системы мониторинга, предполагающие использование методов искусственного интеллекта для обнаружения и прогнозирования сбоев в компонентах вычислительной среды.
Ключевые слова: системы мониторинга, вычислительный кластер, облачные вычисления, гетерогенные вычислительные средыИсследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации, проект № FWEW-2021-0005 «Технологии разработки и анализа предметно-ориентированных интеллектуальных систем группового управления в недетерминированных распределенных средах» (рег. № 121032400051-9).