EnglishIn high performance clusters, current parallel application communication needs, such as tra c pattern, communication volume, etc., change along time and are di cult to know in advance. Such needs often exceed or do not match available resources causing resource use imbalance, network congestion, throughput reduction and message latency increase, thus degrading the overall system performance. Studies on parallel applications show repetitive behavior that can be characterized by a set of representative phases. This work presents a Predictive and Distributed Routing Balancing (PR-DRB) technique, a new method developed to gradually control network congestion, based on paths expansion, tra c distribution, applications pattern repetitiveness and speculative adaptive routing, in order to maintain low latency values. PR-DRB monitors messages latencies on routers and saves the found solutions to congestion, to quickly respond in future similar situations. Tra c congestion experiments were conducted in order to evaluate the performance of the method, and improvements were observed.
CastellanoEn los clusters de altas prestaciones, los requerimientos actuales de las comunicaciones de las aplicaciones, como el patr on de tr a co, el vol umen de comunicaciones entre otras, pueden cambiar a lo largo del tiempo y son dif ciles de predecir. Estas necesidades generalmente exceden o no se corresponden con los recursos disponibles realmente, lo cual conlleva a una situaci on de desbalanceo de los recursos, congesti on en la red, reducci on del throughput y un incremento considerable en los valores de latencia de los mensajes. Todo esto conlleva una degradaci on general del rendimiento de todo el sistema computacional. Los estudios de las aplicaciones paralelas demuestran que estas tienen un comportamiento repetitivo. Adem as, esta repetitividad puede detectarse y caracterizarse a trav es de unas fases representativas. Este trabajo propone un Algoritmo de Encaminamiento Predictivo y Distribuido (PR-DRB). Este nuevo m etodo propone controlar la congesti on de la red de manera gradual bas andose en la expansi on controlada de caminos, la distribuci on del tr a co, la repetitividad en las aplicaciones paralelas y el encaminamiento adaptativo especulativo; de manera a mantener los valores de latencia controlados. PR-DRB monitorea la latencia de los mensajes en los encaminadores y guarda las mejores soluciones adaptativas encontradas a una situaci on de congesti on. Esto se realiza de manera a re aplicar estas mejores soluciones de manera r apida ante situaciones similares futuras. Fueron desarrollados varios experimentos que generen congesti on de tr a co a n de evaluar el rendimiento de la propuesta, y se han logrado mejoras importantes en el rendimiento global del sistema.Palabras clave: Redes de interconexi on, Computaci on de Altas Prestaciones, Encaminamiento Predictivo, Encaminamiento Basado en las Aplicaciones.vi Català En els cl usters d'altes prestacions, els requeriments actuals de les comunicacions de les apl...