Contexte et Motivation Conférence vidéo est un sujet de télécommunications bien connu, qu'on étudiait pour les décades. Récemment ce sujet a reçu une nouvelle pulsion grâce à la bande passante accrue de réseau local et réseau étendu, et l'apparition de l'équipement vidéo de bon marché. Au même temps le vidéo de bonne qualité, comme "Full HD", peut demander les ressources computationnelles significatives pour son traitement. Le traitement vidéo pour les conférences comprend quelques manipulations nécessaires pour obtenir une expérience utilisateur avancée (mélange de plusieurs flux vidéo ou de passer l'image au participant qui parle actuellement), ainsi que les opérations causées par l'incompatibilité des paramètres, par exemple transcodage dans le cas où les participants utilisent différents codecs vidéo. Actuellement, deux architectures distinctes pour le traitement de ces tâches de manipulation de vidéo sont utilisés. La solution traditionnelle utilise Multipoint Control Unit (MCU) [1]. MCU est un composant puissant qui centralise toutes les opérations de traitement vidéo et distribue les flux résultant. MCU peut être mis en oeuvre comme une unité matérielle intégrée avec Digital Signal Processors (DSP) ou un composant logiciel installé sur les serveurs type Commercial Off-The-Shelf (COTS). Aussi MCU peut être déployé dans le nuage où au mode local. Dans tous les scénarios de déploiement, MCU représente une ressource dédiée, qui doit être acheté ou loué.