Human-computer and multimodal interaction are increasingly used in everyday life. Machines are able to get more from the surrounding world, assisting humans in different application areas. In this context, the correct processing and management of signals provided by the environments is determinant for structuring the data. Different sources and acquisition times can be exploited for improving recognition results. On the basis of these assumptions, we are proposing a multimodal system that exploits Allen's temporal logic combined with a prevision method. The main object is to correlate user's events with system's reactions. After post-elaborating coming data from different signal sources (RGB images, depth maps, sounds, proximity sensors, etc.), the system is managing the correlations between recognition/detection results and events in real-time to create an interactive environment for the user. For increasing the recognition reliability, a predictive model is also associated with the proposed method. The modularity of the system grants a full dynamic development and upgrade with custom modules. Finally, a comparison with other similar systems is shown, underlining the high flexibility and robustness of the proposed event management method. Ringraziamenti Questo percorso di crescita personale ha portato ad interiorizzare conoscenze notevoli in ambito della computer vision e non solo. Devo molto al Prof. Luigi Cinque per questa opportunità offertami. Inoltre, la sua umanità è stata la virtù più rara che abbia trasmesso. Contestualmente, ho avuto il piacere e l'onore di poter lavorare con un gruppo di ricerca tra i migliori d'Italia. Il Visionlab è diventato un punto di riferimento in questi 3 anni e senza Daniele, Cristiano e Marco probabilmente non avrei raggiunto i risultati di oggi. Devo molto anche a loro. Infine, devo fare un ringraziamento speciale a Danilo Avola, colui che ha fornito un supporto determinante alla ricerca dell'intero laboratorio. Una guida, un maestro ed anche un amico.