Zusammenfassung. Das Projekt VITRA (Visual Translator) beschäftigt sich mit Grundfragen der Beziehung zwischen Sprache und Sehen. Ziel der experimentellen Studien ist die Entwicklung wissensbasierter Systeme zur Integration von visueller Wahrnehmung und der Verarbeitung natürlicher Sprache. Hierbei konnten erstmals automatische sprachliche Beschreibungen für aus realen Bildfolgen gewonnene Trajektorien erzeugt werden. Die vorliegende Arbeit stellt den in VITRA verfolgten Ansatz zur simultanen Auswertung und natürlichsprachlichen Beschreibung zeitveränderlicher Szenen genauer vor. Bei dieser Konzeption wird die Verarbeitung auf allen Stufen in inkrementeller Weise durchgeführt, eine wichtige Voraussetzung für die langfristig angestrebte Echtzeitverarbeitung.Abstract. The project VITRA (Visual Translator) deals with the relationship between language and vision. Experimental studies are being carried out with the aim of developing knowledge-based systems for the integration of visual perception and natural language processing. For the first time, the automatic generation of natural language descriptions for recognized trajectories of objects in a real world image sequence has been achieved. In this article, the approach towards simultaneous evaluation and natural language description of time-varying scenes as it has been pursued in VITRA will be presented in more detail. With this conception, processing on all levels is carried out on an incremental basis, an important prerequisite for real-time performance.