Εστιάζουμε στο πρόβλημα της κατανόησης μιας δυναμικής σκηνής με βάση οπτική πληροφορία, δηλαδή στον μετασχηματισμό μιας τέτοιας σκηνής σε μια συμβολική αναπαράσταση, την οποία να μπορεί να επεξεργαστεί ένα υπολογιστικό σύστημα. Ενδιαφερόμαστε για σκηνές εσωτερικού χώρου, στις οποίες ένας άνθρωπος αλληλεπιδρά σκόπιμα με το περιβάλλον.Παρατηρούμε ότι οι έως τώρα σχετικές προσεγγίσεις πραγματοποιούσαν κατανόηση σκηνής μέσω κυρίως χονδρικής μοντελοποίησης της παρατηρούμενης διαδικασίας, καθώς λεπτομερέστερες μοντελοποιήσεις είναι πολύ απαιτητικές σε υπολογιστικούς πόρους και δυσκολεύουν την απαιτούμενη ενοποίηση με υπολογιστικές μεθόδους όρασης.Υποστηρίζουμε πως αυτήν τη στιγμή είναι όντως δυνατό να εκμεταλλευτούμε λεπτομερείς μοντελοποιήσεις, που να ενοποιούνται εύκολα με υπολογιστικές τεχνικές όρασης και να ανταπεξέρχονται στις σχετικές υπολογιστικές απαιτήσεις. Σε ότι αφορά την κατανόηση σκηνής, είμαστε σε θέση να μοντελοποιήσουμε και να προσομοιώσουμε τόσο την διαδικασία ανάκτησης εικόνων μέσω 3D rendering (παρουσιαστικό), όσο και την δυναμική των παρατηρούμενων διεργασιών μέσω προσομοίωσης φυσικής (συμπεριφορά). Έτσι, προσδιορίζουμε το 3D rendering και την προσομοίωση φυσικής σαν δύο σημαντικές διεργασίες για την κατανόηση σκηνής και προτείνουμε τον συνδυασμό της προσομοιωτικής δυνατότητας σχετικών υπολογιστικών μεθόδων με ισχυρές μεθόδους βελτιστοποίησης προς την ανάδειξη αποτελεσματικών εργαλείων συμπερασμού.Ειδικότερα, θεωρούμε την διαδικασία κατανόησης μιας δυναμικής σκηνής ως ένα πρόβλημα βελτιστοποίησης. Σχεδιάζουμε παραμετρικά μοντέλα που περιγράφουν το τι είναι δυνατόν να διαδραματιστεί σε μια σκηνή και πως αυτό μπορεί να παρατηρηθεί από τα διαθέσιμα οπτικά μέσα. Ορίζουμε σαν πεδίο ορισμού του προβλήματος βελτιστοποίησης τις παραμέτρους καθαυτές. Η βελτιστοποίηση πραγματοποιείται σε ξεχωριστή διαδικασία από αυτή της μοντελοποίησης, με υπόθεση-και-δοκιμή, μέσω μεθόδων βελτιστοποίησης black-box. Το αποτέλεσμα της βελτιστοποίησης είναι εκείνη η παραμετροποίηση των μοντέλων που «εξηγούν» με βέλτιστο τρόπο τις παρατηρήσεις. Οι υποθέσεις που δοκιμάζονται είναι σε συμφωνία με κανόνες φυσικής αφού πηγάζουν από προσομοιωτές φυσικής. Για κάθε υπόθεση αποτιμάται η συμβατότητά της με πραγματικές παρατηρήσεις μέσω 3D rendering. Έτσι, η πρότασή μας εστιάζει σε τρία σημεία: (α) μοντελοποίηση σκηνής, (β) ενσωμάτωση προσομοίωσης φυσικής και (γ) εκμετάλλευση των μεθόδων βελτιστοποίησης black-box.Έχουμε αναπτύξει ένα υπολογιστικό πλαίσιο που βασίζεται στα παραπάνω για να επιτυγχάνει επίλυση επιμέρους προβλημάτων κατανόησης μιας τρισδιάστατης σκηνής. Παρουσιάζουμε αυτό το πλαίσιο και τις εφαρμογές του σε προβλήματα τρισδιάστατης παρακολούθησης και εκτίμησης κίνησης σε σκηνές εσωτερικού χώρου. Δίνουμε έμφαση στην αναγκαιότητα για ένταξη φυσικής. Πιο ειδικά, δείχνουμε ότι με το να αναγνωρίζουμε ότι οι οπτικές παρατηρήσεις αφορούν φυσικά φαινόμενα που εξηγούνται από κανόνες φυσικής, μπορούμε να εφαρμόσουμε συμπερασμό ακόμα και σε αρχικά «κρυφέ .» παραμέτρους. Επομένως, μπορούμε να εφαρμόσουμε λογισμό σε παραμέτρους που πριν την ένταξη φυσικής δεν ήταν άμεσα παρατηρήσιμες και τις οποίες μπορούμε να ανακτήσουμε μόνο με τη θεώρηση φυσικών φαινομένων και των συνεπειών τους. Το προτεινόμενο υπολογιστικό πλαίσιο έχει χρησιμοποιηθεί για τη λύση προβλημάτων που ποικίλουν από την παρακολούθηση ενός αντικειμένου έως την παρακολούθηση δύο χεριών καθώς αυτά αλληλεπιδρούν με πολλά αντικείμενα, στις τρεις διαστάσεις και με βάση παρατηρήσεις που προέρχονται από διάφορα οπτικά μέσα. Μέσα από μια σειρά πειραμάτων δείχνουμε τη σημασία της ενσωμάτωσης γραφικών υπολογιστών και προσομοίωσης φυσικής στην τρισδιάστατη κατανόηση σκηνής. Οι ανωτέρω διαδικασίες χρησιμοποιήθηκαν επιτυχώς σαν προσομοιωτές black-box, χωρίς η εγγενής πολυπλοκότητά τους να εμποδίσει την ενοποίηση με υπολογιστικές μεθόδους όρασης, χάρη στη σχεδιαστική επιλογή της εμπλοκής μεθόδων βελτιστοποίησης black-box. Δείχνουμε επίσης ότι το προτεινόμενο πλαίσιο επιδεικνύει καλά χαρακτηριστικά ως προς την κλιμακώσιμη αντιμετώπιση προβλημάτων μεγάλης πολυπλοκότητας. Μέσω προσεκτικής σχεδίασης, η επίκληση έως τώρα υπολογιστικά ακριβών προσομοιώσεων μπορεί να επιτευχθεί τόσο αποδοτικά ώστε να επιτυγχάνεται επεξεργασία σε γρήγορους ρυθμούς. Τα παραπάνω συνηγορούν υπέρ μιας αρθρωτής υπολογιστικής λύσης σε προβλήματα τρισδιάστατης παρακολούθησης σκηνής, με ξεκάθαρη δυνατότητα για βελτίωση ή γενίκευση: αντικαθιστώντας μέρη με καλύτερες ή γενικότερες υλοποιήσεις βελτιώνεται αυτόματα το σύνολο.