Η καθημερινότητα πλέον είναι άμεσα συνυφασμένη με την υπολογιστική νοημοσύνη, καθώς οι κυριότερες πτυχές της ανθρώπινης δραστηριότητας όπως η εκπαίδευση, η ενημέρωση, η ψυχαγωγία, η επικοινωνία, η εργασία, η υγεία και η τέχνη πραγματοποιούνται με τη βοήθεια υπολογιστικών συστημάτων και εμπλουτίζονται με πληθώρα σχετικών εφαρμογών. Παρόλα αυτά ο τρόπος αλληλεπίδρασης με τον υπολογιστή στηρίζεται ακόμα στα παραδοσιακά μέσα, δηλαδή το πληκτρολόγιο, το ποντίκι και την οθόνη αφής, αφήνοντας ανεκμετάλλευτη την εγγενή ικανότητα του ανθρώπου να επικοινωνεί με τη γλώσσα του σώματος. Για το λόγο αυτό, η επιστημονική έρευνα στο πεδίο των συστημάτων αλληλεπίδρασης ανθρώπου υπολογιστή (human - computer interface systems) στράφηκε στην κατεύθυνση της αξιοποίησης των φυσικών επικοινωνιακών εργαλείων, όπως οι εκφράσεις του προσώπου, το βλέμμα, το ανοιγοκλείσιμο ματιών, οι κινήσεις του σώματος και οι χειρονομίες με σκοπό τη δημιουργία ενός πιο απλού αλλά ταυτόχρονα ισχυρού, εκφραστικού και πολύπλευρου τρόπου διασύνδεσης. Στο ίδιο πλαίσιο κινείται και η παρούσα διδακτορική διατριβή με την ανάπτυξη καινοτόμων τεχνικών επεξεργασίας εικόνας και video για την ανίχνευση, ανάλυση και αναγνώριση χειρονομιών και το συνδυασμό τους για τη δημιουργία τριών νέων συστημάτων αλληλεπίδρασης του ανθρώπου με τον υπολογιστή. Συγκεκριμένα, προτείνονται τεχνικές για την ανίχνευση κινούμενου χεριού σε πολύπλοκο φόντο, την ανάλυση χειρονομίας με την εύρεση της τοπολογίας του βάσει νευρωνικού δικτύου και την αναγνώριση στατικών χειρονομιών. H τεχνική ανίχνευσης σε πραγματικό χρόνο του κινούμενου χεριού σε σύνθετο φόντο αποτελείται από τέσσερα στάδια: την ανίχνευση της κίνησης, την ανίχνευση του χρώματος δέρματος, την περιγραφή της μορφολογίας και το συνδυασμό των πληροφοριών. Η κύρια καινοτομία της τεχνικής αφορά τον τρόπο συνδυασμού των πληροφοριών ο οποίος γίνεται σε περιοχές αφηρημένου σχήματος αποτελούμενες από εικονοστοιχεία που συσχετίζονται όχι μόνο τοπολογικά, αλλά και ποιοτικά δημιουργώντας συμπαγείς περιοχές γειτονικών εικονοστοιχείων με παραπλήσιο χρώμα μέσω υπερτμηματοποίησης της εικόνας. Επίσης, προτείνεται η χρήση δύο μοντέλων αναφοράς κατά την εφαρμογή του αλγορίθμου αφαίρεσης παρασκηνίου για την αντιμετώπιση του προβλήματος της επικάλυψης του χεριού με αντικείμενα στο παρασκήνιο με χρώμα παραπλήσιο του δέρματος. Επιπλέον, ο ταξινομητής Bayes χρησιμοποιεί ένα μοντέλο εκπαίδευσης που συνδυάζει προ-εκπαίδευση (offline) και σύγχρονη εκπαίδευση (online), ενώ μέχρι τώρα έχει χρησιμοποιηθεί σε προηγούμενες εργασίας μόνο ως offline ταξινομητής. Η τεχνική της ανάλυσης της χειρονομίας βασίζεται στην εύρεση της τοπολογίας του χεριού με τη χρήση του αυτό-οργανούμενου και αυτό-αναπτυσσόμενου νευρωνικού αερίου (Self-Organized and Self-Growing Neural Gas - SGONG). Το SGONG είναι ένας ταξινομητής διανυσμάτων χωρίς επίβλεψη και οι νευρώνες εξόδου του αναπαριστούν τα κέντρα των κλάσεων, η τοπολογία των οποίων προσεγγίζει την τοπολογία των δεδομένων εισόδου. Στην προτεινόμενη τεχνική το SGONG εφαρμόζεται στη δυαδική εικόνα του ανιχνευμένου χεριού. Ως διανύσματα εισόδου χρησιμοποιούνται οι συντεταγμένες των εικονοστοιχείων του χεριού και συνεπώς οι νευρώνες εξόδου περιγράφουν την τοπολογία του χεριού. Με τη βοήθεια των νευρώνων εξόδου και των συνδέσεών τους προσδιορίζονται μορφολογικές ιδιότητες του χεριού όπως η περιοχή της παλάμης, το κέντρο της παλάμης, η κλίση του, το πλήθος των σηκωμένων δαχτύλων και εξάγονται χαρακτηριστικά των δαχτύλων, όπως η απόστασή τους από το κέντρο της παλάμης και δύο διαφορετικά είδη γωνιών, ικανά για να συμβάλλουν στην επιτυχημένη αναγνώριση της χειρονομίας. Η αναγνώριση της χειρονομίας επιτυγχάνεται με την εύρεση του πιθανότερου συνδυασμού δαχτύλων αξιοποιώντας τα χαρακτηριστικά τους που υπολογίστηκαν κατά το στάδιο της ανάλυσης. Αποτελείται από τα τρία βήματα: την offline εκπαίδευση, την ταξινόμηση των δαχτύλων και την τελική επιλογή της χειρονομίας. Κατά τη διαδικασία της offline εκπαίδευσης υπολογίζονται οι κατανομές πιθανότητας των χαρακτηριστικών των δαχτύλων. Στη συνέχεια, σε κάθε σηκωμένο δάχτυλο ανατίθεται ένας συντελεστής ίσος με το άθροισμα των πιθανοτήτων των χαρακτηριστικών του να ανήκουν σε κάθε μία από τις πέντε κλάσεις (αντίχειρας, δείκτης, παράμεσος, μέσος, μικρό). Το δάχτυλο ταξινομείται στην κλάση όπου αντιστοιχεί ο μεγαλύτερος συντελεστής. Τέλος, ως χειρονομία αναγνωρίζεται ο συνδυασμός των δαχτύλων που συγκεντρώνει το μεγαλύτερο άθροισμα συντελεστών. Πρωτεύον αποτέλεσμα της παρούσας διατριβής είναι ο συνδυασμός των παραπάνω προτεινόμενων τεχνικών και η δημιουργία ενός καινοτόμου συστήματος οπτικής αναγνώρισης στατικών χειρονομιών που σχηματίζονται από το χρήστη καθώς κινεί το χέρι του σε σύνθετο περιβάλλον. Ως επέκταση αυτής της ερευνητικής προσπάθειας αναπτύχθηκε ένα σύστημα οπτικής αναγνώρισης σύνθετων χειρονομιών, το οποίο έχει την ικανότητα να αναγνωρίζει και δυναμικές χειρονομίες, και ένα σύστημα αναγνώρισης σύνθετων χειρονομιών βασισμένο στην όραση βάθους για την αντιμετώπιση της ανίχνευσης του χεριού με έναν λιγότερο υπολογιστικά κοστοβόρο τρόπο. Τα τρία συστήματα ικανοποιούν τις αρχές της φυσικής, απλής και ευέλικτης διασύνδεσης, γιατί στηρίζονται στη δεξιότητα του ανθρώπου να κινεί το χέρι του και να το χρησιμοποιεί σαν εργαλείο για την εκτέλεση διάφορων και ετερόκλητων μεταξύ τους λειτουργιών ή σαν εκφραστικό μέσο κατά την επικοινωνία του. Συγχρόνως πληρούν το κριτήριο του χαμηλού κόστους ώστε να είναι εφικτή η διάδοσή τους σε ένα ευρύ πεδίο χρηστών, επειδή προϋποθέτουν τα μεν δύο πρώτα μόνο τη χρήση μιας απλής κάμερας δικτύου και το δε τρίτο ένα σχετικά φθηνό αισθητήρα βάθους.