Στο πλαίσιο της παρούσας διδακτορικής διατριβής εισάγονται και μελετώνται νέα συστήματα επεξεργασίας οπτικοακουστικών πόρων με σκοπό την ταξινόμηση και αναζήτηση πληροφοριών σε διαδικτυακά περιβάλλοντα διαχείρισης και μετάδοσης οπτικοακουστικού περιεχομένου. Οι προτεινόμενες μέθοδοι εστιάζουν στη μονοτροπική και πολυτροπική σημασιολογική ανάλυση περιεχομένου με έμφαση στην αξιοποίηση τεχνικών μηχανικής μάθησης. Ειδικότερα, εισάγεται ένα μοντέλο συστημάτων επεξεργασίας οπτικοακουστικών πόρων που υποστηρίζει τη δυνατότητα ενσωμάτωσης αλγορίθμων σημασιολογικής ανάλυσης στη βάση μιας νέας αρχιτεκτονικής ιεραρχικής οργάνωσης. Παράλληλα, προτείνεται μια μεθοδολογία συνεργατικής δημιουργίας επισημάνσεων μέσω της κοινωνικής αλληλεπίδρασης των χρηστών, με σκοπό τον εμπλουτισμό του περιεχομένου και την ανάπτυξη μεγάλης κλίμακας συνόλων δεδομένων αληθείας. Στο πλαίσιο του προτεινόμενου ιεραρχικού μοντέλου οργάνωσης αναπτύσσεται και αξιολογείται ένα σύνολο καινοτόμων, ηχητικά-οδηγούμενων τεχνικών σημασιολογικής ανάλυσης οπτικοακουστικού περιεχομένου. Προτείνεται μια μέθοδος επιβλεπόμενης μάθησης για την ανάλυση περιεχομένου με σκοπό τη διάκριση ομιλίας και μουσικής. Χρησιμοποιείται μια αρθρωτή αρχιτεκτονική δύο επιπέδων, όπου σε πρώτο επίπεδο εντοπίζονται πιθανά σημεία μετάβασης μεταξύ ομοιογενών τμημάτων περιεχομένου, ενώ σε δεύτερο στάδιο γίνεται ταξινόμηση του περιεχομένου των τμημάτων που ορίζεται από διαδοχικά σημεία μετάβασης. Για την εκτίμηση της απόδοσης, η μέθοδος αξιολογείται συγκριτικά με δύο υπάρχουσες υλοποιήσεις αλγορίθμων αιχμής απο τη βιβλιογραφία καθώς και με βάση τα αποτελέσματα του διαγωνισμού MIREX 2015 στον οποίο συμμετείχε και σημείωσε την τρίτη καλύτερη επίδοση. Εισάγεται μια τεχνική κατάτμησης μουσικού περιεχομένου βασισμένη στον εντοπισμό επαναλαμβανόμενων τμημάτων περιεχομένου μέσω πινάκων ιδιο-διαφορών. Η ανίχνευση των επαναλαμβανόμενων τμημάτων επιτυγχάνεται μέσω μίας καινοτόμου μεθοδολογίας διανυσματικής κβάντισης που χρησιμοποιείται ως μηχανισμός προσαρμοστικού φιλτραρίσματος. Η εκτίμηση της απόδοσης του συστήματος πραγματοποιείται με τη χρήση ενός συνόλου δεδομένων 124 μουσικών έργων ενώ επίσης αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία. Τελος, εισάγεται μια πολυτροπική μέθοδολογία δεικτοδότησης ομιλητών με χρήση τεχνικών βαθιάς μάθησης. Η ανάλυση της ηχητικής συνιστώσας πραγματοποιείται μέσω μιας πρωτότυπης σιαμαίας αρχιτεκτονικής ανατροφοδοτούμενων νευρωνικών δικτύων που εκπαιδεύεται βάσει της ομοιότητας μεταξύ ακολουθιών δειγμάτων ομιλητών. Η αξιοποίηση της οπτικής συνιστώσας επιτυγχάνεται με την ανάπτυξη ενός μηχανισμού πολυτροπικής σύντηξης που επιχειρεί τη συσχέτιση της φωνής και του προσώπου του εκάστοτε ομιλητή. Για την εκτίμηση της απόδοσης του αλγορίθμου χρησιμοποιούνται δύο σύνολα δεδομένων μεγάλης έκτασης και επιλέον ο αλγόριθμος αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία.