Ένας αρκετά μεγάλος όγκος δεδομένων από συλλογές εγγράφων χρειάζεται να ψηφιοποιηθεί για την δημιουργία ψηφιακών βιβλιοθηκών με στόχο τη διατήρηση του υλικού και την εύχρηστη αναζήτησή του. Οι παραδοσιακές τεχνικές ψηφιακής επεξεργασίας εικόνας που βασίζονται στην πλήρη οπτική αναγνώριση χαρακτήρων των εγγράφων με σκοπό τη δεικτοδότησή τους, δεν παρουσιάζουν ικανοποιητικά αποτελέσματα εξαιτίας εγγενών παραγόντων των εγγράφων. Οι παράγοντες αυτοί σχετίζονται με τις διαφορετικές μορφές δομής σελίδας των εγγράφων, με τις άγνωστες, κατά την εκπαίδευση των μοντέλων αναγνώρισης, γραμματοσειρές των κειμένων, τη διαφορετικότητα ως προς τον τρόπο γραφής και τον άγνωστο, δυνατό αριθμό όρων αναζήτησης που χρειάζεται να έχει ένα λεξικό μοντέλο αναγνώρισης χαρακτήρων. Για τους λόγους αυτούς, το ενδιαφέρον της ερευνητικής κοινότητας στην περιοχή των μεθόδων δεικτοδότησης εγγράφων σε μεγάλη κλίμακα στρέφεται σε εναλλακτικές τεχνικές, απαλλαγμένες από τη διαδικασία αναγνώρισης, γνωστές ως τεχνικές εντοπισμού λέξεων. Το αντικείμενο της διδακτορικής διατριβής αφορά στον εντοπισμό λέξεων (ΕΛ) σε εικόνες χειρόγραφων κειμένων. Προς αυτή την κατεύθυνση, η διατριβή αυτή περιλαμβάνει τη συστηματική μελέτη και ανάπτυξη μεθόδων ΕΛ, ως μιας πρακτικής προσέγγισης στην ανάκτηση πληροφορίας από χειρόγραφα κείμενα, σε αντίθεση με τις παραδοσιακές τεχνικές πλήρους αναγνώρισης οι οποίες αρκετά συχνά παράγουν εσφαλμένες εκτιμήσεις. Ένα σύστημα εντοπισμού λέξεων αποσκοπεί στην εύρεση όλων των στιγμιότυπων μιας ζητούμενης, από ένα χρήστη, λέξης, μέσα στις συλλογές κειμένων. Σε μια προσπάθεια να τονίσουμε τα σημεία που χρειάζονται προσοχή κατά την ανάπτυξη τεχνικών ΕΛ που επιτυγχάνουν υψηλή απόδοση, παρουσιάζουμε μια εκτενή μελέτη της βιβλιογραφίας, μέσα από την οποία αναλύεται σε βάθος κάθε πρωταρχική συνιστώσα της αρχιτεκτονικής ενός συστήματος ΕΛ. Οι συνιστώσες αυτές, μεταξύ άλλων, περιλαμβάνουν την ανάλυση δομής σελίδας και την προ-επεξεργασία των εγγράφων, την επιλογή και διαδικασία εξαγωγής χαρακτηριστικών που αναπαριστούν λέξεις, την εκμάθηση κατάλληλων αναπαραστάσεων των λέξεων από περιγραφικά χαρακτηριστικά και την ευθυγράμμιση των αναπαραστάσεων για το τελικό ταίριασμα των εικόνων των λέξεων. Παράγοντες, όπως η ανθεκτικότητα στη διαφοροποίηση του γραφικού χαρακτήρα, η διαθεσιμότητα δεδομένων εκπαίδευσης, οι δείκτες και τα πρωτόκολλα αξιολόγησης των μεθόδων καθώς και μια σειρά από τεχνικές μετα-βελτίωσης του τελικού αποτελέσματος του ΕΛ, αναδεικνύονται μέσα από μια δομημένη μεθοδολογία σχεδιασμού τεχνικών ΕΛ. Με αυτόν τον τρόπο, προτείνουμε ένα θεωρητικό υπόβαθρο, κατάλληλο να υιοθετηθεί από τις μελλοντικές εργασίες, επιτρέποντας την αμερόληπτη αξιολόγηση και σύγκρισή τους. Ιδιαίτερης σημασίας στη δημιουργία διακριτικών αναπαραστάσεων, ικανών να επιτύχουν υψηλή απόδοση και ταχύτητα ταιριάσματος εικόνων, είναι η επιλογή των κατάλληλων χαρακτηριστικών που περιγράφουν τις εικόνες των κειμένων. Κατά τα πρώιμα στάδια εκπόνησης της διδακτορικής διατριβής, αναπτύχθηκαν δυο τεχνικές που βασίζονται στην αναζήτηση λέξεων με παράδειγμα (δηλαδή, επιλέγοντας μια λέξη που εκκινεί τη διαδικασία ΕΛ) χρησιμοποιώντας τοπικά χαρακτηριστικά περιγράμματος των εικόνων, αμετάβλητα σε μετασχηματισμούς μετατόπισης και κλιμάκωσης. Η πρώτη εργασία, αξιοποιώντας δεδομένα μάθησης για κάθε κατηγορία λέξης, προτείνει ένα μοντέλο ΕΛ αντιπροσωπευτικό της μέσης διαφοροποίησης του σχήματος των λέξεων της κατηγορίας, αντιμετωπίζοντας έτσι τις πιθανές αλλαγές στον τρόπο γραφής κάθε λέξης. Ο μόνος περιορισμός της μεθόδου αφορά στη δυνατότητα αναζήτησης των λέξεων εκείνων για τις οποίες υπάρχουν στιγμιότυπα εικόνων στο σύνολο εκπαίδευσης. Η δεύτερη μεθοδολογία αξιοποιεί τα ίδια διακριτικά χαρακτηριστικά αναπαράστασης λέξεων, απαλλαγμένης όμως από δεδομένα μάθησης, για τον αποδοτικό ΕΛ σε εικόνες ετερογενών, ως προς το αλφάβητο και τη γλώσσα, χειρόγραφων κειμένων. Βασικό μειονέκτημα των χαρακτηριστικών που προτάθηκαν για τον ΕΛ στις προηγούμενες μεθοδολογίες, είναι οι μεταβλητού μήκους αναπαραστάσεις (διανύσματα) των λέξεων, για τις οποίες οι προτεινόμενοι αλγόριθμοι ταιριάσματος δεν οδηγούν πάντοτε σε ικανοποιητική απόδοση. Κατά συνέπεια, στην πορεία της διατριβής, προτάθηκε μια μέθοδος που βασίζεται σε αναπαραστάσεις λέξεων σταθερού μήκους, οι οποίες μπορούν άμεσα να συγκριθούν με μια αναζήτηση κοντινότερου γείτονα (π.χ. Ευκλείδια απόσταση) οδηγώντας έτσι σε πολύ ταχύτερη ανάκτηση. Επιπρόσθετα, τα χαρακτηριστικά αυτά, αξιοποιώντας δεδομένα μάθησης, έχουν τη δυνατότητα να ενσωματώσουν αρκετά μεγάλο ποσοστό της συνολικής διαφοροποίησης ως προς το γραφικό χαρακτήρα, εφόσον κωδικοποιούν ιδιότητες πρωτογενών τμημάτων των λέξεων (π.χ. χαρακτήρων) που επαναλαμβάνονται τακτικά σε συγκεκριμένες θέσεις μέσα στις λέξεις, ανεξάρτητα από τον τρόπο γραφής. Οι ιδιότητες αυτές σχετίζονται με την παρουσία ή όχι ενός χαρακτήρα σε μια δεδομένη θέση της λέξης. Η προτεινόμενη τεχνική επεκτείνει το μοντέλο δυαδικής αναπαράστασης λέξης ώστε να συμπεριλάβει χαρακτηριστικά που σχετίζονται με τις ιδιομορφίες του πολυτονικού συστήματος γραφής για ΕΛ σε Ελληνικά πολυτονικά κείμενα. Ακολουθώντας την τρέχουσα τάση της ερευνητικής κοινότητας που συνοδεύεται από τη ραγδαία αύξηση των μεθόδων ΕΛ οι οποίες βασίζονται σε βαθιά μάθηση από την πληθώρα δεδομένων εκπαίδευσης που είναι πλέον διαθέσιμα, προτείνουμε μια ακόμη μέθοδο, ώστε να βελτιστοποιήσουμε την αναπαραστατική ισχύ των διανυσμάτων λέξεων. Στην προτεινόμενη τεχνική, χρησιμοποιούμε συνελικτικά νευρωνικά δίκτυα για την εξαγωγή βαθιών χαρακτηριστικών. Τα χαρακτηριστικά αυτά επιτρέπουν την προσαρμογή του προτεινόμενου μοντέλου ΕΛ, όταν αυτό εκπαιδεύεται σε χαμηλής στάθμης, ως προς τις διαφοροποιήσεις γραφικού χαρακτήρα και την ποσότητα, δεδομένα μάθησης, σε συλλογής κειμένων των οποίων η κατανομή διαφοροποιήσεων διαφέρει αισθητά σε σχέση με το αρχικό σύνολο εκπαίδευσης. Επιπλέον, θεωρούμε ότι η υπό εξέταση συλλογή κειμένων περιέχει ελάχιστα δεδομένα εκπαίδευσης για την προσαρμογή του μοντέλου ΕΛ, το οποίο καθιστά το πρόβλημα ακόμη πιο δύσκολο. Για την αντιμετώπιση των προκλήσεων αυτών προτείνουμε ένα ανταγωνιστικό πλαίσιο βαθιάς μάθησης, όπου το βασικό μοντέλο ΕΛ ανταγωνίζεται ένα δεύτερο νευρωνικό δίκτυο που στοχεύει στην αλλοίωση των εικόνων με μια σειρά από γεωμετρικούς μετασχηματισμούς στον υπόχωρο των βαθιών χαρακτηριστικών. Η αλλοίωση αυτή λειτουργεί σαν εμπόδιο στην διαδικασία εκπαίδευσης για την εξαγωγή διακριτικών αναπαραστάσεων από το μοντέλο ΕΛ, βελτιώνοντας έτσι επαναληπτικά, την ανθεκτικότητα της μεθόδου στους διαφορετικούς τρόπους γραφής και τον εντοπισμό άγνωστων (κατά την εκμάθηση) λέξεων της υπό εξέταση συλλογής κειμένων. Τέλος, στο πλαίσιο αξιοποίησης μεθόδων βαθιάς μάθησης, με χρήση παραγωγικών ανταγωνιστικών νευρωνικών δικτύων, προτείνουμε μια τεχνική εντοπισμού περιοχών κειμένου σε φυσικές εικόνες ιστορικών Βυζαντινών επιγραφών. Βασική καινοτομία της μεθόδου είναι η χρήση τετραδονιακών (επέκταση μιγαδικών) αναπαραστάσεων που κωδικοποιούν αποδοτικά την πληροφορία όλων των χρωματικών συνιστωσών των εικόνων, απαιτώντας πολύ λιγότερους υπολογιστικούς πόρους από ισοδύναμες βαθιές αναπαραστάσεις πραγματικών τιμών των εικόνων.