Η επεξεργασία νομικού κειμένου (Ashley, 2017) είναι ένας αναπτυσσόμενος τομέας έρευνας όπου οι τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) εφαρμόζονται στον νομικό τομέα. Υπάρχουν πολλές εφαρμογές όπως η τμηματοποίηση νομικού κειμένου (Mencia, 2009; Hasan et al., 2008), η κατηγοριοποίηση εγγράφων σε νομικά θέματα (Mencia and Fürnkranzand, 2007; Nallapati and Manning, 2008), η πρόβλεψη και ανάλυση δικαστικών αποφάσεων (Wang et al. 2012; Aletras et al., 2016), η εξαγωγή νομικών πληροφοριών (Kiyavitskaya et al., 2008; Dozier et al., 2010; Asooja et al., 2015) και η νομική ανάκτηση πληροφορίας (Kim et al., 2015b, 2016b). Αυτές οι εφαρμογές και οι σχετικές τεχνικές NLP προέρχονται από τρεις κύριους υποτομείς: τη νομοθεσία, τις δικαστικές υποθέσεις και τις νομικές συμβάσεις (contracts). Και στους τρεις υποτομείς, τα έγγραφα είναι πολύ μεγαλύτερα από ό, τι στις περισσότερες άλλες σύγχρονες εφαρμογές NLP. Έχουν επίσης διαφορετικά χαρακτηριστικά σχετικά με τη χρήση της γλώσσας, τον τρόπο γραφής και τη δομή τους, σε σύγκριση με μη νομικό κείμενο. Δεδομένης της ταχείας ανάπτυξης τεχνολογιών βαθιάς μάθησης (Goodfellow et al., 2016; Goldberg, 2017), ο στόχος αυτής της διατριβής είναι να διερευνήσει και να αναπτύξει μεθόδους βαθιάς μάθησης για νομικές εφαρμογές, όπως εξαγωγή πληροφοριών και υποχρεώσεων από συμβάσεις, πρόβλεψη νομικής κρίσης, νομική κατηγοριοποίηση και ανάκτηση πληροφοριών, που έχουν ήδη συζητηθεί στη βιβλιογραφία (αλλά όχι στο πλαίσιο της βαθιάς μάθησης) ή που εξετάστηκαν για πρώτη φορά κατά τη διάρκεια της εργασίας αυτής της διατριβής. Σε αυτήν την κατεύθυνση, στοχεύουμε να απαντήσουμε δύο βασικά ερευνητικά ερωτήματα: Πρώτα απ 'όλα σχετικά με την προσαρμοστικότητα των μεθόδων, οι οποίες βασίζονται σε νευρωνικά δίκτυα και έχουν προταθεί για συναφή εφαρμογές NLP σε άλλους τομείς και τον τρόπο με τον οποίο επηρεάζονται από τη νομική γλώσσα, τη γραφή και τη δομή. Και δεύτερον σχετικά με την παροχή εξηγήσεων για τις αποφάσεις (προβλέψεις) των νευρωνικών δικτύων. Λαμβάνοντας υπόψη το πρώτο ερευνητικό ερώτημα επισημαίνουμε πολλές περιπτώσεις, όπου είτε η νομική γλώσσα επηρεάζει την απόδοση ενός μοντέλου, είτε απαιτείται κατάλληλη μοντελοποίηση επί της δομή του εγγράφου. Για τον σκοπό αυτό, προ-εκπαιδεύουμε και χρησιμοποιούμε αναπαραστάσεις λέξεων και γλωσσικά μοντέλα, τα οποία είναι εξειδικευμένα για την νομική γλώσσα, ενώ προτείνουμε επίσης νέες μεθόδους με καλύτερες επιδόσεις. Όσον αφορά την επεξήγηση των αποφάσεων, αρχικά πειραματιζόμαστε με γραφήματα προσοχής (attention heatmaps) και επισημαίνουμε τους περιορισμούς τους ως μέσο για την εξήγηση των αποφάσεων ενός μοντέλου, ιδιαίτερα στην πρόβλεψης δικαστικών αποφάσεων, όπου είναι πιο σημαντικό. Για να ξεπεράσουμε αυτούς τους περιορισμούς, μελετάμε περαιτέρω τις τεχνικές εξαγωγής ερμηνειών ως εξέχουσα μεθοδολογία για την επεξήγηση των αποφάσεων ενός μοντέλου. Ελλείψει δημόσια διαθέσιμων επισημειωμένων συνόλων δεδομένων για να πειραματιστούμε με μεθόδους βαθίας μάθησης, επιμελούμε και δημοσιεύουμε πέντε σύνολα δεδομένων για διάφορες νομικές εφαρμογές (εξαγωγή στοιχείων σύμβασης, κατηγοριοποίηση εγγράφων σε νομικά θέματα, πρόβλεψη νομικής κρίσης και εξαγωγή ερμηνειών, και ανάκτηση νομικών πληροφοριών), ενώ δημοσιεύουμε επίσης νομικές αναπαραστάσεις λέξεων και ένα νομικό προ-εκπαιδευμένο γλωσσικό μοντέλο για να βοηθήσουμε την έρευνα και ανάπτυξη της νομικής επεξεργασίας κειμένου. Θεωρούμε τη δουλειά μας, ένα πρώτο, θεμελιώδες, βήμα μεταξύ άλλων πρόσφατων προσπαθειών, προς τη βελτίωση της κατανόησης της νομικής γλώσσας χρησιμοποιώντας προηγμένες τεχνικές βαθιάς μάθησης, η οποία προωθεί περαιτέρω την προσαρμογή των νέων τεχνολογιών και ρίχνει φως στον αναδυόμενο τομέα της νομικής επεξεργασία κειμένου.