Σήμερα, οι διαδικτυακές υπηρεσίες και εφαρμογές είναι πανταχού παρούσες και ο όγκος των δεδομένων που παράγονται και συλλέγονται είναι τεράστιος. Τα δεδομένα θεωρούνται ως μια ισχυρή πρώτη ύλη που μπορεί να επηρεάσει τις διεπιστημονικές ερευνητικές προσπάθειες, κυβερνητικές και επιχειρηματικές επιδόσεις. Αναλύοντας τα δεδομένα, κερδίζουμε γνώση και κατανόηση. Ο εντοπισμός ασυνήθιστων μοτίβων στα δεδομένα όχι μόνο βοηθά στην πρόληψη επικίνδυνων καταστάσεων αλλά και παρακολουθεί τις αλλαγές στις τάσεις όσων αναλύονται. Η διαδικασία αναγνώρισης ασυνήθιστης ή ανώμαλης συμπεριφοράς ονομάζεται ανίχνευση ανωμαλιών. Σε αυτή τη διατριβή, προτείνουμε νέους αλγόριθμους και εργαλεία για ανίχνευση ανωμαλιών με εφαρμογές σε διάφορους τομείς: (1) μέσα κοινωνικής δικτύωσης, (2) πηγές ειδήσεων, και (3) υγειονομική περίθαλψη. Οι πλατφόρμες κοινωνικών μέσων είναι μια πολύτιμη πηγή πληροφοριών. Χρειαζόμαστε τεχνικές που είναι πιο εκφραστικές όσον αφορά τα συμπεράσματα της ανάλυσης και που μας επιτρέπουν να κατανοήσουμε καλύτερα τα δεδομένα. Ορίζουμε το πρόβλημα της ανίχνευσης γεγονότων και υπο-γεγονότων και παρουσιάζουμε τεχνικές που (i) ανιχνεύουν συμβάντα από το τεράστιες ροές μηνυμάτων που δημοσιεύουν οι χρήστες και (ii) περιγράφουν και συνοψίζουν κάθε γεγονός δημιουργώντας ένα χρονοδιάγραμμα που απαρτίζεται από τα πιο σημαντικά στιγμιότυπα. Οι πύλες ειδήσεων είναι μια άλλη πηγή πληροφοριών, πιο δομημένη από τα μέσα κοινωνικής δικτύωσης, και με ένα πιο αυστηρό και περιορισμένο λεξιλόγιο. Στην εποχή μας, υπάρχει τεράστια αύξηση του αριθμού των ειδησεογραφικών πηγών που υπάρχουν και του αριθμού ημερήσιων ειδήσεων που δημοσιεύονται. Χρειαζόμαστε συστήματα σύστασης ειδήσεων και εξατομίκευσης που θα το διευκολύνουν τον αναγνώστη να λάβει μια επιμελημένη λίστα ειδήσεων. Για αυτόν τον λόγο, εμείς προτείνει μια μέθοδο για την ταξινόμηση όλων των αξιοσημείωτων ειδησεογραφικών άρθρων και τη δημιουργία ενός συστήματος για την παρακολούθηση, ανάλυση και εξαγωγή συμπερασμάτων από πολλές πηγές ειδήσεων. Τα δεδομένα της υγειονομικής περίθαλψης καθίστανται όλο και περισσότερο διαθέσιμα τα τελευταία χρόνια. Περιέχουν πλούσιες πληροφορίες που αν αξιοποιηθούν με τον σωστό τρόπο θα βελτιώσουν την υγεία των ανθρώπων. Ωστόσο, υπάρχει ένα κενό στην έρευνα καθώς οι επαγγελματίες του τομέα της υγείας γνωρίζουν καλά τις ερευνητικές ερωτήσεις και την σημασία των δεδομένων, ενώ οι επιστήμονες πληροφορικής είναι ειδικοί στην ανάλυση δεδομένων και στη δημιουργία προγνωστικών μοντέλων. Θα πρέπει λοιπόν να συνεργαστούν οι ειδικοί από αυτά τα δύο ερευνητικά πεδία για να επιτύχουμε τα καλύτερα δυνατά αποτελέσματα. Στην περίπτωσή μας, μελετάμε το πρόβλημα πρόβλεψης βρεφικής θνησιμότητας χρησιμοποιώντας δεδομένα από αρχεία πιστοποιητικών γέννησης. Εστιάζουμε σε κοινωνικοοικονομικά χαρακτηριστικά και πώς αυτά μπορούν να επηρεάσουν την προγνωστική απόδοση των μοντέλων. Κάνουμε πειράματα με ένα ευρύ φάσμα μοντέλων μηχανικής μάθησης, χρησιμοποιώντας διαφορετικούς συνδυασμούς χαρακτηριστικών. Τέλος, δείχνουμε τρόπους για να βελτιώσουμε τις λύσεις που προτείνονται σε αυτό το πρόβλημα στην βιβλιογραφία και χρησιμοποιούν μόνο δύο χαρακτηριστικά, το βάρος γέννησης και τη βαθμολογία APGAR.