Τα τελευταία χρόνια το πεδίο απάντησης συζευκτικών ερωτημάτων σε μεγάλα σύνολα δεδομένων έχει καταστεί αντικείμενο συνεχούς έρευνας.Μια από τις πιο διαδεδομένες προσεγγίσεις στο πρόβλημα αυτό βασίζεται στην τεχνική της επαναγραφής ερωτημάτων. Το πρόβλημα, γενικά, ορίζεται ωςεξής: Δεδομένου ενός συζευκτικού ερωτήματος και μίας οντολογίας, μία διαδικασία επαναγραφής του ερωτήματος παράγει ένα σύνολο κανόνων στο οποίο ενσωματώνει τους περιορισμούς της οντολογίας, με τέτοιο τρόπο ώστε για οποιοδήποτε σύνολο δεδομένων, η αποτίμηση του τιθέμενου ερωτήματος πάνω στην οντολογία και το σύνολο δεδομένων να επιστρέφει τις ίδιες απαντήσεις με την αποτίμηση μόνο της επαναγραφής στο ίδιο σύνολο δεδομένων. Τα υπάρχοντα συστήματα επαναγραφής ερωτημάτων δέχονται στην είσοδο τους ένα συζευκτικό ερώτημα και μία οντολογία και υπολογίζουν μία επαναγραφή του ερωτήματος με βάση την οντολογία. Ωστόσο, τα συστήματα αυτά είναι έτσι σχεδιασμένα ώστε κάθε φορά που η οντολογία τροποποιείται -δηλαδή, επεκτείνεται ή μειώνεται κατά ένα σύνολο αξιωμάτων- να υπολογίζουν τη νέα επαναγραφή από την αρχή, χωρίς να αξιοποιούν την πληροφορία που έχει παραχθεί από τις προηγούμενες επαναγραφές. Οι οντολογίες όμως που χρησιμοποιούνται για να μοντελοποιήσουν την επιστημονική γνώση σε πραγματικά πεδία συνεχώς τροποποιούνται και συνεπώς τα υπάρχοντα συστήματα, που επαναϋπολογίζουν εξαρχής την επαναγραφή, θα καθυστερούν σημαντικά.Στο πλαίσιο αυτό, στην παρούσα διατριβή αρχικά μελετάμε το πρόβλημα υπολογισμού μίας επαναγραφής ενός ερωτήματος με βάση μία οντολογία που έχει εξελιχθεί,αξιοποιώντας την πληροφορία που έχει παραχθεί από τον υπολογισμό μίας επαναγραφής για μία προηγούμενη έκδοση της οντολογίας. Αρχικά, το πρόβλημα μελετάται για την περίπτωση που η οντολογία επεκτείνεται κατά ένα σύνολο αξιωμάτων. H προσέγγιση που ακολουθείται εστιάζει μόνο στους συμπερασμούς που πρέπει πιθανά να εφαρμοστούν εξαιτίας της προσθήκης των νέων αξιωμάτων. Στη συνέχεια, μελετάται η περίπτωση που η οντολογία συστέλλεται κατά ένα σύνολο αξιωμάτων. Στην αρχή, παρουσιάζουμε έναν γενικό αλγόριθμο ο οποίος, αφαιρεί με αυτόματο τρόπο τις προτάσεις που δεν παράγονται πλέον από τη νέα οντολογία και το ερώτημα και στη συνέχεια εφαρμόζει τους επιπλέον συμπερασμούς που είναι πιθανά απαραίτητοι.Επιπλέον, επιθυμώντας να ελαχιστοποιήσουμε τη συλλογιστική διαδικασία, μελετάμ εαν και υπό ποιες συνθήκες είναι εφικτός ο υπολογισμός μίας νέας επαναγραφής χωρίς την εφαρμογή νέων συμπερασμών. Επίσης, βελτιστοποιούμε τους προηγούμενους αλγορίθμους εφαρμόζοντας τεχνικές που στηρίζονται σε αναπαράσταση με τη χρήση γράφων. Για κάθε μία από τις περιπτώσεις προτείνουμε έναν νέο αλγόριθμο τον οποίο παρουσιάζουμε αναλυτικά και αποδεικνύουμε την ορθότητα του. Τέλος, αξιολογούμε πειραματικά τους προτεινόμενους αλγορίθμους και τους συγκρίνουμε με τα συστήματαRequiem και Rapid, που αποτελούν τεχνολογία αιχμής στην περιοχή της επαναγραφής με αλγόριθμους ανάλυσης. Τα αποτελέσματα της αξιολόγησης αυτής είναι ιδιαίτερα ενθαρρυντικά.Στη συνέχεια, στο πλαίσιο της διατριβής, ασχολούμαστε με ένα από τα κυριότερα προβλήματα που εμφανίζονται κατά την συνεχή τροποποίηση των οντολογιών, δηλαδή μία πιθανή ασυνέπεια που μπορεί να εμφανιστεί στη βάση γνώσης. Συγκεκριμένα,ιδιαίτερα σε περιπτώσεις που η βάση γνώσης ανανεώνεται συνεχώς από διαφορετικούς παρόχους είναι πιθανό τα δεδομένα να είναι ασυνεπή σε σχέση με τα αξιώματα της οντολογίας. Για την επίλυση του προβλήματος αυτού προτείνονται δύο βασικές προσεγγίσεις. Η πρώτη στοχεύει στην επιδιόρθωση του συνόλου δεδομένων ώστε η βάση γνώσης να γίνει συνεπής. Η δεύτερη δεν προτείνει την τροποποίηση της βάσης γνώσης, αλλά νέους αλγόριθμους για τον υπολογισμό απαντήσεων σε περιβάλλον ασυνέπειας.Στην παρούσα διατριβή προτείνουμε ένα πλαίσιο απάντησης ερωτημάτων που βασίζεται σε συστήματα κορεσμού δεδομένων υπό τις σημασιολογίες Τομή Διορθωμένων ABox(Intersection ABox Repair-IAR) και Τομή Διορθωμένων Κλεισμένων ABox(Intersection Closed ABox Repair- ICAR). Ένα σημαντικό πλεονέκτημα των συστημάτων αυτών είναι ότι μπορούν να διαχειριστούν με αποδοτικό τρόπο πολύ μεγάλο όγκο δεδομένων. Συγκεκριμένα, αρχικά, ακολουθώντας τη δεύτερη προσέγγιση, προτείνουμε έναν αλγόριθμο υπολογισμού των ICAR απαντήσεων.Ταυτόχρονα, αξιοποιώντας τις ιδιότητες των συστημάτων κορεσμού δεδομένων αυξάνουμε την αποδοτικότητα του προτεινόμενου αλγορίθμου. Επίσης, εισάγουμε μία νέα σημασιολογία, βασισμένη στη σημασιολογία ICAR, κατά την οποία η απάντηση ερωτημάτων ακόμα και για πιο εκφραστικές Περιγραφικές Λογικές υπολογίζεται σε πολυωνυμικό χρόνο. Προτείνουμε,επίσης, έναν αλγόριθμο υπολογισμού των απαντήσεων υπό την σημασιολογία αυτή αποδεικνύοντας την ορθότητά του.Επιπλέον, ακολουθώντας την πρώτη προσέγγιση, παρουσιάζουμε έναν αποδοτικό αλγόριθμο υπολογισμού των IAR απαντήσεων για DL-LiteR και ELnr οντολογίες.Τέλος, παρουσιάζουμε τα πειραματικά αποτελέσματα των συστημάτων που αφορούν στον υπολογισμό απαντήσεων σε ασυνεπείς βάσεις γνώσης για βατές Περιγραφικές Λογικές.Συγκρίνοντας τα χρονικά αποτελέσματά μας με τα χρονικά αποτελέσματα των αντίστοιχων υπαρχόντων συστημάτων διαπιστώνουμε ότι τα συστήματά μας είναι ιδιαίτερα αποδοτικά.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.