Η διάθεση των κατάλληλων εργαλείων σε επαγγελματίες, επιστήμονες και άλλους γιατην υποστήριξη της αναζήτησης γεωγραφικών δεδομένων στον ιστό και την εφαρμογήπρακτικών ενσωμάτωσής τους είναι βασική προϋπόθεση για την ολοκλήρωση πολλών εργασιών, όπως η δημιουργία χαρτών και η χωρική ανάλυση. Νέοι τρόποι δημοσίευσηςσημασιολογικά εμπλουτισμένων δεδομένων στον ιστό, σύμφωνα με τις αρχές των συνδεδεμένων δεδομένων (Linked Data), έχουν οδηγήσει στη δημιουργία ενός μοναδικού,παγκόσμιου και διασυνδεδεμένου ιστού δεδομένων (Web of Data), ο οποίος διευκολύνειτην πρόσβαση, επεξεργασία και ενσωμάτωση μεγάλων ποσοτήτων δεδομένων από διαφορετικές πηγές και παρέχει προηγμένες δυνατότητες αναζήτησης και επερωτήσεων. Σε αυτήν την έρευνα, διερευνούμε το πρόβλημα της εύρεσης σχετιζόμενων γεωγραφικών δεδομένων στον ιστό δεδομένων. Συγκεκριμένα, προτείνουμε μία μεθοδολογία αναζήτησηςσυνόλων δεδομένων για την ανακάλυψη συνδέσμων (dataset recommendation for linkdiscovery), η οποία προτείνει, σε ένα δοσμένο σύνολο δεδομένων, άλλα σύνολα δεδομένων του ιστού δεδομένων που ενδέχεται να περιέχουν σχετικές οντότητες, δηλαδήοντότητες που περιγράφουν σημασιολογικά κοντινά ή ίδια γεωγραφικά αντικείμενα τουπραγματικού κόσμου. Τα προτεινόμενα σύνολα δεδομένων μπορούν εκ των υστέρωννα χρησιμοποιηθούν ως είσοδος σε μία διαδικασία ανακάλυψης συνδέσμων (link discovery) για τη δημιουργία των συνδέσμων (π.χ. sameAs) μεταξύ των σχετικών οντοτήτων.Σε αντίθεση με τις υφιστάμενες μεθοδολογίες, οι οποίες προτείνουν σχετικά σύνολαδεδομένων με βάση την ομοιότητα των αλφαριθμητικών και της δομής τους ή την αξιοποίηση υφιστάμενων συνδέσμων μεταξύ τους, προσεγγίζουμε το πρόβλημα από μίαγεωγραφική οπτική, θεμελιώνοντας την υπόθεση ότι ‘σύνολα δεδομένων των οποίων οιοντότητες παρουσιάζουν παρόμοια χωρική κατανομή είναι πιθανό να περιέχουν σημασιολογικά σχετιζόμενες οντότητες’. Για να υποστηρίξουμε την υπόθεσή μας, υλοποιήσαμεμία πρακτική λύση, η οποία έχει εφαρμογή σε κλίμακα διαδικτύου και αρχικά δημιουργείσυνόψεις σε γεωγραφικά χαρακτηριστικά (σημειακές οντότητες) των χωρικών συνόλωνδεδομένων που παρέχονται μέσω SPARQL endpoints και στη συνέχεια εφαρμόζει μετρικέςγια τον υπολογισμό της ομοιότητάς τους. Οι συνόψεις αποτυπώνουν γεωγραφικά χαρακτηριστικά των συνόλων δεδομένων, όπως η χωρική τους έκταση και η χωρική κατανομήτων οντοτήτων τους. Διάφορες μετρικές που βασίζονται στην ομοιότητα συνόλων, στηστατιστική και στη θεωρία πληροφορίας, εφαρμόζονται στις συνόψεις των συνόλων δεδομένων για τον υπολογισμό ενός βαθμού γεωγραφικής ομοιότητας συνόλων δεδομένων.΄Ενας αλγόριθμος αναζήτησης ταξινομεί τα προτεινόμενα σύνολα δεδομένων σύμφωνα μετη γεωγραφική τους ομοιότητα, έτσι ώστε στην κορυφή της ταξινομημένης λίστας ναβρίσκονται τα σύνολα δεδομένων που είναι πιο πιθανό να περιέχουν σχετικές οντότητες με το επερωτώμενο αρχικό σύνολο δεδομένων. Διεξαγάγαμε πειράματα για την αξιολόγηση της αποτελεσματικότητας και αποδοτικότητας της μεθοδολογίας αναζήτησηςσυνόλων δεδομένων για την ανακάλυψη συνδέσμων. Σύμφωνα με τα αποτελέσματατων πειραμάτων, ο προτεινόμενος αλγόριθμος αναζήτησης παράγει ταξινομημένες λίστεςσυνόλων δεδομένων με 62% μέση ακρίβεια (Mean Average Precision), περίπου 35% υψηλότερης σε σύγκριση με απλούς εναλλακτικούς αλγόριθμους. Επίσης, μειώνει περίπουκατά 99% τον χώρο αναζήτησης για σχετικά σύνολα δεδομένων στον ιστό δεδομένων μετη χρήση αποδοτικών τεχνικών. Μία πρόσθετη συνεισφορά της εργασίας μας αφορά τηνανάπτυξη μεθόδων που παρέχουν ενιαία πρόσβαση στο σύνολο του ιστού δεδομένων καιτην παραγωγή αναφορών σχετικά με το μέγεθος και την κατάσταση του γεωγραφικούσημασιολογικού ιστού (Semantic Web) που δείχνουν ότι περίπου το 39% των συνόλωνδεδομένων του σημασιολογικού ιστού περιέχουν γεωαναφερμένη πληροφορία. Επιπλέον,προτείνουμε το GeoVoID, ένα πρότυπο μεταδεδομένων για την περιγραφή γεωγραφικώνχαρακτηριστικών των συνόλων δεδομένων όπως η χωρική τους έκταση, οι χωρικές οντολογίες που χρησιμοποιούνται και ο αριθμός των γεωγραφικών τους οντοτήτων. Το αποτέλεσμα της έρευνάς μας πραγματώνεται σε μία διαδικτυακή εφαρμογή που ονομάζεται GeoLOD και αποτελεί έναν ενδελεχή κατάλογο χωρικών συνόλων δεδομένων στον σημασιολογικό ιστό και μία online μηχανή αναζήτησης συνόλων δεδομένων για την ανακάλυψησυνδέσμων. Η GeoLOD επιτρέπει την αναζήτηση συνόλων δεδομένων μέσω χάρτη καιπαρέχει καινοτόμες λειτουργίες όπως η ζωντανή προεπισκόπηση των περιεχομένων τωνσυνόλων δεδομένων σε διαδραστικό χάρτη, η εξαγωγή αρχείων ρυθμίσεων για άμεσηχρήση από τα λογισμικά ανακάλυψης συνδέσμων Silk και LIMES και η on-the-fly πρόταση συνόλων δεδομένων για την ανακάλυψη συνδέσμων για σύνολα δεδομένων πουπαρέχονται από άγνωστα SPARQL endpoints και σε συμβατή με τα Γεωγραφικά Πληροφοριακά Συστήματα (ΓΠΣ) μορφή (π.χ. Shapefile). Η χρησιμότητα της GeoLOD για τουςεπαγγελματίες ΓΠΣ και τους ειδικούς σε θέματα συνδεδεμένων δεδομένων επιβεβαιώνεται από τα αποτελέσματα μίας διεξαχθείσας μελέτης χρηστών.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.