Σε αυτή τη διατριβή μελετήθηκε η εφαρμογή πολυπαραμετρικών τεχνικών σε μεγάλες βάσεις δεδομένων ταξινόμησης, με σκοπό τη θεωρητική τους παρουσίαση, τη σύγκριση αυτών και την εξαγωγή συμπερασμάτων, σχετικά με το πεδίο εφαρμογής τους και το χειρισμό τους, τις δυνατότητες και τους περιορισμούς τους. Χρησιμοποιήθηκαν μη επιβλεπόμενες τεχνικές όπως Principal Components Analysis/Factor Analysis (PCA/FA) και Cluster Analysis (CA) αλλά και επιβλεπόμενες όπως Discriminant Analysis (DA), Classification Trees (CT) και Artificial Neural Networks (ANN). Ιδιαίτερη έμφαση δόθηκε στις τεχνικές CT και ANN (μελετήθηκαν τρεις μέθοδοι και αρχιτεκτονικές αντίστοιχα για καθεμιά από αυτές). Ερευνήθηκαν τα πλεονεκτήματα, μειονεκτήματα και ιδιαιτερότητες τους και βελτιστοποιήθηκαν τα μοντέλα ταξινόμησης των τεχνικών. Όλες οι τεχνικές συγκρίθηκαν μεταξύ τους, με κριτήριο τα αποτελέσματα τους (της ορθής ταξινόμησης των δειγμάτων) σε τρεις βάσεις δεδομένων οι οποίες αφορούσαν τους προσδιορισμούς α) μετάλλων-μεταλλοειδών στους τρεις ταμιευτήρες που χρησιμοποιούνται για την ύδρευση της πρωτεύουσας (Υλίκη, Μόρνο και Μαραθώνα), β) μετάλλων-μεταλλοειδών και ανόργανων στοιχείων σε θαλάσσια δείγματα ιζημάτων από μεγάλες ιχθυοκαλλιέργειες της χώρας, γ) σπανίων γαιών σε δείγματα ελαιολάδων από διάφορες περιοχές. Η DA αν και είναι παραμετρική τεχνική με πολλούς περιορισμούς στην εφαρμογή της, ανταποκρίθηκε στις ανάγκες των προβλημάτων και παρείχε πάντα μια πρώτη άποψη για το πρόβλημα (δυνατότητα ή όχι γραμμικού διαχωρισμού των ομάδων με βάση το Canonical plot της ανάλυσης και αρχική αξιολόγηση των μεταβλητών). Τα ποσοστά ορθής ταξινόμησης που παρείχε ήταν αρκετές φορές συγκρίσιμα με των πιο προηγμένων τεχνικών. Τα CT με 3 διαφορετικές μεθόδους και αρκετή ευελιξία (παρείχαν πολλές παραμέτρους προς δοκιμή και βελτιστοποίηση), επέτυχαν υψηλά ποσοστά ταξινόμησης με λίγες ή πολλές μεταβλητές (περισσότερες συνήθως των ANN), κατασκευάζοντας επαναλήψιμα μοντέλα με δυνατότητες γενίκευσης. Τα ANN αποδείχθηκαν ιδιαίτερα ευέλικτη τεχνική, με δυνατότητες αποτελεσματικής αξιολόγησης των μεταβλητών και εφαρμογής τους σε απλές αλλά και πολυπλοκότερες βάσεις προσεγγίζοντας γραμμικές και μη γραμμικές συναρτήσεις. Κατασκευάστηκαν ανθεκτικά και ευέλικτα μοντέλα. Μειονέκτημά τους αποτέλεσαν ωστόσο, τα φαινόμενα υπερπροσαρμογής που παρουσιάζουν και χρειάστηκαν προσεκτικοί χειρισμοί για την αποφυγή τους. Έτσι, τα διαθέσιμα δείγματα διαχωρίστηκαν σε τρεις ομάδες: χρησιμοποιήθηκαν εκτός της συνήθους ομάδας εκπαίδευσης, επιπλέον ομάδες επικύρωσης και ελέγχου. Με τον τρόπο αυτό, έγινε άμεση ταυτοποίηση των φαινομένων υπερπροσαρμογής (ώστε να διακόπτεται αυτόματα η εκπαίδευση του μοντέλου), αλλά και δοκιμή των μοντέλων σε νέα, “’άγνωστα” δείγματα, ώστε να ελέγχεται η δυνατότητα γενίκευσης αυτών. Ο διαχωρισμός σε ομάδες έγινε είτε τυχαία (όπως επιτάσσει η σύγχρονη βιβλιογραφία), είτε με βάση της προκατεργασίας με DA (μέθοδος που δεν έχει χρησιμοποιηθεί ποτέ στο παρελθόν). Επιπλέον, έγινε προσπάθεια εφαρμογής όσο το δυνατόν απλούστερων δομών με λίγες παραμέτρους (μεταβλητές, βάρη) αλλά και λειτουργικές μονάδες επεξεργασίας (νευρώνες).
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.