SlideShare a Scribd company logo
DATA MINING ΚΑΙ ΕΦΑΡΜΟΓEΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ
ΣΧΟΛΗΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΚΑΙΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΤΜΗΜΑΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
ΦΟΙΤΗΤΗΣ : Κωνσταντίνος Βουκελάτος
ΑΜ ΦΟΙΤΗΤΗ : E 13032 .
EΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ:
Αναπληρωτής Καθηγητής Μιχαήλ Φιλιππάκης
ΠΕΙΡΑΙΑΣ,ΟΚΤΩΒΡΙΟΣ 2021
 Η ραγδαία ακμή των τεχνολογιών της Πληροφορικής και του
Διαδικτύου, έχει επιφέρει συσσώρευση δεδομένων στην σημερινή
κοινωνία. Πλέον κάθε τομέας της κοινωνίας αυτής, καθώς και των
επιστημών που στοχεύουν στην εξέλιξη της, είναι συνυφασμένος με την
Στατιστική Επεξεργασία Πληροφοριών. Εκεί δημιουργείται ο
επιστημονικός κλάδος της Εξόρυξης Δεδομένων (Data Mining) και
κυρίως της Ανακάλυψης Γνώσης από τα Δεδομένα αυτά (Knowledge
Discover in Databases).
 Κύριος στόχος της παρούσας πτυχιακής εργασίας, είναι η
κατανόηση των εννοιών και των πρακτικών, από τον κόσμο του
Data Mining, τα προβλήματα και οι δυσκολίες λόγω όγκου, καθώς
και η σημασία της εξαγόμενης πληροφορίας.
 Στο 1ο μέρος γίνεται μια εισαγωγή στον «Κόσμο των Δεδομένων».
Στο 2ο μέρος, γίνεται αναφορά στην δομή της Εξόρυξης Δεδομένων. Στο
3ο μέρος αναφέρονται και συγκρίνονται τα βασικά Αλγοριθμικά Μοντέλα
Εξόρυξης. Στο 4ο μέρος θα γίνει η χρήση του, του WEKA 3.8.5 ενός open
source συστήματος για την επεξεργασία των Δεδομένων, όπου θα
εφαρμόσουμε κάποιους από τους προαναφερθέντες αλγόριθμους.
ΕΙΣΑΓΩΓΗ
&
ΣΚΟΠΟΣΤΗΣ ΕΡΓΑΣΙΑΣ
3/11/2021
Data Mining
 Με τον όρο εξόρυξη δεδομένων αναφερόμαστε στην εφαρμογή
στατιστικών και υπολογιστικών μεθόδων σε δεδομένα με σκοπό την
εξαγωγή χρήσιμης πληροφορίας, όπως η κατηγοριοποίηση των
δεδομένων ή η δημιουργία μοντέλων πρόβλεψης.
 Συνδυάζει κλάδους όπως η Μηχανική Μάθηση, Στατιστική και
Τεχνική Νοημοσύνη
Knowledge Discovery in Databases
 Η Ανακάλυψη Γνώσης από Δεδομένα, είναι μία διαδικασία πολλών
βημάτων, ένα εκ των οποίων η Data Mining.
Κεφάλαιο 1ο
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
&
ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ
3/11/2021
Data
Collectio
n
Pre-
Processin
g
Data
Mining
Evaluation
Trans
formation
Δομή
Τα μοντέλα Εξόρυξης Δεδομένων είναι δύο:
Predictive / Πρόβλεψης Πρόβλεψη τιμών, χαρακτηριστικού
Descriptive / Περιγραφικό Αναγνώριση προτύπων & σχέσεων
Τεχνικές
Κεφάλαιο 2ο
ΔΟΜΗ ,
ΔΙΕΡΓΑΣΙΕΣ
&
ΤΕΧΝΙΚΕΣ
3/11/2021
ΠΡΟΒΛΕΨΗΣ
Classification / Κατηγοριοποίηση
Δεδομένα σε ομάδες (κλάσεις)
Regression / Παλινδρόμηση
Δεδομένα(σημεία) μίας συνάρτηση
Time Series Analysis
Τιμές σε συνάρτηση με το χρόνο
Prediction / Πρόβλεψη
Ανάθεση μελλοντικών τιμών
ΠΕΡΙΓΡΑΦΙΚΟ
Clustering / Συσταδιοποίηση
Διαχωρισμός συνόλου σε ομάδες
Summarization / Σύνοψη
Δεδομένα σε υποσύνολα
Association Rules / Καν.
Συσχέτισης
Συσχέτιση Δεδομένων
Sequence Discovery / Ακολουθίες
Σειριακά Πρότυπα σε Δεδομένα
Κεφάλαιο 3ο
ΑΛΓΟΡΙΘΜΙΚΑ
ΜΟΝΤΕΛΑ
ΕΞΟΡΥΞΗΣ
3/11/2021
Classification Algorithms
ID3 ευκολία
• Από τους βασικότερους
αλγορίθμους ταξινόμησης
• Παράγει δέντρα απόφασης
(προτιμά μικρά δέντρα)
• Κυρίως στο Machine Learning
C4.5 ευκολία
• No1 Αλγόριθμος Ταξινόμησης
• Εξέλιξη του ID3
• Ακόμα και για ελλιπή δεδομένα
• Αναπτύσσει δέντρο,
φτιάχνοντας κανόνες απόφασης
SVM ακρίβεια
• Νέος, Ευρείας χρήσης
• Γραμμική χαρτογράφηση για
μετασχηματισμό δεδομένων
• Γραμμική και μη ανάλυση
Clustering Algorithms
K-Means ευκολία
• O πιο συχνός σε χρήση για
συσταδιοποίηση
• Μόνο για αριθμητικά δεδομένα
K-Modes
• Εξέλιξη του K-Means
• Αριθμητικά και Κατηγορικά
δεδομένα
EM ευελιξία
• Προτίμηση χρηστών
• «χαμένα δεδομένα» ως ένα
τυχαίο δείγμα που καθορίζουν
τις ομάδες
Denclue
ταχύτητα
• Νέος με συναρτήσεις για την
πυκνότητα του χώρου
Κεφάλαιο 3ο
ΑΛΓΟΡΙΘΜΙΚΑ
ΜΟΝΤΕΛΑ
ΕΞΟΡΥΞΗΣ
3/11/2021
Bayesian Algorithms
Naïve απόδοση
• Βασίζεται στον Bayes
• Ανεξαρτητοποίηση δεδομένων
• Υψηλή απόδοση
• Απαιτεί λίγα δεδομένα
• Αβεβαιότητα διεκπεραίωσης
Belief Networks φιλικό
• Βασίζεται στον Bayes
• Εξαρτήσεις δεδομένων
• Ο χρήστης διαλέγει
ανεξαρτησία
Association Rules Algorithms
Apriori
ευκολία
• O βασικότερος αλγόριθμος όλων
των κανόνων συσχέτισης
• Εντοπίζει μεγάλες λίστες,
κάνοντας συνεχείς προσπελάσεις
• Βέβαια είναι αργός
ΣΥΜΠΕΡΑΣΜΑ
Η επιλογή αλγοριθμικών μοντέλων γίνεται βάσει των δεδομένων, της
ακρίβειας του αποτελέσματος και του ρυθμού διεργασιών
WEEKA 3.8.5
 Ένα από τα πιο γνωστά συστήματα για την Εξόρυξη Δεδομένων
είναι το σύστημα WEKA, το οποίο αναπτύχθηκε από το
Πανεπιστήμιο του Waikato στην Νέα Ζηλανδία.
 Είναι γραμμένο σε Java και περιέχει μια μεγάλη συλλογή
αλγορίθμων και εργαλείων για θέματα εξόρυξης δεδομένων
ΕΦΑΡΜΟΓΗ
 Για το πρακτικό κομμάτι της πτυχιακής, θα χρησιμοποιήσουμε ένα
σύνολο δεδομένων και θα εφαρμόσουμε μέσω του WEEKA,
κάποιους από τους προαναφερθέντες αλγορίθμους.
 Το δείγμα είναι από χρωματισμένα «γυαλιά», η σύσταση των
οποίων αποτελείται από αναμείξεις 9 φυσικών στοιχείων. Το αρχείο
είναι μορφής .csv
Κεφάλαιο 4ο
ΕΦΑΡΜΟΓΗ
W E E K A
3 . 8 . 5
3/11/2021
3/11/2021
Βήμα 1: Εκκίνηση. Χρησιμοποιούμε τον Explorer Βήμα 2: Εισαγωγή δείγματος. Πατάμε Choose
3/11/2021
Βήμα 3 : Το αρχείο μορφής .csv για προ-επεξεργασία Βήμα 4: Είμαστε στην ενότητα της Προ-επεξεργασίας.
3/11/2021
Βλέπουμε για κάθε στοιχείο τιμές. Για το Na έχουμε
πλήθος στοιχείων (214), min (10.73), max(17.38) ,
κέντρο τιμών (13.408)
Για πεδίο (πχ Type) που δεν αποτελείται από αριθμούς
αλλά από ονόματα, θα έχω άλλα attributes (τιμές
χρωμάτων, count, weight)
3/11/2021
Πατώντας το κουμπί Visualize All μπορούμε να έχουμε σε ένα παράθυρο όλα τα γραφήματα από όλες τις
μεταβλητές μας. Σχηματική οπτικοποίηση όλων των πεδίων. Εδώ τελειώνει η προ-επεξεργασία και
συνεχίζουμε με την ταξινόμηση του συνόλου δεδομένων. Υπάρχουν οι ενότητες Classify, Cluster και
Assosiate που περιέχουν τα Αλγοριθμικά Μοντέλα που αναφέραμε πιο πριν.
3/11/2021
Βήμα 5 : Στην ενότητα Classify, ανατρέχοντας τους
αλγορίθμους ταξινόμησης θα επιλέξουμε τον J48
Βήμα 6: Πατώντας Start εκκινεί ο αλγόριθμος
3/11/2021
Παρατηρούμε τον αλγόριθμο και βλέπουμε ότι το αποτέλεσμα σωστής ταξινόμησης του δείγματος είναι 66.8224%
3/11/2021
Στο τέλος παρατηρούμε και τον πίνακα ταξινόμησης. Ενώ πατώντας δεξί κλικ και την επιλογή Visualize Tree
εξάγουμε το Δέντρο Απόφασης
3/11/2021
Ας τρέξουμε και ένα αλγόριθμο Συσταδιοποίησης. Επιλέγω Cluster , K-Means , Start και βλέπω τον Αλγόριθμο.
3/11/2021
Παρατηρώ ότι το αποτέλεσμα για ένα cluster είναι 59%. Ενώ με δεξί κλικ και Visualization Cluster Assignments
θα εξάγω μια απεικόνιση των συστάδων
3/11/2021
Ας δούμε τώρα και ένα Γράφο. Επιλέγω Classify , Bayesian Networks , Start και βλέπω τον Αλγόριθμο.
Το ποσοστό επιτυχίας ταξινόμησης αγγίζει το 70.5607%
3/11/2021
Τέλος παρατηρώ τον πίνακα ταξινόμησης, ενώ πατώντας δεξί κλικ και
Visualize Graph θα εξάγω μια απεικόνιση του Γράφου
WEEKA 3.8.5
Με το σύνολο δεδομένων που επιλέξαμε, ανάμεσα σε 3 τυχαίους
αλγορίθμους ταξινόμησης, ο Bayesian Belief Networks είχε καλύτερο
ποσοστό σωστής ταξινόμησης με 70.5%. Υπάρχουν ωστόσο και άλλες
αλγοριθμικές διαδικασίες αλλά και συνδυασμός αυτών που ίσως να
ταξινομούσε καλύτερα το δείγμα. Έτσι λοιπόν :
Η Εξόρυξη εξαρτάται και από την διαδικασία και από το δείγμα.
Σύνοψη
Με την χρήση τεχνολογιών που ταξινομούν εύκολα και γρήγορα,
χαοτικά και τεράστια πακέτα δεδομένων, μπορούμε να εξάγουμε
πληροφορίες, βοηθώντας τον άνθρωπο και την κοινωνία να
αξιοποιήσει πολλούς πόρους που μέχρι πρότινος δυσκολευόταν.
Η Εξόρυξη Δεδομένων και η Εξαγωγή Γνώσης από αυτά είναι
απαραίτητες σύγχρονες επιστημονικές διαδικασίες
Κεφάλαιο 5ο
ΣΥΜΠΕΡΑΣΜΑΤΑ
&
ΣΥΝΟΨΗ
3/11/2021

More Related Content

Similar to Data Mining & Applications (presentation)

Παρουσίαση θεμάτων διπλωματικών 2010
Παρουσίαση θεμάτων διπλωματικών 2010Παρουσίαση θεμάτων διπλωματικών 2010
Παρουσίαση θεμάτων διπλωματικών 2010ISSEL
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
Γεροκώστα
ISSEL
 
KanoutasThomasThesis
KanoutasThomasThesisKanoutasThomasThesis
KanoutasThomasThesis
ThomasKanoutas
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
ISSEL
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
ISSEL
 
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
Eleni Sakeroglou
 
Kagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationKagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis Presentation
ISSEL
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
ISSEL
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...
ISSEL
 
Cs c gym_worksheets_20160622
Cs c gym_worksheets_20160622Cs c gym_worksheets_20160622
Cs c gym_worksheets_20160622
papettas
 
Weka - Data mining tool - Feature Extraction
Weka - Data mining tool - Feature ExtractionWeka - Data mining tool - Feature Extraction
Weka - Data mining tool - Feature ExtractionRai Angelidou
 
Cs a gym_worksheets_20160526
Cs a gym_worksheets_20160526Cs a gym_worksheets_20160526
Cs a gym_worksheets_20160526
papettas
 
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
Anastasia Stathopoulou
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
natasa08
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
mariakarousiou
 
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης ΤηλεκπαίδευσηςΠεριγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
Tsormpatzoglou Nestor
 
Bagia Rousopoulou
Bagia RousopoulouBagia Rousopoulou
Bagia Rousopoulou
ISSEL
 
Οικονόμου Ναπολέων – Χρήστος
Οικονόμου Ναπολέων – ΧρήστοςΟικονόμου Ναπολέων – Χρήστος
Οικονόμου Ναπολέων – Χρήστος
ISSEL
 
Εισαγωγή στις Aρχές της Eπιστήμης των H/Y
Εισαγωγή στις Aρχές της Eπιστήμης των H/YΕισαγωγή στις Aρχές της Eπιστήμης των H/Y
Εισαγωγή στις Aρχές της Eπιστήμης των H/Y
Vassilis Efopoulos
 
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
NikosKlironomos1
 

Similar to Data Mining & Applications (presentation) (20)

Παρουσίαση θεμάτων διπλωματικών 2010
Παρουσίαση θεμάτων διπλωματικών 2010Παρουσίαση θεμάτων διπλωματικών 2010
Παρουσίαση θεμάτων διπλωματικών 2010
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
Γεροκώστα
 
KanoutasThomasThesis
KanoutasThomasThesisKanoutasThomasThesis
KanoutasThomasThesis
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
 
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
Σχεδιασμός και Υλοποίηση Πληροφοριακού Συστήματος βέλτιστης διαδρομής συνεπιβ...
 
Kagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationKagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis Presentation
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...
 
Cs c gym_worksheets_20160622
Cs c gym_worksheets_20160622Cs c gym_worksheets_20160622
Cs c gym_worksheets_20160622
 
Weka - Data mining tool - Feature Extraction
Weka - Data mining tool - Feature ExtractionWeka - Data mining tool - Feature Extraction
Weka - Data mining tool - Feature Extraction
 
Cs a gym_worksheets_20160526
Cs a gym_worksheets_20160526Cs a gym_worksheets_20160526
Cs a gym_worksheets_20160526
 
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
 
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης ΤηλεκπαίδευσηςΠεριγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
Περιγραφή Πληροφοριακού Συστήματος Διαχείρισης Τηλεκπαίδευσης
 
Bagia Rousopoulou
Bagia RousopoulouBagia Rousopoulou
Bagia Rousopoulou
 
Οικονόμου Ναπολέων – Χρήστος
Οικονόμου Ναπολέων – ΧρήστοςΟικονόμου Ναπολέων – Χρήστος
Οικονόμου Ναπολέων – Χρήστος
 
Εισαγωγή στις Aρχές της Eπιστήμης των H/Y
Εισαγωγή στις Aρχές της Eπιστήμης των H/YΕισαγωγή στις Aρχές της Eπιστήμης των H/Y
Εισαγωγή στις Aρχές της Eπιστήμης των H/Y
 
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
Εσωτερικό Σεμινάριο SoDaNet στην χρήση των εργαλείων τεκμηρίωσης και διαχείρι...
 

Data Mining & Applications (presentation)

  • 1. DATA MINING ΚΑΙ ΕΦΑΡΜΟΓEΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΦΟΙΤΗΤΗΣ : Κωνσταντίνος Βουκελάτος ΑΜ ΦΟΙΤΗΤΗ : E 13032 . EΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Αναπληρωτής Καθηγητής Μιχαήλ Φιλιππάκης ΠΕΙΡΑΙΑΣ,ΟΚΤΩΒΡΙΟΣ 2021
  • 2.  Η ραγδαία ακμή των τεχνολογιών της Πληροφορικής και του Διαδικτύου, έχει επιφέρει συσσώρευση δεδομένων στην σημερινή κοινωνία. Πλέον κάθε τομέας της κοινωνίας αυτής, καθώς και των επιστημών που στοχεύουν στην εξέλιξη της, είναι συνυφασμένος με την Στατιστική Επεξεργασία Πληροφοριών. Εκεί δημιουργείται ο επιστημονικός κλάδος της Εξόρυξης Δεδομένων (Data Mining) και κυρίως της Ανακάλυψης Γνώσης από τα Δεδομένα αυτά (Knowledge Discover in Databases).  Κύριος στόχος της παρούσας πτυχιακής εργασίας, είναι η κατανόηση των εννοιών και των πρακτικών, από τον κόσμο του Data Mining, τα προβλήματα και οι δυσκολίες λόγω όγκου, καθώς και η σημασία της εξαγόμενης πληροφορίας.  Στο 1ο μέρος γίνεται μια εισαγωγή στον «Κόσμο των Δεδομένων». Στο 2ο μέρος, γίνεται αναφορά στην δομή της Εξόρυξης Δεδομένων. Στο 3ο μέρος αναφέρονται και συγκρίνονται τα βασικά Αλγοριθμικά Μοντέλα Εξόρυξης. Στο 4ο μέρος θα γίνει η χρήση του, του WEKA 3.8.5 ενός open source συστήματος για την επεξεργασία των Δεδομένων, όπου θα εφαρμόσουμε κάποιους από τους προαναφερθέντες αλγόριθμους. ΕΙΣΑΓΩΓΗ & ΣΚΟΠΟΣΤΗΣ ΕΡΓΑΣΙΑΣ 3/11/2021
  • 3. Data Mining  Με τον όρο εξόρυξη δεδομένων αναφερόμαστε στην εφαρμογή στατιστικών και υπολογιστικών μεθόδων σε δεδομένα με σκοπό την εξαγωγή χρήσιμης πληροφορίας, όπως η κατηγοριοποίηση των δεδομένων ή η δημιουργία μοντέλων πρόβλεψης.  Συνδυάζει κλάδους όπως η Μηχανική Μάθηση, Στατιστική και Τεχνική Νοημοσύνη Knowledge Discovery in Databases  Η Ανακάλυψη Γνώσης από Δεδομένα, είναι μία διαδικασία πολλών βημάτων, ένα εκ των οποίων η Data Mining. Κεφάλαιο 1ο ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ 3/11/2021 Data Collectio n Pre- Processin g Data Mining Evaluation Trans formation
  • 4. Δομή Τα μοντέλα Εξόρυξης Δεδομένων είναι δύο: Predictive / Πρόβλεψης Πρόβλεψη τιμών, χαρακτηριστικού Descriptive / Περιγραφικό Αναγνώριση προτύπων & σχέσεων Τεχνικές Κεφάλαιο 2ο ΔΟΜΗ , ΔΙΕΡΓΑΣΙΕΣ & ΤΕΧΝΙΚΕΣ 3/11/2021 ΠΡΟΒΛΕΨΗΣ Classification / Κατηγοριοποίηση Δεδομένα σε ομάδες (κλάσεις) Regression / Παλινδρόμηση Δεδομένα(σημεία) μίας συνάρτηση Time Series Analysis Τιμές σε συνάρτηση με το χρόνο Prediction / Πρόβλεψη Ανάθεση μελλοντικών τιμών ΠΕΡΙΓΡΑΦΙΚΟ Clustering / Συσταδιοποίηση Διαχωρισμός συνόλου σε ομάδες Summarization / Σύνοψη Δεδομένα σε υποσύνολα Association Rules / Καν. Συσχέτισης Συσχέτιση Δεδομένων Sequence Discovery / Ακολουθίες Σειριακά Πρότυπα σε Δεδομένα
  • 5. Κεφάλαιο 3ο ΑΛΓΟΡΙΘΜΙΚΑ ΜΟΝΤΕΛΑ ΕΞΟΡΥΞΗΣ 3/11/2021 Classification Algorithms ID3 ευκολία • Από τους βασικότερους αλγορίθμους ταξινόμησης • Παράγει δέντρα απόφασης (προτιμά μικρά δέντρα) • Κυρίως στο Machine Learning C4.5 ευκολία • No1 Αλγόριθμος Ταξινόμησης • Εξέλιξη του ID3 • Ακόμα και για ελλιπή δεδομένα • Αναπτύσσει δέντρο, φτιάχνοντας κανόνες απόφασης SVM ακρίβεια • Νέος, Ευρείας χρήσης • Γραμμική χαρτογράφηση για μετασχηματισμό δεδομένων • Γραμμική και μη ανάλυση Clustering Algorithms K-Means ευκολία • O πιο συχνός σε χρήση για συσταδιοποίηση • Μόνο για αριθμητικά δεδομένα K-Modes • Εξέλιξη του K-Means • Αριθμητικά και Κατηγορικά δεδομένα EM ευελιξία • Προτίμηση χρηστών • «χαμένα δεδομένα» ως ένα τυχαίο δείγμα που καθορίζουν τις ομάδες Denclue ταχύτητα • Νέος με συναρτήσεις για την πυκνότητα του χώρου
  • 6. Κεφάλαιο 3ο ΑΛΓΟΡΙΘΜΙΚΑ ΜΟΝΤΕΛΑ ΕΞΟΡΥΞΗΣ 3/11/2021 Bayesian Algorithms Naïve απόδοση • Βασίζεται στον Bayes • Ανεξαρτητοποίηση δεδομένων • Υψηλή απόδοση • Απαιτεί λίγα δεδομένα • Αβεβαιότητα διεκπεραίωσης Belief Networks φιλικό • Βασίζεται στον Bayes • Εξαρτήσεις δεδομένων • Ο χρήστης διαλέγει ανεξαρτησία Association Rules Algorithms Apriori ευκολία • O βασικότερος αλγόριθμος όλων των κανόνων συσχέτισης • Εντοπίζει μεγάλες λίστες, κάνοντας συνεχείς προσπελάσεις • Βέβαια είναι αργός ΣΥΜΠΕΡΑΣΜΑ Η επιλογή αλγοριθμικών μοντέλων γίνεται βάσει των δεδομένων, της ακρίβειας του αποτελέσματος και του ρυθμού διεργασιών
  • 7. WEEKA 3.8.5  Ένα από τα πιο γνωστά συστήματα για την Εξόρυξη Δεδομένων είναι το σύστημα WEKA, το οποίο αναπτύχθηκε από το Πανεπιστήμιο του Waikato στην Νέα Ζηλανδία.  Είναι γραμμένο σε Java και περιέχει μια μεγάλη συλλογή αλγορίθμων και εργαλείων για θέματα εξόρυξης δεδομένων ΕΦΑΡΜΟΓΗ  Για το πρακτικό κομμάτι της πτυχιακής, θα χρησιμοποιήσουμε ένα σύνολο δεδομένων και θα εφαρμόσουμε μέσω του WEEKA, κάποιους από τους προαναφερθέντες αλγορίθμους.  Το δείγμα είναι από χρωματισμένα «γυαλιά», η σύσταση των οποίων αποτελείται από αναμείξεις 9 φυσικών στοιχείων. Το αρχείο είναι μορφής .csv Κεφάλαιο 4ο ΕΦΑΡΜΟΓΗ W E E K A 3 . 8 . 5 3/11/2021
  • 8. 3/11/2021 Βήμα 1: Εκκίνηση. Χρησιμοποιούμε τον Explorer Βήμα 2: Εισαγωγή δείγματος. Πατάμε Choose
  • 9. 3/11/2021 Βήμα 3 : Το αρχείο μορφής .csv για προ-επεξεργασία Βήμα 4: Είμαστε στην ενότητα της Προ-επεξεργασίας.
  • 10. 3/11/2021 Βλέπουμε για κάθε στοιχείο τιμές. Για το Na έχουμε πλήθος στοιχείων (214), min (10.73), max(17.38) , κέντρο τιμών (13.408) Για πεδίο (πχ Type) που δεν αποτελείται από αριθμούς αλλά από ονόματα, θα έχω άλλα attributes (τιμές χρωμάτων, count, weight)
  • 11. 3/11/2021 Πατώντας το κουμπί Visualize All μπορούμε να έχουμε σε ένα παράθυρο όλα τα γραφήματα από όλες τις μεταβλητές μας. Σχηματική οπτικοποίηση όλων των πεδίων. Εδώ τελειώνει η προ-επεξεργασία και συνεχίζουμε με την ταξινόμηση του συνόλου δεδομένων. Υπάρχουν οι ενότητες Classify, Cluster και Assosiate που περιέχουν τα Αλγοριθμικά Μοντέλα που αναφέραμε πιο πριν.
  • 12. 3/11/2021 Βήμα 5 : Στην ενότητα Classify, ανατρέχοντας τους αλγορίθμους ταξινόμησης θα επιλέξουμε τον J48 Βήμα 6: Πατώντας Start εκκινεί ο αλγόριθμος
  • 13. 3/11/2021 Παρατηρούμε τον αλγόριθμο και βλέπουμε ότι το αποτέλεσμα σωστής ταξινόμησης του δείγματος είναι 66.8224%
  • 14. 3/11/2021 Στο τέλος παρατηρούμε και τον πίνακα ταξινόμησης. Ενώ πατώντας δεξί κλικ και την επιλογή Visualize Tree εξάγουμε το Δέντρο Απόφασης
  • 15. 3/11/2021 Ας τρέξουμε και ένα αλγόριθμο Συσταδιοποίησης. Επιλέγω Cluster , K-Means , Start και βλέπω τον Αλγόριθμο.
  • 16. 3/11/2021 Παρατηρώ ότι το αποτέλεσμα για ένα cluster είναι 59%. Ενώ με δεξί κλικ και Visualization Cluster Assignments θα εξάγω μια απεικόνιση των συστάδων
  • 17. 3/11/2021 Ας δούμε τώρα και ένα Γράφο. Επιλέγω Classify , Bayesian Networks , Start και βλέπω τον Αλγόριθμο. Το ποσοστό επιτυχίας ταξινόμησης αγγίζει το 70.5607%
  • 18. 3/11/2021 Τέλος παρατηρώ τον πίνακα ταξινόμησης, ενώ πατώντας δεξί κλικ και Visualize Graph θα εξάγω μια απεικόνιση του Γράφου
  • 19. WEEKA 3.8.5 Με το σύνολο δεδομένων που επιλέξαμε, ανάμεσα σε 3 τυχαίους αλγορίθμους ταξινόμησης, ο Bayesian Belief Networks είχε καλύτερο ποσοστό σωστής ταξινόμησης με 70.5%. Υπάρχουν ωστόσο και άλλες αλγοριθμικές διαδικασίες αλλά και συνδυασμός αυτών που ίσως να ταξινομούσε καλύτερα το δείγμα. Έτσι λοιπόν : Η Εξόρυξη εξαρτάται και από την διαδικασία και από το δείγμα. Σύνοψη Με την χρήση τεχνολογιών που ταξινομούν εύκολα και γρήγορα, χαοτικά και τεράστια πακέτα δεδομένων, μπορούμε να εξάγουμε πληροφορίες, βοηθώντας τον άνθρωπο και την κοινωνία να αξιοποιήσει πολλούς πόρους που μέχρι πρότινος δυσκολευόταν. Η Εξόρυξη Δεδομένων και η Εξαγωγή Γνώσης από αυτά είναι απαραίτητες σύγχρονες επιστημονικές διαδικασίες Κεφάλαιο 5ο ΣΥΜΠΕΡΑΣΜΑΤΑ & ΣΥΝΟΨΗ 3/11/2021