Data Mining & Applications (presentation)

DATA MINING ΚΑΙ ΕΦΑΡΜΟΓEΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ
ΣΧΟΛΗΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΚΑΙΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΤΜΗΜΑΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
ΦΟΙΤΗΤΗΣ : Κωνσταντίνος Βουκελάτος
ΑΜ ΦΟΙΤΗΤΗ : E 13032 .
EΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ:
Αναπληρωτής Καθηγητής Μιχαήλ Φιλιππάκης
ΠΕΙΡΑΙΑΣ,ΟΚΤΩΒΡΙΟΣ 2021

 Η ραγδαία ακμή των τεχνολογιών της Πληροφορικής και του
Διαδικτύου, έχει επιφέρει συσσώρευση δεδομένων στην σημερινή
κοινωνία. Πλέον κάθε τομέας της κοινωνίας αυτής, καθώς και των
επιστημών που στοχεύουν στην εξέλιξη της, είναι συνυφασμένος με την
Στατιστική Επεξεργασία Πληροφοριών. Εκεί δημιουργείται ο
επιστημονικός κλάδος της Εξόρυξης Δεδομένων (Data Mining) και
κυρίως της Ανακάλυψης Γνώσης από τα Δεδομένα αυτά (Knowledge
Discover in Databases).
 Κύριος στόχος της παρούσας πτυχιακής εργασίας, είναι η
κατανόηση των εννοιών και των πρακτικών, από τον κόσμο του
Data Mining, τα προβλήματα και οι δυσκολίες λόγω όγκου, καθώς
και η σημασία της εξαγόμενης πληροφορίας.
 Στο 1ο μέρος γίνεται μια εισαγωγή στον «Κόσμο των Δεδομένων».
Στο 2ο μέρος, γίνεται αναφορά στην δομή της Εξόρυξης Δεδομένων. Στο
3ο μέρος αναφέρονται και συγκρίνονται τα βασικά Αλγοριθμικά Μοντέλα
Εξόρυξης. Στο 4ο μέρος θα γίνει η χρήση του, του WEKA 3.8.5 ενός open
source συστήματος για την επεξεργασία των Δεδομένων, όπου θα
εφαρμόσουμε κάποιους από τους προαναφερθέντες αλγόριθμους.
ΕΙΣΑΓΩΓΗ
&
ΣΚΟΠΟΣΤΗΣ ΕΡΓΑΣΙΑΣ
3/11/2021

Data Mining
 Με τον όρο εξόρυξη δεδομένων αναφερόμαστε στην εφαρμογή
στατιστικών και υπολογιστικών μεθόδων σε δεδομένα με σκοπό την
εξαγωγή χρήσιμης πληροφορίας, όπως η κατηγοριοποίηση των
δεδομένων ή η δημιουργία μοντέλων πρόβλεψης.
 Συνδυάζει κλάδους όπως η Μηχανική Μάθηση, Στατιστική και
Τεχνική Νοημοσύνη
Knowledge Discovery in Databases
 Η Ανακάλυψη Γνώσης από Δεδομένα, είναι μία διαδικασία πολλών
βημάτων, ένα εκ των οποίων η Data Mining.
Κεφάλαιο 1ο
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
&
ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ
3/11/2021
Data
Collectio
n
Pre-
Processin
g
Data
Mining
Evaluation
Trans
formation

Δομή
Τα μοντέλα Εξόρυξης Δεδομένων είναι δύο:
Predictive / Πρόβλεψης Πρόβλεψη τιμών, χαρακτηριστικού
Descriptive / Περιγραφικό Αναγνώριση προτύπων & σχέσεων
Τεχνικές
ΔΟΜΗ ,
ΔΙΕΡΓΑΣΙΕΣ
&
ΤΕΧΝΙΚΕΣ
3/11/2021
ΠΡΟΒΛΕΨΗΣ
Classification / Κατηγοριοποίηση
Δεδομένα σε ομάδες (κλάσεις)
Regression / Παλινδρόμηση
Δεδομένα(σημεία) μίας συνάρτηση
Time Series Analysis
Τιμές σε συνάρτηση με το χρόνο
Prediction / Πρόβλεψη
Ανάθεση μελλοντικών τιμών
ΠΕΡΙΓΡΑΦΙΚΟ
Clustering / Συσταδιοποίηση
Διαχωρισμός συνόλου σε ομάδες
Summarization / Σύνοψη
Δεδομένα σε υποσύνολα
Association Rules / Καν.
Συσχέτισης
Συσχέτιση Δεδομένων
Sequence Discovery / Ακολουθίες
Σειριακά Πρότυπα σε Δεδομένα

ΑΛΓΟΡΙΘΜΙΚΑ
ΜΟΝΤΕΛΑ
ΕΞΟΡΥΞΗΣ
3/11/2021
Classification Algorithms
ID3 ευκολία
• Από τους βασικότερους
αλγορίθμους ταξινόμησης
• Παράγει δέντρα απόφασης
(προτιμά μικρά δέντρα)
• Κυρίως στο Machine Learning
C4.5 ευκολία
• No1 Αλγόριθμος Ταξινόμησης
• Εξέλιξη του ID3
• Ακόμα και για ελλιπή δεδομένα
• Αναπτύσσει δέντρο,
φτιάχνοντας κανόνες απόφασης
SVM ακρίβεια
• Νέος, Ευρείας χρήσης
• Γραμμική χαρτογράφηση για
μετασχηματισμό δεδομένων
• Γραμμική και μη ανάλυση
Clustering Algorithms
K-Means ευκολία
• O πιο συχνός σε χρήση για
συσταδιοποίηση
• Μόνο για αριθμητικά δεδομένα
K-Modes
• Εξέλιξη του K-Means
• Αριθμητικά και Κατηγορικά
δεδομένα
EM ευελιξία
• Προτίμηση χρηστών
• «χαμένα δεδομένα» ως ένα
τυχαίο δείγμα που καθορίζουν
τις ομάδες
Denclue
ταχύτητα
• Νέος με συναρτήσεις για την
πυκνότητα του χώρου

ΑΛΓΟΡΙΘΜΙΚΑ
ΜΟΝΤΕΛΑ
ΕΞΟΡΥΞΗΣ
3/11/2021
Bayesian Algorithms
Naïve απόδοση
• Βασίζεται στον Bayes
• Ανεξαρτητοποίηση δεδομένων
• Υψηλή απόδοση
• Απαιτεί λίγα δεδομένα
• Αβεβαιότητα διεκπεραίωσης
Belief Networks φιλικό
• Βασίζεται στον Bayes
• Εξαρτήσεις δεδομένων
• Ο χρήστης διαλέγει
ανεξαρτησία
Association Rules Algorithms
Apriori
ευκολία
• O βασικότερος αλγόριθμος όλων
των κανόνων συσχέτισης
• Εντοπίζει μεγάλες λίστες,
κάνοντας συνεχείς προσπελάσεις
• Βέβαια είναι αργός
ΣΥΜΠΕΡΑΣΜΑ
Η επιλογή αλγοριθμικών μοντέλων γίνεται βάσει των δεδομένων, της
ακρίβειας του αποτελέσματος και του ρυθμού διεργασιών

WEEKA 3.8.5
 Ένα από τα πιο γνωστά συστήματα για την Εξόρυξη Δεδομένων
είναι το σύστημα WEKA, το οποίο αναπτύχθηκε από το
Πανεπιστήμιο του Waikato στην Νέα Ζηλανδία.
 Είναι γραμμένο σε Java και περιέχει μια μεγάλη συλλογή
αλγορίθμων και εργαλείων για θέματα εξόρυξης δεδομένων
ΕΦΑΡΜΟΓΗ
 Για το πρακτικό κομμάτι της πτυχιακής, θα χρησιμοποιήσουμε ένα
σύνολο δεδομένων και θα εφαρμόσουμε μέσω του WEEKA,
κάποιους από τους προαναφερθέντες αλγορίθμους.
 Το δείγμα είναι από χρωματισμένα «γυαλιά», η σύσταση των
οποίων αποτελείται από αναμείξεις 9 φυσικών στοιχείων. Το αρχείο
είναι μορφής .csv
ΕΦΑΡΜΟΓΗ
W E E K A
3 . 8 . 5
3/11/2021

3/11/2021
Βήμα 1: Εκκίνηση. Χρησιμοποιούμε τον Explorer Βήμα 2: Εισαγωγή δείγματος. Πατάμε Choose

3/11/2021
Βήμα 3 : Το αρχείο μορφής .csv για προ-επεξεργασία Βήμα 4: Είμαστε στην ενότητα της Προ-επεξεργασίας.

3/11/2021
Βλέπουμε για κάθε στοιχείο τιμές. Για το Na έχουμε
πλήθος στοιχείων (214), min (10.73), max(17.38) ,
κέντρο τιμών (13.408)
Για πεδίο (πχ Type) που δεν αποτελείται από αριθμούς
αλλά από ονόματα, θα έχω άλλα attributes (τιμές
χρωμάτων, count, weight)

3/11/2021
Πατώντας το κουμπί Visualize All μπορούμε να έχουμε σε ένα παράθυρο όλα τα γραφήματα από όλες τις
μεταβλητές μας. Σχηματική οπτικοποίηση όλων των πεδίων. Εδώ τελειώνει η προ-επεξεργασία και
συνεχίζουμε με την ταξινόμηση του συνόλου δεδομένων. Υπάρχουν οι ενότητες Classify, Cluster και
Assosiate που περιέχουν τα Αλγοριθμικά Μοντέλα που αναφέραμε πιο πριν.

3/11/2021
Βήμα 5 : Στην ενότητα Classify, ανατρέχοντας τους
αλγορίθμους ταξινόμησης θα επιλέξουμε τον J48
Βήμα 6: Πατώντας Start εκκινεί ο αλγόριθμος

3/11/2021
Παρατηρούμε τον αλγόριθμο και βλέπουμε ότι το αποτέλεσμα σωστής ταξινόμησης του δείγματος είναι 66.8224%

3/11/2021
Στο τέλος παρατηρούμε και τον πίνακα ταξινόμησης. Ενώ πατώντας δεξί κλικ και την επιλογή Visualize Tree
εξάγουμε το Δέντρο Απόφασης

3/11/2021
Ας τρέξουμε και ένα αλγόριθμο Συσταδιοποίησης. Επιλέγω Cluster , K-Means , Start και βλέπω τον Αλγόριθμο.

3/11/2021
Παρατηρώ ότι το αποτέλεσμα για ένα cluster είναι 59%. Ενώ με δεξί κλικ και Visualization Cluster Assignments
θα εξάγω μια απεικόνιση των συστάδων

3/11/2021
Ας δούμε τώρα και ένα Γράφο. Επιλέγω Classify , Bayesian Networks , Start και βλέπω τον Αλγόριθμο.
Το ποσοστό επιτυχίας ταξινόμησης αγγίζει το 70.5607%

3/11/2021
Τέλος παρατηρώ τον πίνακα ταξινόμησης, ενώ πατώντας δεξί κλικ και
Visualize Graph θα εξάγω μια απεικόνιση του Γράφου

WEEKA 3.8.5
Με το σύνολο δεδομένων που επιλέξαμε, ανάμεσα σε 3 τυχαίους
αλγορίθμους ταξινόμησης, ο Bayesian Belief Networks είχε καλύτερο
ποσοστό σωστής ταξινόμησης με 70.5%. Υπάρχουν ωστόσο και άλλες
αλγοριθμικές διαδικασίες αλλά και συνδυασμός αυτών που ίσως να
ταξινομούσε καλύτερα το δείγμα. Έτσι λοιπόν :
Η Εξόρυξη εξαρτάται και από την διαδικασία και από το δείγμα.
Σύνοψη
Με την χρήση τεχνολογιών που ταξινομούν εύκολα και γρήγορα,
χαοτικά και τεράστια πακέτα δεδομένων, μπορούμε να εξάγουμε
πληροφορίες, βοηθώντας τον άνθρωπο και την κοινωνία να
αξιοποιήσει πολλούς πόρους που μέχρι πρότινος δυσκολευόταν.
Η Εξόρυξη Δεδομένων και η Εξαγωγή Γνώσης από αυτά είναι
απαραίτητες σύγχρονες επιστημονικές διαδικασίες
ΣΥΜΠΕΡΑΣΜΑΤΑ
&
ΣΥΝΟΨΗ
3/11/2021

Data Mining & Applications (presentation)

Recommended

Recommended

More Related Content

Similar to Data Mining & Applications (presentation)

Similar to Data Mining & Applications (presentation) (20)

Data Mining & Applications (presentation)