SlideShare a Scribd company logo
1 of 16
Εργασία για το Ακαδημαϊκό Έτος 2013-14
Εξόρυξη Δεδομένων και
Επιχειρηματική Ευφυΐα
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική και Τηλεματική”
Τμήμα Πληροφορικής και Τηλεματικής
Χαροκόπειο Πανεπιστήμιο
Ομάδα Εργασίας
Αθανασίου Κωνσταντίνος, ΑΜ: 13101
Παπασπύρος Δημήτριος, ΑΜ: 13113
1
Εισαγωγή – Εργαλεία
Δημιουργία βάσης δεδομένων- Δείκτες
Δημιουργία arff αρχείων – προεπεξεργασία στο weka
Χρήση Αλγορίθμων κατηγοριοποίησης
Χρήση Δέντρων απόφασης
Κατηγοριοποιητής NaiveBayes
Κατηγοριοποιητής Decision Tables
Συμπεράσματα
Περιεχόμενα
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
2
Χρονική περίοδο δεδομένων Ευρωπαϊκής Ένωσης
2007-2011
Προσπάθεια εύρεσης βέλτιστου κατηγοριοποιητή
Προεπεξεργασία δεδομένων
Διάκριση σε 3 κατηγορίες (Βορράς, Νότος, Ανατολική
Ευρώπη)
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
3
Weka My SQL Workbench
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
4
Λήψη, επεξεργασία δεδομένων από
http://data.worldbank.org/country
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
5
Δημιουργία Βάσης Δεδομένων
Εισαγωγή δεδομένων στο εργαλείο My SQL Workbench

Δημιουργία ΒΔ
Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
6
Επιλογή χαρακτηριστικών δεδομένων
Ν α κ α λ ύ π τ ε ι έ ν α σ ύ ν ο λ ο α π ό δ ι α φ ο ρ ε τ ι κ ο ύ ς τ ο μ ε ί ς
 Αγροτική παραγωγή και αγροτικός πληθυσμός, προσδόκιμο
ζωής, Περιβάλλον, Οικονομία, Παιδεία, Υγεία, Υποδομές,
Εργασία, Τεχνολογική ανάπτυξη
Ν α δ ι α σ φ α λ ί ζ ε ι π ω ς σ χ ε τ ι κ ο ί π α ρ ά γ ο ν τ ε ς ό πω ς τ ο μ έ γ ε θ ο ς τ η ς
κ ά θ ε χ ώ ρ α ς δ ε ν ε π η ρ ε ά ζ ο υ ν τ ι ς τ ι μέ ς τ ω ν δ ε ι κ τ ώ ν
( κ α ν ο ν ι κ ο π ο ι η μ έ ν α δ ε δ ο μ έ ν α )
Ν α ε ξ α σ φ α λ ί ζ ε ι ό σ ο τ ο δ υ ν α τ ό ν π λ η ρ έ σ τ ε ρ α δ ε δ ο μ έ ν α σ τ ο
χ ρ ο ν ι κ ό δ ι ά σ τ η μ α 2 0 0 7 - 2 0 1 1 γ ι α τ ο σ ύ ν ο λ ο τ ω ν χ ω ρ ώ ν
Δημιουργία ΒΔ
Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
7
Επιλογή δεικτών
A G . P R D . C R O P . X D - C r o p p r o d u c t i o n i n d e x ( 2 0 0 4 - 2 0 0 6 = 1 0 0 ) :
S P . R U R . T O T L . Z S - R u r a l p o p u l a t i o n ( % o f t o t a l p o p u l a t i o n
S P . D Y N . L E 0 0 . I N - L i f e e x p e c t a n c y a t b i r t h , t o t a l ( y e a r s
E G . U S E . E L E C . K H . P C - E l e c t r i c p o w e r c o n s u m p t i o n ( k W h p e r
c a p i t a l
G C . D O D . T O T L . G D . Z S - C e n t r a l g o v e r n m e n t d e b t , t o t a l ( % o f G D P
S E . X P D . T O T L . G B . Z S - P u b l i c s p e n d i n g o n e d u c a t i o n , t o t a l ( % o f
G D P
I S . V E H . N V E H . P 3 - M o t o r v e h i c l e s ( p e r 1 , 0 0 0 p e o p l e
S L . U E M . T O T L . Z S - U n e m p l o y m e n t , t o t a l ( % o f t o t a l l a b o r f o r c e
S H . X P D . P C A P - H e a l t h e x p e n d i t u r e p e r c a p i t a ( c u r r e n t U S
S P . P O P . T E C H . R D . P 6 - T e c h n i c i a n s i n R & D ( p e r m i l l i o n p e o p l e
Δημιουργία ΒΔ
Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
8
@ R e l a t i o n < r e l a t i o n - n a m e
@ A t r i b u t e < a t t r i b u t e - n a m e - 1 > < a t t r i b u t e - t y p e > … @ A t r i b u t e
< a t t r i b u t e - n a m e - N > < a t t r i b u t e - t y p e
@ D a t a
Μ ι α γ ρ α μ μ ή κ ε ι μ έ ν ο υ γ ι α κ ά θ ε ε γ γ ρ α φ ή , η ο π ο ί α ν α
π ε ρ ι λ α μ β ά ν ε ι χ ω ρ ι σ μ έ ν ε ς μ ε κ ό μ μ α τ ι ς τ ι μ έ ς π ο υ π ε ρ ι γρ ά φ η κ α ν
σ τ η ν ε π ι κ ε φ α λ ί δ α τ ο υ α ρ χ ε ί ο υ .
Δημιουργία arff αρχείων –
προεπεξέργασία στο Weka
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
9
S P . R U R . T O T L . Z S - R U R A L P O P U L A T I O N
( % O F T O T A L P O P U L A T I O N ) :
Χρήση Αλγορίθμων
κατηγοριοποίησης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
10
S P . D Y N . L E 0 0 . I N - L I F E E X P E C T A N C Y A T B I R T H ,
T O T A L ( Y E A R S ) :
Χρήση Αλγορίθμων
κατηγοριοποίησης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
11
Χρήση Δένδρων
Απόφασης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
12
Χρήση Δένδρων
Απόφασης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
13
Κατηγοριοποιητής
NaiveBayes
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
14
Κατηγοριοποιητής
Decision Tables
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
15
Συμπεράσματα
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013
16
Έ γ κ υ ρ η π η γ ή δ ε δ ο μ έ ν ω ν
Ε ρ γ α λ ε ί α γ ρ ή γ ο ρ η ς π ρ ο ε π ε ξ ε ρ γ α σ ί α ς δ ε δ ο μ έ ν ω ν
Ε π ι λ ο γ ή χ α ρ α κ τ η ρ ι σ τ ι κ ώ ν κ α τ η γ ο ρ ι ο π ο ί η σ η ς
Δ ο κ ι μ έ ς μ ε δ ι α φ ο ρ ε τ ι κ ά μ ο ν τ έ λ α

More Related Content

More from Constantinos Athanasiou

More from Constantinos Athanasiou (6)

HOU-CS-UGP-11-7-2013
HOU-CS-UGP-11-7-2013HOU-CS-UGP-11-7-2013
HOU-CS-UGP-11-7-2013
 
HOU-CS-UGP-2013-12-ΑΘΑΝΑΣΙΟΥ
HOU-CS-UGP-2013-12-ΑΘΑΝΑΣΙΟΥHOU-CS-UGP-2013-12-ΑΘΑΝΑΣΙΟΥ
HOU-CS-UGP-2013-12-ΑΘΑΝΑΣΙΟΥ
 
Adoption - Cloud Computing
Adoption - Cloud ComputingAdoption - Cloud Computing
Adoption - Cloud Computing
 
Σεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας
Σεμινάριο-Μεθοδολογία Επιστημονικής ΈρευναςΣεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας
Σεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας
 
JR13 (Honeywords)
JR13 (Honeywords)JR13 (Honeywords)
JR13 (Honeywords)
 
Biomedical Cloud Computing With Amazon Web Services
Biomedical Cloud Computing With Amazon Web ServicesBiomedical Cloud Computing With Amazon Web Services
Biomedical Cloud Computing With Amazon Web Services
 

Data Mining

  • 1. Εργασία για το Ακαδημαϊκό Έτος 2013-14 Εξόρυξη Δεδομένων και Επιχειρηματική Ευφυΐα Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική και Τηλεματική” Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ομάδα Εργασίας Αθανασίου Κωνσταντίνος, ΑΜ: 13101 Παπασπύρος Δημήτριος, ΑΜ: 13113 1
  • 2. Εισαγωγή – Εργαλεία Δημιουργία βάσης δεδομένων- Δείκτες Δημιουργία arff αρχείων – προεπεξεργασία στο weka Χρήση Αλγορίθμων κατηγοριοποίησης Χρήση Δέντρων απόφασης Κατηγοριοποιητής NaiveBayes Κατηγοριοποιητής Decision Tables Συμπεράσματα Περιεχόμενα Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 2
  • 3. Χρονική περίοδο δεδομένων Ευρωπαϊκής Ένωσης 2007-2011 Προσπάθεια εύρεσης βέλτιστου κατηγοριοποιητή Προεπεξεργασία δεδομένων Διάκριση σε 3 κατηγορίες (Βορράς, Νότος, Ανατολική Ευρώπη) Εισαγωγή - Εργαλεία Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 3
  • 4. Weka My SQL Workbench Εισαγωγή - Εργαλεία Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 4
  • 5. Λήψη, επεξεργασία δεδομένων από http://data.worldbank.org/country Εισαγωγή - Εργαλεία Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 5
  • 6. Δημιουργία Βάσης Δεδομένων Εισαγωγή δεδομένων στο εργαλείο My SQL Workbench  Δημιουργία ΒΔ Δείκτες Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 6
  • 7. Επιλογή χαρακτηριστικών δεδομένων Ν α κ α λ ύ π τ ε ι έ ν α σ ύ ν ο λ ο α π ό δ ι α φ ο ρ ε τ ι κ ο ύ ς τ ο μ ε ί ς  Αγροτική παραγωγή και αγροτικός πληθυσμός, προσδόκιμο ζωής, Περιβάλλον, Οικονομία, Παιδεία, Υγεία, Υποδομές, Εργασία, Τεχνολογική ανάπτυξη Ν α δ ι α σ φ α λ ί ζ ε ι π ω ς σ χ ε τ ι κ ο ί π α ρ ά γ ο ν τ ε ς ό πω ς τ ο μ έ γ ε θ ο ς τ η ς κ ά θ ε χ ώ ρ α ς δ ε ν ε π η ρ ε ά ζ ο υ ν τ ι ς τ ι μέ ς τ ω ν δ ε ι κ τ ώ ν ( κ α ν ο ν ι κ ο π ο ι η μ έ ν α δ ε δ ο μ έ ν α ) Ν α ε ξ α σ φ α λ ί ζ ε ι ό σ ο τ ο δ υ ν α τ ό ν π λ η ρ έ σ τ ε ρ α δ ε δ ο μ έ ν α σ τ ο χ ρ ο ν ι κ ό δ ι ά σ τ η μ α 2 0 0 7 - 2 0 1 1 γ ι α τ ο σ ύ ν ο λ ο τ ω ν χ ω ρ ώ ν Δημιουργία ΒΔ Δείκτες Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 7
  • 8. Επιλογή δεικτών A G . P R D . C R O P . X D - C r o p p r o d u c t i o n i n d e x ( 2 0 0 4 - 2 0 0 6 = 1 0 0 ) : S P . R U R . T O T L . Z S - R u r a l p o p u l a t i o n ( % o f t o t a l p o p u l a t i o n S P . D Y N . L E 0 0 . I N - L i f e e x p e c t a n c y a t b i r t h , t o t a l ( y e a r s E G . U S E . E L E C . K H . P C - E l e c t r i c p o w e r c o n s u m p t i o n ( k W h p e r c a p i t a l G C . D O D . T O T L . G D . Z S - C e n t r a l g o v e r n m e n t d e b t , t o t a l ( % o f G D P S E . X P D . T O T L . G B . Z S - P u b l i c s p e n d i n g o n e d u c a t i o n , t o t a l ( % o f G D P I S . V E H . N V E H . P 3 - M o t o r v e h i c l e s ( p e r 1 , 0 0 0 p e o p l e S L . U E M . T O T L . Z S - U n e m p l o y m e n t , t o t a l ( % o f t o t a l l a b o r f o r c e S H . X P D . P C A P - H e a l t h e x p e n d i t u r e p e r c a p i t a ( c u r r e n t U S S P . P O P . T E C H . R D . P 6 - T e c h n i c i a n s i n R & D ( p e r m i l l i o n p e o p l e Δημιουργία ΒΔ Δείκτες Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 8
  • 9. @ R e l a t i o n < r e l a t i o n - n a m e @ A t r i b u t e < a t t r i b u t e - n a m e - 1 > < a t t r i b u t e - t y p e > … @ A t r i b u t e < a t t r i b u t e - n a m e - N > < a t t r i b u t e - t y p e @ D a t a Μ ι α γ ρ α μ μ ή κ ε ι μ έ ν ο υ γ ι α κ ά θ ε ε γ γ ρ α φ ή , η ο π ο ί α ν α π ε ρ ι λ α μ β ά ν ε ι χ ω ρ ι σ μ έ ν ε ς μ ε κ ό μ μ α τ ι ς τ ι μ έ ς π ο υ π ε ρ ι γρ ά φ η κ α ν σ τ η ν ε π ι κ ε φ α λ ί δ α τ ο υ α ρ χ ε ί ο υ . Δημιουργία arff αρχείων – προεπεξέργασία στο Weka Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 9
  • 10. S P . R U R . T O T L . Z S - R U R A L P O P U L A T I O N ( % O F T O T A L P O P U L A T I O N ) : Χρήση Αλγορίθμων κατηγοριοποίησης Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 10
  • 11. S P . D Y N . L E 0 0 . I N - L I F E E X P E C T A N C Y A T B I R T H , T O T A L ( Y E A R S ) : Χρήση Αλγορίθμων κατηγοριοποίησης Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 11
  • 12. Χρήση Δένδρων Απόφασης Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 12
  • 13. Χρήση Δένδρων Απόφασης Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 13
  • 14. Κατηγοριοποιητής NaiveBayes Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 14
  • 15. Κατηγοριοποιητής Decision Tables Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 15
  • 16. Συμπεράσματα Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 16 Έ γ κ υ ρ η π η γ ή δ ε δ ο μ έ ν ω ν Ε ρ γ α λ ε ί α γ ρ ή γ ο ρ η ς π ρ ο ε π ε ξ ε ρ γ α σ ί α ς δ ε δ ο μ έ ν ω ν Ε π ι λ ο γ ή χ α ρ α κ τ η ρ ι σ τ ι κ ώ ν κ α τ η γ ο ρ ι ο π ο ί η σ η ς Δ ο κ ι μ έ ς μ ε δ ι α φ ο ρ ε τ ι κ ά μ ο ν τ έ λ α