SlideShare a Scribd company logo
1 of 20
Download to read offline
Πανεπιστήμιο Στερεάς Ελλάδας
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική
Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης
Θέμα Εργασίας:
WEKA
Αγγελίδου Ραΐσα 010801046
Εισαγωγικά
 Weka: Waikato Environment for Knowledge Analysis
 Η weka είναι ένα software για εξόρυξη δεδομένων
γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες
μεθόδους για:
 Προεπεξεργασία Δεδομένων
 Ταξινόμηση
 Συσταδοποίηση
 Εύρεση Κανόνων Συσχέτισης
Εισαγωγικά
 Είναι ένα φιλικό γραφικό περιβάλλον εργασίας
 Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,
ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών
μπορούν να παρουσιασθούν γραφικά με δισδιάστατα
γραφήματα
 Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων
δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των
εναλλακτικών μοντέλων που θα επιλεγούν να
χρησιμοποιηθούν τελικά για την διαμόρφωση της
«θαμμένης» γνώσης.
 Είναι επιλέξιμα μέσα από αναδυόμενα μενού
Εγκατάσταση
 To software είναι διαθέσιμο για εγκατάσταση
από την ιστοσελίδα:
http://www.cs.waikato.ac.nz/ml/weka/
Το παράθυρο κατηγοριοποίησης
 Επιτρέπει την διαμόρφωση και την εφαρμογή των
διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα
δεδομένα
 Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή
ελέγχους σε ομάδες δεδομένων
 Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε
κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο,
ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης
μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό
περιβάλλον.
Στάδια μάθησης
 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a
finite domain, generate a procedure for labelling unseen
examples
 ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value,
generate procedure for labelling unseen examples
 ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning
examples into “interesting” groups
Δείκτες αποτελεσματικότητας
 Ειδικότητα: probability of being correct given that your
decision
 Ευαισθησία: probability of correctly identifying class
 Ακρίβεια: # right/total
Weka environment
Weka environment
Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να
επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να
εφαρμοστούν τεχνικές που αφορούν :
 Preprocess
 Classify
 Cluster
 Associate
 Select Attributes
 Visualize
 Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff),
εμφανίζονται γραφικά τα δεδομένα για καθένα από τα
γνωρίσματα ξεχωριστά καθώς και στατιστικές
πληροφορίες για αυτά.
 Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην
οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια
κλάση εμφανίζονται με το ίδιο χρώμα
Weka environment
Αρχεία .arff
 Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να
έχουν συγκεκριμένο format και να αποθηκεύονται με την
επέκταση .arff
 Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από
μία SQL βάση.
Παράδειγμα
Παράδειγμα- csv2arff
Weka environment
Weka environment
Weka environment
Παράδειγμα
Παράδειγμα
Οπτικοποίηση-Συσταδοποίηση
δεδομένων
 Από την καρτέλα visualize υπάρχει η δυνατότητα να
εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος
σε συνάρτηση με κάθε άλλο γνώρισμα
 Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν
να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’
δεδομένων)
 Από την καρτέλα cluster μπορεί να επιλεγεί ένας
αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση
και με το κουμπί start να αρχίσει η εκτέλεση του
αλγορίθμου
Thank you!!

More Related Content

Viewers also liked

Data mining techniques using weka
Data mining techniques using wekaData mining techniques using weka
Data mining techniques using wekarathorenitin87
 
a novel approach for breast cancer detection using data mining tool weka
a novel approach for breast cancer detection using data mining tool wekaa novel approach for breast cancer detection using data mining tool weka
a novel approach for breast cancer detection using data mining tool wekaahmad abdelhafeez
 
Amazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best PracticesAmazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best PracticesAmazon Web Services
 
Weka presentation
Weka presentationWeka presentation
Weka presentationSaeed Iqbal
 
Deep Dive with Spark Streaming - Tathagata Das - Spark Meetup 2013-06-17
Deep Dive with Spark Streaming - Tathagata  Das - Spark Meetup 2013-06-17Deep Dive with Spark Streaming - Tathagata  Das - Spark Meetup 2013-06-17
Deep Dive with Spark Streaming - Tathagata Das - Spark Meetup 2013-06-17spark-project
 

Viewers also liked (6)

Data mining techniques using weka
Data mining techniques using wekaData mining techniques using weka
Data mining techniques using weka
 
a novel approach for breast cancer detection using data mining tool weka
a novel approach for breast cancer detection using data mining tool wekaa novel approach for breast cancer detection using data mining tool weka
a novel approach for breast cancer detection using data mining tool weka
 
Amazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best PracticesAmazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best Practices
 
Weka presentation
Weka presentationWeka presentation
Weka presentation
 
Deep Dive with Spark Streaming - Tathagata Das - Spark Meetup 2013-06-17
Deep Dive with Spark Streaming - Tathagata  Das - Spark Meetup 2013-06-17Deep Dive with Spark Streaming - Tathagata  Das - Spark Meetup 2013-06-17
Deep Dive with Spark Streaming - Tathagata Das - Spark Meetup 2013-06-17
 
Apache Spark Architecture
Apache Spark ArchitectureApache Spark Architecture
Apache Spark Architecture
 

Similar to Weka - Data mining tool - Feature Extraction

2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝAnastasia Stathopoulou
 
Big Data with Apache Spark and Graphx
Big Data with Apache Spark and GraphxBig Data with Apache Spark and Graphx
Big Data with Apache Spark and GraphxGeorge Sidiras
 
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGY
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGYDATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGY
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGYGeorgeDiamandis11
 
Kagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationKagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationISSEL
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...ISSEL
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...ISSEL
 
Data Mining & Applications (presentation)
Data Mining & Applications (presentation)Data Mining & Applications (presentation)
Data Mining & Applications (presentation)Konstantinos Voukelatos
 
Nikolaos Oikonomou
Nikolaos OikonomouNikolaos Oikonomou
Nikolaos OikonomouISSEL
 
Java free-book
Java free-bookJava free-book
Java free-bookble nature
 
Ioannis Loias
Ioannis LoiasIoannis Loias
Ioannis LoiasISSEL
 
Βάσεις δεδομένων Κεφ.1
Βάσεις δεδομένων Κεφ.1Βάσεις δεδομένων Κεφ.1
Βάσεις δεδομένων Κεφ.1marygeorg
 
Data Mining & Applications (questionnaire)
Data Mining & Applications (questionnaire)Data Mining & Applications (questionnaire)
Data Mining & Applications (questionnaire)Konstantinos Voukelatos
 
ergasthrio_11_diafaneies_2
ergasthrio_11_diafaneies_2ergasthrio_11_diafaneies_2
ergasthrio_11_diafaneies_2vaseisdedom
 
Ellak Document Management Introduction
Ellak Document Management IntroductionEllak Document Management Introduction
Ellak Document Management Introductionmichael_mountrakis
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...ISSEL
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...ISSEL
 
A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...Nikolaos Konstantinou
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6natasa08
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6mariakarousiou
 

Similar to Weka - Data mining tool - Feature Extraction (19)

2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
2.2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ
 
Big Data with Apache Spark and Graphx
Big Data with Apache Spark and GraphxBig Data with Apache Spark and Graphx
Big Data with Apache Spark and Graphx
 
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGY
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGYDATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGY
DATAMANAGEMENT.GR - DIGITAL TRANSFORMATION AND STRATEGY
 
Kagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationKagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis Presentation
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...
 
Data Mining & Applications (presentation)
Data Mining & Applications (presentation)Data Mining & Applications (presentation)
Data Mining & Applications (presentation)
 
Nikolaos Oikonomou
Nikolaos OikonomouNikolaos Oikonomou
Nikolaos Oikonomou
 
Java free-book
Java free-bookJava free-book
Java free-book
 
Ioannis Loias
Ioannis LoiasIoannis Loias
Ioannis Loias
 
Βάσεις δεδομένων Κεφ.1
Βάσεις δεδομένων Κεφ.1Βάσεις δεδομένων Κεφ.1
Βάσεις δεδομένων Κεφ.1
 
Data Mining & Applications (questionnaire)
Data Mining & Applications (questionnaire)Data Mining & Applications (questionnaire)
Data Mining & Applications (questionnaire)
 
ergasthrio_11_diafaneies_2
ergasthrio_11_diafaneies_2ergasthrio_11_diafaneies_2
ergasthrio_11_diafaneies_2
 
Ellak Document Management Introduction
Ellak Document Management IntroductionEllak Document Management Introduction
Ellak Document Management Introduction
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...
 
A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
 
σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6σημειώσεις συνάντηση 6
σημειώσεις συνάντηση 6
 

Weka - Data mining tool - Feature Extraction

  • 1. Πανεπιστήμιο Στερεάς Ελλάδας Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης Θέμα Εργασίας: WEKA Αγγελίδου Ραΐσα 010801046
  • 2. Εισαγωγικά  Weka: Waikato Environment for Knowledge Analysis  Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για:  Προεπεξεργασία Δεδομένων  Ταξινόμηση  Συσταδοποίηση  Εύρεση Κανόνων Συσχέτισης
  • 3. Εισαγωγικά  Είναι ένα φιλικό γραφικό περιβάλλον εργασίας  Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές, ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών μπορούν να παρουσιασθούν γραφικά με δισδιάστατα γραφήματα  Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των εναλλακτικών μοντέλων που θα επιλεγούν να χρησιμοποιηθούν τελικά για την διαμόρφωση της «θαμμένης» γνώσης.  Είναι επιλέξιμα μέσα από αναδυόμενα μενού
  • 4. Εγκατάσταση  To software είναι διαθέσιμο για εγκατάσταση από την ιστοσελίδα: http://www.cs.waikato.ac.nz/ml/weka/
  • 5. Το παράθυρο κατηγοριοποίησης  Επιτρέπει την διαμόρφωση και την εφαρμογή των διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα δεδομένα  Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή ελέγχους σε ομάδες δεδομένων  Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο, ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό περιβάλλον.
  • 6. Στάδια μάθησης  ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a finite domain, generate a procedure for labelling unseen examples  ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value, generate procedure for labelling unseen examples  ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning examples into “interesting” groups
  • 7. Δείκτες αποτελεσματικότητας  Ειδικότητα: probability of being correct given that your decision  Ευαισθησία: probability of correctly identifying class  Ακρίβεια: # right/total
  • 9. Weka environment Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν :  Preprocess  Classify  Cluster  Associate  Select Attributes  Visualize
  • 10.  Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά.  Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα Weka environment
  • 11. Αρχεία .arff  Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση .arff  Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.
  • 19. Οπτικοποίηση-Συσταδοποίηση δεδομένων  Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα  Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’ δεδομένων)  Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου