Weka - Data mining tool - Feature Extraction

Πανεπιστήμιο Στερεάς Ελλάδας
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική
Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης
Θέμα Εργασίας:
WEKA
Αγγελίδου Ραΐσα 010801046

Εισαγωγικά
 Weka: Waikato Environment for Knowledge Analysis
 Η weka είναι ένα software για εξόρυξη δεδομένων
γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες
μεθόδους για:
 Προεπεξεργασία Δεδομένων
 Ταξινόμηση
 Συσταδοποίηση
 Εύρεση Κανόνων Συσχέτισης

Εισαγωγικά
 Είναι ένα φιλικό γραφικό περιβάλλον εργασίας
 Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,
ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών
μπορούν να παρουσιασθούν γραφικά με δισδιάστατα
γραφήματα
 Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων
δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των
εναλλακτικών μοντέλων που θα επιλεγούν να
χρησιμοποιηθούν τελικά για την διαμόρφωση της
«θαμμένης» γνώσης.
 Είναι επιλέξιμα μέσα από αναδυόμενα μενού

Εγκατάσταση
 To software είναι διαθέσιμο για εγκατάσταση
από την ιστοσελίδα:
http://www.cs.waikato.ac.nz/ml/weka/

Το παράθυρο κατηγοριοποίησης
 Επιτρέπει την διαμόρφωση και την εφαρμογή των
διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα
δεδομένα
 Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή
ελέγχους σε ομάδες δεδομένων
 Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε
κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο,
ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης
μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό
περιβάλλον.

Στάδια μάθησης
 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a
finite domain, generate a procedure for labelling unseen
examples
 ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value,
generate procedure for labelling unseen examples
 ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning
examples into “interesting” groups

Δείκτες αποτελεσματικότητας
 Ειδικότητα: probability of being correct given that your
decision
 Ευαισθησία: probability of correctly identifying class
 Ακρίβεια: # right/total

Weka environment
Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να
επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να
εφαρμοστούν τεχνικές που αφορούν :
 Preprocess
 Classify
 Cluster
 Associate
 Select Attributes
 Visualize

 Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff),
εμφανίζονται γραφικά τα δεδομένα για καθένα από τα
γνωρίσματα ξεχωριστά καθώς και στατιστικές
πληροφορίες για αυτά.
 Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην
οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια
κλάση εμφανίζονται με το ίδιο χρώμα
Weka environment

Αρχεία .arff
 Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να
έχουν συγκεκριμένο format και να αποθηκεύονται με την
επέκταση .arff
 Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από
μία SQL βάση.

Παράδειγμα- csv2arff

Οπτικοποίηση-Συσταδοποίηση
δεδομένων
 Από την καρτέλα visualize υπάρχει η δυνατότητα να
εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος
σε συνάρτηση με κάθε άλλο γνώρισμα
 Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν
να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’
δεδομένων)
 Από την καρτέλα cluster μπορεί να επιλεγεί ένας
αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση
και με το κουμπί start να αρχίσει η εκτέλεση του
αλγορίθμου

Weka - Data mining tool - Feature Extraction

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

Similar to Weka - Data mining tool - Feature Extraction

Similar to Weka - Data mining tool - Feature Extraction (19)

Weka - Data mining tool - Feature Extraction