1. Πανεπιστήμιο Στερεάς Ελλάδας
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική
Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης
Θέμα Εργασίας:
WEKA
Αγγελίδου Ραΐσα 010801046
2. Εισαγωγικά
Weka: Waikato Environment for Knowledge Analysis
Η weka είναι ένα software για εξόρυξη δεδομένων
γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες
μεθόδους για:
Προεπεξεργασία Δεδομένων
Ταξινόμηση
Συσταδοποίηση
Εύρεση Κανόνων Συσχέτισης
3. Εισαγωγικά
Είναι ένα φιλικό γραφικό περιβάλλον εργασίας
Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,
ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών
μπορούν να παρουσιασθούν γραφικά με δισδιάστατα
γραφήματα
Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων
δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των
εναλλακτικών μοντέλων που θα επιλεγούν να
χρησιμοποιηθούν τελικά για την διαμόρφωση της
«θαμμένης» γνώσης.
Είναι επιλέξιμα μέσα από αναδυόμενα μενού
4. Εγκατάσταση
To software είναι διαθέσιμο για εγκατάσταση
από την ιστοσελίδα:
http://www.cs.waikato.ac.nz/ml/weka/
5. Το παράθυρο κατηγοριοποίησης
Επιτρέπει την διαμόρφωση και την εφαρμογή των
διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα
δεδομένα
Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή
ελέγχους σε ομάδες δεδομένων
Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε
κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο,
ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης
μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό
περιβάλλον.
6. Στάδια μάθησης
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a
finite domain, generate a procedure for labelling unseen
examples
ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value,
generate procedure for labelling unseen examples
ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning
examples into “interesting” groups
7. Δείκτες αποτελεσματικότητας
Ειδικότητα: probability of being correct given that your
decision
Ευαισθησία: probability of correctly identifying class
Ακρίβεια: # right/total
9. Weka environment
Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να
επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να
εφαρμοστούν τεχνικές που αφορούν :
Preprocess
Classify
Cluster
Associate
Select Attributes
Visualize
10. Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff),
εμφανίζονται γραφικά τα δεδομένα για καθένα από τα
γνωρίσματα ξεχωριστά καθώς και στατιστικές
πληροφορίες για αυτά.
Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην
οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια
κλάση εμφανίζονται με το ίδιο χρώμα
Weka environment
11. Αρχεία .arff
Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να
έχουν συγκεκριμένο format και να αποθηκεύονται με την
επέκταση .arff
Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από
μία SQL βάση.
19. Οπτικοποίηση-Συσταδοποίηση
δεδομένων
Από την καρτέλα visualize υπάρχει η δυνατότητα να
εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος
σε συνάρτηση με κάθε άλλο γνώρισμα
Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν
να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’
δεδομένων)
Από την καρτέλα cluster μπορεί να επιλεγεί ένας
αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση
και με το κουμπί start να αρχίσει η εκτέλεση του
αλγορίθμου