SlideShare a Scribd company logo
DATA MINING ΚΑΙ ΕΦΑΡΜΟΓEΣ
ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ
ΣΧΟΛΗΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΚΑΙΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΤΜΗΜΑΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
ΦΟΙΤΗΤΗΣ : Κωνσταντίνος Βουκελάτος
ΑΜ ΦΟΙΤΗΤΗ : E 13032 .
EΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ:
Αναπληρωτής Καθηγητής Μιχαήλ Φιλιππάκης
ΠΕΙΡΑΙΑΣ,ΟΚΤΩΒΡΙΟΣ 2021
WEEKA 3.8.5
 Ένα από τα πιο γνωστά συστήματα για την Εξόρυξη Δεδομένων
είναι το σύστημα WEKA, το οποίο αναπτύχθηκε από το
Πανεπιστήμιο του Waikato στην Νέα Ζηλανδία.
 Είναι γραμμένο σε Java και περιέχει μια μεγάλη συλλογή
αλγορίθμων και εργαλείων για θέματα εξόρυξης δεδομένων
Ασκήσεις με την
εφαρμογή
W E E K A
3 . 8 . 5
3/11/2021
ΕΦΑΡΜΟΓΗ
 Στις επόμενες διαφάνειες, θα χρησιμοποιήσουμε ένα σύνολο
δεδομένων και θα εφαρμόσουμε μέσω του WEEKA, κάποιους από
τους προαναφερθέντες αλγορίθμους.
Σύνολα Δεδομένων
3/11/2021
Απάντηση : Η πλατφόρμα μπορεί
να επεξεργαστεί αρχεία της μορφής
• .arff
• .csv
• .data
• .names
• .json
Ερώτηση : Τι μορφής αρχεία
δεδομένων μπορεί να επεξεργαστεί
η πλατφόρμα WEEKA ;
Σύνολα Δεδομένων
3/11/2021
Απάντηση : Μπορούμε να
μετατρέψουμε online το αρχείο .xsl
σε .arff και μετά μπορούμε μέσω του
WEEKA να μετατρέψουμε το .arff
αρχείο σε .csv
Ερώτηση : Εάν έχω περασμένα τα
δεδομένα σε κάποιο αρχείο .xsl δεν
μπορώ να το ανεβάσω ;
Βήματα :
Tools  ArffViewer  Open File  Choose your .arrf file  Save as .csv
file
Εκκίνηση & Επεξεργασία
3/11/2021
Απάντηση : Επιλέγοντας Explore
(1η εικόνα). Έπειτα επιλέγοντας
Open File (2η εικόνα), βρίσκουμε το
αρχείο .csv που θέλουμε να προ-
επεξεργαστούμε.
Ερώτηση : Πως ξεκινάω το WEEKA
για να εισάγω το δείγμα;
Ταξινόμηση
3/11/2021
Απάντηση : Ταξινόμηση με
Κατηγοριοποίηση, Συσταδιοποίηση
και με Κανόνες Συσχέτισης.
Ερώτηση : Τι είδους Ταξινόμηση
μπορώ να κάνω στο δείγμα μου με
το WEEKA;
Είμαστε στην ενότητα Preprocess (Προ-επεξεργασία). Δίπλα υπάρχει η
ενότητα Classify (Κατηγοριοποίηση), Clustering (Συσταδιοποίηση),
Associate (Κανόνων Συσχέτισης). Σε κάθε μία από αυτές τις ενότητες
υπάρχουν τα αντίστοιχα Αλγοριθμικά ΜοντέλαΤαξινόμησης.
Κατηγοριοποίηση
3/11/2021
Απάντηση : Στην ενότητα Classify
πλέον μπορώ να κατηγοριοποιήσω
το δείγμα μου
Ερώτηση : Πως κάνω
Κατηγοριοποίηση στο δείγμα μου;
Ερώτηση : Πως θα εξάγω δέντρο;
Απάντηση : Ανατρέχοντας τα
Μοντέλα, επιλέγω κάποιο από αυτά
του πεδίου trees. Πχ. J48
- - - - - - - -
- - - Κάθε Μοντέλο από το πεδίο
trees θα εξάγει δέντρο.
Πατώντας Start , εκκινεί ο Αλγόριθμος
Κατηγοριοποίηση
3/11/2021
Απάντηση : Το τρόπο ταξινόμησης,
τον αριθμό των φύλλων, το μέγεθος
του δέντρου, τον χρόνο εκτέλεσης
και το ποσοστό επιτυχίας σωστής
ταξινόμησης.
Ερώτηση : Τι δείχνει ο Αλγόριθμος;
Βλέπουμε τις συγκρίσεις που γίνονται
για όλες τις τιμές και τα στοιχεία του
δείγματος
Πιο κάτω , βλέπουμε τον αριθμό
φύλλων, το μέγεθος του δέντρου, τον
χρόνο εκτέλεσης και το ποσοστό
επιτυχημένης ταξινόμησης
Κατηγοριοποίηση
3/11/2021
Απάντηση : To τελευταίο τμήμα του
J48, μας δείχνει τον πίνακα
ταξινόμησης
Ερώτηση : Ποιος ο τελικός πίνακας
ταξινόμησης ;
Το Confusion Matrix είναι ο τελικός
πίνακας ταξινόμησης που θα μας
δώσει το δέντρο ταξινόμησης
Το δέντρο ταξινόμησης, βασισμένο στον
πίνακα ταξινόμησης, για το δείγμα μετά
από κατηγοριοποίηση με τον J48
- - - - - - - -
- - -
Ερώτηση : Πως βρίσκω το δέντρο
ταξινόμησης;
Απάντηση : Στο μπλε πεδίο
αριστερά που δείχνει την διενέργεια
του J48, πατάω δεξί κλικ και
επιλέγω Visualize Tree
Κατηγοριοποίηση
3/11/2021
Απάντηση : Στην ενότητα Classify,
υπήρχαν και άλλα πεδία εκτός του
trees. Στο πεδίο bayes, επιλέγω
τον Bayes Net για Bayesian
Classification
Ερώτηση : Εκτός από το δέντρο,
μπορώ να εξάγω κάποιον Γράφο
κατά την κατηγοριοποίηση με το
WEEKA;
Υπάρχουν οι Bayesian
κατηγοριοποιητές
Πατώντας Start , εκκινεί ο Αλγόριθμος
Κατηγοριοποίηση
3/11/2021
Απάντηση : Το τρόπο ταξινόμησης,
τον χρόνο εκτέλεσης και το ποσοστό
επιτυχίας σωστής ταξινόμησης.
Ερώτηση : Τι δείχνει ο Αλγόριθμος;
Βλέπουμε τον χρόνο εκτέλεσης και τον
τρόπο ταξινόμησης.
- - - - - - - -
- - -
Ερώτηση : Ποιος ο τελικός πίνακας
ταξινόμησης ;
Απάντηση : To τελευταίο τμήμα του
Bayes Net, μας δείχνει τον πίνακα
ταξινόμησης
Το Confusion Matrix είναι ο τελικός
πίνακας ταξινόμησης που θα μας
δώσει το Γράφο.
Κατηγοριοποίηση
3/11/2021
Ερώτηση : Πως βρίσκω το Γράφο ;
Απάντηση : Στο μπλε πεδίο
αριστερά που δείχνει την διενέργεια
του Bayes Net, πατάω δεξί κλικ και
επιλέγω Visualize Graph
Συσταδιοποίηση
3/11/2021
Απάντηση : Στην ενότητα Cluster
πλέον μπορώ να χωρίσω το δείγμα
μου σε συστάδες
Ερώτηση : Πως κάνω
Συσταδιοποίηση στο δείγμα μου;
Ερώτηση : Πως θα εξάγω συστάδες;
Απάντηση : Ανατρέχοντας τα
Μοντέλα, επιλέγω τον K-Means
- - - - - - - -
- - - Κάθε Μοντέλο από το πεδίο
αυτό θα εξάγει συστάδες
Πατώντας Start , εκκινεί ο Αλγόριθμος
Συσταδιοποίηση
3/11/2021
Απάντηση : Το τρόπο ταξινόμησης,
τα μεγέθη ανά συστάδα, τον χρόνο
εκτέλεσης και το ποσοστό επιτυχίας
σωστής ταξινόμησης για κάθε
συστάδα.
Ερώτηση : Τι δείχνει ο Αλγόριθμος;
Βλέπουμε τον αριθμό των
δεδομένων και πόσα και ποια
από αυτά βρίσκονται σε
συστάδες
- - - - - - - -
- - -
Ερώτηση : Πως βρίσκω τις συστάδες
Απάντηση : Στο μπλε πεδίο αριστερά
που δείχνει την διενέργεια του K-
Means, πατάω δεξί κλικ και επιλέγω
Visualize Cluster Assignments
Σχηματοποίηση συστάδων για
το σχήμα με βάση τον K-Means
ΠΡΟΣΟΧΗ ! ! !
Η συσταδιοποίηση έγινε επιλέγοντας ένα
cluster. Σύμφωνα με τον K-Means εμείς
ορίζουμε τον αριθμό των K συστάδων,
άρα ο αριθμός 1 είναι τυχαίος.
Συμπέρασμα
3/11/2021
Ερώτηση : Τι άλλο θα μπορούσε να
δώσει ένα καλύτερο αποτέλεσμα
ταξινόμησης για το δείγμα αυτό;
Ερώτηση : Με το WEEKA έκανα την
καλύτερη ταξινόμηση στο δείγμα;
Με το σύνολο δεδομένων που επιλέξαμε, ανάμεσα σε 3 τυχαίους
αλγορίθμους ταξινόμησης, ο Bayesian Belief Networks είχε καλύτερο
ποσοστό σωστής ταξινόμησης με 70.5%. Υπάρχουν ωστόσο και άλλες
αλγοριθμικές διαδικασίες αλλά και συνδυασμός αυτών που ίσως να
ταξινομούσε καλύτερα το δείγμα.
Ερώτηση : Υπάρχουν και άλλα
σχήματα που μπορούμε να εξάγουμε
με το WEEKA;
- - - - - - - -
- - -
- - - - - - - -
- - -
- - - - - - - - - - - - - - - - - - - -
- - - -
- - - - - - - - - - - - - - - - - - - -
- - - -
Μία τυχαία υπόθεση θα ήταν :
o Επιλογή 2 ή 3 συστάδων κατά την επιλογή του K-Means
o Επιλογή Naïve Bayesian Classification
o Επιλογή Decision Table
Ανάλογα με τον Αλγόριθμο Ταξινόμησης μπορούμε να εξάγουμε
διαφορετικά σχήματα για τα δεδομένα μας, όπως για τα λάθη του
κατηγοριοποιητή, μια ανάλυση κόστους / κέρδους , αλλά και σχήματα
κάποιων συγκεκριμένων Αλγορίθμων (όπως η Καμπύλη στον Naïve
Bayes).

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Data Mining & Applications (questionnaire)

  • 1. DATA MINING ΚΑΙ ΕΦΑΡΜΟΓEΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΦΟΙΤΗΤΗΣ : Κωνσταντίνος Βουκελάτος ΑΜ ΦΟΙΤΗΤΗ : E 13032 . EΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Αναπληρωτής Καθηγητής Μιχαήλ Φιλιππάκης ΠΕΙΡΑΙΑΣ,ΟΚΤΩΒΡΙΟΣ 2021
  • 2. WEEKA 3.8.5  Ένα από τα πιο γνωστά συστήματα για την Εξόρυξη Δεδομένων είναι το σύστημα WEKA, το οποίο αναπτύχθηκε από το Πανεπιστήμιο του Waikato στην Νέα Ζηλανδία.  Είναι γραμμένο σε Java και περιέχει μια μεγάλη συλλογή αλγορίθμων και εργαλείων για θέματα εξόρυξης δεδομένων Ασκήσεις με την εφαρμογή W E E K A 3 . 8 . 5 3/11/2021 ΕΦΑΡΜΟΓΗ  Στις επόμενες διαφάνειες, θα χρησιμοποιήσουμε ένα σύνολο δεδομένων και θα εφαρμόσουμε μέσω του WEEKA, κάποιους από τους προαναφερθέντες αλγορίθμους.
  • 3. Σύνολα Δεδομένων 3/11/2021 Απάντηση : Η πλατφόρμα μπορεί να επεξεργαστεί αρχεία της μορφής • .arff • .csv • .data • .names • .json Ερώτηση : Τι μορφής αρχεία δεδομένων μπορεί να επεξεργαστεί η πλατφόρμα WEEKA ;
  • 4. Σύνολα Δεδομένων 3/11/2021 Απάντηση : Μπορούμε να μετατρέψουμε online το αρχείο .xsl σε .arff και μετά μπορούμε μέσω του WEEKA να μετατρέψουμε το .arff αρχείο σε .csv Ερώτηση : Εάν έχω περασμένα τα δεδομένα σε κάποιο αρχείο .xsl δεν μπορώ να το ανεβάσω ; Βήματα : Tools  ArffViewer  Open File  Choose your .arrf file  Save as .csv file
  • 5. Εκκίνηση & Επεξεργασία 3/11/2021 Απάντηση : Επιλέγοντας Explore (1η εικόνα). Έπειτα επιλέγοντας Open File (2η εικόνα), βρίσκουμε το αρχείο .csv που θέλουμε να προ- επεξεργαστούμε. Ερώτηση : Πως ξεκινάω το WEEKA για να εισάγω το δείγμα;
  • 6. Ταξινόμηση 3/11/2021 Απάντηση : Ταξινόμηση με Κατηγοριοποίηση, Συσταδιοποίηση και με Κανόνες Συσχέτισης. Ερώτηση : Τι είδους Ταξινόμηση μπορώ να κάνω στο δείγμα μου με το WEEKA; Είμαστε στην ενότητα Preprocess (Προ-επεξεργασία). Δίπλα υπάρχει η ενότητα Classify (Κατηγοριοποίηση), Clustering (Συσταδιοποίηση), Associate (Κανόνων Συσχέτισης). Σε κάθε μία από αυτές τις ενότητες υπάρχουν τα αντίστοιχα Αλγοριθμικά ΜοντέλαΤαξινόμησης.
  • 7. Κατηγοριοποίηση 3/11/2021 Απάντηση : Στην ενότητα Classify πλέον μπορώ να κατηγοριοποιήσω το δείγμα μου Ερώτηση : Πως κάνω Κατηγοριοποίηση στο δείγμα μου; Ερώτηση : Πως θα εξάγω δέντρο; Απάντηση : Ανατρέχοντας τα Μοντέλα, επιλέγω κάποιο από αυτά του πεδίου trees. Πχ. J48 - - - - - - - - - - - Κάθε Μοντέλο από το πεδίο trees θα εξάγει δέντρο. Πατώντας Start , εκκινεί ο Αλγόριθμος
  • 8. Κατηγοριοποίηση 3/11/2021 Απάντηση : Το τρόπο ταξινόμησης, τον αριθμό των φύλλων, το μέγεθος του δέντρου, τον χρόνο εκτέλεσης και το ποσοστό επιτυχίας σωστής ταξινόμησης. Ερώτηση : Τι δείχνει ο Αλγόριθμος; Βλέπουμε τις συγκρίσεις που γίνονται για όλες τις τιμές και τα στοιχεία του δείγματος Πιο κάτω , βλέπουμε τον αριθμό φύλλων, το μέγεθος του δέντρου, τον χρόνο εκτέλεσης και το ποσοστό επιτυχημένης ταξινόμησης
  • 9. Κατηγοριοποίηση 3/11/2021 Απάντηση : To τελευταίο τμήμα του J48, μας δείχνει τον πίνακα ταξινόμησης Ερώτηση : Ποιος ο τελικός πίνακας ταξινόμησης ; Το Confusion Matrix είναι ο τελικός πίνακας ταξινόμησης που θα μας δώσει το δέντρο ταξινόμησης Το δέντρο ταξινόμησης, βασισμένο στον πίνακα ταξινόμησης, για το δείγμα μετά από κατηγοριοποίηση με τον J48 - - - - - - - - - - - Ερώτηση : Πως βρίσκω το δέντρο ταξινόμησης; Απάντηση : Στο μπλε πεδίο αριστερά που δείχνει την διενέργεια του J48, πατάω δεξί κλικ και επιλέγω Visualize Tree
  • 10. Κατηγοριοποίηση 3/11/2021 Απάντηση : Στην ενότητα Classify, υπήρχαν και άλλα πεδία εκτός του trees. Στο πεδίο bayes, επιλέγω τον Bayes Net για Bayesian Classification Ερώτηση : Εκτός από το δέντρο, μπορώ να εξάγω κάποιον Γράφο κατά την κατηγοριοποίηση με το WEEKA; Υπάρχουν οι Bayesian κατηγοριοποιητές Πατώντας Start , εκκινεί ο Αλγόριθμος
  • 11. Κατηγοριοποίηση 3/11/2021 Απάντηση : Το τρόπο ταξινόμησης, τον χρόνο εκτέλεσης και το ποσοστό επιτυχίας σωστής ταξινόμησης. Ερώτηση : Τι δείχνει ο Αλγόριθμος; Βλέπουμε τον χρόνο εκτέλεσης και τον τρόπο ταξινόμησης. - - - - - - - - - - - Ερώτηση : Ποιος ο τελικός πίνακας ταξινόμησης ; Απάντηση : To τελευταίο τμήμα του Bayes Net, μας δείχνει τον πίνακα ταξινόμησης Το Confusion Matrix είναι ο τελικός πίνακας ταξινόμησης που θα μας δώσει το Γράφο.
  • 12. Κατηγοριοποίηση 3/11/2021 Ερώτηση : Πως βρίσκω το Γράφο ; Απάντηση : Στο μπλε πεδίο αριστερά που δείχνει την διενέργεια του Bayes Net, πατάω δεξί κλικ και επιλέγω Visualize Graph
  • 13. Συσταδιοποίηση 3/11/2021 Απάντηση : Στην ενότητα Cluster πλέον μπορώ να χωρίσω το δείγμα μου σε συστάδες Ερώτηση : Πως κάνω Συσταδιοποίηση στο δείγμα μου; Ερώτηση : Πως θα εξάγω συστάδες; Απάντηση : Ανατρέχοντας τα Μοντέλα, επιλέγω τον K-Means - - - - - - - - - - - Κάθε Μοντέλο από το πεδίο αυτό θα εξάγει συστάδες Πατώντας Start , εκκινεί ο Αλγόριθμος
  • 14. Συσταδιοποίηση 3/11/2021 Απάντηση : Το τρόπο ταξινόμησης, τα μεγέθη ανά συστάδα, τον χρόνο εκτέλεσης και το ποσοστό επιτυχίας σωστής ταξινόμησης για κάθε συστάδα. Ερώτηση : Τι δείχνει ο Αλγόριθμος; Βλέπουμε τον αριθμό των δεδομένων και πόσα και ποια από αυτά βρίσκονται σε συστάδες - - - - - - - - - - - Ερώτηση : Πως βρίσκω τις συστάδες Απάντηση : Στο μπλε πεδίο αριστερά που δείχνει την διενέργεια του K- Means, πατάω δεξί κλικ και επιλέγω Visualize Cluster Assignments Σχηματοποίηση συστάδων για το σχήμα με βάση τον K-Means ΠΡΟΣΟΧΗ ! ! ! Η συσταδιοποίηση έγινε επιλέγοντας ένα cluster. Σύμφωνα με τον K-Means εμείς ορίζουμε τον αριθμό των K συστάδων, άρα ο αριθμός 1 είναι τυχαίος.
  • 15. Συμπέρασμα 3/11/2021 Ερώτηση : Τι άλλο θα μπορούσε να δώσει ένα καλύτερο αποτέλεσμα ταξινόμησης για το δείγμα αυτό; Ερώτηση : Με το WEEKA έκανα την καλύτερη ταξινόμηση στο δείγμα; Με το σύνολο δεδομένων που επιλέξαμε, ανάμεσα σε 3 τυχαίους αλγορίθμους ταξινόμησης, ο Bayesian Belief Networks είχε καλύτερο ποσοστό σωστής ταξινόμησης με 70.5%. Υπάρχουν ωστόσο και άλλες αλγοριθμικές διαδικασίες αλλά και συνδυασμός αυτών που ίσως να ταξινομούσε καλύτερα το δείγμα. Ερώτηση : Υπάρχουν και άλλα σχήματα που μπορούμε να εξάγουμε με το WEEKA; - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Μία τυχαία υπόθεση θα ήταν : o Επιλογή 2 ή 3 συστάδων κατά την επιλογή του K-Means o Επιλογή Naïve Bayesian Classification o Επιλογή Decision Table Ανάλογα με τον Αλγόριθμο Ταξινόμησης μπορούμε να εξάγουμε διαφορετικά σχήματα για τα δεδομένα μας, όπως για τα λάθη του κατηγοριοποιητή, μια ανάλυση κόστους / κέρδους , αλλά και σχήματα κάποιων συγκεκριμένων Αλγορίθμων (όπως η Καμπύλη στον Naïve Bayes).