SlideShare a Scribd company logo
1 of 22
WEKA : CLASSIFICATION
เนื้อหา
 การทาเหมืองข้อมูลจัดจาแนกประเภท Classification
 การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท
 การเลือกต้นไม้การตัดสินใจ
 ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง
 ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
 Predicted target must be categorical
 Implemented methods
– decision trees(J48, etc.) and rules
– Naïve Bayes
– neural networks
– instance-based classifiers …
 Evaluation methods
– test data set
– crossvalidation
 After loaded a data file, click “Classify” Choose a
classifier,
– Under “Classifier”: click “choose”, then a drop-
down menu appears,
– Click “trees” and select “J48” – a decision tree
algorithm
Select a test option
– Select “percentage split” with default ratio 66%
for training and 34% for testing
 Click “Start” to train and test the classifier.
– The training and testing information will be
displayed in classifier output window.
การทาเหมืองข้อมูลการจัดจาแนกประเภท
 เป็นการสร้างตัวแบบ Classifier ที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม
คลาสหรือลักษณะประจาเป้าหมายที่กาหนด
 ตัวแบบที่ต้องการอาจจะเป็น
Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น
Functions ตัวแบบในรูปของฟังก์ชัน
Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน
Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา
Misc วิธีการสร้างตัวแบบวิธีอื่น
Trees การสร้างตัวแบบโดยใช้ต้นไม้
Rules การสร้างตัวแบบโดยใช้กฎ
การเตรียมแฟ้ มข้อมูล
 กาหนดลักษณะประจาเป้ าหมายให้เป็นลักษณะประจาสุดท้าย
 บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่
ต่อเนื่องเท่านั้น
 ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า
ไม่ต่อเนื่อง
 ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out
 ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น
validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี
ค่า 3/10, 3/10 กับ 4/10
การเตรียมแฟ้ มข้อมูล
 เริ่มการทางานของซอฟต์แวร์ Weka เปิดโมดูล Explorer
 เปิดแฟ้ม weather.nominal.arff
 แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter
ก่อนเลือกแถบ Classify
 Weka  Explorer  Open file  C:/Program Files/Weka-3-
6/data/weather.nominal.arff
Classify – ID3
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี ID3
ผู้ใช้กาหนดตัวเลือก use training set เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้
ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก
ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
ไม่สามารถ Visualize Tree ได้
การเปลี่ยนลักษณะประจาให้เป็นค่าไม่ต่อเนื่อง
 Preprocess  Choose  Weka  Filters 
Unsupervised  attribute  Discretize
ปรับค่าในกล่อง bin = 3
Classify – J48
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี J48
การเรียนรู้ต้นไม้ตัดสินใจโดยใช้ขั้นตอนวิธี J48
 Weka  Explorer  Open file  C:/Program Files/Weka-3-6/data/iris.arff
More options  Output
prediction
Weka classification
Weka classification

More Related Content

What's hot

2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพSomporn Amornwech
 
สมการเชิงเส้นตัวแปรเดียว
สมการเชิงเส้นตัวแปรเดียวสมการเชิงเส้นตัวแปรเดียว
สมการเชิงเส้นตัวแปรเดียวPiyanouch Suwong
 
การวิเคราะห์และการกำหนดความต้องการสารสนเทศ
การวิเคราะห์และการกำหนดความต้องการสารสนเทศการวิเคราะห์และการกำหนดความต้องการสารสนเทศ
การวิเคราะห์และการกำหนดความต้องการสารสนเทศsupimon1956
 
การแปรผันทางพันธุกรรม (Genetic variation)
การแปรผันทางพันธุกรรม (Genetic variation)การแปรผันทางพันธุกรรม (Genetic variation)
การแปรผันทางพันธุกรรม (Genetic variation)พัน พัน
 
การวัดตำแหน่งที่และการกระจาย
การวัดตำแหน่งที่และการกระจายการวัดตำแหน่งที่และการกระจาย
การวัดตำแหน่งที่และการกระจายkrurutsamee
 
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศ
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศบทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศ
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศSrion Janeprapapong
 
การอภิปรายและสรุปผลการวิจัย
การอภิปรายและสรุปผลการวิจัยการอภิปรายและสรุปผลการวิจัย
การอภิปรายและสรุปผลการวิจัยThana Chirapiwat
 
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1Sumarin Sanguanwong
 
การบริหารจัดการสินค้าคงคลัง
การบริหารจัดการสินค้าคงคลังการบริหารจัดการสินค้าคงคลัง
การบริหารจัดการสินค้าคงคลังUtai Sukviwatsirikul
 
มหัศจรรย์พืช
มหัศจรรย์พืชมหัศจรรย์พืช
มหัศจรรย์พืชWichai Likitponrak
 

What's hot (20)

2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
 
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 
Practical Data Mining: FP-Growth
Practical Data Mining: FP-GrowthPractical Data Mining: FP-Growth
Practical Data Mining: FP-Growth
 
สมการเชิงเส้นตัวแปรเดียว
สมการเชิงเส้นตัวแปรเดียวสมการเชิงเส้นตัวแปรเดียว
สมการเชิงเส้นตัวแปรเดียว
 
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
 
การวิเคราะห์และการกำหนดความต้องการสารสนเทศ
การวิเคราะห์และการกำหนดความต้องการสารสนเทศการวิเคราะห์และการกำหนดความต้องการสารสนเทศ
การวิเคราะห์และการกำหนดความต้องการสารสนเทศ
 
การแปรผันทางพันธุกรรม (Genetic variation)
การแปรผันทางพันธุกรรม (Genetic variation)การแปรผันทางพันธุกรรม (Genetic variation)
การแปรผันทางพันธุกรรม (Genetic variation)
 
Lesson2 plantrepro2
Lesson2 plantrepro2Lesson2 plantrepro2
Lesson2 plantrepro2
 
การวัดตำแหน่งที่และการกระจาย
การวัดตำแหน่งที่และการกระจายการวัดตำแหน่งที่และการกระจาย
การวัดตำแหน่งที่และการกระจาย
 
10ยูเนียน
10ยูเนียน10ยูเนียน
10ยูเนียน
 
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศ
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศบทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศ
บทที่ 2 ทฤษฎีพื้นฐานของการจัดเก็บและค้นคืนสารสนทศ
 
สถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูลสถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูล
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
การอภิปรายและสรุปผลการวิจัย
การอภิปรายและสรุปผลการวิจัยการอภิปรายและสรุปผลการวิจัย
การอภิปรายและสรุปผลการวิจัย
 
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1
ใบความรู้เรื่องเซลล์ของสิ่งมีชีวิต1
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
สถิติ
สถิติสถิติ
สถิติ
 
2 plantstruc 2
2 plantstruc 22 plantstruc 2
2 plantstruc 2
 
การบริหารจัดการสินค้าคงคลัง
การบริหารจัดการสินค้าคงคลังการบริหารจัดการสินค้าคงคลัง
การบริหารจัดการสินค้าคงคลัง
 
มหัศจรรย์พืช
มหัศจรรย์พืชมหัศจรรย์พืช
มหัศจรรย์พืช
 

More from นนทวัฒน์ บุญบา (7)

K means cluster in weka
K means cluster in wekaK means cluster in weka
K means cluster in weka
 
Note
NoteNote
Note
 
Weka association
Weka associationWeka association
Weka association
 
1 weka introducing
1 weka introducing1 weka introducing
1 weka introducing
 
08 clustering
08 clustering08 clustering
08 clustering
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
02 data werehouse
02 data werehouse02 data werehouse
02 data werehouse
 

Weka classification

  • 2. เนื้อหา  การทาเหมืองข้อมูลจัดจาแนกประเภท Classification  การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท  การเลือกต้นไม้การตัดสินใจ  ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง  ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
  • 3.  Predicted target must be categorical  Implemented methods – decision trees(J48, etc.) and rules – Naïve Bayes – neural networks – instance-based classifiers …  Evaluation methods – test data set – crossvalidation
  • 4.  After loaded a data file, click “Classify” Choose a classifier, – Under “Classifier”: click “choose”, then a drop- down menu appears, – Click “trees” and select “J48” – a decision tree algorithm Select a test option – Select “percentage split” with default ratio 66% for training and 34% for testing  Click “Start” to train and test the classifier. – The training and testing information will be displayed in classifier output window.
  • 5. การทาเหมืองข้อมูลการจัดจาแนกประเภท  เป็นการสร้างตัวแบบ Classifier ที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม คลาสหรือลักษณะประจาเป้าหมายที่กาหนด  ตัวแบบที่ต้องการอาจจะเป็น Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น Functions ตัวแบบในรูปของฟังก์ชัน Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา Misc วิธีการสร้างตัวแบบวิธีอื่น Trees การสร้างตัวแบบโดยใช้ต้นไม้ Rules การสร้างตัวแบบโดยใช้กฎ
  • 6.
  • 7. การเตรียมแฟ้ มข้อมูล  กาหนดลักษณะประจาเป้ าหมายให้เป็นลักษณะประจาสุดท้าย  บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่ ต่อเนื่องเท่านั้น  ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า ไม่ต่อเนื่อง  ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out  ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี ค่า 3/10, 3/10 กับ 4/10
  • 8. การเตรียมแฟ้ มข้อมูล  เริ่มการทางานของซอฟต์แวร์ Weka เปิดโมดูล Explorer  เปิดแฟ้ม weather.nominal.arff  แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter ก่อนเลือกแถบ Classify  Weka  Explorer  Open file  C:/Program Files/Weka-3- 6/data/weather.nominal.arff
  • 9.
  • 10. Classify – ID3  Classify  Choose  Classifiers  Trees  ขันนตอนวิธี ID3
  • 11. ผู้ใช้กาหนดตัวเลือก use training set เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้ ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
  • 15. Classify – J48  Classify  Choose  Classifiers  Trees  ขันนตอนวิธี J48
  • 16.
  • 17.
  • 19.
  • 20. More options  Output prediction