WEKA : CLASSIFICATION
เนื้อหา
 การทาเหมืองข้อมูลจัดจาแนกประเภท Classification
 การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท
 การเลือกต้นไม้การตัดสินใจ
 ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง
 ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
 Predicted target must be categorical
 Implemented methods
– decision trees(J48, etc.) and rules
– Naïve Bayes
– neural networks
– instance-based classifiers …
 Evaluation methods
– test data set
– crossvalidation
 After loaded a data file, click “Classify” Choose a
classifier,
– Under “Classifier”: click “choose”, then a drop-
down menu appears,
– Click “trees” and select “J48” – a decision tree
algorithm
Select a test option
– Select “percentage split” with default ratio 66%
for training and 34% for testing
 Click “Start” to train and test the classifier.
– The training and testing information will be
displayed in classifier output window.
การทาเหมืองข้อมูลการจัดจาแนกประเภท
 เป็นการสร้างตัวแบบ Classifier ที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม
คลาสหรือลักษณะประจาเป้าหมายที่กาหนด
 ตัวแบบที่ต้องการอาจจะเป็น
Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น
Functions ตัวแบบในรูปของฟังก์ชัน
Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน
Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา
Misc วิธีการสร้างตัวแบบวิธีอื่น
Trees การสร้างตัวแบบโดยใช้ต้นไม้
Rules การสร้างตัวแบบโดยใช้กฎ
การเตรียมแฟ้ มข้อมูล
 กาหนดลักษณะประจาเป้ าหมายให้เป็นลักษณะประจาสุดท้าย
 บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่
ต่อเนื่องเท่านั้น
 ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า
ไม่ต่อเนื่อง
 ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out
 ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น
validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี
ค่า 3/10, 3/10 กับ 4/10
การเตรียมแฟ้ มข้อมูล
 เริ่มการทางานของซอฟต์แวร์ Weka เปิดโมดูล Explorer
 เปิดแฟ้ม weather.nominal.arff
 แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter
ก่อนเลือกแถบ Classify
 Weka  Explorer  Open file  C:/Program Files/Weka-3-
6/data/weather.nominal.arff
Classify – ID3
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี ID3
ผู้ใช้กาหนดตัวเลือก use training set เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้
ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก
ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
ไม่สามารถ Visualize Tree ได้
การเปลี่ยนลักษณะประจาให้เป็นค่าไม่ต่อเนื่อง
 Preprocess  Choose  Weka  Filters 
Unsupervised  attribute  Discretize
ปรับค่าในกล่อง bin = 3
Classify – J48
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี J48
การเรียนรู้ต้นไม้ตัดสินใจโดยใช้ขั้นตอนวิธี J48
 Weka  Explorer  Open file  C:/Program Files/Weka-3-6/data/iris.arff
More options  Output
prediction
Weka classification
Weka classification

Weka classification

  • 1.
  • 2.
    เนื้อหา  การทาเหมืองข้อมูลจัดจาแนกประเภท Classification การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท  การเลือกต้นไม้การตัดสินใจ  ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง  ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
  • 3.
     Predicted targetmust be categorical  Implemented methods – decision trees(J48, etc.) and rules – Naïve Bayes – neural networks – instance-based classifiers …  Evaluation methods – test data set – crossvalidation
  • 4.
     After loadeda data file, click “Classify” Choose a classifier, – Under “Classifier”: click “choose”, then a drop- down menu appears, – Click “trees” and select “J48” – a decision tree algorithm Select a test option – Select “percentage split” with default ratio 66% for training and 34% for testing  Click “Start” to train and test the classifier. – The training and testing information will be displayed in classifier output window.
  • 5.
    การทาเหมืองข้อมูลการจัดจาแนกประเภท  เป็นการสร้างตัวแบบ Classifierที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม คลาสหรือลักษณะประจาเป้าหมายที่กาหนด  ตัวแบบที่ต้องการอาจจะเป็น Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น Functions ตัวแบบในรูปของฟังก์ชัน Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา Misc วิธีการสร้างตัวแบบวิธีอื่น Trees การสร้างตัวแบบโดยใช้ต้นไม้ Rules การสร้างตัวแบบโดยใช้กฎ
  • 7.
    การเตรียมแฟ้ มข้อมูล  กาหนดลักษณะประจาเป้าหมายให้เป็นลักษณะประจาสุดท้าย  บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่ ต่อเนื่องเท่านั้น  ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า ไม่ต่อเนื่อง  ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out  ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี ค่า 3/10, 3/10 กับ 4/10
  • 8.
    การเตรียมแฟ้ มข้อมูล  เริ่มการทางานของซอฟต์แวร์Weka เปิดโมดูล Explorer  เปิดแฟ้ม weather.nominal.arff  แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter ก่อนเลือกแถบ Classify  Weka  Explorer  Open file  C:/Program Files/Weka-3- 6/data/weather.nominal.arff
  • 10.
    Classify – ID3 Classify  Choose  Classifiers  Trees  ขันนตอนวิธี ID3
  • 11.
    ผู้ใช้กาหนดตัวเลือก use trainingset เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้ ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
  • 12.
  • 13.
  • 14.
  • 15.
    Classify – J48 Classify  Choose  Classifiers  Trees  ขันนตอนวิธี J48
  • 18.
  • 20.
    More options Output prediction