SlideShare a Scribd company logo
1 of 24
ขั้นตอนของการเตรียมข้อมูล (Preprocessing)
การใช้ตัวกรอง (Filters) ใน Weka
การใช้ GainRatioAttributeEval
 คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ
ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้
ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก
อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval,
OneRAtributeEval,CfsSubsetEval
เรื่อง Filter ในส่วนการทา Discretize
 การเรียกใช้ตัวกรอง (Filter)
 ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็น 2 ลักษณะ คือ
 Supervised
 แปลงข้อมูลแบบอัตโนมัติ
 Unsupervised
 แปลงข้อมูลที่ผู้ใช้กาหนดเอง
ตัวกรองแบบอัตโนมัติ (Supervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
AttributeSelection Resample
ClassOrder SpreadSubsample
Discretize StratifiedRemoveFolds
NorminalToBinary
ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
Add Randomize
Discretize
(unsupervised)
RemoveFold
Normalize ReplaceMissing Value
NumbericToBinary Resample
เทคนิคการกรองแอททริบิวต์และอัลกอริทึมในการจาแนก
1. การกรองแอตทริบิวต์ (Attribute Selection)
2. การจาแนกประเภทข้อมูล (Classification)
การกรองแอตทริบิวต์ (Attribute Selection)
 เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก
โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน
เท่านั้น
 ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา
ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ
ประมวลผลลดลง
 งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้
เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล
ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
 วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด
ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ
 วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ
แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ
บิวต์ที่สนใจให้กับคลาสนั้นๆ
 วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ
(Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว
สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่
แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ
บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด
 วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้
การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้
หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
การจาแนกประเภทข้อมูล (Classification)
 J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้
ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ
โหนดใบแสดงคลาส
 NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน
 IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่
ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี
ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด
 RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น
ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function
 Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง
เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น
ของแอททริบิวต์ทุกตัวของ x
Attribute ความหมาย
Id หมายเลขประจาตัวที่ไม่ซ้ากัน
อายุ (age) อายุของลูกค้าในปี (ตัวเลข)
เพศ (sex) เพศชาย / หญิง
ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง
เงินได้ (income) รายได้ของลูกค้า (ตัวเลข)
แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No)
เด็ก (children) จานวนบุตร (ตัวเลข)
รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No)
save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No)
current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No)
การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No)
ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่
ส่งล่าสุด (Yes / No)
ขั้นตอนการทางาน
 เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน
กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
 Open file “bank-data.csv”
 เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้
ตัวแปลงเป็น .arff
 คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่
ปรากฏขึ้น
การกรองคุณสมบัติ
 ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ
ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน
 ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง
คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”
 ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้
เลื่อนลงรายชื่อและเลือก
 “weka/filters/unsupervised/attribute/Remove”
ตามลาดับ
 ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก
 ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ
ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ
(False) จากนั้นคลิก “OK”
 จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
 คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล
 ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน
ใหม่
Weka dataprepocessing
Weka dataprepocessing

More Related Content

What's hot

แผนสุขศึกษาม 6 10
แผนสุขศึกษาม 6 10แผนสุขศึกษาม 6 10
แผนสุขศึกษาม 6 10
Kruthai Kidsdee
 
3 ca-computer system structure
3 ca-computer system structure3 ca-computer system structure
3 ca-computer system structure
krissapat
 
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
DuangdenSandee
 
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
sawed kodnara
 

What's hot (20)

ประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่างประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่าง
 
03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
Gsp สำหรับมัธยม Geometer's Sketchpad
Gsp สำหรับมัธยม Geometer's SketchpadGsp สำหรับมัธยม Geometer's Sketchpad
Gsp สำหรับมัธยม Geometer's Sketchpad
 
E6
E6E6
E6
 
ค่ามาตรฐาน
ค่ามาตรฐานค่ามาตรฐาน
ค่ามาตรฐาน
 
7 statistic
7 statistic7 statistic
7 statistic
 
แผนสุขศึกษาม 6 10
แผนสุขศึกษาม 6 10แผนสุขศึกษาม 6 10
แผนสุขศึกษาม 6 10
 
การหาค่ากลางทั้ง3แบบ
การหาค่ากลางทั้ง3แบบการหาค่ากลางทั้ง3แบบ
การหาค่ากลางทั้ง3แบบ
 
เอกสารติว O-NET ม.6
เอกสารติว O-NET ม.6เอกสารติว O-NET ม.6
เอกสารติว O-NET ม.6
 
3 ca-computer system structure
3 ca-computer system structure3 ca-computer system structure
3 ca-computer system structure
 
ฟังก์ชันเชิงเส้น
ฟังก์ชันเชิงเส้นฟังก์ชันเชิงเส้น
ฟังก์ชันเชิงเส้น
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
บทเรียน1 สถิติ
บทเรียน1  สถิติบทเรียน1  สถิติ
บทเรียน1 สถิติ
 
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
การวิจัยเชิงปฏิบัติการแบบมีส่วนร่วม (Participatory Action Research : PAR)
 
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
 
Minibookbio 5 932
Minibookbio 5 932Minibookbio 5 932
Minibookbio 5 932
 
เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)
 
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
บทที่ 1 อัตราส่วนตรีโกณมิติ(ม.6 พื้นฐาน)
 
ผลต่าง
ผลต่างผลต่าง
ผลต่าง
 
4 การทบทวนเอกสาร
4 การทบทวนเอกสาร4 การทบทวนเอกสาร
4 การทบทวนเอกสาร
 

Viewers also liked

Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Weka
Dkpoon Po-ngam
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
Prakaywan Tumsangwan
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
Siwaphon
 

Viewers also liked (20)

Weka introducing
Weka introducingWeka introducing
Weka introducing
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
K means cluster in weka
K means cluster in wekaK means cluster in weka
K means cluster in weka
 
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Weka
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
 
Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69
 
Mind mapping
Mind mappingMind mapping
Mind mapping
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)
 
การสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลังการสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลัง
 
Moodle
MoodleMoodle
Moodle
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
 

Weka dataprepocessing

  • 2. การใช้ GainRatioAttributeEval  คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้ ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval, OneRAtributeEval,CfsSubsetEval
  • 3. เรื่อง Filter ในส่วนการทา Discretize  การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง แบ่งออกเป็น 2 ลักษณะ คือ  Supervised  แปลงข้อมูลแบบอัตโนมัติ  Unsupervised  แปลงข้อมูลที่ผู้ใช้กาหนดเอง
  • 4. ตัวกรองแบบอัตโนมัติ (Supervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) AttributeSelection Resample ClassOrder SpreadSubsample Discretize StratifiedRemoveFolds NorminalToBinary
  • 5. ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) Add Randomize Discretize (unsupervised) RemoveFold Normalize ReplaceMissing Value NumbericToBinary Resample
  • 7. การกรองแอตทริบิวต์ (Attribute Selection)  เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน เท่านั้น  ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ ประมวลผลลดลง  งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้ เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
  • 8.  วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ  วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ บิวต์ที่สนใจให้กับคลาสนั้นๆ
  • 9.  วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ (Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่ แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด  วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้ การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้ หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
  • 10. การจาแนกประเภทข้อมูล (Classification)  J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้ ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ โหนดใบแสดงคลาส  NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน  IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่ ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด  RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function  Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น ของแอททริบิวต์ทุกตัวของ x
  • 11. Attribute ความหมาย Id หมายเลขประจาตัวที่ไม่ซ้ากัน อายุ (age) อายุของลูกค้าในปี (ตัวเลข) เพศ (sex) เพศชาย / หญิง ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง เงินได้ (income) รายได้ของลูกค้า (ตัวเลข) แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No) เด็ก (children) จานวนบุตร (ตัวเลข) รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No) save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No) current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No) การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No) ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่ ส่งล่าสุด (Yes / No)
  • 12. ขั้นตอนการทางาน  เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
  • 13.  Open file “bank-data.csv”
  • 14.  เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้ ตัวแปลงเป็น .arff  คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่ ปรากฏขึ้น
  • 15.
  • 16.
  • 17. การกรองคุณสมบัติ  ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน  ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”  ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้ เลื่อนลงรายชื่อและเลือก  “weka/filters/unsupervised/attribute/Remove” ตามลาดับ
  • 18.
  • 19.  ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก  ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ (False) จากนั้นคลิก “OK”  จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
  • 20.
  • 21.
  • 22.  คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล  ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน ใหม่