Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to Feature (Attribute) Selection with RapidMiner Studio 6

8,176 views

Published on

This presentation describe about Feature Selection methods including Filter approach and Wrapper approach. These examples use RapidMiner Studio 6.

Published in: Data & Analytics

Introduction to Feature (Attribute) Selection with RapidMiner Studio 6

  1. 1. Feature Selection 
 with RapidMiner Studio 6 (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th Eakasit Pacharawongsakda, Ph.D. Data Cube: http://facebook.com/datacube.th
  2. 2. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • ประสิทธิภาพของ Classification ขึ้นอยู่กับ แอตทริบิวต์ หรือ feature
 ที่นำมาใช้ • attribute selection เป็นวิธีการคัดเลือกแอตทริบิวต์ (หรือ feature) 
 ที่สำคัญในการสร้างโมเดล • เลือกแอตทริบิวต์ที่มีความสัมพันธ์ (correlation) กับแอตทริบิวต์ลาเบล (label) มาก • เลือกแอตทริบิวต์ที่มีความสัมพันธ์กันระหว่างแอตทริบิวต์น้อย • การทำ attribute selection เหมาะกับ • ช้อมูลที่มีจำนวนแอตทริบิวต์เป็นจำนวนเยอะ เช่น text mining • ใช้เวลาในการสร้างโมเดลนาน 2
  3. 3. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ 3 ID Free Won Cash Call Service Type 1 Y Y Y Y Y spam 2 N Y Y Y N spam compute weight ID Free Won Type 1 Y Y spam 2 N Y spam แอตทริบิวต์ทั้งหมดใน training data แอตทริบิวต์หลังจากการเลือก
 (selection) แล้ว ID Free Won Cash Call Service Type 1 Y Y Y Y Y spam 2 N Y Y Y N spam ID Free Won Type 1 Y Y spam 2 N Y spam แอตทริบิวต์ทั้งหมดใน training data แอตทริบิวต์หลังจากการเลือก
 (selection) แล้ว classification model Attribute Selection: Filter Approach Attribute Selection: Wrapper Approach
  4. 4. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 4
  5. 5. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่าความสัมพันธ์ของแต่ละแอตทริบิวต์กับแอตทริบิวต์
 ลาเบลด้วยวิธี Information Gain • ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น • คำนวณค่า Entropy และ Information Gain (IG) 5 Entropy(c1) = -p(c1) log p(c1) IG (parent, child) =  Entropy(parent) – [p(c1) × Entropy(c1) + p(c2) × Entropy(c2) + ...]
  6. 6. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 6 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature Humidity Windy ตารางค่า Information Gain
  7. 7. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 7 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity Windy ตารางค่า Information Gain
  8. 8. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 8 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity 0.152 Windy ตารางค่า Information Gain
  9. 9. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 9 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity 0.152 Windy 0.048 ตารางค่า Information Gain
  10. 10. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • เลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1 10 attribute IG Outlook 0.247 Humidity 0.152 Windy 0.048 Temperature 0.029 ID Outlook Humidity Play 1 sunny high no 2 sunny high no 3 overcast high yes 4 rainy high yes 5 rainy normal yes 6 rainy normal no 7 overcast normal yes 8 sunny high no 9 sunny normal yes 10 rainy normal yes 11 sunny normal yes 12 overcast high yes 13 overcast normal yes 14 rainy high no ตารางค่า Information Gain
  11. 11. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • โอเปอเรเตอร์ที่เกี่ยวข้อง 11 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Weight by Information Gain ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค Information Gain Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
  12. 12. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Information Gain 12 1 2
  13. 13. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ผลการคำนวณค่า Information Gain ของแต่ละแอตทริบิวต์ 13 ค่า Information Gain (IG)
  14. 14. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight มากกว่า 0.1 14 1 2 5 3 6 4
  15. 15. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ผลการคัดเลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1 15 ค่า Information Gain (IG)
  16. 16. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 16
  17. 17. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่าความสัมพันธ์ของแต่ละ feature ด้วยวิธี Chi-Square • ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น • ดูความถี่ที่เกิดขึ้นระหว่างแอตทริบิวต์ต่างๆ เทียบกับแอตทริบิวต์ลาเบล (label) • ค่า Chi-Square คำนวณได้จาก • f0 = observed frequency • fe = expected frequency 17
  18. 18. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล • Expected Frequency ของ Outlook=sunny และ Play=no
 = P(Outlook = sunny) * P(Play = no) * Total Number
 = (5/14) * (5/14) * 14 = 1.785714 18 ID Outlook Play 6 rainy no 14 rainy no 1 sunny no 2 sunny no 8 sunny no 3 overcast yes 7 overcast yes 12 overcast yes 13 overcast yes 4 rainy yes 5 rainy yes 10 rainy yes 9 sunny yes 11 sunny yes Outlook = sunny overcast rainy Total Play = no 3 0 2 5 Play = yes 2 4 3 9 Total 5 4 5 14 observed frequency
  19. 19. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล 19 ID Outlook Play 6 rainy no 14 rainy no 1 sunny no 2 sunny no 8 sunny no 3 overcast yes 7 overcast yes 12 overcast yes 13 overcast yes 4 rainy yes 5 rainy yes 10 rainy yes 9 sunny yes 11 sunny yes Outlook = sunny overcast rainy Total Play = no 3 0 2 5 Play = yes 2 4 3 9 Total 5 4 5 14 Outlook = sunny overcast rainy Total Play = no 1.786 1.429 1.786 5 Play = yes 3.214 2.571 3.214 9 Total 5 4 5 14 observed frequency expected frequency
  20. 20. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล 20 Outlook = sunny overcast rainy Play = no 3 0 2 Play = yes 2 4 3 Outlook = sunny overcast rainy Play = no 1.786 1.429 1.786 Play = yes 3.214 2.571 3.214 observed frequency expected frequency • Chi-Square = (3-1.786)2/1.786 + 
 (0-1.429)2/1.429 + 
 (2-1.786)2/1.786 +
 (2-3.214)2/3.214 +
 (4-2.571)2/2.571 +
 (3-3.214)2/3.214 = 3.547
  21. 21. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 21 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature Humidity Windy ตารางค่า Chi-Square
  22. 22. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 22 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity Windy ตารางค่า Chi-Square
  23. 23. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 23 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity 2.800 Windy ตารางค่า Chi-Square
  24. 24. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 24 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity 2.800 Windy 0.933 ตารางค่า Chi-Square
  25. 25. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • เลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0 attribute Chi-Square Outlook 3.547 Humidity 2.800 Windy 0.933 Temperature 0.570 Chi-Square-based filtering 25 ID Outlook Humidity Play 1 sunny high no 2 sunny high no 3 overcast high yes 4 rainy high yes 5 rainy normal yes 6 rainy normal no 7 overcast normal yes 8 sunny high no 9 sunny normal yes 10 rainy normal yes 11 sunny normal yes 12 overcast high yes 13 overcast normal yes 14 rainy high no ตารางค่า Chi-Square
  26. 26. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • โอเปอเรเตอร์ที่เกี่ยวข้อง 26 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Weight by Chi-Square ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค Chi-Square Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
  27. 27. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Chi- Square 27 1 4 2 3
  28. 28. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ผลการคำนวณค่า Chi-Square ของแต่ละแอตทริบิวต์ 28 ค่า Chi-Square (CS)
  29. 29. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight มากกว่า 2.0 Example 7-12: Weight by CS 29 7 5 8 6
  30. 30. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ผลการคัดเลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0 30 ค่า Chi-Square (CS)
  31. 31. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 31
  32. 32. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free อย่างเดียว 32 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Type 1 Y spam 2 N spam 3 N normal 4 N normal 5 Y spam 6 Y spam 7 N normal 8 N spam 9 N normal 10 N normal
  33. 33. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Won อย่างเดียว 33 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Won Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 Y spam 9 N normal 10 N normal
  34. 34. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Cash อย่างเดียว 34 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Cash Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 N spam 9 N normal 10 N normal
  35. 35. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free และ Won 35 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal
  36. 36. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free และ Cash 36 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal
  37. 37. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Won และ Cash 37 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Won Cash Type 1 Y Y spam 2 Y Y spam 3 N N normal 4 N N normal 5 N N spam 6 N N spam 7 N N normal 8 Y N spam 9 N N normal 10 N N normal
  38. 38. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free, Won และ Cash 38 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal
  39. 39. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • เพิ่มแอตทริบิวต์ทีละ 1 แอตทริบิวต์และคัดเลือกเฉพาะแอตทริบิวต์
 ที่มีความสำคัญเก็บไว้ • ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance ดีขึ้นก็จะเก็บแอตทริบิวต์นี้ไว้ • ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance แย่ลงก็จะดึงแอตทริบิวต์นี้ออก มา 39
  40. 40. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free อย่างเดียว 40 accuracy = 80% ID Free Type 1 Y spam 2 N spam 3 N normal 4 N normal 5 Y spam 6 Y spam 7 N normal 8 N spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  41. 41. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Won อย่างเดียว 41 accuracy = 80% ID Won Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 Y spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  42. 42. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Cash อย่างเดียว 42 accuracy = 50% ID Cash Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 N spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  43. 43. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Won 43 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal
  44. 44. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Won 44 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากให้ค่าความถูกต้องลดลง
  45. 45. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Cash 45 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal
  46. 46. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Cash 46 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากไม่ได้ทำให้ค่าความถูกต้องเพิ่มขึ้น
  47. 47. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 47 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Forward Selection ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Forward Selection X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  48. 48. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 48 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  49. 49. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 49 1 4 2 3
  50. 50. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 50 5 6
  51. 51. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • double click ที่โอเปอเรเตอร์ Forward Selection และใช้โอเปอเรเตอร์
 X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล 51 5 7
  52. 52. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-13: Forward Selection 52 10 8 9
  53. 53. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • ค่านำหนักของแต่ละแอตทริบิวต์ 53 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  54. 54. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 54 เหลือเพียงแค่ 4 แอตทริบิวต์
  55. 55. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 55
  56. 56. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 56
  57. 57. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • เริ่มจากใช้แอตทริบิวต์ทั้งหมดและตัดแอตทริบิวต์ออกไปทีละ 1 ตัว
 เพื่อคัดเลือกเฉพาะแอตทริบิวต์ที่มีความสำคัญเก็บไว้ • ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance ดีขึ้นก็จะตัดแอตทริบิวต์นี้ทิ้ง • ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance แย่ลงก็จะเก็บแอตทริบิวต์นี้ไว้ 57
  58. 58. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • ใช้แอตทริบิวต์ Free, Won และ Cash 58 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal
  59. 59. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • ใช้แอตทริบิวต์ Won และ Cash (ตัดแอตทริบิวต์ Free ทิ้ง) 59 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Won Cash Type 1 Y Y spam 2 Y Y spam 3 N N normal 4 N N normal 5 N N spam 6 N N spam 7 N N normal 8 Y N spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Free ทิ้งเนื่องจากทำให้ค่าความถูกต้องเพิ่มขึ้น
  60. 60. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โอเปอเรเตอร์ที่เกี่ยวข้อง 60 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Backward Elimination ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Backward Elimination X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  61. 61. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โอเปอเรเตอร์ที่เกี่ยวข้อง 61 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  62. 62. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 62 1 4 2 3
  63. 63. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 63 5 6
  64. 64. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • double click ที่โอเปอเรเตอร์ Backward Elimination และใช้โอเปอเรเตอร์
 X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล 64 7
  65. 65. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-14: Backward Elimination 65 10 8 9
  66. 66. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • ค่านำหนักของแต่ละแอตทริบิวต์ 66 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  67. 67. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 67 เหลือเพียงแค่ 5 แอตทริบิวต์
  68. 68. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 68
  69. 69. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 69
  70. 70. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Evolutionary Selection • Forward Selection และ Backward Elimination เป็นการทำงานแบบ greedy ถ้าเจอเซตของแอตทริบิวต์ที่ทำให้ค่าความถูกต้องเพิ่มขึ้นก็จะ หยุดการค้นหา • Evolutionary Selection • สุ่มเลือกแอตทริบิวต์ขึ้นมา และวัดประสิทธิภาพ • คัดเลือกแอตทริบิวต์ที่มีประสิทธิภาพและสุ่มเลือกตัวอื่นเพิ่มขึ้นมา 70
  71. 71. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 71 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Optimize Selection (Evolutionary) ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Optimize Selection (Evolutionary) X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  72. 72. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 72 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  73. 73. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 73 1 4 2 3
  74. 74. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 74 5 6
  75. 75. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • double click ที่โอเปอเรเตอร์ Optimize Selection (Evolutionary) 
 และใช้โอเปอเรเตอร์ X-validation จาก New Building Block เพื่อทดสอบ ประสิทธิภาพของโมเดล 75 7
  76. 76. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-15: Evolutionary Selection 76 10 8 9
  77. 77. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • ค่านำหนักของแต่ละแอตทริบิวต์ 77 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  78. 78. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 78 เหลือเพียงแค่ 5 แอตทริบิวต์
  79. 79. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 79

×