• Save
Basic Data Mining with Weka Training
Upcoming SlideShare
Loading in...5
×
 

Basic Data Mining with Weka Training

on

  • 3,833 views

This is an example slide for 'Basic Data Mining with Weka' course. The next training couse will be held on 31 Aug 2013 - 1 Sep 2013 at SAKI Center, SIIT, Thammasat University.

This is an example slide for 'Basic Data Mining with Weka' course. The next training couse will be held on 31 Aug 2013 - 1 Sep 2013 at SAKI Center, SIIT, Thammasat University.

Statistics

Views

Total Views
3,833
Views on SlideShare
1,633
Embed Views
2,200

Actions

Likes
8
Downloads
0
Comments
1

3 Embeds 2,200

http://saki.siit.tu.ac.th 2161
http://localhost 37
https://www.google.co.th 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Basic Data Mining with Weka Training Basic Data Mining with Weka Training Presentation Transcript

  • การการวิเคราะหขอมูลดวยเทคนิค classification ใน Weka6 โดย เอกสิทธิ์ พัชรวงศศักดา6 6 ศูนยนวัตกรรมความรูและบริการ (Service and Knowledge Innovation Center)6 สถาบันเทคโนโลยีนานาชาติสิรินธร ศูนยบางกะดี 6 มหาวิทยาลัยธรรมศาสตร6
  • แนะนำวิทยากร6 •  ชื่อ: เอกสิทธิ์ พัชรวงศศักดา3 •  การศึกษา: ปริญญาตรี วิศวกรรมคอมพิวเตอร มหาวิทยาลัยเกษตรศาสตร3 > ปริญญาโท วิศวกรรมคอมพิวเตอร มหาวิทยาลัยเกษตรศาสตร3 > ศึกษาตอระดับปริญญาเอก สถาบันเทคโนโลยีนานาชาติสิรินธร3 •  ประสบการณ:3 •  เขียนบทความเกี่ยวกับการใชงานโปรแกรม Weka ลง3 ในนิตยสาร OpenSource2Day3 •  วิทยากรประจำหลักสูตร An Introduction to Data Mining 3 (Workshop with Weka) จัดโดย Open Miner Intelligence 3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 2
  • Part 1: Introduction to data mining การวิเคราะห์ข้อมูลด้วยเทคนิค classification ใน Weka ศูนย์นวัตกรรมความรู้และบริการ สถาบันเทคโนโลยีนานาชาติสิรินธร 3
  • Data mining คืออะไร ?6 •  “The exploration and analysis of large quantities of data in order to discover meaningful patterns and rules” – Data Mining Techniques (3rd Edition)! •  เปนการวิเคราะหขอมูลเพื่อหารูปแบบ (patterns) หรือความ สัมพันธ (relation) ระหวางขอมูลในฐานขอมูลขนาดใหญ3 3 •  “Extraction of interesting (non-trivial, previously, unknown and potential useful) information from data in large databases” – Data Mining Concepts & Techniques (3rd Edition)3 •  เปนกระบวนการดึงขาวสารที่นาสนใจ และมีประโยชนแตไมเคย รูมากอนจากฐานขอมูลขนาดใหญ การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 4
  • Data mining คืออะไร ? (ตอ)6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 5 ขอมูลA เทคนิคการทำ data miningA รูปแบบที่มีประโยชนA
  • Data mining คืออะไร ? (ตอ)6 •  Predictive Analytics (PA)A •  ใชเทคนิค data mining เพื่อคาดการณสิ่งที่จะเกิดขึ้นในอนาคตA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 6 http://www.youtube.com/watch?v=SHLCGSxhH58A
  • Data mining คืออะไร ? (ตอ)6 •  การนำ data mining ไปใชงานA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 7 http://www.youtube.com/watch?v=_ZyU6po_E74A
  • เทคนิคใน data mining6 •  Classification6 •  สรางโมเดลจากขอมูลที่มีอยูA •  เพื่อทำนายเหตุการณที่จะเกิดขึ้นในอนาคตA •  Clustering6 •  แบงขอมูลเปนหลายๆ กลุม3 •  อาศัยความคลายคลึงกันของขอมูล3 •  Association rules6 •  อาศัยความสัมพันธของขอมูลที่เกิดรวมกัน3 •  สรางเปนกฎความสัมพันธ เชน “ซื้อเบียรแลวจะซื้อผาออมไปดวย”3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 8 classificationA clusteringA association rulesA
  • ตัวอยางประยุกตใชงานเทคนิค classification6 •  Spam emailA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 9
  • ตัวอยางประยุกตใชงานเทคนิค classification6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 10 •  แนะนำสาขาวิชาที่เหมาะสมใหกับ นักศึกษาคณะวิศวกรรมศาสตร มหาวิทยาลัยเกษตรศาสตรA •  สรางโมเดลในการแนะนำนิสิตวาควรจะ เลือกเรียนในสาขาวิชาใดA •  ถา ”วิชาคอมพิวเตอร” ไดเกรด C A Pและ “วิชาคณิตศาสตร” ไดเกรด B A Pแลวจะเรียนไดดีใน “ภาควิชาวิศวกรรม คอมพิวเตอร”A คอมพิวเตอร6 คณิตศาสตร6 เรียนดี6 โมเดลของภาควิชา วิศวกรรมคอมพิวเตอรA เรียนไมดี6เรียนดี6 เกรดไมดีAเกรดดีA เกรดดีA เกรดไมดีA
  • ตัวอยางประยุกตใชงานเทคนิค classification6 •  POP by S-SenseA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 11 http://pop.ssense.in.thA
  • ตัวอยางประยุกตใชงานเทคนิค classification6 •  Predicting customer pregnancyA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 12 http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/A
  • Part 2: Introduction to Weka
  • Weka คืออะไร ?6 •  Weka6 •  Waikato Environment for Knowledge AnalysisA •  เปนซอฟตแวร open source สำหรับการวิเคราะหขอมูลดวยเทคนิค Data MiningA •  สามารถดาวนโหลดมาใชได ฟรี !!!6 •  พัฒนาดวยภาษา Java และสามารถทำงานไดบนA •  WindowsA •  LinuxA •  MAC OSA •  ดาวนโหลด Weka ไดจาก A •  http://www.cs.waikato.ac.nz/ml/weka/A การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 14
  • เริ่มตนใชงาน Weka6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 15
  • Weka Explorer6 •  ใชงาน Weka โดยการคลิกผานทางหนาจอ InterfaceA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 16
  • สวนตางๆ ของ Weka Explorer6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 17 Tab สำหรับเรียกใชงานฟงกชัน ตางๆ ของ data mining9 Status: บอกวา Wekaกำลังทำงานอะไรอยู9 Log: เก็บรายละเอียดของการทำงานตางๆ9 จะเตนเมื่อกำลังทำงานอยู9 Workspace: เปนสวนสำคัญของ Weka Explorer จะใชในการปรับ เปลี่ยน พารามิเตอรตางๆ และ แสดงผลการทำงาน9
  • สวนตางๆ ของ Weka Explorer (ตอ)6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 18 •  PreprocessA •  เลือกไฟล Input จากที่ตางๆA •  ดูรายละเอียดของขอมูลA •  แกไขขอมูลที่ไมมีคาA •  แปลงขอมูลA •  ClassifyA •  จำแนกประเภทขอมูล (classification)A •  ทำนาย (prediction) คาของขอมูล ใหมโดยอาศัยขอมูลเกาA •  ClusterA •  แบงกลุมขอมูลตามความคลายคลึง (similarity)A •  AssociateA •  หารูปแบบขอมูลที่เกิดรวมกันบอยๆA •  Select attributesA •  คัดเลือกแอตทริบิวตที่สำคัญA •  VisualizeA •  แสดงผลของขอมูลในรูปแบบตางๆA
  • Part 3: Preprocess
  • Open File6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 20 •  ประเภทของไฟลที่เปน input ของ Wekaที่3 >นิมยมใช3 3 •  CSV (Comma-Separated Value)3 3 •  ARFF (Attribute-Relation File 3 Format)3 CSV ARFF
  • ARFF file6 •  ARFF File (Attribute-Relation File Format)3 •  ไฟลรูปแบบที่ Weka กำหนดขึ้นเอง3 •  แบงเปน 2 สวนหลัก3 •  สวน Header: สวนแสดงรายละเอียดตางๆ เปรียบไดกับโครงสรางฐานขอมูล (database schema)3 •  ชื่อของชุดขอมูล (relation)3 •  ชื่อของแตละแอตทริบิวต (attribute)3 •  ประเภทของขอมูลในแตละแอตทริบิวต (data type)3 •  สวน Data: สวนของขอมูล เปรียบเทียบไดกับขอมูลที่อยูในตารางฐานขอมูล3 •  ขอมูลในแอตทริบิวตตางๆ ที่ตองการใชในการวิเคราะห การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 21
  • ความแตกต่างระหว่าง ARFF และ CSV ไฟล ARFF6 •  มีรายละเอียดของ แอตทริบิวต3 ไฟล CSV6 •  ไมมีรายละเอียดของ แอตทริบิวต3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 22 customers.arff3 customers.csv3
  • Load data to Weka6 •  เปด Weka>เลือก Explorer >กดปุม Open file … >เลือกไฟล dataweather.arff3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 23 u  Ž  
  • 2: Attributes6 •  เปนสวนที่ชวยในการจัดการแอตทริบิวตตางๆ ภายในชุดขอมูล3 •  ปุม All ใชในการเลือกทุก แอตทริบิวต3 •  ปุม None ใชในการเคลียรแอตทริบิวตที่มี การเลือกอยูกอนแลว3 •  ปุม Invert ใชในการสลับสถานะของ แอตทริบิวต ระหวางถูกเลือกและไมถูก เลือก3 •  ปุม Pattern ใชในเลือกแอตทรบิวตที่มีชื่อ ตามเงื่อนไขที่กำหนด3 •  ใช Regular ExpressionJ •  ปุม Remove จะเปนการลบ แอตทริบิวตที่ เลือกออก การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 24
  • 3: Selected Attribute6 •  แสดงรายละเอียดของแอตทริบิวตที่เลือกอยู3 •  Name : ชื่อของแอตทริบิวต3 •  Type : ประเภทขอมูลในแอตทริบิวต3 •  numeric ขอมูลที่มีลักษณะเปนตัวเลข หรือ เปนเชิงปริมาณ3 •  nominal ขอมูลที่มีลักษณะเปนประเภทหรือ ไมใชตัวเลข3 •  Missing : จำนวนขอมูลในแอตทริบิวตที่ขาด หายไป3 •  Distinct : จำนวนของขอมูลที่เปนไปไดทั้งหมด เชน sunny, overcast, rainy3 •  Unique : จำนวนขอมูลที่มีการปรากฎขึ้นแคครั้ง เดียวในแอตทริบิวต การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 25 แอตทริบิวตที่มีขอมูลเปนประเภท (nominal)3 แอตทริบิวตที่มีขอมูลเปนตัวเลข (numeric)3
  • Part 4: Classification
  • ขั้นตอนการทำ classification6 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 27 แอตทริบิวต 13 แอตทริบิวต 23 คลาส3 1 0 A 0 1 B เทคนิคJ Classification J โมเดล (Model)J ขอมูลทดสอบJ (Evaluate data)J Classify/PredictJแอตทริบิวต 13 แอตทริบิวต 23 1 0 คลาสJ A 3 ขั้นตอนการสรางโมเดล3 (classification model building)3 3 ขั้นตอนการวัด3 ประสิทธิภาพ 3 (evaluation)3 Unseen data แอตทริบิวต 13 แอตทริบิวต 23 1 0 คลาสที่ ทำนายJ A คลาส จริงJ A เปรียบเทียบผลที่ไดจาก โมเดลและคำตอบจริง; 3 การใชงานจริง3 3 2 1 ขอมูลเรียนรูJ (Training data)J
  • เทคนิค Classification ใน Weka6 •  เปด Weka > เลือก Explorer > กดปุม Open file … > เลือกไฟล dataweather.arff 3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 28
  • 4: Classifier output6 •  แสดงผลการจำแนกประเภทขอมูล (classify)3 •  Run Information3 •  แสดงรายละเอียดของขอมูลที่ใช3 •  เทคนิคและพารามิเตอรที่เลือก3 •  การทดสอบประสิทธิภาพ3 •  Classifier model (full training set)3 •  แสดงโมเดล เชน tree ที่สรางไดจาก ขอมูลเรียนรูทั้งหมด 3 •  Summary3 •  คาความถูกตอง (accuracy) 3 •  กรณีที่คลาสเปนขอมูลแบบประเภท (nominal)3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 29
  • 4: Classifier output (ตอ)6 •  แสดงผลการจำแนกประเภทขอมูล (classify)3 •  Detailed Accuracy By Class3 •  คาทางสถิติของเมื่อแยกตามคลาส3 •  TP Rate : คาที่ทายถูก3 •  FP Rate : คาที่ทายผิด3 •  Confusion Matrix3 •  คอลัมน : คาที่ทำนายได3 •  แถว : คาจริง3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 30
  • เทคนิค decision tree6 •  ขอดี (pos)9 •  เขาใจไดงาย (understandable)9 •  สรางกฏไดจากตนไม9 •  IF outlook = sunny AND humidity ≤ 70 THEN play9 •  เลือกเฉพาะแอตทริบิวตที่สำคัญใน การสรางโมเดล9 •  ขอเสีย (cons)9 •  ใชไดกับคลาสที่เปนประเภท (nominal) เทานั้น9 •  ความถูกตองในการทำนายไมสูงA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 31 OutlookJ HumidityJ WindyJYesJ YesJ YesJNoJ NoJ = sunny3 = overcast3 = rainny3 ≤ 703 > 703 = TRUE3 = FALSE3
  • ตัวอยางการใชงาน decision tree6 •  ตอบคำถามที่ตองการจัดจำแนกประเภทขอมูล (Classification) ที่ตองการ ความเขาใจประกอบ9 •  ใชในการพิจารณาใหสินเชื่อแกบุคคลตางๆ9 •  ใชในการทำนายวาลูกคาคนไหนบางที่มีโอกาสจะยกเลิกใชบริการและ เหตุผลเพราะอะไร9 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 32
  • การใชงาน decision tree ใน Weka6 •  เปด Weka > เลือก Explorer > กดปุม Open file … > เลือกไฟล dataweather.arff 3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 33
  • การใชงาน decision tree ใน Weka (ตอ)6 •  คลิกที่ tab Classify3 •  กดปุม Choose3 •  เลือก classifiers3 •  เลือก trees3 •  เลือก J483 •  กดปุม Start3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 34
  • การใชงาน decision tree ใน Weka (ตอ)6 •  คลิกขวาที่โมเดลในชอง Result list 3 •  เลือก Visualize tree3 การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 35
  • หลักสูตร BASIC DATA MINING WITH WEKAA ครั้งถัดไป วันที่ 31 ส.ค. – 1 ก.ย. 2556 A รายละเอียดเพิ่มเติม: http://tinyurl.com/pqmalggA การวิเคราะหขอมูลดวยเทคนิค classification ใน Weka ศูนยนวัตกรรมความรูและบริการ สถาบันเทคโนโลยีนานาชาติสิรินธรA 36