SlideShare a Scribd company logo
1 of 30
Weka Introducing
    DR. UREERAT SUKSAWATCHON
         321641 DATA MINING
What is Weka?

Waikato Environment for Knowledge Analysis
Since 1997 by Waikato University, New Zealand
Opensource software used for data analysis by data
 mining techniques
The system is written in JAVA and distributed
 under the terms of the GNU General Public License
It runs on any platform
    Linux, Windows, Mac OS, PDA
How do we get?

http://www.cs.waikato.ac.nz/ml/weka
Free Weka tutorial on Web and book
Starting Weka

Weka’s GUI
Weka Explorer
                   Tab สำำหรับกำรเรียกใช้
                   งำน




Workspace




            Status Bar
Weka Explorer

Preprocess
Classify
Cluster
Associate
Select Attributes
Visualize
Preparing the data

 ข้อมูล
     Instance
     Attribute
 กำรโหลดข้อมูลเข้ำไปในโปรแกรม Weka
     ไฟล์ CSV (Comma-Separated Value)
     ไฟล์ ARFF (Attribute-Relation File Format)
     ฐำนข้อมูล
 Data Preprocessing with Weka
     แปลงข้อมูลที่เป็นตัวเลขให้เป็นช่วง
     เพิ่มข้อมูลที่ขำดหำย
     ค้นหำข้อมูล Outliers
Ex: Customer Data

 ใช้ข้อมูลเกี่ยวกับลูกค้ำซึ่งประกอบไปด้วยข้อมูลดังต่อไปนี้

หมำยเล ชื่อ สมำชิก         เพศ     อำยุ    รำยได้
ขสมำชิก
     1         สมชัย       ชำย      25     12,000       Instance :
     2         สมพร        หญิง     18      7,000       ใช้สำำหรับ
                                                        แสดงข้อมูล
     3         สมอำรี      หญิง     35     35,000       แต่ละคน
     4        สมสุภำพ      เด็ก     15      4,000
     5         สมศรี       หญิง    300     20,000


            Attribute : ใช้สำำหรับคุณลักษณะต่ำง
            ๆ ของข้อมูล
Ex: Customer Data

 ประเภทข้อมูลในแต่ละ Attribute
     Numeric
         ข้อมูลทีเป็นตัวเลข
                  ่
         ค่าวัดเชิงปริมาณ
         ได้แก่ attribute หมายเลขสมาชิก อายุ และรายได้
     Non-numeric หรือ Categorical
         ข้อมูลประเภทต่าง ๆ
         ไม่มีลำาดับก่อนหลัง
         ได้แก่ attribute ชื่อสมาชิก และเพศ
Ex: Customer Data

 การนำาเข้าข้อมูลในโปรแกรม Weka




 Open file :นำาเข้าไฟล์ CSV หรือ ARFF ที่ได้จัดเตรียมไว้แล้ว
 Open URL : นำาเข้าไฟล์ CSV หรือ ARFF ผ่านเครือข่าย
 Open DB : ดึงข้อมูลจากฐานข้อมูล
 Generate : สร้างข้อมูลตัวอย่าง เพื่อใช้ในการทดสอบ โดยการ
  ระบุจำานวน instances และจำานวน attributes
Ex: Customer Data

 รู้จักไฟล์ CSV (Comma-Separated Value)
   ใช้เครื่องหมาย Comma (,) แบ่งระหว่าง attribute

   สามารถใช้ Excel ในการสร้างไฟล์ CSV (เลือก Save เป็น CSV Format)




                                            ไฟล์ข้อมูลในรูปแบบ CSV
       ไฟล์ข้อมูลใน Excel


***ทดลองสร้าง CSV ตาม
ตัวอย่าง
Ex: Customer Data

 รู้จักไฟล์ ARFF (Attribute-Relation File Format)
   เป็นไฟล์ที่ Weka กำาหนดขึ้นเอง

   แบ่งเป็น 2 ส่วน

   ส่วน Header: เป็นส่วนแสดงรายละเอียดต่าง ๆ
         ชื่อของชุดข้อมูล (relation)
         ชื่อของแต่ละ attribute
         ประเภทของข้อมูลในแต่ละ attribute (data type)
     ส่วน Data: เป็นส่วนของข้อมูลในแต่ละ attribute ทีต้องการใช้ในการ
                                                      ่
      วิเคราะห์
Ex: Customer Data

 Tag พิเศษที่มีในส่วน header ในไฟล์ ARFF
    @relation <relation-name>
        ใช้ในการบอกชื่อเรียกของชุดข้อมูล
    @attribute <attribute-name> <data type>
        ใช้ในการบอกชื่อ attribute และชนิดของข้อมูล
 Tag พิเศษที่มีในส่วน Data ในไฟล์ ARFF
    @data
        หมายความว่า บรรทัดต่อไปจากนี้จะเป็นส่วนของข้อมูล โดยใช้เครื่องหมาย comma คั่น
         ระหว่าง attribute
 % แทน comment หรือคำาอธิบาย
Ex: Customer Data
Ex: Customer Data

 ประเภทข้อมูลในแต่ละ attribute
     ข้อมูลที่เป็นตัวเลข
         จำานวนเต็ม และจำานวนจริง
         ใช้ keyword numeric
     ข้อมูลที่ไม่ใช่ตัวเลข (nominal) ที่ไม่มีลำาดับ
         เช่น ชือคน สิ่งของ สถานที่ เพศ
                 ่
         มักระบุค่าที่เป็นไปได้ทั้งหมดในรูปแบบของ set เช่น sex {0,1,2} เป็นต้น


 ลองเปรียบเทียบความแตกต่างระหว่าง CSV และ ARFF
Ex: Weather Data

 ใช้ขอมูลชื่อ weather.arff อยู่ใน
      ้
  C:Program FilesWeka-3-6data
 เป็นข้อมูลสภาพอากาศมีผลต่อ
  การแข่งขันเบสบอลในอเมริกา
 เก็บข้อมูลสภาพอากาศย้อนหลัง
  14 วัน
 ที่มา
  http://www.theweatherpredicti
  on.com/habyhints/285/
Ex: Weather Data

 ใช้ขอมูลชื่อ weather.arff อยู่ใน
      ้
  C:Program FilesWeka-3-6data
 เป็นข้อมูลสภาพอากาศมีผลต่อ
  การแข่งขันเบสบอลในอเมริกา
 เก็บข้อมูลสภาพอากาศย้อนหลัง
  14 วัน
 เปิด weather.arff ด้วย editor
 ที่มา
  http://www.theweatherpredicti
  on.com/habyhints/285/
Ex: Weather Data
 เปิด Weka เลือก Explorer -> กดปุ่ม Open file -> เลือกไฟล์ weather.arff

                                                                   1
                  6

                          2                               4

                      3




                                                               5
Ex: Weather Data

 ส่วนที่สำาคัญของ Preprocess คือเมนู Filter
   แปลงข้อมูล เนื่องจากบางเทคนิคทำางานได้เฉพาะข้อมูลที่เป็น nominal
     เท่านั้น
         Discretize: แปลงข้อมูลตัวเลข (numeric or real) ใหเป็นข้อมูลประเภท (nominal)
         StringToNominal: แปลงข้อมูลทีเป็นล้กษณะข้อความ (string) ให้เป็นข้อมูล
                                         ่
          ลักษณะประเภท (nominal) แก้ไขข้อมูลที่ผดพลาด
                                                 ิ
     แก้ไขข้อมูลที่ผิดพลาด
         ReplaceMissingValue: เพิ่มข้อมูลทีขาดหายไป
                                            ่
     การค้นหา Outliers
         InterquartileRange: พิจารณาจากการกระจายตัวของข้อมูล
Ex: Weather Data

 Discretization : แปลงข้อมูลตัวเลข (numeric or real) ใหเป็น
  ข้อมูลประเภท (nominal)




                           Discretize
Ex: Weather Data

 Missing Value
   ข้อมูลบางส่วนหายไป อาจเกิด        หมาย  ชื่อ  เพศ อายุ     ราย
    จาก                                เลข สมาชิก              ได้
         ความผิดพลาดในการกรอก        สมาชิ
          ข้อมูล                        ก
         ความจงใจในการให้ขอมูลจริง
                           ้
     ข้อมูลไม่น่าเชื่อถือในการ
                                       1    สมชัย    ชาย   25 12,00
      วิเคราะห์หรือทำานาย                                       0
     จากตัวอย่าง Cutomer มี           2    สมพร     หญิ   18 7,000
      ตัวอย่างใดไม่น่าเชือ่ถือ                        ง
                                       3    สมอารี   หญิ   35 35,00
                                                      ง         0
                                       4   สมสุภาพ เด็ก    15 4,000
                                       5    สมศรี    หญิ 300 20,00
Ex: Weather Data

 การ Replace missing value
   ใช้เครื่องหมาย ? แทนข้อมูลที่หายไปหรือข้อมูลที่ต้องการให้มีการ replace

   ถ้าข้อมูลเป็นตัวเลข แทนที่ดวย ค่าเฉลี่ย (mean) ของค่าใน attribute นั้น ๆ
                               ้
   ถ้าข้อมูลเป็นประเภท แทนที่ด้วย ข้อมูลที่ปรากฏบ่อยที่สุด (mode) ใน attribute
    นั้น ๆ
Ex: Weather Data

 การ Replace missing value

           หมายเ     ชื่อ     เพศ    อายุ รายได้
            ลข      สมาชิก
           สมาชิก
              1      สมชัย    ชาย    25   12,00
                                            0
              2      สมพร     หญิง   18   7,000
              3      สมอารี   หญิง   35   35,00
                                            0
              4     สมสุภาพ    ?     15   4,000
              5      สมศรี    หญิง    ?   20,00
                                            0
Ex: Weather Data

 การ Replace missing value

           หมายเ     ชื่อ     เพศ    อายุ รายได้
            ลข      สมาชิก
           สมาชิก
              1      สมชัย    ชาย    25   12,00
                                            0
              2      สมพร     หญิง   18   7,000
              3      สมอารี   หญิง   35   35,00
                                            0
              4     สมสุภาพ หญิง     15   4,000
              5      สมศรี    หญิง 22.2 20,00
                                    5     0
Ex: Weather Data

 ทดลองทำำโดยกำรแก้ไฟล์ CustomerData.arff
 Save ไฟล์ในชื่อ CustomerData_wmissing.arff
 กดปุ่ม Choose -> filters->unsupervised->attribute-
  >ReplaceMissingValues แล้วกดปุ่ม Apply
Ex: Weather Data

 Detect Outlier
   Outlier คือข้อมูลที่มีควำมผิดปกติที่แปลกแยกจำกข้อมูลส่วนใหญ่ อำจจะถือว่ำ
    เป็นข้อมูลจริงหรือ noise ก็ได้
   ใช้วิธีที่เรียกว่ำ Interquartile range (IQR)

   ทดลองกำรใช้ outlier จำกไฟล์ customer_outlier.arff

   Edit ดูขอมูลก่อน
               ้
   ก่อนทำำ outlier ควรลบข้อมูลที่ไม่เกี่ยวข้องออก ในที่คือ attribute
    Customer_ID และ Name
   กดปุ่ม Choose -> filters->unsupervised->attribute->InterquartileRange
    แล้วกดปุ่ม Apply
Memory Error

 ซอฟต์แวร์ Weka จะทำำกำรอ่ำนข้อมูลทั้ง หมดเข้ำไปเก็บไว้ในหน่วย
  ควำมจำำ (memory) ภำยในเครื่องก่อน แล้วจึงนำำข้อมูลเหล่ำนี้ไป
  ประมวลผลต่อไป
 อำจเกิด error ได้ เนื่องจำกหน่วยควำมจำำไม่พอ
 กำรคำำนวณขนำดของหน่วยควำมจำำที่ต้องใช้ คำำนวณได้จำก
Approx_mem = number of attributes * number of instances * 8
 ตัวอย่ำงเช่น ข้อมูล 10,000,000 instances มี 10 attributes จะต้อง
  ใช้หน่วยควำมจำำ
 = 10,000,000*10*8 = 800,000,000 = 800 MB
Memory Error

 ให้ทำำกำรสร้ำงข้อมูลตัวอย่ำง โดยกำรกดปุ่ม Gernerate…
   เลือก numExamples เป็น 1,000,000 แล้วกดปุ่ม Gernerate

 เม้ำส์ Click เพื่อแก้ไข parameters
Memory Error

 จะปรำกฎหน้ำต่ำงดังนี้
Memory Error

 ทำำกำรเพิ่มขนำดโดยกำรแก้ไขในไฟล์
      C:Program FilesWeka-3-6RunWeka.ini
 ทำำกำรเปลี่ยน maxheap ให้มำกขึ้น แต่ไม่เกินขนำดของหน่วย
 ควำมจำำภำยในเครื่อง

More Related Content

What's hot

แนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูลแนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูลShengyou Lin
 
บทที่ 6
บทที่ 6บทที่ 6
บทที่ 6ninjung
 
การใช้โปรแกรม Spss
การใช้โปรแกรม Spssการใช้โปรแกรม Spss
การใช้โปรแกรม Spssthaweesak mahan
 
Spssเริ่มต้น
Spssเริ่มต้นSpssเริ่มต้น
Spssเริ่มต้นsaypin
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpsskuankaaw
 
คู่มือการใช้งานSpss
คู่มือการใช้งานSpssคู่มือการใช้งานSpss
คู่มือการใช้งานSpssprapapan20
 
การใช้โปรแกรม Access เบื้องต้น
การใช้โปรแกรม Access เบื้องต้นการใช้โปรแกรม Access เบื้องต้น
การใช้โปรแกรม Access เบื้องต้นtechno UCH
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSเบญจวรรณ กลสามัญ
 
หน่วยที่ 1
หน่วยที่ 1หน่วยที่ 1
หน่วยที่ 1palmyZommanow
 
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5palmyZommanow
 

What's hot (17)

แนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูลแนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูล
 
Chapter 2 : Data Management
Chapter 2 : Data ManagementChapter 2 : Data Management
Chapter 2 : Data Management
 
บทที่ 6
บทที่ 6บทที่ 6
บทที่ 6
 
Unit3
Unit3Unit3
Unit3
 
Epi info unit09
Epi info unit09Epi info unit09
Epi info unit09
 
Epi info unit08
Epi info unit08Epi info unit08
Epi info unit08
 
การใช้โปรแกรม Spss
การใช้โปรแกรม Spssการใช้โปรแกรม Spss
การใช้โปรแกรม Spss
 
Spssเริ่มต้น
Spssเริ่มต้นSpssเริ่มต้น
Spssเริ่มต้น
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpss
 
Spss sriprapai
Spss sriprapaiSpss sriprapai
Spss sriprapai
 
คู่มือการใช้งานSpss
คู่มือการใช้งานSpssคู่มือการใช้งานSpss
คู่มือการใช้งานSpss
 
การใช้โปรแกรม Access เบื้องต้น
การใช้โปรแกรม Access เบื้องต้นการใช้โปรแกรม Access เบื้องต้น
การใช้โปรแกรม Access เบื้องต้น
 
Spss jan2010
Spss jan2010Spss jan2010
Spss jan2010
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
 
Epi info unit06
Epi info unit06Epi info unit06
Epi info unit06
 
หน่วยที่ 1
หน่วยที่ 1หน่วยที่ 1
หน่วยที่ 1
 
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
 

Viewers also liked (9)

Introduction to Weka: Application approach
Introduction to Weka: Application approachIntroduction to Weka: Application approach
Introduction to Weka: Application approach
 
Weka dataprepocessing
Weka dataprepocessingWeka dataprepocessing
Weka dataprepocessing
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Xml overview
Xml overviewXml overview
Xml overview
 
06 การทำวิจัยออนไลน์
06 การทำวิจัยออนไลน์06 การทำวิจัยออนไลน์
06 การทำวิจัยออนไลน์
 
05 วิวัฒนาการการค้าออนไลน์
05 วิวัฒนาการการค้าออนไลน์05 วิวัฒนาการการค้าออนไลน์
05 วิวัฒนาการการค้าออนไลน์
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 

Similar to Weka introducing

ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูล
ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูลความรู้เบื้องต้นเกี่ยวกับฐานข้อมูล
ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูลพัน พัน
 
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูลความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูลkruthanyaporn
 
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูลความรู้พื้นฐานเกี่ยวกับฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูลkruthanyaporn
 
การสร้างแบบสอบถาม
 การสร้างแบบสอบถาม การสร้างแบบสอบถาม
การสร้างแบบสอบถามkruthanyaporn
 

Similar to Weka introducing (6)

ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูล
ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูลความรู้เบื้องต้นเกี่ยวกับฐานข้อมูล
ความรู้เบื้องต้นเกี่ยวกับฐานข้อมูล
 
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูลความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับระบบฐานข้อมูล
 
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูลความรู้พื้นฐานเกี่ยวกับฐานข้อมูล
ความรู้พื้นฐานเกี่ยวกับฐานข้อมูล
 
11
1111
11
 
ชนิดของข้อมูลและตัวแปร
ชนิดของข้อมูลและตัวแปรชนิดของข้อมูลและตัวแปร
ชนิดของข้อมูลและตัวแปร
 
การสร้างแบบสอบถาม
 การสร้างแบบสอบถาม การสร้างแบบสอบถาม
การสร้างแบบสอบถาม
 

More from Saran Yuwanna

How to Utilize LINE@ for Food Business #2
How to Utilize LINE@ for Food Business #2How to Utilize LINE@ for Food Business #2
How to Utilize LINE@ for Food Business #2Saran Yuwanna
 
รวยสบายสไตล์ Line@
รวยสบายสไตล์ Line@รวยสบายสไตล์ Line@
รวยสบายสไตล์ Line@Saran Yuwanna
 
การแปลง Facebook profile เป็น page
การแปลง Facebook profile เป็น pageการแปลง Facebook profile เป็น page
การแปลง Facebook profile เป็น pageSaran Yuwanna
 
Mobile apps for work @nuisaran
Mobile apps for work @nuisaranMobile apps for work @nuisaran
Mobile apps for work @nuisaranSaran Yuwanna
 
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshop
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshopเทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshop
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshopSaran Yuwanna
 
การทิ้งขยะของเมืองคาวาโกเอะ
การทิ้งขยะของเมืองคาวาโกเอะการทิ้งขยะของเมืองคาวาโกเอะ
การทิ้งขยะของเมืองคาวาโกเอะSaran Yuwanna
 
Mobile apps for secretary @nuisaran
Mobile apps for secretary @nuisaranMobile apps for secretary @nuisaran
Mobile apps for secretary @nuisaranSaran Yuwanna
 
การสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งานการสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งานSaran Yuwanna
 
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอการใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอSaran Yuwanna
 
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”Saran Yuwanna
 
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...Saran Yuwanna
 
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่นใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่นSaran Yuwanna
 
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...Saran Yuwanna
 
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่นใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่นSaran Yuwanna
 
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...Saran Yuwanna
 
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 255740 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557Saran Yuwanna
 
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะหวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะSaran Yuwanna
 
Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่Saran Yuwanna
 
Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร Saran Yuwanna
 
Social media for pr สปสช
Social media for pr สปสชSocial media for pr สปสช
Social media for pr สปสชSaran Yuwanna
 

More from Saran Yuwanna (20)

How to Utilize LINE@ for Food Business #2
How to Utilize LINE@ for Food Business #2How to Utilize LINE@ for Food Business #2
How to Utilize LINE@ for Food Business #2
 
รวยสบายสไตล์ Line@
รวยสบายสไตล์ Line@รวยสบายสไตล์ Line@
รวยสบายสไตล์ Line@
 
การแปลง Facebook profile เป็น page
การแปลง Facebook profile เป็น pageการแปลง Facebook profile เป็น page
การแปลง Facebook profile เป็น page
 
Mobile apps for work @nuisaran
Mobile apps for work @nuisaranMobile apps for work @nuisaran
Mobile apps for work @nuisaran
 
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshop
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshopเทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshop
เทคนิคขายของออนไลน์ให้ปัง ให้รวย : lnwshop
 
การทิ้งขยะของเมืองคาวาโกเอะ
การทิ้งขยะของเมืองคาวาโกเอะการทิ้งขยะของเมืองคาวาโกเอะ
การทิ้งขยะของเมืองคาวาโกเอะ
 
Mobile apps for secretary @nuisaran
Mobile apps for secretary @nuisaranMobile apps for secretary @nuisaran
Mobile apps for secretary @nuisaran
 
การสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งานการสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งาน
 
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอการใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
 
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
 
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
 
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่นใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
 
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
 
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่นใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
 
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
 
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 255740 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
 
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะหวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
 
Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่
 
Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร
 
Social media for pr สปสช
Social media for pr สปสชSocial media for pr สปสช
Social media for pr สปสช
 

Weka introducing

  • 1. Weka Introducing DR. UREERAT SUKSAWATCHON 321641 DATA MINING
  • 2. What is Weka? Waikato Environment for Knowledge Analysis Since 1997 by Waikato University, New Zealand Opensource software used for data analysis by data mining techniques The system is written in JAVA and distributed under the terms of the GNU General Public License It runs on any platform  Linux, Windows, Mac OS, PDA
  • 3. How do we get? http://www.cs.waikato.ac.nz/ml/weka Free Weka tutorial on Web and book
  • 5. Weka Explorer Tab สำำหรับกำรเรียกใช้ งำน Workspace Status Bar
  • 7. Preparing the data  ข้อมูล  Instance  Attribute  กำรโหลดข้อมูลเข้ำไปในโปรแกรม Weka  ไฟล์ CSV (Comma-Separated Value)  ไฟล์ ARFF (Attribute-Relation File Format)  ฐำนข้อมูล  Data Preprocessing with Weka  แปลงข้อมูลที่เป็นตัวเลขให้เป็นช่วง  เพิ่มข้อมูลที่ขำดหำย  ค้นหำข้อมูล Outliers
  • 8. Ex: Customer Data  ใช้ข้อมูลเกี่ยวกับลูกค้ำซึ่งประกอบไปด้วยข้อมูลดังต่อไปนี้ หมำยเล ชื่อ สมำชิก เพศ อำยุ รำยได้ ขสมำชิก 1 สมชัย ชำย 25 12,000 Instance : 2 สมพร หญิง 18 7,000 ใช้สำำหรับ แสดงข้อมูล 3 สมอำรี หญิง 35 35,000 แต่ละคน 4 สมสุภำพ เด็ก 15 4,000 5 สมศรี หญิง 300 20,000 Attribute : ใช้สำำหรับคุณลักษณะต่ำง ๆ ของข้อมูล
  • 9. Ex: Customer Data  ประเภทข้อมูลในแต่ละ Attribute  Numeric  ข้อมูลทีเป็นตัวเลข ่  ค่าวัดเชิงปริมาณ  ได้แก่ attribute หมายเลขสมาชิก อายุ และรายได้  Non-numeric หรือ Categorical  ข้อมูลประเภทต่าง ๆ  ไม่มีลำาดับก่อนหลัง  ได้แก่ attribute ชื่อสมาชิก และเพศ
  • 10. Ex: Customer Data  การนำาเข้าข้อมูลในโปรแกรม Weka  Open file :นำาเข้าไฟล์ CSV หรือ ARFF ที่ได้จัดเตรียมไว้แล้ว  Open URL : นำาเข้าไฟล์ CSV หรือ ARFF ผ่านเครือข่าย  Open DB : ดึงข้อมูลจากฐานข้อมูล  Generate : สร้างข้อมูลตัวอย่าง เพื่อใช้ในการทดสอบ โดยการ ระบุจำานวน instances และจำานวน attributes
  • 11. Ex: Customer Data  รู้จักไฟล์ CSV (Comma-Separated Value)  ใช้เครื่องหมาย Comma (,) แบ่งระหว่าง attribute  สามารถใช้ Excel ในการสร้างไฟล์ CSV (เลือก Save เป็น CSV Format) ไฟล์ข้อมูลในรูปแบบ CSV ไฟล์ข้อมูลใน Excel ***ทดลองสร้าง CSV ตาม ตัวอย่าง
  • 12. Ex: Customer Data  รู้จักไฟล์ ARFF (Attribute-Relation File Format)  เป็นไฟล์ที่ Weka กำาหนดขึ้นเอง  แบ่งเป็น 2 ส่วน  ส่วน Header: เป็นส่วนแสดงรายละเอียดต่าง ๆ  ชื่อของชุดข้อมูล (relation)  ชื่อของแต่ละ attribute  ประเภทของข้อมูลในแต่ละ attribute (data type)  ส่วน Data: เป็นส่วนของข้อมูลในแต่ละ attribute ทีต้องการใช้ในการ ่ วิเคราะห์
  • 13. Ex: Customer Data  Tag พิเศษที่มีในส่วน header ในไฟล์ ARFF  @relation <relation-name>  ใช้ในการบอกชื่อเรียกของชุดข้อมูล  @attribute <attribute-name> <data type>  ใช้ในการบอกชื่อ attribute และชนิดของข้อมูล  Tag พิเศษที่มีในส่วน Data ในไฟล์ ARFF  @data  หมายความว่า บรรทัดต่อไปจากนี้จะเป็นส่วนของข้อมูล โดยใช้เครื่องหมาย comma คั่น ระหว่าง attribute  % แทน comment หรือคำาอธิบาย
  • 15. Ex: Customer Data  ประเภทข้อมูลในแต่ละ attribute  ข้อมูลที่เป็นตัวเลข  จำานวนเต็ม และจำานวนจริง  ใช้ keyword numeric  ข้อมูลที่ไม่ใช่ตัวเลข (nominal) ที่ไม่มีลำาดับ  เช่น ชือคน สิ่งของ สถานที่ เพศ ่  มักระบุค่าที่เป็นไปได้ทั้งหมดในรูปแบบของ set เช่น sex {0,1,2} เป็นต้น  ลองเปรียบเทียบความแตกต่างระหว่าง CSV และ ARFF
  • 16. Ex: Weather Data  ใช้ขอมูลชื่อ weather.arff อยู่ใน ้ C:Program FilesWeka-3-6data  เป็นข้อมูลสภาพอากาศมีผลต่อ การแข่งขันเบสบอลในอเมริกา  เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน  ที่มา http://www.theweatherpredicti on.com/habyhints/285/
  • 17. Ex: Weather Data  ใช้ขอมูลชื่อ weather.arff อยู่ใน ้ C:Program FilesWeka-3-6data  เป็นข้อมูลสภาพอากาศมีผลต่อ การแข่งขันเบสบอลในอเมริกา  เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน  เปิด weather.arff ด้วย editor  ที่มา http://www.theweatherpredicti on.com/habyhints/285/
  • 18. Ex: Weather Data  เปิด Weka เลือก Explorer -> กดปุ่ม Open file -> เลือกไฟล์ weather.arff 1 6 2 4 3 5
  • 19. Ex: Weather Data  ส่วนที่สำาคัญของ Preprocess คือเมนู Filter  แปลงข้อมูล เนื่องจากบางเทคนิคทำางานได้เฉพาะข้อมูลที่เป็น nominal เท่านั้น  Discretize: แปลงข้อมูลตัวเลข (numeric or real) ใหเป็นข้อมูลประเภท (nominal)  StringToNominal: แปลงข้อมูลทีเป็นล้กษณะข้อความ (string) ให้เป็นข้อมูล ่ ลักษณะประเภท (nominal) แก้ไขข้อมูลที่ผดพลาด ิ  แก้ไขข้อมูลที่ผิดพลาด  ReplaceMissingValue: เพิ่มข้อมูลทีขาดหายไป ่  การค้นหา Outliers  InterquartileRange: พิจารณาจากการกระจายตัวของข้อมูล
  • 20. Ex: Weather Data  Discretization : แปลงข้อมูลตัวเลข (numeric or real) ใหเป็น ข้อมูลประเภท (nominal) Discretize
  • 21. Ex: Weather Data  Missing Value  ข้อมูลบางส่วนหายไป อาจเกิด หมาย ชื่อ เพศ อายุ ราย จาก เลข สมาชิก ได้  ความผิดพลาดในการกรอก สมาชิ ข้อมูล ก  ความจงใจในการให้ขอมูลจริง ้  ข้อมูลไม่น่าเชื่อถือในการ 1 สมชัย ชาย 25 12,00 วิเคราะห์หรือทำานาย 0  จากตัวอย่าง Cutomer มี 2 สมพร หญิ 18 7,000 ตัวอย่างใดไม่น่าเชือ่ถือ ง 3 สมอารี หญิ 35 35,00 ง 0 4 สมสุภาพ เด็ก 15 4,000 5 สมศรี หญิ 300 20,00
  • 22. Ex: Weather Data  การ Replace missing value  ใช้เครื่องหมาย ? แทนข้อมูลที่หายไปหรือข้อมูลที่ต้องการให้มีการ replace  ถ้าข้อมูลเป็นตัวเลข แทนที่ดวย ค่าเฉลี่ย (mean) ของค่าใน attribute นั้น ๆ ้  ถ้าข้อมูลเป็นประเภท แทนที่ด้วย ข้อมูลที่ปรากฏบ่อยที่สุด (mode) ใน attribute นั้น ๆ
  • 23. Ex: Weather Data  การ Replace missing value หมายเ ชื่อ เพศ อายุ รายได้ ลข สมาชิก สมาชิก 1 สมชัย ชาย 25 12,00 0 2 สมพร หญิง 18 7,000 3 สมอารี หญิง 35 35,00 0 4 สมสุภาพ ? 15 4,000 5 สมศรี หญิง ? 20,00 0
  • 24. Ex: Weather Data  การ Replace missing value หมายเ ชื่อ เพศ อายุ รายได้ ลข สมาชิก สมาชิก 1 สมชัย ชาย 25 12,00 0 2 สมพร หญิง 18 7,000 3 สมอารี หญิง 35 35,00 0 4 สมสุภาพ หญิง 15 4,000 5 สมศรี หญิง 22.2 20,00 5 0
  • 25. Ex: Weather Data  ทดลองทำำโดยกำรแก้ไฟล์ CustomerData.arff  Save ไฟล์ในชื่อ CustomerData_wmissing.arff  กดปุ่ม Choose -> filters->unsupervised->attribute- >ReplaceMissingValues แล้วกดปุ่ม Apply
  • 26. Ex: Weather Data  Detect Outlier  Outlier คือข้อมูลที่มีควำมผิดปกติที่แปลกแยกจำกข้อมูลส่วนใหญ่ อำจจะถือว่ำ เป็นข้อมูลจริงหรือ noise ก็ได้  ใช้วิธีที่เรียกว่ำ Interquartile range (IQR)  ทดลองกำรใช้ outlier จำกไฟล์ customer_outlier.arff  Edit ดูขอมูลก่อน ้  ก่อนทำำ outlier ควรลบข้อมูลที่ไม่เกี่ยวข้องออก ในที่คือ attribute Customer_ID และ Name  กดปุ่ม Choose -> filters->unsupervised->attribute->InterquartileRange แล้วกดปุ่ม Apply
  • 27. Memory Error  ซอฟต์แวร์ Weka จะทำำกำรอ่ำนข้อมูลทั้ง หมดเข้ำไปเก็บไว้ในหน่วย ควำมจำำ (memory) ภำยในเครื่องก่อน แล้วจึงนำำข้อมูลเหล่ำนี้ไป ประมวลผลต่อไป  อำจเกิด error ได้ เนื่องจำกหน่วยควำมจำำไม่พอ  กำรคำำนวณขนำดของหน่วยควำมจำำที่ต้องใช้ คำำนวณได้จำก Approx_mem = number of attributes * number of instances * 8  ตัวอย่ำงเช่น ข้อมูล 10,000,000 instances มี 10 attributes จะต้อง ใช้หน่วยควำมจำำ = 10,000,000*10*8 = 800,000,000 = 800 MB
  • 28. Memory Error  ให้ทำำกำรสร้ำงข้อมูลตัวอย่ำง โดยกำรกดปุ่ม Gernerate…  เลือก numExamples เป็น 1,000,000 แล้วกดปุ่ม Gernerate เม้ำส์ Click เพื่อแก้ไข parameters
  • 30. Memory Error  ทำำกำรเพิ่มขนำดโดยกำรแก้ไขในไฟล์ C:Program FilesWeka-3-6RunWeka.ini  ทำำกำรเปลี่ยน maxheap ให้มำกขึ้น แต่ไม่เกินขนำดของหน่วย ควำมจำำภำยในเครื่อง