Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
AN INTRODUCTION TO DATA
MINING WITH WEKA (รุ่นที่ 14)
BY OPEN MINER
WWW.OPEN-MINER.COM

Part 0 About Us
Instructors
2



อ.สิร ิว รรณ แต้ว ิจ ิต ร
 อยู่ระหว่างศึกษาต่อระดับปริญญาเอก ที่สถาบัน
เทคโนโลยีนานาชาติสิรินธร มหาวิทย...
Course Outline
3



1st day
 Introduction to data mining
 Introduction to Weka
OPEN MINER
 Preprocess
www.open-miner.c...
Course Outline (cont’)
4



2nd day


Regression & Classification Techniques
 K-Nearest neighbors
 Neural Networks
 S...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IIntroduction to Data Mining
What is data mining?
6



“The exploration and analysis of large
quantities of data in order to discover
meaningful patte...
Loyalty Cards
7

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-mine...
Loyalty Cards (2)
8

Tesco
Lotus

BigC

Carrefou
r

TOPS

ชื่อบัตร

Club card

BigCard

I wish

SPOT

เริ่มต้น
โปรโมชัน

0...
Summary
9



ในปัจจุบนข้อมูลมีจำานวนเพิ่มมากขึ้นเรื่อยๆ แต่ไม่ได้นำามาใช้
ั
ประโยชน์



OPEN MINER
www.open-miner.comนข...
AN INTRODUCTION TO DATA
MINING WITH WEKA รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part

Cross Reference Industry Stand...
CRISP-DM
11



CRoss-Industry Standard Process for Data
Mining (CRISP-DM)
 พัฒนาขึ้นโดย
 บริษัท DaimlerChrysler
 บริษั...
Data Mining Workflow
12

บทความเพิมเติม : http://open่
miner.com/2009/11/03/introduction-datamining/

Business
Understandi...
CRISP Example
13

การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษาคณะ
วิศวกรรมศาสตร์
( http://www.nectec.or.th/NTJ/No11/No...
CRISP Example (5)
14

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต

Stu_co Sex
de



Addr GPA
ess

Data Understanding


ข้อมูลการลงท...
CRISP Example (6)
15

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (Old)

Stu_co Sex
de

Addr GPA
ess

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิ...
16

Data Mining Concepts and
Techniques
Supervised
learning


Classification





Unsupervised
learning


Clustering
...
Data Mining Software
17



Commercial
Software




SAS® Enterprise
Miner



Open source software
or Freeware


Weka

...
Data Mining Software (2)
18



Weka

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence :...
AN INTRODUCTION TO DATA
MINING WITH WEKA รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IIIIntroduction to Weka
What is Weka ?
20



Weka
 Waikato Environment for Knowledge Analysis
 เป็นซอฟต์แวร์ open source สำาหรับการวิเคราะห์
ข้...
Download Weka
21



http://www.cs.waikato.ac.nz/ml/weka/

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
เวอร...
Weka Explorer
22

Tab สำาหรับเรียกใช้
งานฟังก์ชันต่างๆ ของ
data mining

OPEN MINER
Workspace: เป็น
ส่วนสำาคัญของ Weka
www....
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IV Preprocess
Agenda
24



ข้อมูล





โหลดข้อมูลเข้าไปใช้ในโปรแกรม Weka






อินสแตนซ์ (instance)
แอตทรบิวต์ (attribute)

OPEN...
Load data into Weka (2)
25



ข้อมูลที่ใช้เป็น input สำาหรับ Weka

OPEN MINER
www.open-miner.com

ไฟล์
(File)

อิน เตอร์เ...
Lab 4-1: Generate CSV file
26



วัต ถุป ระสงค์: เพือสร้างไฟล์ CSV ด้วยโปรแกรม Excel และโหลด
่
ไฟล์เข้าใช้งานใน Weka
ตารา...
Weka & MySQL (4)
27



jdbc:mysql://localhost:3306/weka_cour
se



URL : ชื่อ URL ของ
database server
Click ปุ่ม User

O...
28

Replace missing values in
Weka


กดปุ่ม Choose
เลือก
เลือก
เลือก
เลือก

filters
unsupervised
attribute
ReplaceMissing...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part V Regression & Classification
Agenda
30



การประมาณค่าจำานวน (Regression) และ การจำาแนก
ประเภทข้อมูล (Data classification)


OPEN MINER
เทคนิคต่างๆ ใ...
What is classification?
31

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
คำา ถาม :: มีร ูป ภาพอะไร
คำา ถาม มีร ...
Example: Classification (3)
32



Model






สร้างได้จากการเรียนรู้ด้วย training data
ใช้สำาหรับจำาแนกข้อมูลใหม่ที่ย...
Example: Classification (4)
33



Unseen data


ข้อมูลใหม่จะไม่มีคำาตอบ (class) อยู่ด้วย แต่เมื่อผ่านการ
ประมวลผลจากโมเด...
Classification Steps (3)
34
34

ข้อ มูล เรีย น

ขันตอนการสร้าง
้
รู้
โมเดล
(Training
(classification
data)
model
building...
Classification in Weka (cont’)
35



คลิกที่ tab Classify


OPEN MINER
www.open-miner.com





www.facebook.com/openmi...
1: Classifier
36



เทคนิคในการทำา classification
แบบต่างๆ

OPEN MINER
www.open-miner.com




Bayes
 สร้างโมเดลโดยอาศั...
Lab 5-2: German Credit Card
37



Business Understanding






การอนุมติบัตรเครดิตของธนาคารต่างๆ จำาเป็นจะต้องพิจารณา
...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VI Clustering
Segmentation
39






แบ่งลูกค้าออกเป็นกลุ่มๆ ย่อย
เพื่อจะได้พิจารณาลักษณะของแต่ละกลุ่มได้ง่ายขึน
้
สมาชิกในแต่ละกลุ่ม...
Data clustering
40





การแบ่งกลุ่มหรือคลัสเตอริ่ง (clustering) เป็นเทคนิคหนึงที่
่
นิยมใช้กันในการวิเคราะห์ข้อมูล
หน้า...
Clustering in Weka (cont’)
41



คลิกที่ tab Cluster


OPEN MINER
www.open-miner.com


www.facebook.com/openmin

er
Op...
42

Example1 : Clustering bank
data


ข้อมูลรายละเอียดลูกค้าของธนาคาร (bank)

OPEN MINER
www.open-miner.com

www.facebook...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VII Association Rules
Market Basket Analysis
44





ริเริ่มจากการสังเกตุการซื้อสินค้าใน supermarket
ข้อมูลการซื้อสินค้าของลูกค้าแต่ละคน
วิเค...
Data from point-of-sale (4)
45

POS database

Transaction- time

Product

01-13-2009 20:04

Apple

01-13-2009 20:04

Beer
...
46

Association Rules in Weka
(cont’)


คลิกที่ tab Associate


OPEN MINER
www.open-miner.com




www.facebook.com/ope...
Lab 7-1: Market Basket
47



Business Understanding




ซุเปอร์มาร์เก็ตแห่งหนึ่งต้องการทำาระบบ CRM กับลูกค้าที่เข้า
มาซ...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VIII Command line & Integrate S...
Weka in command line
49




การเรียกใช้งาน Weka ด้วยการพิมพ์คำาสังผ่านทาง DOS
่
เลือก Run > พิมพ์ cmd จะปรากฏหน้า DOS (ห...
50

Lab8-2: Weka in Java Program
(2)


พารามิเตอร์ของเทคนิคต่างๆ ดูได้จาก Weka Explorer



OPEN MINER
ขั้นตอนการ compile...
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IX Knowledge Flow
Weka KnowledgeFlow
52



สามารถเลือก component ต่างๆ ของ Weka มาเรียงต่อกัน เพื่อให้
ทำางานเป็นแบบ workflow

OPEN MINER
w...
Example: Knowledge flow (7)
53




เลือก component TextViewer จากแท็บ Visualization
วางไว้ในส่วน Layout และคลิกขวาที่
Cl...
Contact Us
54



อ.สิริวรรณ แต้วิจิตร


E-mail
 siriwont@gmail.com



Website




http://www.open-miner.com

Google ...
Upcoming SlideShare
Loading in …5
×

Introduction to data mining with WEKA by OPEN MINER

1,561 views

Published on

Introduction to data mining with WEKA by OPEN MINER
www.open-miner.com

Published in: Technology
  • Be the first to comment

Introduction to data mining with WEKA by OPEN MINER

  1. 1. AN INTRODUCTION TO DATA MINING WITH WEKA (รุ่นที่ 14) BY OPEN MINER WWW.OPEN-MINER.COM Part 0 About Us
  2. 2. Instructors 2  อ.สิร ิว รรณ แต้ว ิจ ิต ร  อยู่ระหว่างศึกษาต่อระดับปริญญาเอก ที่สถาบัน เทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัย ธรรมศาสตร์ และ Japan Advance Institute of Science and Technology  ปริญญาโท สาขาวิชา Computer Engineering มหาวิทยาลัยเกษตรศาสตร์  ปริญญาตรี สาขาวิชา Computer Engineering มหาวิทยาลัยเกษตรศาสตร์  Email: siriwont@gmail.com, openminer@gmail.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  3. 3. Course Outline 3  1st day  Introduction to data mining  Introduction to Weka OPEN MINER  Preprocess www.open-miner.com  Regression & Classification Techniques www.facebook.com/openmin  Linear Regression er  Decision tree Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  4. 4. Course Outline (cont’) 4  2nd day  Regression & Classification Techniques  K-Nearest neighbors  Neural Networks  Support Vector Machines (SVM) OPEN MINER  Clustering www.open-miner.com  Association rule discovery  JAVA + WEKA www.facebook.com/openmin  PHP + WEKA  Knowledge Flow er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  5. 5. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IIntroduction to Data Mining
  6. 6. What is data mining? 6  “The exploration and analysis of large quantities of data in order to discover meaningful patterns and rules” – Data OPEN MINER www.open-miner.com Mining Techniques (2nd Edition)  เป็นการวิเคราะห์ข้อมูลเพือหารูปแบบ (patterns) หรือ ่ ความสัมพันธ์ (relation) ระหว่างข้อมูลในฐานข้อมูล ขนาดใหญ่ www.facebook.com/openmin “Extraction of interesting (non-trivial, er previously, unknown and potential  useful) information from data in large databases” – Data Mining Concepts Open Miner Intelligence : http://www.open-miner.com nd WEKA รุ่นที่ 14 &Techniques (2 Edition) AN INTRODUCTION TO DATA MINING WITH
  7. 7. Loyalty Cards 7 OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  8. 8. Loyalty Cards (2) 8 Tesco Lotus BigC Carrefou r TOPS ชื่อบัตร Club card BigCard I wish SPOT เริ่มต้น โปรโมชัน 08/2552 09/2552 07/2550 ~2548 OPEN MINER สิทธิ สะสมแต้ม รับเงินคืน 5 สะสมแต้ม รับส่ว www.open-miner.comาหรันลด ประโยชน์ ทุก 2 บาท บาท เมื่อซื้อ สำ บ ได้ 1 แต้ม สินค้าครบ สมาชิก www.facebook.com/openminและ 500 บาท personal shopping นิตยสาร positioning ฉบับer เดือนพฤศจิกายน 2552 Reference : list Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  9. 9. Summary 9  ในปัจจุบนข้อมูลมีจำานวนเพิ่มมากขึ้นเรื่อยๆ แต่ไม่ได้นำามาใช้ ั ประโยชน์   OPEN MINER www.open-miner.comนข้อมูลที่ Data mining เป็นการหาความสัมพันธ์ต่างๆ ที่ปรากฏอยู่ใ       การซื้อสินค้าในห้างสรรพสินค้าต่างๆ ข้อมูลการลงทะเบียนเรียนของนิสิต Social network : facebook, twitter ข้อมูลชีวสารสนเทศ เช่น protein sequence, gene ฐานข้อมูลลูกค้าภายในบริษัท มีขนาดใหญ่ www.facebook.com/openmin วิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าแต่ละคน เพื่อนำาเสนอ er โปรโมชันให้ตรงกับความต้องการ วิเคราะห์ข้อมูลประวัติการศึกษาเพื่อแนะนำาให้นิสิตประสบความสำาเร็จ ในอาชีพ AN วิเคราห์ข้อมูลโปรตีนระดับปฐมภูมิ เพื่อใช้ใINTRODUCTION TO DATA MININGง นการทำานายโครงสร้า WITH Open Miner Intelligence : http://www.open-miner.com  WEKA รุ่นที่ 14
  10. 10. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part Cross Reference Industry Standard Process II for Data Mining
  11. 11. CRISP-DM 11  CRoss-Industry Standard Process for Data Mining (CRISP-DM)  พัฒนาขึ้นโดย  บริษัท DaimlerChrysler  บริษัท SPSS  บริษัท NCR  Workflow มาตรฐานสำาหรับการทำา data mining www.facebook.com/openmin  ประกอบด้วย 6 ขั้นตอน er OPEN MINER www.open-miner.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  12. 12. Data Mining Workflow 12 บทความเพิมเติม : http://open่ miner.com/2009/11/03/introduction-datamining/ Business Understanding + Data Understanding + Data www.facebook.com/openmin Preparation ใช้เวลาถึง 80% er ของทั้งหมด  OPEN MINER www.open-miner.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  13. 13. CRISP Example 13 การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษาคณะ วิศวกรรมศาสตร์ ( http://www.nectec.or.th/NTJ/No11/No11.php )     OPEN MINER ธนาวินท์ รักธรรมานนท์ www.open-miner.com รศ. ดร. กฤษณะ ไวยมัย ชิดชนก ส่งสิริ www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  14. 14. CRISP Example (5) 14 ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต Stu_co Sex de  Addr GPA ess Data Understanding  ข้อมูลการลงทะเบียนของ นิสิต ตั้งแต่ปี 2535-2542 OPEN MINERานวน 10,000 กว่า นิสิตจำ คน 37058 Male Song 3.2 ข้อมูล 476,085 167 มูล การลงทะเบีย นตัว นิส ิต kla ข้อ www.open-miner.com แถว 37058 063 Male Bang kok 2.3   ข้อมูลแบ่งเป็น 2 ส่วน … Grad www.facebook.com/openmin ข้อมูลประวัติส่วนตัวของ e นิสิต เช่น ชื่อ ที่อยู่ ภูมิลำาเนา อายุ เป็นต้น 37058 คอมพิวเต … C+er …. … Stu_co Sub_cod de e 063 … … อร์ 37058 คณิตศาส … D 063 ตร์ Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14    ข้อมูลการลงทะเบียนของ นิสิตชั้นปีที่ 1 จำานวน 9 รายวิชา AN INTRODUCTION TO DATA MINING WITH
  15. 15. CRISP Example (6) 15 ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (Old) Stu_co Sex de Addr GPA ess ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (New) Stu_co Sex de Addr GPA ess OPEN MINER 37058 Male Song 3.2 37058 Male Song GOO www.open-miner.comว นิส ิต (New) kla 167 kla D ข้167การลงทะเบีย นตัว นิส ิต (Old) อ มูล ข้อ มูล การลงทะเบีย นตั 37058 063 Male Bang kok 2.3 37058 063 Male Bang kok BAD www.facebook.com/openmin 37058 คอมพิวเ … C+ er 37058 คอมพิวเต … Medi …. … Stu_co Sub_co de de 063 … … … Grad e ตอร์ 37058 คณิตศา … D 063 สตร์ Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 …. … Stu_co Sub_co de de 063 อร์ … … … Grad e um 37058 คณิตศาส … Low 063 INTRODUCTION TO DATA MINING WITH ตร์ AN
  16. 16. 16 Data Mining Concepts and Techniques Supervised learning  Classification    Unsupervised learning  Clustering OPEN MINER www.open-miner.com เป็นการจำาแนกข้อมูลออก เป็นประเภทต่างๆ อาศัยการเรียนรู้จากข้อมูล เก่า   แบ่งข้อมูลเป็นหลายๆ กลุ่ม อาศัยความคล้ายคลึงกันของ ข้อมูล Associate www.facebook.com/openmin Regression อาศัยความสัมพันธ์ของ การประมาณค่าจำานวนหรือ er ข้อมูลที่เกิดร่วมกัน ปริมาณที่เป็นตัวเลข     อาศัยการเรียนรู้จากข้อมูล เก่า Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14  สร้างเป็นกฎความสัมพันธ์ AN INTRODUCTION TO DATA MINING WITH
  17. 17. Data Mining Software 17  Commercial Software   SAS® Enterprise Miner  Open source software or Freeware  Weka OPEN MINER DB2 Intelligent www.open-miner.com RapidMiner Miner  www.facebook.com/openmin Microsoft SQL Server er 2008   Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 KNIME (Konstanz Information Miner) AN INTRODUCTION TO DATA MINING WITH
  18. 18. Data Mining Software (2) 18  Weka OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  19. 19. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IIIIntroduction to Weka
  20. 20. What is Weka ? 20  Weka  Waikato Environment for Knowledge Analysis  เป็นซอฟต์แวร์ open source สำาหรับการวิเคราะห์ ข้อมูลด้วยเทคนิค Data Mining  สามารถดาวน์โหลดมาใช้ได้ ฟรี !!!  พัฒนาด้วยภาษา Java และสามารถทำางานได้บน  Windows  Linux  MAC OS  ดาวน์โหลด Weka ได้จาก  http://www.cs.waikato.ac.nz/ml/weka/ OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  21. 21. Download Weka 21  http://www.cs.waikato.ac.nz/ml/weka/ OPEN MINER www.open-miner.com www.facebook.com/openmin er เวอร์ชันนี้จะไม่มี เวอร์ชันนี้จะมี โปรแกรมJava รวมมา ให้ด้วย Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 โปรแกรมJava รวมมา ให้ ต้อ งมี Java ใน AN INTRODUCTION TO DATA MINING WITH เครื่อ งแล้ว !!
  22. 22. Weka Explorer 22 Tab สำาหรับเรียกใช้ งานฟังก์ชันต่างๆ ของ data mining OPEN MINER Workspace: เป็น ส่วนสำาคัญของ Weka www.open-miner.comจะใช้ในการ Explorer www.facebook.com/openmin er ปรับเปลี่ยน พารามิเตอร์ ต่างๆ และแสดงผลการ ทำางาน Status: บอกว่า Wekaกำาลัง Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 จะเต้นเมื่อกำาลังทำางาน อยู่ Log: เก็บรายละเอียดของการ AN INTRODUCTION ทำางานต่างๆ TO DATA MINING WITH
  23. 23. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IV Preprocess
  24. 24. Agenda 24  ข้อมูล    โหลดข้อมูลเข้าไปใช้ในโปรแกรม Weka     อินสแตนซ์ (instance) แอตทรบิวต์ (attribute) OPEN MINER www.open-miner.com ไฟล์ CSV ไฟล์ ARFF ฐานข้อมูล www.facebook.com/openmin แปลงข้อมูลจากตัวเลขให้เป็นช่วง เพิมข้อมูลที่ขาดหาย ่ er ค้นหาข้อมูล Outlier Preprocess Data ด้วย Weka    Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  25. 25. Load data into Weka (2) 25  ข้อมูลที่ใช้เป็น input สำาหรับ Weka OPEN MINER www.open-miner.com ไฟล์ (File) อิน เตอร์เ น็ ต (Internet) ฐานข้อ มูล (Databas e) ข้อ มูล จำา ลอง (Generate Data) CSV CSV www.facebook.com/openmin ARF ARF er F F Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  26. 26. Lab 4-1: Generate CSV file 26  วัต ถุป ระสงค์: เพือสร้างไฟล์ CSV ด้วยโปรแกรม Excel และโหลด ่ ไฟล์เข้าใช้งานใน Weka ตารางที่ 1: สมาชิก OPEN MINER www.open-miner.com  www.facebook.com/openmin Note : In sex attribute, value 0 = Female, 1 = Male, 2 = Others er บันทึกไฟล์ในชื่อ customers.csv Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  27. 27. Weka & MySQL (4) 27  jdbc:mysql://localhost:3306/weka_cour se  URL : ชื่อ URL ของ database server Click ปุ่ม User OPEN MINER www.open-miner.com Server URL & port Database name www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  28. 28. 28 Replace missing values in Weka  กดปุ่ม Choose เลือก เลือก เลือก เลือก filters unsupervised attribute ReplaceMissingValues OPEN MINER www.open-miner.com     กดปุ่ม Apply www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  29. 29. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part V Regression & Classification
  30. 30. Agenda 30  การประมาณค่าจำานวน (Regression) และ การจำาแนก ประเภทข้อมูล (Data classification)  OPEN MINER เทคนิคต่างๆ ในการประมาณค่าจำานวน และ จำาแนก www.open-miner.com ประเภทข้อมูล    ความหมายและการประยุกต์ใช้ ข้อมูล training, testing การทดสอบประสิทธิภาพ และการแปลความ www.facebook.com/openmin er      Linear Regression Decision tree K-nearest neighbors Neural Network Support Vector Machines (SVM) Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  31. 31. What is classification? 31 OPEN MINER www.open-miner.com www.facebook.com/openmin คำา ถาม :: มีร ูป ภาพอะไร คำา ถาม มีร ูป ภาพอะไร er ปรากฏอยู่บ ้า ง ? ปรากฏอยู่บ ้า ง ? Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  32. 32. Example: Classification (3) 32  Model     สร้างได้จากการเรียนรู้ด้วย training data ใช้สำาหรับจำาแนกข้อมูลใหม่ที่ยังไม่รู้ class Decision tree model ≥ 100 OPEN MINER www.open-miner.com < 100 www.facebook.com/openmin โมเดลในรูปแบบ Tree er Evaluate Model Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  33. 33. Example: Classification (4) 33  Unseen data  ข้อมูลใหม่จะไม่มีคำาตอบ (class) อยู่ด้วย แต่เมื่อผ่านการ ประมวลผลจากโมเดล ถึงจะทราบคำาตอบ OPENขีย ว สีน ำ้า เงิน สีเ MINER 134.86 96.01 158.83 www.open-miner.com สีแ ดง แอตทริบิวต์ www.facebook.com/openmin er ? ? Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 ? ? AN INTRODUCTION TO DATA MINING WITH
  34. 34. Classification Steps (3) 34 34 ข้อ มูล เรีย น  ขันตอนการสร้าง ้ รู้ โมเดล (Training (classification data) model building)  ขันตอนการวัด ้ ประสิทธิภาพ (evaluation) OPEN MINER www.open-miner.com ข้อ มูล ทดสอบ (Evaluate data) www.facebook.com/openmin เปรียบเทียบผลทีได้ ่ er จากโมเดลและคำา 3 Unseen data ตอบจริง การใช้งานจริง Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  35. 35. Classification in Weka (cont’) 35  คลิกที่ tab Classify  OPEN MINER www.open-miner.com   www.facebook.com/openmin  er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  36. 36. 1: Classifier 36  เทคนิคในการทำา classification แบบต่างๆ OPEN MINER www.open-miner.com   Bayes  สร้างโมเดลโดยอาศัยการคำานวณ ความน่าจะเป็น (probability) ของ ข้อมูลต่างๆ Functions  สร้างโมเดลโดยอาศัยการคำานวณทาง คณิตศาสตร์  โมเดลเป็นรูปแบบของสมการ Lazy  ต่างจากเทคนิค classification แบ บอื่นๆ  ไม่มีการสร้างโมเดลไว้ก่อน AN INTRODUCTION TO DATA MINING WITH www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 
  37. 37. Lab 5-2: German Credit Card 37  Business Understanding    การอนุมติบัตรเครดิตของธนาคารต่างๆ จำาเป็นจะต้องพิจารณา ั ปัจจัยหลายๆ ด้านของลูกค้าผูขออนุมัติ ทั้งนี้เพราะความเสี่ยงที่ ้ อาจจะเกิดขึ้นจากการใช้บตรเครดิตของลูกค้าอาจจะทำาให้ ั ธนาคารสูญเสียเงินเป็นจำานวนมาก การสร้างระบบช่วยการตัดสินใจ (decision support system) ในการอนุมติบตรเครดิตแบบอัตโนมัติจะช่วยให้ธนาคารสามารถ ั ั ทำางานได้เร็วขึ้น OPEN MINER www.open-miner.com www.facebook.com/openmin า ธนาคารได้เก็บรวบรวมข้อมูลการขออนุมติบตรเครดิตจากลูกค้ ั ั เก่าจำานวน 600 คน er โดยธนาคารจะเก็บคุณลักษณะของลูกค้าแต่ละคนไว้ เช่น จำานวน Data Understanding   เงินในบัญชี เป็นต้น  รวบรวมเก็บไว้ในไฟล์ GermanCreditBalance.arff ซึ่งอยู่ใน แผ่น : http://www.open-miner.com Open Miner Intelligence CD โฟลเดอร์ AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14
  38. 38. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VI Clustering
  39. 39. Segmentation 39     แบ่งลูกค้าออกเป็นกลุ่มๆ ย่อย เพื่อจะได้พิจารณาลักษณะของแต่ละกลุ่มได้ง่ายขึน ้ สมาชิกในแต่ละกลุ่ม  ควรจะมีลักษณะที่คล้ายๆ กัน  และควรจะมีลักษณะที่ต่างกันกับกลุ่มอื่น ๆ ตัวอย่างแอตทริบิวต์ที่ใช้ในการแบ่งกลุ่ม  ข้อมูลเชิงพื้นที่ (geographic)  จังหวัด  ภูมิภาค  ข้อมูลเชิงประชากร (demographic)  อายุ  จำานวนสมาชิกในครอบครัว  เพศ  การศึกษา  รายได้  อาชีพ  พฤติกรรมการบริโภค (behavior)  สินค้าที่เคยซื้อ  จำานวนครั้งที่กลับมาซื้อ OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  40. 40. Data clustering 40   การแบ่งกลุ่มหรือคลัสเตอริ่ง (clustering) เป็นเทคนิคหนึงที่ ่ นิยมใช้กันในการวิเคราะห์ข้อมูล หน้าที่ของคลัสเตอริ่ง    OPEN MINER www.open-miner.com การแบ่งข้อมูลออกเป็นกลุ่มย่อยๆ โดยต้องการให้ขอมูลในกลุ่ม ้ เดียวกันมีความเหมือนกันมากๆ และข้อมูลที่อยู่ต่างกลุ่มกันมีความต่าง กันมากๆ เราจะเรียกแต่ละกลุ่มย่อยว่าคลัสเตอร์ (cluster) www.facebook.com/openmin คลัส เตอ คลัส เตอ er ร์ 2 ร์ 2 คลัสเตอริ่งเป็นวิธสามารถทำาได้โดยไม่ต้องอาศัยการเรียนรู้ คลัส เตอร์ ี คลัส เตอร์ 1 1 (unsupervised learning) คลัส เตอ คลัส เตอ ร์ 3 ร์ 3 Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  41. 41. Clustering in Weka (cont’) 41  คลิกที่ tab Cluster  OPEN MINER www.open-miner.com  www.facebook.com/openmin  er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  42. 42. 42 Example1 : Clustering bank data  ข้อมูลรายละเอียดลูกค้าของธนาคาร (bank) OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  43. 43. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VII Association Rules
  44. 44. Market Basket Analysis 44    ริเริ่มจากการสังเกตุการซื้อสินค้าใน supermarket ข้อมูลการซื้อสินค้าของลูกค้าแต่ละคน วิเคราะห์พฤติกรรมของผู้บริโภค  OPEN MINER www.open-miner.com ชอบซื้อสินค้าชนิดไหนพร้อมกันบ้าง ? www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  45. 45. Data from point-of-sale (4) 45 POS database Transaction- time Product 01-13-2009 20:04 Apple 01-13-2009 20:04 Beer TID Product OPEN MINER www.open-miner.com 01-13-2009 20:04 01-13-2009 20:04 Cereal Diapers 1 Apple, Beer, Cereal, Diapers 2 Apple, Beer, Diapers, Eggs 3 Beer, Eggs Transaction database www.facebook.com/openmin Beer 01-14-2009 11:30 Diapers er 01-14-2009 11:30 Apple 01-14-2009 11:30 01-14-2009 11:30 Eggs 01-15-2009 14:15 Beer 01-15-2009 14:15 Eggs Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  46. 46. 46 Association Rules in Weka (cont’)  คลิกที่ tab Associate  OPEN MINER www.open-miner.com   www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  47. 47. Lab 7-1: Market Basket 47  Business Understanding   ซุเปอร์มาร์เก็ตแห่งหนึ่งต้องการทำาระบบ CRM กับลูกค้าที่เข้า มาซื้อสินค้าโดยต้องการหาว่ามีสินค้าชนิดใดบ้างที่ลกค้ามักจะ ู ซื้อพร้อมกันบ่อยๆ เพือนำาไปจัดโปรโมชัน ่ OPEN MINER Data Understanding ซุปเปอร์มาร์เก็ตแห่งนี้ได้ทำาการเก็บประวัติการซื้อสินค้าของ www.open-miner.com ลูกค้าจำานวน 1,000 คน  โดยข้อมูลของลูกค้าแต่ละรายจะแบ่งเป็น 2 ส่วนใหญ่ๆ คือ www.facebook.com/openmin ข้อมูลรายละเอียดเกี่ยวกับลูกค้าแต่ละราย มีจำานวน …… er แอตทริบวต์ ิ    ข้อมูลสินค้าที่ลูกค้าซื้อแต่ละครั้ง มีจำานวน …… แอตทริบวต์ ิ ข้อมูลเหล่านี้ได้ถูกรวบรวมเก็บไว้ในไฟล์ Open Miner Intelligence : http://www.open-miner.com AN INTRODUCTION TO DATA MINING supermarket_basket_transactions_2005.arff WITH  WEKA รุ่นที่ 14
  48. 48. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VIII Command line & Integrate System
  49. 49. Weka in command line 49   การเรียกใช้งาน Weka ด้วยการพิมพ์คำาสังผ่านทาง DOS ่ เลือก Run > พิมพ์ cmd จะปรากฏหน้า DOS (หน้าจอดำาๆ)  OPEN MINER www.open-miner.com  www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  50. 50. 50 Lab8-2: Weka in Java Program (2)  พารามิเตอร์ของเทคนิคต่างๆ ดูได้จาก Weka Explorer  OPEN MINER ขั้นตอนการ compile โปรแกรม www.open-miner.com javac -classpath “C:Program FilesWeka-3-  www.facebook.com/openmin er 6weka.jar” testClassifier.java ขั้นตอนการ run โปรแกรม java -classpath “C:Program FilesWeka-36weka.jar;.” testClassifier Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  51. 51. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IX Knowledge Flow
  52. 52. Weka KnowledgeFlow 52  สามารถเลือก component ต่างๆ ของ Weka มาเรียงต่อกัน เพื่อให้ ทำางานเป็นแบบ workflow OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  53. 53. Example: Knowledge flow (7) 53   เลือก component TextViewer จากแท็บ Visualization วางไว้ในส่วน Layout และคลิกขวาที่ ClassifierPerformanceEvaluator เลือกเมนู text แล้วลากลูกศรมายัง TextViewer OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  54. 54. Contact Us 54  อ.สิริวรรณ แต้วิจิตร  E-mail  siriwont@gmail.com  Website   http://www.open-miner.com Google Buzz  http://www.google.com/profiles/openminer Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH

×