This slides present concept of Data Mining and Big Data Analytics. The topices are:
- Internet of Things (IoT)
- Data Science/Mining applications
- Data Science/Mining techniques including (1) Association, (2) Clustering, (3) Classification
- CRISP-DM: Cross Industry Standard Process for Data Mining
This slides present concept of Data Mining and Big Data Analytics. The topices are:
- Internet of Things (IoT)
- Data Science/Mining applications
- Data Science/Mining techniques including (1) Association, (2) Clustering, (3) Classification
- CRISP-DM: Cross Industry Standard Process for Data Mining
This slide present Data Analytics concept. Topics are level of analytics, CRISP-DM, data science use cases e.g., customer segmentation, churn prediction, product recommendation, demand forecasting
ปัญญาประดิษฐ์สร้างขึ้นเอง
ระบบปัญญาประดิษฐ์สร้างขึ้นเอง จัดอยู่ในหมวดหมู่กว้างๆ ของการเรียนรู้ของเครื่องจักรกล (machine learning) อย่างเช่น ChatGPT
คุณพร้อมที่จะยกระดับความคิดสร้างสรรค์ของคุณไปอีกขั้นแล้วหรือยัง? ให้มองหาปัญญาประดิษฐ์สร้างขึ้นเอง การเรียนรู้ของเครื่องจักรกลรูปแบบนี้ ช่วยให้คอมพิวเตอร์สร้างเนื้อหาใหม่และน่าตื่นเต้นได้ทุกประเภท ตั้งแต่ดนตรีและศิลปะไปจนถึงโลกเสมือนจริงทั้งหมด และไม่ใช่แค่เพื่อความสนุกเท่านั้น ปัญญาประดิษฐ์สร้างขึ้นเองยังมีประโยชน์อีกมากมาย เช่น การสร้าง การออกแบบผลิตภัณฑ์ใหม่ และการปรับกระบวนการทางธุรกิจให้เหมาะสม
ทำไมต้องรอ? ปลดปล่อยพลังของปัญญาประดิษฐ์สร้างขึ้นเอง และดูว่าคุณจะสร้างสรรค์สิ่งที่น่าทึ่งอะไรได้บ้าง!
Generative artificial intelligence (AI) describes algorithms (such as ChatGPT) that can be used to create new content, including audio, code, images, text, simulations, and videos. Recent breakthroughs in the field have the potential to drastically change the way we approach content creation.
My First Data Science Project (using Rapid Miner)
For Data Science Thailand Meetup #2
datascienceth.com
facebook.com/datascienceth
Dr. Eakasit Pacharawongsakda
This slide present Data Analytics concept. Topics are level of analytics, CRISP-DM, data science use cases e.g., customer segmentation, churn prediction, product recommendation, demand forecasting
ปัญญาประดิษฐ์สร้างขึ้นเอง
ระบบปัญญาประดิษฐ์สร้างขึ้นเอง จัดอยู่ในหมวดหมู่กว้างๆ ของการเรียนรู้ของเครื่องจักรกล (machine learning) อย่างเช่น ChatGPT
คุณพร้อมที่จะยกระดับความคิดสร้างสรรค์ของคุณไปอีกขั้นแล้วหรือยัง? ให้มองหาปัญญาประดิษฐ์สร้างขึ้นเอง การเรียนรู้ของเครื่องจักรกลรูปแบบนี้ ช่วยให้คอมพิวเตอร์สร้างเนื้อหาใหม่และน่าตื่นเต้นได้ทุกประเภท ตั้งแต่ดนตรีและศิลปะไปจนถึงโลกเสมือนจริงทั้งหมด และไม่ใช่แค่เพื่อความสนุกเท่านั้น ปัญญาประดิษฐ์สร้างขึ้นเองยังมีประโยชน์อีกมากมาย เช่น การสร้าง การออกแบบผลิตภัณฑ์ใหม่ และการปรับกระบวนการทางธุรกิจให้เหมาะสม
ทำไมต้องรอ? ปลดปล่อยพลังของปัญญาประดิษฐ์สร้างขึ้นเอง และดูว่าคุณจะสร้างสรรค์สิ่งที่น่าทึ่งอะไรได้บ้าง!
Generative artificial intelligence (AI) describes algorithms (such as ChatGPT) that can be used to create new content, including audio, code, images, text, simulations, and videos. Recent breakthroughs in the field have the potential to drastically change the way we approach content creation.
My First Data Science Project (using Rapid Miner)
For Data Science Thailand Meetup #2
datascienceth.com
facebook.com/datascienceth
Dr. Eakasit Pacharawongsakda
Career Track: Business Analytics and Intelligence@NIDA โดย อาจารย์ ดร. อานนท์...BAINIDA
Career Track: Business Analytics and Intelligence@NIDA โดย อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
ในงาน THE FIRST NIDA BUSINESS ANALYTICS AND DATA SCIENCES CONTEST/CONFERENCE จัดโดย คณะสถิติประยุกต์และ DATA SCIENCES THAILAND
How the Lean ? What is Lean?
What 4 Lean Thinking building blocks ?
1,Principles & Philosophy,
2,People,
3,Problem Solving & Performance Management
4,Processes.
Part 1: Introduction to Big Data
Part 2: Introduction to NoSQL
Part 3: Introduction to MapReduce and Hadoop
Part 4: Introduction to Hive, HBase and Sqoop
This presentation described Big Data concept. Then it shows example of applications in Banking. The presenter is Dr. Tuangtong Wattarujeekrit in Big Data Analytics Day event.
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
1. Introduction to Business Analytics
with RapidMiner Studio 6
Thai version
Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner Analyst
Data Cube
http://www.dataminingtrend.com
http://facebook.com/datacube.th
2. Introduction to Business Analytics
with RapidMiner Studio 6
(data)3
base|warehouse|mining
http://www.dataminingtrend.com
http://facebook.com/datacube.th
Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner Analyst
3. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
2
ชื่อผู้แต่ง ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
ชื่อหนังสือ Introduction to Business Analytics With RapidMiner Studio 6
จำนวนหน้า 138 หน้า
พิมพ์ครั้งที่ 1
วันเดือนปีที่พิมพ์ สิงหาคม 2558
ชื่อสำนักพิมพ์ บริษัท เอเชีย ดิจิตอลการพิมพ์ จำกัด
ถ.งามวงศ์วาน แขวงลาดยาว
เขตจตุจักร กรุงเทพฯ 10900
ออกแบบปก กมนนัทธ์ บางแวก
จัดรูปเล่ม เอกสิทธิ์ พัชรวงศ์ศักดา
ราคา 299 บาท
สงวนลิขสิทธิ์ ตาม พ.ร.บ. ลิขสิทธิ์ พ.ศ. 2537
ห้ามลอกเลียนแบบไม่ว่าส่วนหนึ่งส่วนใดของหนังสือ/เอกสารเล่มนี้
นอกจากจะได้รับอนุญาติเป็นลายลักษณ์อักษร
คําเตือน !!!
การนําไปถ่ายเอกสารอาจจะทําให้ข้อความและรูปไม่ชัดทําให้อ่านได้ยากและ
จะทําให้ผู้แต่งเสียใจเป็นอันมาก T_T
4. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
“แด่คุณพ่อผู้เป็นฮีโร่เสมอมา คุณแม่ผู้คอยเฝ้าดูจากบนฝากฟ้า
และภรรยาที่คอยอยู่เคียงข้างกันตลอดเวลา”
3
11. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• วิทยากรรับเชิญอบรมทางด้าน Data Mining ให้กับหน่วยงานต่างๆ
• มหาวิทยาลัยต่างๆ
• หน่วยงานและบริษัทชั้นนำต่างๆ
About me (ต่อ)
10
14. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• download ได้จาก http://rapidminer.com
• กรอกข้อมูลเพื่อสร้าง Account สำหรับดาวน์โหลดซอฟต์แวร์
13
1
คลิกเมนูดาวน์โหลด
2
3
4
5
email ที่ใช้สมัคร
password ที่ใช้
ใส่ password ที่
กรอกไว้อีกครั้ง
กดปุ่มเพื่อสมัคร
15. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจากยืนยันการลงทะเบียนทาง email แล้ว ให้คลิกที่เมนู login
เพื่อดาวน์โหลดซอฟต์แวร์
• กรอก username และ password ที่ได้สมัครไว้ในตอนแรก
14
6
7
8
9
คลิกเมนู Login
email ที่ใช้สมัคร
password ที่กรอก
ไว้ตอนสมัคร
กดปุ่ม Login
16. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจาก login แล้วจะพบเมนูต่างๆ คลิกที่เมนู Downloads
• เลือกดาวน์โหลด version ที่เหมาะสมกับระบบปฏิบัติการของเรา
15
10 เลือกเมนู ดาวน์โหลด
เลือกระบบปฏิบัติการ
(OS) ที่ติดตั้งในเครื่อง
17. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• การติดตั้งซอฟต์แวร์ RapidMiner Studio 6 สำหรับระบบปฏิบัติการต่างๆ
สามารถดูขั้นตอนอย่างละเอียดได้จาก http://docs.rapidminer.com/studio/
installation/
• double click ที่ icon เพื่อเริ่มใช้งานซอฟต์แวร์
• หลังจากติดตั้งซอฟต์แวร์เรียบร้อยแล้ว ขั้นตอนถัดมาจะต้อง login
โดยใช้ email และ password ที่ได้ทำการสมัครไว้ครับ
16
1
2
3
email ที่ใช้สมัคร
password ที่กรอก
ไว้ตอนสมัคร
กดปุ่มเพื่อ login
18. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจากตรวจสอบกับ Server ถ้าสำเร็จจะแสดงดังในรูป
• กดปุ่ม Restart เพื่อเริ่มการทำงานใหม่อีกครั้ง
17
แสดงชื่อเจ้าของ
license แสดงวันหมดอายุ
การใช้งาน
4
Note:
RapidMiner Studio 6 มีหลาย
license ครับ ในการติดตั้งครั้งแรก
จะให้ใช้ Professional License
เป็นเวลา 14 วัน หลังจากนั้นจึง
กลายเป็น Starter License ที่ใช้ได้
ตลอดไปครับ
กดปุ่มเพื่อเริ่มใช้งาน
5กดปุ่มเพื่อ restart
19. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หน้าต่างเริ่มใช้งานจะแสดงขึ้นมา ซึ่งจะแสดง 4 เมนู คือ
• Tutorials แสดงวิธีการใช้งาน
• Documentation Site เพื่อ link ไปยังหน้าเว็บไซต์ที่แสดง document การใช้งาน
• Accelerator แสดงโพรเซส (process) ตัวอย่างที่เตรียมไว้ให้
• New Process สร้างโพรเซสใหม่เพื่อเริ่มการใช้งาน RapidMiner
• ในการใช้งาน RapidMiner Studio 6 จะเป็นการสร้างโพรเซส ขึ้นมาเพื่อทำงาน
ต่างๆ โดยโพรเซสจะประกอบด้วย โอเปอเรเตอร์ (operator) ต่างๆ
• โพรเซสที่สร้างขึ้นสามารถนำกลับมาใช้งานใหม่ได้ หรือ ส่งไปให้คนอื่นได้
18
6
เลือกเมนู ‘New Process’
เพื่อเริ่มใช้งาน
A
B
C
D
A
B
C
D
20. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• องค์ประกอบของหน้าต่าง Design ใน RapidMiner Studio 6
• Operators
• ส่วนนี้จะเก็บโอเปอเรตอร์ในการใช้งานต่างๆ ไว้เป็นกลุ่มตามหน้าที่ที่คล้ายคลึงกัน
และในส่วนของโอเปอเรเตอร์นี้ยังมีที่สำหรับการค้นหาโอเปอเรเตอร์อีกด้วย
• โอเปอเรเตอร์แต่ละตัวจะประกอบด้วย
• ชื่อของโอเปอเรเตอร์
• อินพุต พอร์ต (Input port) เป็นส่วนรับข้อมูลเข้ามา
ประมวลผล
• เอาท์พุต พอร์ต (Output port) เป็นส่วนส่งผลลัพธ์ที่
ประมวลได้
• ชื่ออินพุต พอร์ตและเอาท์พุต พอร์ตแสดงด้วยตัวอักษร 3 ตัวแรก
ของชื่อพอร์ต เช่น exa ย่อมาจาก example set
• สัญลักษณ์วงกลมแสดงสถานะการทำงานของโอเปอเรเตอร์
RapidMiner Studio 6
19
Operators
Repositories
Process
Parameter
help
A
B
C
D
E
a
b
c
d
A
a
b
c
d
21. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• Repositories
• ส่วนนี้จะใช้ในการจัดการไฟล์ต่างๆ หลักการของ RapidMiner Studio 6 จะเก็บ
ไฟล์ข้อมูลหรือโพรเซสต่างๆ ไว้ใน โฟลเดอร์เพื่อความสะดวกในการเรียกใช้งาน
ครั้งถัดไป
• Process
• ส่วนนี้เป็นอีกส่วนที่สำคัญของ RapidMiner Studio เพราะหลักการทำงานของ
ซอฟต์แวร์นี้คือการนำโอเปอเรเตอร์ต่างๆ มา ประกอบกันให้เป็นโพรเซสขึ้นมา
• Parameters
• ส่วนนี้จะเป็นส่วนที่แสดงพารามิเตอร์ (parameter) ที่ เกี่ยวข้องกับแต่ละ
โอเปอเรเตอร์ เช่น โอเปอเรเตอร์ Read CSV สำหรับอ่านไฟล์ CSV จะมี
พารามิเตอร์ที่เกี่ยวข้อง เช่น ชื่อและที่อยู่ของไฟล์ CSV เป็นต้น
• Help
• ส่วนนี้จะเป็นส่วนที่แสดงข้อความช่วยเหลือหรือรายละเอียดของโอเปอเรเตอร์ที่
เลือกใช้งานอยู่ ซึ่งประกอบด้วยรายละเอียดเบื้องต้น ความหมายของแต่ละ
พารามิเตอร์ และตัวอย่างการใช้งานในส่วนท้ายสุด
20
B
C
แสดงโพรเซสที่กำลังทำงาน
เพิ่ม Note ในโพรเซส
เชื่อมโอเปอเรเตอร์ต่างๆใน
โพรเซสแบบอัตโนมัติ
D
E
22. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• เมนูด้านบนในหน้าต่าง Design มีดังนี้
• เมนูทางด้านขวาบนของหน้าต่าง Design จะใช้สำหรับสลับหน้าจอ
การทำงานไปยังหน้าต่างๆ ดังนี้
• หน้า Home แสดงหน้าเริ่มต้นของ RapidMiner Studio 6
• หน้า Design แสดงหน้าสำหรับการสร้างโพรเซส
• หน้า Results แสดงหน้าผลลัพธ์การทำงาน
• หน้า Accelerator แสดงหน้าตัวอย่างระบบที่เตรียมไว้ให้
21
เมนูสำหรับการสร้างโพรเซสใหม่
เมนูสำหรับการโหลดไฟล์ต่างๆ จาก repository
เมนูสำหรับการบันทึกโพรเซส
เมนูสำหรับบันทึกโพรเซสเป็นชื่อใหม่
เมนูสำหรับพิมพ์โพรเซสออกทางเครื่องพิมพ์
หรือบันทึกเป็นไฟล์ PDF หรือรูปภาพ
เมนูสำหรับการทำ undo หรือ redo
เมนูสำหรับสั่งให้โพรเซสทำงาน (run)
เมนูสำหรับสั่งให้โพรเซสหยุดทำงานชั่วคราว (pause)
เมนูสำหรับสั่งให้โพรเซสยกเลิกทำงานชั่วคราว (stop)
เมนูสำหรับเรียกดู tutorial
Note:
• เมนูที่เหลืออีก 2 เมนูเป็นการสั่งให้โพรเซสทำงานบนคลาวด์ (cloud) ซึ่งมีค่าใช้จ่ายรายเดือน
เดือนละ 39$ และการทำงานจะคิดเป็นเครดิตโดยต้องซื้อครั้งละ 100 เครดิตเป็นจำนวนเงิน 39$ ครับ
A B C D
A
B
C
D
23. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หน้าต่าง Home
• รายละเอียดของเมนูต่างๆ ในหน้า Home มีดังนี้
• Tutorials แสดงวิธีการใช้งานเบื้องต้น
• Accelerators แสดง process ตัวอย่างที่เตรียมไว้
• New Process สำหรับสร้าง process ใหม่ขึ้นมา เพื่อทำงาน
• Open สำหรับเปิด process เดิมที่บันทึกไว้เพื่อมาทำงาน
RapidMiner Studio 6
22
A
B
C
D
A
B
C
D
24. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หน้าต่าง Results
• หน้าต่าง Accelerator
RapidMiner Studio 6
23
ส่วนของการแสดงผลลัพธ์ Repositories
A B
25. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example
• ในหนังสือเล่มนี้จะแสดงวิธีการใช้งาน RapidMiner Studio 6 เพื่อ
ช่วยในการวิเคราะห์ข้อมูลของซุเปอร์มาร์เก็ต (supermarket)
แห่งหนึ่งซึ่งได้ทำการเก็บข้อมูลสมาชิก (ลูกค้า) และการซื้อสินค้าต่างๆ ไว้
• วัตถุประสงค์เพื่อค้นหาว่าลูกค้ากลุ่มใดที่น่าสนใจและสินค้าที่ลูกค้ามักจะมาซื้อ
ร่วมกันบ่อยๆ เพื่อจะได้นำเสนอโปรโมชันได้อย่างเหมาะสม
• โพรเซสทั้งหมดแสดงดังในรูปด้านล่าง
24
Recency (R)
Frequency (F)
Monetary (M)
ลำดับ ความสัมพันธ์ในการซื้อ
สินค้า
ความถี่ (%)
1 Sports, Health 36
2 Toys, Clothing 33
3 Toys, Electronics 30
4 Books, Movies 24sales data
segmentation
product association
26. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example
• ขั้นตอนการทำงานในบทต่อๆ ไปมีดังนี้
• บทที่ 2 แนะนำการนำข้อมูลเข้ามาใช้งานและการเตรียมข้อมูลต่างๆ
• บทที่ 3 แนะนำการแบ่งกลุ่มลูกค้า (segmentation) ออกตามพฤติกรรมการซื้อ
สินค้า
• บทที่ 4 แนะนำการหาความสัมพันธ์ของการซื้อสินค้าต่างๆ (product
association)
25
28. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Sales database
• ซุเปอร์มาร์เก็ตแห่งหนึ่งมีร้านอยู่หลายสาขา (Store) แต่การเก็บข้อมูลจะ
เก็บไว้ในฐานข้อมูลกลาง ซึ่งมีรายละเอียดดังในตารางด้านล่าง
• trans_id แสดงหมายเลขการซื้อสินค้า (transaction)
• store_id แสดงหมายเลขของสาขา
• customer_id แสดงหมายเลขของลูกค้า
• product_id แสดงหมายเลขของสินค้า
• product_cat แสดงประเภทของสินค้า (category)
• date แสดงวันและเวลาที่ซื้อสินค้า
• amount แสดงจำนวนสินค้าชนิดนั้นที่ซื้อ
• single_price แสดงราคาสินค้า/หน่วย
27
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
A B C D E F G H
A
B
C
D
E
F
G
H
Note:
• ข้อมูลที่ใช้ในหนังสือเล่มนี้เป็นข้อมูลตัวอย่างที่สร้างขึ้นมาจาก RapidMiner Studio 6 ดูวิธีการสร้าง
ชุดข้อมูลตัวอย่างนี้ได้จาก Appendix A ครับ
29. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data
• RapidMiner จะมีชื่อเรียกข้อมูลที่แสดงในรูปแบบของตาราง ดังนี้
• แถว เรียกว่า ตัวอย่าง (example)
• คอลัมน์ เรียกว่า แอตทริบิวต์ (attribute) ซึ่งมี 2 หน้าที่ที่ใช้งานบ่อย
• ไอดี (ID) เป็นแอตทริบิวต์ที่แสดงหมายเลขของข้อมูล หรือ primary key ในฐานข้อมูล
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ไอดีจะแสดงด้วยสีฟ้า
• แอตทริบิวต์ทั่วไป (attribute) เป็นแอตทริบิวต์ปกติที่ใช้ในการประมวลผลหรือ
คำนวณต่างๆ
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ทั่วไปจะแสดงด้วยสีเทา
• ประเภทของข้อมูลที่เก็บในแต่ละแอตทริบิวต์
• Polynominal คือ ข้อมูลประเภท category (ข้อมูลที่ไม่ใช่ตัวเลข) มีค่ามากกว่า 2 ค่า
ขึ้นไป
• Integer/Real คือ ข้อมูลประเภทตัวเลขจำนวนเต็ม หรือ จำนวนที่มีทศนิยม
• Date time คือ ข้อมูลประเภทวันที่และเวลา
28
attributeID
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
polynominal data time realinteger
30. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• Repository
• เป็นที่เก็บข้อมูลและโพรเซสเพื่อใช้งานใน RapidMiner Studio 6 ทำให้ไม่ต้อง
โหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง
• ส่วน Repository ประกอบด้วย 2 ส่วน คือ
• เมนูสำหรับการจัดการ Repository
• สำหรับสร้าง Repository ใหม่
• โหลดไฟล์ประเภทต่างๆ เข้าไปไว้ใน Repository
• สร้างโฟลเดอร์ใหม่
• Repository ที่มีอยู่ใน RapidMiner Studio 6
• Samples เป็นข้อมูลและโพรเซส ตัวอย่างที่ RapidMiner Studio 6 เตรียมไว้ให้
• Local Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสในเครื่องคอมพิวเตอร์
ของเราเอง (local)
• Cloud Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสบน Cloud
Data management
29
A
B
A
B
31. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• ในหนังสือเล่มนี้เราจะสร้าง Repository ใหม่เพื่อเก็บข้อมูลและโพรเซส
• คลิกที่ไอคอน
• เลือก New local repository
• กดปุ่ม Next
• เปลี่ยนชื่อ Alias เป็น GettingStartedWithRapidMiner
• คลิกที่ Use standard location เพื่อไม่เลือก option นี้
• คลิกที่ไอคอน เพื่อเลือก Root directory (ซึ่งเป็นโฟลเดอร์สำหรับเก็บข้อมูล)
ใหม่
Create Repository
30
2
1
3
1
2
3
4
5
6
6
4
5
32. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• สร้าง Repository ใหม่ (ต่อ)
• คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์สำหรับ Repository ใหม่ ในตัวอย่างนี้เลือกที่
Desktop (แต่ท่านผู้อ่านสามารถเลือกที่ไดรฟ์ C: หรือ D: ก็ได้ครับ)
• สร้างโฟลเดอร์ชื่อ GettingStartedWithRapidMiner
• กดปุ่ม OK
• เลือกโฟลเดอร์ที่สร้างขึ้น
• กดปุ่ม Open
Create Repository
31
7
7
8
9
10
11
8 10
11
9
33. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Create Repository
• สร้าง Repository ใหม่ (ต่อ)
• กดปุ่ม Finish
• จะได้ Repository ใหม่แสดงขึ้นมา
32
12
13
12
13
ขยายส่วน Repositories ให้
เต็มหน้าจอ
34. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository
• ในส่วน Repositories คลิกที่ไอคอน เลือก Import Excel Sheet…
• เลือกไฟล์ sale_data.xlsx ที่สร้างขึ้น (ดูวิธีการสร้างไฟล์ประเภท Excel ได้จาก
Appendix A ครับ)
• ขั้นตอนที่ 2 ของการ Import ไฟล์ คือ การเลือก Worksheet ที่ต้องการ import
• ในไฟล์ตัวอย่างมีแค่ Worksheet เดียวจึงมีเพียงแท็บเดียวให้เลือก
33
3
4
เลือกไฟล์ sales_data.xlsx
5
เลือก Worksheet นี้
1
2
35. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 3 กำหนดให้แถวแรกของไฟล์เป็นชื่อแอตทริบิวต์ และคลิก Next
• ขั้นตอนที่ 4 เปลี่ยน Date format ให้เป็นแบบ yyyy-MM-dd HH:mm:ss
• เปลี่ยนแอตทริบิวต์ transaction_id ให้มีหน้าที่ (role) เป็น ID และ product_id
ให้เป็นประเภท Polynominal
34
7
6
กำหนดให้แถวแรกเป็น
ชื่อแอตทริบิวต์
10
8
9
11
เปลี่ยนรูปแบบของวันที่
และเวลา
เปลี่ยนหน้าที่ของ
แอตทริบิวต์ให้เป็น ID
เปลี่ยนประเภทให้เป็น Polynominal แทน Integer
36. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 5 ซึ่งเป็นขั้นตอนสุดท้ายคือกำหนดว่าจะเก็บข้อมูลไว้ที่ Repository ที่
สร้างขึ้นมาใหม่ (GettingStartedWithRapidMiner) และตั้งชื่อไฟล์เป็น sales_data
• ข้อมูลที่ import เข้ามาใน RapidMiner Studio 6 จะแสดงเป็นรูปแบบ
ของตาราง แต่ก็สามารถเปลี่ยนไปดูในรูปแบบอื่นๆ ได้ เช่น กราฟ
Import Sale data
35
13
12
14
เลือกไฟล์ Repository ที่สร้างขึ้นใหม่
ตั้งชื่อข้อมูลเป็น sales_data
แสดงรายละเอียดของข้อมูล
คลิกที่ชื่อแอตทริบิวต์เพื่อ sort
37. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ เช่น
• แสดงข้อมูลในรูปแบบตาราง (Data) และถูกกำหนดเป็นค่าเริ่มต้น (default)
• แสดงค่าสรุปทางสถิติ (Statistics) เช่น ค่า Min, Max, Average, Deviation
• แสดงกราฟรูปแบบต่างๆ (Charts) เช่น กราฟแท่ง กราฟวงกลม
• แสดงข้อมูลในรูปแบบตาราง
• ExampleSet แสดงจำนวนข้อมูลทั้งหมดในไฟล์
• Filter แสดงจำนวนข้อมูลจากการกรอง (filter) ทำได้ 5 แบบ
• all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)
• no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์
• missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์
• no_missing_labels แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• missing_labels แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• ตารางแสดงข้อมูลในแต่ละแอตทริิบิวต์ คลิกที่ชื่อแอตทริบิวต์เพื่อทำการเรียงลำดับ
• กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลำดับมากกว่า 1
แอตทริบิวต์ (สำหรับระบบปฏิบัติการ OS X ให้กดปุ่ม command แทน)
Data exploration
36
A
B
C
A
B
C
38. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data exploration
• คลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติ มีคอลัมน์ต่างๆ ดังนี้
• Name แสดงชื่อแอตทริบิวต์
• Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์ เช่น Integer, Polynominal
• Miss. จำนวนข้อมูลที่มีค่าว่าง
• Statistics ค่าทางสถิติต่างๆ เช่น Min, Max, Average, Deviation, Least, Most,
Values
37
A
B
C
D
A B C D
• ข้อมูล sales_data ที่ import เข้ามาจะแสดงไว้
ใน Repository
• สัญลักษณ์ แสดงข้อมูล (data)
• ถ้าต้องการเรียกดูข้อมูลให้ double click ที่ชื่อ
ของข้อมูล
• ถ้าต้องการนำไปใช้ในโพรเซส ให้คลิกที่ชื่อ
ข้อมูลและลากไปวางไว้ใน main process
ข้อมูลที่ import เข้ามา