First Step to Big Data

ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญดาต้า คิวบ์ และ
ผู้อำนวยการหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering)
วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
eakasit@datacubeth.ai 
Automation Expo 2019
วันพฤหัสบดีที่ 14 มีนาคม 2562
First Step to Big Data

http://dataminingtrend.com http://facebook.com/datacube.th
About us
• ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา
• การศึกษา:
• ปริญญาเอก วิทยาการคอมพิวเตอร์  
สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
• ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์  
(เกียรตินิยมอันดับ 2)
• ประสบการณ์
• Certiﬁed RapidMiner Expert and Ambassador
• Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน
• ร่วมวิจัย โครงการสํารวจข้อมูลเพื่อการวิเคราะห์พฤติกรรมของนักท่องเที่ยวเชิงลึก ด้วยวิธีการทําเหมือง
ข้อมูล การท่องเที่ยวแห่งประเทศไทย (ททท)
• วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining
2

About us
• หนังสือ Data Mining ฉบับภาษาไทย
3

• Telco
• Banking & Financial Services
4
Our Customers

• Insurance
• Manufacturing
• Other
5
Our Customers

• แนะนำข้อมูลขนาดใหญ่ (Big Data)
• แนะนำเทคโนโลยี Internet of Things (IoT)
• แนะนำเทคโนโลยีการจัดการข้อมูลขนาดใหญ่
• แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
• ตัวอย่างการประยุกต์ใช้งาน
• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง
หัวข้อการบรรยาย
6

ในหนึ่งวันทำงาน

source:http://pad1.whstatic.com/images/thumb/a/aa/Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg/
aid196018-728px-Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg
เวลา 07:00 น. ออกเดินทางไปทำงาน

source: http://www.clipartkid.com/images/259/research-and-report-writing-9-23-12-9-30-12-q2r0wg-clipart.jpg
เวลา 07:45 น. ยังคงติดอยู่บนถนน

เวลา 08:00 น. เจ้านายโทรศัพท์เข้ามาถามงาน
source: https://d1ai9qtk9p41kl.cloudfront.net/assets/mc/psuderman/2011_07/text-drive.png

เวลา 08:05 น. ขับรถไปชนกับคันอื่น

เวลา 10:00 น. ถึงที่ทำงานและทำงานต่อไป
source: http://stuffpoint.com/anime-and-manga/image/285181-anime-and-manga-girl-working-in-the-computer.jpg

เวลา 18:00 น. แวะซื้อของกลับบ้าน

เวลา 20:00 น. กลับถึงบ้านและอยู่คนเดียว

ในหนึ่งวันทำงานกับ 
เทคโนโลยีข้อมูลขนาดใหญ่ (Big Data)

ระบบนำทาง
• แอพพลิเคชัน Waze
16

ระบบนำทาง
• แอพพลิเคชัน Waze
17

รถที่ไม่ต้องมีคนขับ (self driving car)
• Waymo (Google self-driving car)
18

แผงไข่อัจฉริยะ
• Egg Minder
19

ร้านค้าที่ไม่ต้องรอคิว
• Amazon Go
20

เทคโนโลยีที่ทำให้ชีวิตประจำวันสะดวกขึ้น
21

ทำไมผู้หญิงถึงโสด
22
source: https://pishetshotisak.wordpress.com/2016/12/07/ทำไมผู้หญิงถึงขึ้นคาน-ค/

คนเรามักชอบอะไรใหญ่ๆ

Big Data & Analytics
• Big Bang
24
source:http://www.thetechy.com/science/exploring-universe-curiosity

• Big Architecture (Great wall of China)
25
source: http://www.history.com/topics/great-wall-of-china

• Big Data
26source: http://www.plmjim.com/?p=583

Data is a new oil
• “เมื่อข้อมูลมีค่าดั่งน้ำมัน”
27Source: https://www.raconteur.net/technology/drilling-for-new-oil-of-big-data
Customer
Data
Transaction 
Data
Website
Data
Survey 
Data
Social
Network  
Data Employee 
Data
Reports
Actionable
Insight
Predictive
Model
Recommended
Products
www.facebook.com/datacube.th

Data Evolutions
28
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data

What is Big Data?
29
source: https://www.youtube.com/watch?v=TzxmjbL-i4Y

What is Big Data?
30
source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#

What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume
• ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล
• Velocity
• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety
• ข้อมูลมีความหลากหลายมากขึ้น
31
source: https://upxacademy.com/beginners-guide-to-big-data/

What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
32

Big Data: Volume
33
source:https://dataﬂoq.com/read/infographic/226

Big Data: Volume
34
source:https://www.adeptia.com

What is Big Data?
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
35

Big Data: Velocity
36

What is Big Data?
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
• Complexity of data types and structures
• ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น
รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip)
37

Big Data: Variety
38

Big Data: Variety
39

What is Big Data?
40
source: http://dataconomy.com/2014/08/infographic-how-to-explain-big-data-to-your-grandmother/

41

Internet of Things
42source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/

Sensors
43source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/

IoT applications
44

IoT applications
• Disney’s Magic Band
45
source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0

IoT applications
• GlowCaps
46
source:http://www.vitality.net/glowcaps.html

IoT applications
• Connected Toothbrush
47
source:https://www.youtube.com/watch?v=gLpUxDdh9iQ

IoT applications
48
source:https://www.youtube.com/watch?v=TqRN7r7mGmk

IoT applications
49

IoT applications
• iBeacon
50
source: https://www.mallmaverick.com/system/site_images/photos/000/001/700/original/blog_ibeacon1.jpg?1391033561

51

Scalability
• Scaling Up
• Scaling Out
52

MapReduce
• MapReduce is a programming framework that allows us to
perform distributed and parallel processing on large data sets in
a distributed environment. 
53
Source: edureka.co

MapReduce
• Map
• The input to this mapper would be strings that contain sentences,
and the mapper’s function would be to split the sentences into
words and output the words
54
Image source: "Hadoop with Python", Zachary Radtka and Donald Miner, 2016

MapReduce
• Reduce
• The reducer then outputs a key-value pair that contains the input
key and the sum of the input key values
55
Image source: "Hadoop with Python", Zachary Radtka and Donald Miner, 2016

MapReduce
• ext ﬁle: example.txt
• Dear, Bear, River, Car, Car, River, Deer, Car and Bear
• Finding: number of occurrences of those unique words
56
Source: edureka.co

NoSQL
• NoSQL is “Not Only SQL”
• There are 4 major types of key NoSQL databases
• Key-Value databases
• Document databases
• Column-oriented databases
• Graph databases
57

58

Where does data come from?
• ข้อมูลแบ่งตามที่มา
• ภายในบริษัท/องค์กร
• ข้อมูลการซื้อขาย
• ข้อมูลประวัติลูกค้า
• ข้อมูลประวัติพนักงาน
• ภายนอกบริษัท/องค์กร
• ข้อมูลจาก social media ต่างๆ
• ข้อมูลข่าวต่างๆ
• ข้อมูลรูปภาพและเสียง
59
source: http://dailyprivacy.ﬁles.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg

Database & warehouse & mining
60
Database
Sales
Accounting
CRM
Extract 
Transform 
Load 
(ETL)
Data Mining
Data Warehouse
image source:https://sites.google.com/a/whps.org/diamond-teamkp/ 
http://www.iconarchive.com/tag/data

Database & warehouse & mining
• Database
• ฐานข้อมูลใช้ในการจัดเก็บข้อมูล ลดความซ้ำซ้อนของข้อมูล เน้นการจัดเก็บ เพ่ิม
แก้ไข และลบข้อมูล
• Data warehouse
• คลังข้อมูลรวบรวมช้อมูลจากหลายๆ ฐานข้อมูล แปลงข้อมูลให้มีความเหมือนกัน
เหมาะสำหรับการเรียกดู (view) เพื่อสร้างรายงานสรุป
• Data Mining
• การวิเคราะห์ข้อมูลเพื่อค้นหาความสัมพันธ์หรือรูปแบบที่มีประโยชน์ในฐานข้อมูล
61

Data Analytics
62
dictive Analytics Transforms Insights into Action
WHAT HAPPENED
observe
WHY DID IT HAPPENED
explain
WHAT WILL HAPPEN
anticipate
OPERATIONALIZE
act

BI & Data Mining
63
Business
Intelligence
Data
Mining
Time
Analytical  
Approach
Past Future
Explanatory
Exploratory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions
• What happened last
quarter?
• How many unit sold?
• Where is the problem? In
which situations
Data Mining questions
• What if … ?
• What will happen next?
• Why is this happen?

What is data mining
• “The exploration and analysis of large quantities  
of data in order to discover meaningful patterns and
rules” – Data Mining Techniques (3rd Edition)
• เป็นการวิเคราะห์ข้อมูล เพื่อหารูปแบบ (patterns) หรือความสัมพันธ์
(relation) ระหว่างข้อมูลในฐานข้อมูลขนาดใหญ่
• “Extraction of interesting (non-trivial, previously,
unknown and potential useful) information from data in
large databases” – Data Mining Concepts &
Techniques (3rd Edition)
• เป็นกระบวนการดึงข่าวสารที่น่าสนใจ และมีประโยชน์แต่ไม่เคยรู้มา
ก่อนจากฐานข้อมูลขนาดใหญ่
64
image sources: https://binarylinks.wordpress.com/tag/data-mining/ 
http://www.amazon.com/Data-Mining-Techniques-Relationship-Management/dp/0470650931

What is data mining
65
ข้อมูล' เทคนิคการทำ data mining' รูปแบบที่มีประโยชน์'
image source:http://www.computerrepairanaheim.net 
https://sites.google.com/a/whps.org/diamond-teamkp/ 
http://meetings2.informs.org/wordpress/analytics2014/2014/04/01/why-oranalytics-people-need-to-know-about-database-technology/

• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• การหาความสัมพันธ์ (association analysis)
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
• การจัดกลุ่มข้อมูล (clustering)
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน
• การจำแนกประเภทข้อมูล (classiﬁcation)
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
Data Science/Data Mining methods
66
association rules
clustering
classiﬁcation

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
67
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

68

69

70

71

72

73

74

• การจัดกลุ่ม  
(Segmentation)
75

Segmentation by RFM
• แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า
• ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency)
• ความถี่ของการซื้อสินค้า (Frequency)
• การใช้จ่ายของลูกค้า (Monetary)
76
Customer ID Recency Frequency Monetary
C10001
C10002
C10003
หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
OrderID Customer ID Order Date Total
Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
ตาราง order detail

Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
77
C10001 151 3 60

Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
78
C10001 151 3 60
C10002 116 2 500

Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
79
C10001 151 3 60
C10002 116 2 500
C10003 372 1 10

Segmentation by RFM
• แบ่งกลุ่มลูกค้าด้วยวิธี RFM
• เรียงลำดับข้อมูล
• Recency จากน้อยไปมาก
• Frequency และ Monetary จากมากไปน้อย
• แบ่งข้อมูลออกเป็น 5 กลุ่ม กลุ่มละจำนวนเท่าๆ กัน (quintile)
• คำนวณคะแนน RFM ของแต่ละกลุ่ม
80
source: http://www.b-eye-network.com/view/10256
น้อย
มาก
Recency
score = 5
score = 4
score = 3
score = 2
score = 1
มาก
น้อย
Frequency
score = 5
score = 4
score = 3
score = 2
score = 1
มาก
น้อย
Monetary
20% ของข้อมูล
score = 5
score = 4
score = 3
score = 2
score = 1

Segmentation by RFM
• แบ่งกลุ่มลูกค้าด้วยวิธี RFM
• ลูกค้าในแต่ละกลุ่มจะมีลักษณะต่างๆ กัน เช่น
• ลูกค้ากลุ่ม RFM = 555
• เป็นกลุ่มลูกค้าที่มีค่ามากสุด
• เป็นกลุ่มลูกค้าที่มีการซื้อบ่อยๆ  
แต่ซื้อจำนวนน้อย
• ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าที่มีราคา 
สูงขึ้น (up-selling)
• เป็นกลุ่มลูกค้าที่นานๆ จะซื้อสักครั้ง แต่ซื้อสินค้าที่มีราคาสูง
• ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าบ่อยขึ้น
81
Recency
Frequency
M
onetary
1 2 3 4 5
5
4
3
2
1
5
4
3
2
1

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
82
1
2
3
5
6
4

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
83
1 6
4 5
2 3
ลูกค้าที่ใช้โทรเยอะ
ลูกค้าที่ส่ง SMS เยอะ
ลูกค้าที่ใช้งานไม่เยอะ

• Classiﬁcation (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
84

• ตัวอย่าง spam e-mail classification
• สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label)
85
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
attribute label
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data

• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
86
attribute
Free
Won
Normal Spam
Spam
= N = Y
= N = Y
training data
11 Y Y N ?
12 N Y N ?

87
attribute
Free
Won
Normal Spam
Spam
= N = Y
= N = Y
training data
11 Y Y N ?
12 N Y N ?

88
attribute
Free
Won
Normal Spam
Spam
= N = Y
= N = Y
training data
11 Y Y N ?
12 N Y N ?

1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
Classiﬁcation example
89
attribute labelID
training data
สร้าง classiﬁcation model
11 Y Y N ?
12 N Y N ?
unseen data
ID Type
11 spam
12 spam
1
2
3 4

90

Big Data & Analytics Applications
• Industry Revolution 4.0
91

• Industry Revolution 4.0
92

• Predictive Maintenance
93
Predictive
Maintenance
• Allow convenient scheduling
of corrective maintenance
• Providing insights which
equipment needs
maintenance
• Reduce unplanned down
time

• ตัวอย่างการนำ Data Mining ไปใช้งาน
94
source: http://www.youtube.com/watch?v=f2Kji24833Y

• บัตรสมาชิก (loyalty card)
• ติดตามพฤติกรรมการซื้อสินค้า
ของลูกค้าจากบัตร loyalty
• นำมาวิเคราะห์และนำเสนอเป็น
โปรโมชันพิเศษให้แต่ละบุคคล
• เพิ่มโอกาสในการขายสินค้าให้กับ
ลูกค้า
• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก
ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้
ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการ
ตัดสินใจซื้อทันที
95
image source: http://www.positioningmag.com

• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ 
นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
96

• เบียร์และผ้าอ้อม
• ห้าง Walmart พบว่าทุกวันศุกร์
หลังบ่ายโมง จะมีลูกค้าเพศชาย
อายุระหว่าง 25 – 35 ปี ซื้อสินค้า
Beers และ Diapers มากที่สุด
97

• คาดการณ์การตั้งครรภ์
• ห้าง Target ทำการ
วิเคราะห์พฤติกรรมการซื้อ
สินค้าของลูกค้าเพศหญิง
• พบรูปแบบ (pattern) ว่า
ถ้ามีการซื้อวิตามิน ซื้อ
อาหารบำรุง หรือ ซื้อตู้
เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง
ครรภ์
• Target จะส่ง promotion
ให้ลูกค้าเหล่านั้น
98

• แนะนำสินค้าที่เกี่ยวข้อง
• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner
• Netﬂix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi
99

• Google Self-Driving Car
100
source: https://www.youtube.com/watch?v=8fjNSUWX7nQ

• แนวโน้มราคาตั๋วเครื่องบิน
101

• คาดการณ์การลาออกของพนักงาน
102
Receive Promotion
= NO = YES
Years with ﬁrm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน

• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
103

• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)
104

• ทำนายอายุและเพศจากรูปภาพ
105
source: http://www.how-old.net

• Paypal uses RapidMiner to detect churn and identify issues
106
source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883

• How Etihad Airways Uses Big Data To Reach Its Destination
107
source:https://dataﬂoq.com/read/etihad-airways-big-data-reach-destination/412

Data Science Use cases
108
• Churn Prevention
• Identify customers likely to leave, take
preventative action.
• Customer Lifetime Value
• Distinguish between customers based on
business value.
• Customer Segmentation
• Create meaningful customer groups for
more relevant interactions.
• Demand Forecasting
• Know what volumes to expect to improve
planning.
• Fraud Detection
• Identify fraudulent activity quickly, and
end it.
• Next Best Action
• The right action at the right time for the
right customer.
• Price Optimization
• Set prices that balance demand, proﬁt,
and risk.
• Product Propensity
• Predict what your customers will buy,
before even they know it.

Data Science Use cases
109
• Text Mining
• Extract insight from unstructured content.
• Next Best Action
• The right action at the right time for the
right customer.
• Price Optimization
• Set prices that balance demand, proﬁt,
and risk.
• Product Propensity
• Predict what your customers will buy,
before even they know it.
• Quality Assurance
• Resolve quality issues before they
become a problem.
• Predictive Maintenance
• Predict equipment failure, plan cost-
effective maintenance.
• Risk Management
• Understand risk to manage it. 
• Up- and Cross-Selling
• Convince customers to buy more.

Banking ManufacturingTelecommunication
Big Data & Analytics Use Cases
110
Retail InsuranceUse Cases
Churn Prevention
Customer Lifetime Value
Customer Segmentation
Next Best Action
Product Propensity
Up- and Cross-Selling
Demand Forecasting
Price Optimization
Risk Management
Fraud Detection
Quality Assurance
Predictive Maintenance
Text Mining

Big Data & Analytics Use Cases
111
Source: https://www.houseofbots.com/news-detail/4386-1-predictions-for-2019-in-data-science-analytics-and-ai

• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า
ไมน์นิง
112

How to start?
113
ow To Start?
Implementation
•Full-scale
development
•Prepare for
deployment
Build
competency
•Identify key areas
•Talent
development
Pilot Projects
•Evaluate vendors
•Build confidence
•Validate ROI
DOMAIN KNOWLEDGE
Business issues
•What could be
improved?
•List them down
Prioritize
•How critical?
•What happens if
not solved?
Feasibility
•What’s the
available data?
•Potential ROI

The Journey of Data Driven Insights
114
Data Insight Action
The Journey of Data Driven InsightsAcquire
Streaming/In
Motion Data
Staging/At Rest
Data
OrganizeData Lake / Data
Warehouse
Data
Governance
Metadata
Management
Analyze
Advanced
Analytics
Machine
Learning
Deliver
Reporting
Dashboard
API
Domain Knowledge

Data Analytics Framework
115
Data Sources
Web & Social
Existing
Systems
Clickstream
Geolocation
Sensor &
Machine
Open Data
Unstructured
Data Quality &
Business Rules
Data
Stewardship
Data Integration &
Data Quality
Data
Ingestion
ETL/ELT
Data Lake & Data
Warehouse
Hadoop:
- Distributed data store
- In-Hadoop processing
- Easy to scale
Data Synchronization
BI &
Data Science
Development Environment
Deployment Environment
- Scheduler
- Web services
- Interactive web apps
Operationalize
Batch
Stream
Real-Time
Data Governance & Security
Master Data Management (MDM)
Perform Advanced
Analytics in-Hadoop
without coding
Single Source of Truth
Warehouses/
Marts
- RDBMS
- NoSQL
Data
Processing
Acquire Organize Analyze
Deliver

Data Analytics Team
116

CRISP-DM
• CRoss-Industry Standard Process for Data Mining (CRISP-DM)
• พัฒนาขึ้นโดย 3 บริษัท
• บริษัท SPSS
• บริษัท DaimlerChrysler
• บริษัท NCR
• เป็น Workﬂow มาตรฐานสำหรับการทำ data mining
• ประกอบด้วย 6 ขั้นตอน
117

CRISP-DM
118
3 ขั้นตอนแรกจะใช้เวลา
80% ของทั้งหมด
1 2
3
4
5
6
image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013

1. Business Understanding
• ขั้นตอนแรกของ CRISP-DM
• ทำความเข้าใจกับปัญหา หรือ โอกาสเชิงธุรกิจ
• ระบุ output หรือเป้าหมายที่ต้องการได้จากการวิเคราะห์ข้อมูลด้วย data mining
• ตัวอย่างเช่น
• ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆ ได้
• ต้องการแบ่งกลุ่มนักศึกษาออกตามความสนใจ
• ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก
• อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป
• อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง
119
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment

• ในขั้นตอนนี้เป็นการ
• รวบรวมข้อมูลที่เกี่ยวข้อง
• ข้อมูลถูกต้องน่าเชื่อถือ
• ข้อมูลที่ได้มีปริมาณมากพอหรือยัง
• ข้อมูลที่ได้มีความเหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์
• ตัวอย่าง
• ข้อมูลการซื้อสินค้าคนแต่ละบุคคล
• ข้อมูลการลงทะเบียนและผลการศึกษาของนักศึกษา
Business
Understanding
Data
Understanding
Data
Preparation
2. Data Understanding
120

• ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด
• เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้อง
หรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งออกได้เป็น 3 ขั้นตอน
ย่อยคือ
• 3.1 ทำการคัดเลือกข้อมูล (Data Selection)
• กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร
• เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์
Business
Understanding
Data
Understanding
Data
Preparation
3. Data Preparation
121

• 3.2 ทำการกลั่นกรองข้อมูล (Data Cleaning)
• ลบข้อมูลซ้ำซ้อน
• แก้ไขข้อมูลที่ผิดพลาด
• ข้อมูลผิดรูปแบบ
• ข้อมูลที่หายไป
• ข้อมูล outlier ที่แปลกแยกจากคนอื่น
Business
Understanding
Data
Understanding
Data
Preparation
3. Data Preparation
122
รหัส เพศ อายุ ความสูง น้ำหนัก
57001 ชาย 18 180 70
5702A ญ 80 35
57123 หญิง 19 150 2500
58002 ช 17 175 90
ข้อมูลนักศึกษาชั้นปีที่ 1 ปีการศึกษา 2557
ผิดรูปแบบ ขาดหาย outlier

• 3.3 แปลงรูปแบบของข้อมูล (data transformation)
• เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์ 
ตามอัลกอริทึมของ data mining ที่เลือกใช้
Business
Understanding
Data
Understanding
Data
Preparation
3. Data Preparation
123
ID สินค้า จำนวนที่ซื้อ
1 ปากกา 1
1 ยางลบ 1
1 คลิป 10
2 สมุด 2
2 ปากกา 2
3 สมุด 1
3 ปากกา 3
3 ยางลบ 2
ID สมุด ปากกา ยางลบ คลิป
1 - TRUE TRUE TRUE
2 TRUE TRUE - -
3 TRUE TRUE TRUE -
ข้อมูลในฐานข้อมูล POS
ข้อมูลสำหรับการหากฏความสัมพันธ์ (Association Rules)

Business
Understanding
Data
Understanding
Data
Preparation
3. Data Preparation
124
เมื่อวันที่ 4 มกราคม 2557 เฟซบุ๊กเปิดตัวหน้าเพจใหม่ชื่อว่า Facebook A Look Back เมื่อผู้ใช้งาน
คลิกไปยังหน้านี้ก็จะแสดงคลิปวิดีโอที่บอกเล่าเรื่องราวของผู้ใช้งานคนนั้นๆ เช่น เริ่มเล่นเฟซบุ๊กครั้ง
แรกปีไหน, โพสต์แรกบนเฟซบุ๊ก, รูปภาพที่ถูกกดไลค์มากที่สุด, รูปภาพที่ถูกแชร์มากที่สุด และ 20
อันดับเรื่องราวต่าง ๆ ที่เกิดขึ้นในเฟซบุ๊กก็จะถูกแสดงและรวบรวมไว้ในคลิปวิดีโอนี้
ID เฟซบุ๊ก รูปภาพ ไลค์ แชร์ คลิปวิดีโอ
1 4 2 1 1 2
2 …
เอกสารข่าว
ตารางแสดงจำนวนความถี่ของแต่ละคำ

Business
Understanding
Data
Understanding
Data
Preparation
3. Data Preparation
125
ID สีแดง สีเขียว สีน้ำเงิน
1 93 98 167
2 …
รูปภาพ
จำนวน pixel สีแดง สีเขียว สีนำ้เงินที่ปรากฏในรูปภาพ
image source:http://www.travelhouse.ch/reisen/thailand/phuket/jw-marriott-phuket-resort-and-spa

CRISP-DM
126
3 ขั้นตอนหลังจะใช้เวลา
20% ของทั้งหมด
1 2
3
4
5
6
image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013

• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• classiﬁcation
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
• clustering
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มนักศึกษาตามคะแนนที่ได้
• association rules
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
Business
Understanding
Data
Understanding
Data
Preparation
4. Modeling
127
classiﬁcation
clustering
association rules

• ประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อน
หน้านั้น
Business
Understanding
Data
Understanding
Data
Preparation
5. Evaluation
128
VS
โมเดล decision tree โมเดล neural network

Business
Understanding
Data
Understanding
Data
Preparation
6. Deployment
• นำโมเดลที่ได้ หรือ ผลการวิเคราะห์ที่ได้ไปใช้งานจริง
129
ใช้จากกฏความสัมพันธ์ที่หาได้
image source: http://www.mysupermarket.co.uk/brands/tesco_discounter_brand_in_tesco.html

References
• Andrew Chisholm, Exploring Data with RapidMiner, November 2013
• Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, October 25, 2013
• Foster Provost, Data Science for Business: What you need to know about
data mining and data-analytic thinking, August 19, 2013
• Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai
version), 2014
130

For more information
• หสม. ดาต้า คิวบ์ (data cube)
• website: http://www.dataminingtrend.com
• facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake
• email: eakasit@datacube.asia
• lineID: eakasitp
131

First Step to Big Data

More Related Content

What's hot

Similar to First Step to Big Data

More from Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University

First Step to Big Data