Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
Introduction to
Big Data & Analytics
Eakasit Pacharawongsakda, Ph.D.
Big Data Engineering Program,
College of Innovation Technology and Engineering, DPU
eakasit.pac@dpu.ac.th
Introduction to Big Data & Data Mining
Chapter 1
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Bang
4
source:http://www.thetechy.com/science/exploring-universe-curiosity
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Architecture (Great wall of China)
5
source: http://www.history.com/topics/great-wall-of-china
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Data
6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
7
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
8
image source: http://www.oknation.net/blog/print.php?id=434843
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business with analytics
9
source: https://www.youtube.com/watch?v=7tAgbni9kpY
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where does data come from?
10
source: https://www.youtube.com/watch?v=Y_JlkzzhAgw
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where is data come from?
• ข้อมูลแบ่งตามที่มา
• ภายในบริษัท/องค์กร
• ข้อมูลการซื้อขาย
• ข้อมูลประวัติลูกค้า
• ข้อมูลประวัติพนักงาน
• ภายนอกบริษัท/องค์กร
• ข้อมูลจาก social media ต่างๆ
• ข้อมูลข่าวต่างๆ
• ข้อมูลรูปภาพและเสียง
11
source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data
• ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง
(unstructure)
• ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง
• ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ
12
ID outlook humidity windy play
1 sunny high FALSE no
2 sunny high TRUE no
3 overcast normal FALSE yes
binominalnumeric nominal
CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((((CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET )))))))))))))))))))))))))))
1122
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data
• ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี
จำนวนมากถึง 80% ของข้อมูลทั้งหมด
13
source: http://www.couchbase.com/why-nosql/nosql-database
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Evolutions
14
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
15
source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
16
source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume
• ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง
มหาศาล
• Velocity
• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety
• ข้อมูลมีความหลากหลายมาก
ขึ้น
17
source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
• Huge volume of data
• Rather than thousands or millions of rows, Big Data can be billions
of rows and million of columns
• Complexity of data types and structures
• Big Data reflects the variety of new data sources, formats and
structures
• Speed of new data creation and growth
• Big Data can describe high velocity data, with rapid data ingestion
and near real time analysis
18
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
19
source:https://datafloq.com/read/infographic/226
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
20
source:https://www.adeptia.com
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Velocity
21
source:www.julianmarquina.es
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Variety
22
source: http://thumbs.dreamstime.com/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
23
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Internet of Things?
24
source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Google glasses
25
source:https://www.youtube.com/watch?v=4EvNxWhskf8
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Disney’s Magic Band
26
source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• GlowCaps
27
source:http://www.vitality.net/glowcaps.html
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Connected Toothbrush
28
source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
29
source:https://www.youtube.com/watch?v=lsiHUfIpNGY
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
30
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data and traditional analytics
31
Big Data Traditional analytics
Type of data Unstructured formats
Formatted in rows and
columns
Volume of data 100 terabytes to petabytes Tens of terabytes or less
Flow of data Constant flow of data Static pool of data
Analysis method
Machine Learning/
Data Mining
Hypothesis-based
Primary purpose Data-based products
Internal decision support
and services
source: big data @ work
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
BI & Data Science/Data Mining
32
Business
Intelligence
Data
Mining
Time
Analytical
Approach
Past Future
Explanatory
Explanatory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions
• What happened last
quarter?
• How many unit sold?
• Where is the problem? In
which situations
Data Mining questions
• What if … ?
• What will happen next?
• Why is this happen?
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• การหาความสัมพันธ์ (association analysis)
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
• การจัดกลุ่มข้อมูล (clustering)
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน
• การจำแนกประเภทข้อมูล (classification)
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
Data Science/Data Mining methods
33
association rules
clustering
classification
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
34
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
35
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
36
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
37
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
38
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
39
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
40
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
41
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่ม (Segmentation)
42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
43
1
2
3
5
6
4
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
44
1 6
4 5
2 3
ลูกค้าที่ใช้โทรเยอะ
ลูกค้าที่ส่ง SMS เยอะ
ลูกค้าที่ใช้งานไม่เยอะ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
45
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
46
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
โมเดล decision tree
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
47
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
48
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Challenges for mining Big Data
• Heterogeneous and Complex Data
• data types are varied such as Social Network data, Biological data, GIS
• data mining technique should take into the consideration relationships in
the data such as network (graph) connectivity, temporal and spatial
• Scalability
• data sets with sizes of gigabytes, terabytes are becoming common.
• data mining technique can be improved by using sampling or developing
parallel or distributed algorithms
49
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Variety
• ข้อมูลมีความหลากหลาย
• Sequence
• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)
• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence
• Graph
• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)
• ตัวอย่างเช่น
• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)
• ข้อมูลโครงสร้างทางเคมี (chemical structure)
• เครือข่ายคอมพิวเตอร์ (computer network)
50
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
51
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
52
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
53
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
54
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
55
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
<Sports, Finance, News> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
56
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
57
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
58
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text Mining
• การประยุกต์ใช้ข้อมูลประเภทข้อความ
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
59source:http://sentiment140.com และ http://www.techguide.com.au
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation
• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่
ในรูปแบบที่มีโครงสร้าง
60
Laying on the sand sun hitting me, this feels good :)
Smells so good I have two :)
i watched 3 movies today, reminded me of my child hood! Finding Nemo
was always my favourite, but that was when i was MUCH younger! :)
I think NYC would be amazing, I really wanna go there :)
he never care,he never look at me..:(
i am so tired!! and my feet hurt :(
positive
negative
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
61
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
62
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
63
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourite 1
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
bag of words
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Stemming
• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find
64
Term Count
child 1
favourite 3
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
bag of words bag of words
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Remove stopwords
• ตัดคำที่เป็น stop word ทิ้ง
65
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
look 1
me 1
… 1
Term Count
find 1
i 6
lai 1
nyc 1
nemo 1
smell 1
alwai 1
amaz 1
child 1
favorit 1
feel 1
feet 1
go 1
good 2
hit 1
Term Count
hood 1
hurt 1
look 1
care 1
movi 1
reali 1
remind 1
sand 1
sun 1
thi 1
think 1
tire 1
todai 1
wa 3
watch 1
remove stopwords
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data
• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1
ถ้าไม่เกิดขึ้นจะเป็น 0
66
ID find I lai nyc nemo smell alwai … Sentiment
1 0 0 1 0 0 0 0 … positive
2 0 1 0 0 0 1 0 … positive
3 1 1 0 0 1 0 1 … positive
4 0 1 0 1 0 0 0 … positive
5 0 0 0 0 0 0 0 … negative
6 0 1 0 0 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data
• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด
• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร
67
ID find I lai nyc nemo … Sentiment
1 0 0 0.17 0 0 … positive
2 0 0.17 0 0 0 … positive
3 0.17 0.33 0 0 0.17 … positive
4 0 0.33 0 0.17 0 … positive
5 0 0 0 0 0 … negative
6 0 0.17 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า
เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า
• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and
Ghemawat, OSDI 2004)
• Map, written by the user, takes an input pair and pro- duces a set of
intermediate key/value pairs.
• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)
• The Reduce function merges together values to form a possibly smaller set
of values.
• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})
• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)
68
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Map/Reduce Framework
69
image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
70
ID Tweet
1
Laying on the sand sun
hitting me, this feels good.
2
Smells so good I have
two.
ID Tweet
3
I watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when I
was MUCH younger!
4
I think NYC would be amazing,
I really wanna go there.
ID Tweet
5
he never care,he never
look at me.
6
I am so tired!! and my feet
hurt.
เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
map step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
• (“he”,1)
• (“I”,{1,1,1,1,1,1}) => (“I”,6)
• (“Laying”,1)
• (“never”,1)
• (“on”, 1)
• (“watched”,1)
71
reduce stepmap step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
เครื่องที่ 1
เครื่องที่ 2
เครื่องที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
72
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ตัวอย่างการนำ Data Mining ไปใช้งาน
73
source: http://www.youtube.com/watch?v=f2Kji24833Y
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• บัตรสมาชิก (loyalty card)
• ติดตามพฤติกรรมการซื้อสินค้า
ของลูกค้าจากบัตร loyalty
• นำมาวิเคราะห์และนำเสนอเป็น
โปรโมชันพิเศษให้แต่ละบุคคล
• เพิ่มโอกาสในการขายสินค้าให้
กับลูกค้า
• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก
ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้
ส่วนลดพิเศษ ทำให้ลูกค้าเกิด
การตัดสินใจซื้อทันที
74
image source: http://www.positioningmag.com
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
75
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• เบียร์และผ้าอ้อม
• ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่าย
โมง จะมีลูกค้าเพศชายอายุระหว่าง 25 –
35 ปี ซื้อสินค้า Beers และ Diapers
มากที่สุด
76
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• คาดการณ์การตั้งครรภ์
• ห้าง Target ทำการ
วิเคราะห์พฤติกรรมการซื้อ
สินค้าของลูกค้าเพศหญิง
• พบรูปแบบ (pattern) ว่า
ถ้ามีการซื้อวิตามิน ซื้อ
อาหารบำรุง หรือ ซื้อตู้
เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง
ครรภ์
• Target จะส่ง promotion
ให้ลูกค้าเหล่านั้น
77
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• แนะนำสินค้าที่เกี่ยวข้อง
• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner
• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi
78
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Google Self-Driving Car
79
source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• แนวโน้มราคาตั๋วเครื่องบิน
80
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• คาดการณ์การลาออกของพนักงาน
Big Data & Analytics Applications
81
Receive Promotion
= NO = YES
Years with firm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
82
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)
83
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ทำนายอายุและเพศจากรูปภาพ
84
source: http://www.how-old.net
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Paypal uses RapidMiner to detect churn and identify issues
85
source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• How Etihad Airways Uses Big Data To Reach Its Destination
86
source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Business use cases
• Sales and marketing analytics
• Customer analytics
• Social media analytics
• Plant and facility management.
• Supply chain and channel analytics
• Fraud detection
• Price optimization
87
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Sales and marketing analytics
• The first involves using analytical models to improve how customer-facing
applications make direct recommendations to the customer
• include better identifying opportunities for cross-selling and upselling
• decreasing abandoned shopping carts and generally improving the accuracy
of integrated recommendation engines
• The second type is intended to show the performance of the marketing
group's processes and campaigns and recommend adjustments to optimize
that performance.
• Analyzing which campaign addressed the needs of identified clusters or
segments
• the success ratios for motivating the campaigns' call to action.
88
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Customer analytics
• This includes analyzing customer demographics, behaviors and characteristics
to develop models for
• segmenting customers
• predicting churn
• making next-best-offer recommendations to help with customer retention
• Social media analytics
• The content that streams across social media channels provides ample
opportunities for analyzing customer sentiment and identifying brand risks
when negative information is promulgated about a company's products
89
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Plant and facility management.
• As more devices and machines are Internet-enabled, organizations
are able to collect and analyze streaming sensor data indicating
continuous measures of power usage, temperature, humidity and
contaminant particles, among a myriad of potential variables.
• Models can be developed for predicting equipment failures and
scheduling pre-emptive maintenance to keep items in working order
without interruption.
90
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Supply chain and channel analytics
• Analyzing warehouse inventory, point-of-sale transactions and
shipments via a variety of channels (e.g., trucking, rail, shipping)
results in predictive analytical models that can help with
• pre-emptive replenishment
• inventory management strategies
• logistics management
• route optimization
• notifications when delays imperil timely deliveries
91
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Fraud detection
• An adjunct to the growing risk of identity theft is the growth of
fraudulent activity and transactions
• Financial institutions analyze billions of transactions to identify
patterns of fraudulent behavior, and the analytical models can also
trigger alerts to customers when a potential fraudulent transaction
might be taking place.
92
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Price optimization
• Retailers looking to maximize overall profitability for product sales may
develop analytical models that combine a variety of data streams,
including competitors' prices, sales transactions across many geographic
regions (to review demand), and information on production, inventories and
the supply chain (to monitor supply).
• The resulting models can be used to dynamically adjust product prices up
when supplies are low, demand is on the increase and competitors are
unable to deliver, or down when inventory needs to be cleared as
seasonal demand shifts.
93

Introduction to big data and analytic eakasit patcharawongsakda

  • 1.
    Introduction to BigData & Analytics The First NIDA Business Analytics and Data Sciences Contest/Conference วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์ https://businessanalyticsnida.wordpress.com https://www.facebook.com/BusinessAnalyticsNIDA/ ดร.เอกสิทธิ์ พัชรวงศ์ศักดา อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube) นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น. แนะนํา Big Data และตัวอย่างต่างๆ แนะนํา Internet of Things (IoT) แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining แนะนําการ Big Data Analytics เช่น stream mining, text mining
  • 2.
    Introduction to Big Data& Analytics Eakasit Pacharawongsakda, Ph.D. Big Data Engineering Program, College of Innovation Technology and Engineering, DPU eakasit.pac@dpu.ac.th
  • 3.
    Introduction to BigData & Data Mining Chapter 1
  • 4.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications 3
  • 5.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics • Big Bang 4 source:http://www.thetechy.com/science/exploring-universe-curiosity
  • 6.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics • Big Architecture (Great wall of China) 5 source: http://www.history.com/topics/great-wall-of-china
  • 7.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics • Big Data 6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583
  • 8.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business without analytics 7
  • 9.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business without analytics 8 image source: http://www.oknation.net/blog/print.php?id=434843
  • 10.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business with analytics 9 source: https://www.youtube.com/watch?v=7tAgbni9kpY
  • 11.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Where does data come from? 10 source: https://www.youtube.com/watch?v=Y_JlkzzhAgw
  • 12.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Where is data come from? • ข้อมูลแบ่งตามที่มา • ภายในบริษัท/องค์กร • ข้อมูลการซื้อขาย • ข้อมูลประวัติลูกค้า • ข้อมูลประวัติพนักงาน • ภายนอกบริษัท/องค์กร • ข้อมูลจาก social media ต่างๆ • ข้อมูลข่าวต่างๆ • ข้อมูลรูปภาพและเสียง 11 source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
  • 13.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Structured & Unstructured data • ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง (unstructure) • ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง • ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ 12 ID outlook humidity windy play 1 sunny high FALSE no 2 sunny high TRUE no 3 overcast normal FALSE yes binominalnumeric nominal CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((((CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET ))))))))))))))))))))))))))) 1122
  • 14.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Structured & Unstructured data • ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี จำนวนมากถึง 80% ของข้อมูลทั้งหมด 13 source: http://www.couchbase.com/why-nosql/nosql-database
  • 15.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Evolutions 14 source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
  • 16.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) What is Big Data? 15 source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
  • 17.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) What is Big Data? 16 source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
  • 18.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) What is Big Data? • Big Data ประกอบด้วย 3 V • Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง มหาศาล • Velocity • ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว • Variety • ข้อมูลมีความหลากหลายมาก ขึ้น 17 source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction
  • 19.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) What is Big Data? • Huge volume of data • Rather than thousands or millions of rows, Big Data can be billions of rows and million of columns • Complexity of data types and structures • Big Data reflects the variety of new data sources, formats and structures • Speed of new data creation and growth • Big Data can describe high velocity data, with rapid data ingestion and near real time analysis 18
  • 20.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data: Volume 19 source:https://datafloq.com/read/infographic/226
  • 21.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data: Volume 20 source:https://www.adeptia.com
  • 22.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data: Velocity 21 source:www.julianmarquina.es
  • 23.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data: Variety 22 source: http://thumbs.dreamstime.com/
  • 24.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications 23
  • 25.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) What is Internet of Things? 24 source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/
  • 26.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Internet of Things • Google glasses 25 source:https://www.youtube.com/watch?v=4EvNxWhskf8
  • 27.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Internet of Things • Disney’s Magic Band 26 source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
  • 28.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Internet of Things • GlowCaps 27 source:http://www.vitality.net/glowcaps.html
  • 29.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Internet of Things • Connected Toothbrush 28 source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
  • 30.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Internet of Things 29 source:https://www.youtube.com/watch?v=lsiHUfIpNGY
  • 31.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications 30
  • 32.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data and traditional analytics 31 Big Data Traditional analytics Type of data Unstructured formats Formatted in rows and columns Volume of data 100 terabytes to petabytes Tens of terabytes or less Flow of data Constant flow of data Static pool of data Analysis method Machine Learning/ Data Mining Hypothesis-based Primary purpose Data-based products Internal decision support and services source: big data @ work
  • 33.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) BI & Data Science/Data Mining 32 Business Intelligence Data Mining Time Analytical Approach Past Future Explanatory Explanatory source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data BI questions • What happened last quarter? • How many unit sold? • Where is the problem? In which situations Data Mining questions • What if … ? • What will happen next? • Why is this happen?
  • 34.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • การหาความสัมพันธ์ (association analysis) • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ • การจัดกลุ่มข้อมูล (clustering) • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน • การจำแนกประเภทข้อมูล (classification) • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป Data Science/Data Mining methods 33 association rules clustering classification
  • 35.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 34 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 36.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 35 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 37.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 36 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 38.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 37 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 39.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 38 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 40.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 39 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 41.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 40 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 42.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 41 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 43.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การจัดกลุ่ม (Segmentation) 42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E
  • 44.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 43 1 2 3 5 6 4
  • 45.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 44 1 6 4 5 2 3 ลูกค้าที่ใช้โทรเยอะ ลูกค้าที่ส่ง SMS เยอะ ลูกค้าที่ใช้งานไม่เยอะ
  • 46.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) 4. Modeling • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 45 • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment
  • 47.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) 4. Modeling • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 46 Outlook Humidity = sunny = rainy No Yes Windy = overcast Yes No Yes = high = normal = TRUE = FALSE โมเดล decision tree • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes
  • 48.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) 4. Modeling • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 47 • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Outlook Humidity = sunny = rainy No Yes Windy = overcast Yes No Yes = high = normal = TRUE = FALSE ID Outlook Temperature Humidity Windy 1 sunny hot high FALSE โมเดล decision tree ข้อมูลที่ใช้ทดสอบ
  • 49.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) 4. Modeling • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 48 • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Outlook Humidity = sunny = rainy No Yes Windy = overcast Yes No Yes = high = normal = TRUE = FALSE ID Outlook Temperature Humidity Windy 1 sunny hot high FALSE โมเดล decision tree ข้อมูลที่ใช้ทดสอบ
  • 50.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Challenges for mining Big Data • Heterogeneous and Complex Data • data types are varied such as Social Network data, Biological data, GIS • data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial • Scalability • data sets with sizes of gigabytes, terabytes are becoming common. • data mining technique can be improved by using sampling or developing parallel or distributed algorithms 49
  • 51.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Variety • ข้อมูลมีความหลากหลาย • Sequence • เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence) • ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence • Graph • เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link) • ตัวอย่างเช่น • ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network) • ข้อมูลโครงสร้างทางเคมี (chemical structure) • เครือข่ายคอมพิวเตอร์ (computer network) 50
  • 52.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 51 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2
  • 53.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 52 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33%
  • 54.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 53 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Finance, News> 2/6 = 33%
  • 55.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 54 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, Finance> 2/6 = 33%
  • 56.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 55 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Sports, Finance, News> 2/6 = 33%
  • 57.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 56 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 58.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 57 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 59.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 58 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 60.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text Mining • การประยุกต์ใช้ข้อมูลประเภทข้อความ • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 59source:http://sentiment140.com และ http://www.techguide.com.au
  • 61.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation • ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่ ในรูปแบบที่มีโครงสร้าง 60 Laying on the sand sun hitting me, this feels good :) Smells so good I have two :) i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! :) I think NYC would be amazing, I really wanna go there :) he never care,he never look at me..:( i am so tired!! and my feet hurt :( positive negative
  • 62.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 61 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1
  • 63.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 62 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3
  • 64.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 63 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourite 1 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 bag of words
  • 65.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation: Stemming • แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find 64 Term Count child 1 favourite 3 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 bag of words bag of words
  • 66.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Text representation: Remove stopwords • ตัดคำที่เป็น stop word ทิ้ง 65 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 look 1 me 1 … 1 Term Count find 1 i 6 lai 1 nyc 1 nemo 1 smell 1 alwai 1 amaz 1 child 1 favorit 1 feel 1 feet 1 go 1 good 2 hit 1 Term Count hood 1 hurt 1 look 1 care 1 movi 1 reali 1 remind 1 sand 1 sun 1 thi 1 think 1 tire 1 todai 1 wa 3 watch 1 remove stopwords
  • 67.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Convert text to structured data • Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1 ถ้าไม่เกิดขึ้นจะเป็น 0 66 ID find I lai nyc nemo smell alwai … Sentiment 1 0 0 1 0 0 0 0 … positive 2 0 1 0 0 0 1 0 … positive 3 1 1 0 0 1 0 1 … positive 4 0 1 0 1 0 0 0 … positive 5 0 0 0 0 0 0 0 … negative 6 0 1 0 0 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  • 68.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Convert text to structured data • Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด • TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร 67 ID find I lai nyc nemo … Sentiment 1 0 0 0.17 0 0 … positive 2 0 0.17 0 0 0 … positive 3 0.17 0.33 0 0 0.17 … positive 4 0 0.33 0 0.17 0 … positive 5 0 0 0 0 0 … negative 6 0 0.17 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  • 69.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Handle large corpus of text data • การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า • ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and Ghemawat, OSDI 2004) • Map, written by the user, takes an input pair and pro- duces a set of intermediate key/value pairs. • จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1) • The Reduce function merges together values to form a possibly smaller set of values. • จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1}) • สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1) 68
  • 70.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Map/Reduce Framework 69 image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
  • 71.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Handle large corpus of text data 70 ID Tweet 1 Laying on the sand sun hitting me, this feels good. 2 Smells so good I have two. ID Tweet 3 I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger! 4 I think NYC would be amazing, I really wanna go there. ID Tweet 5 he never care,he never look at me. 6 I am so tired!! and my feet hurt. เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3 map step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1)
  • 72.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Handle large corpus of text data • (“he”,1) • (“I”,{1,1,1,1,1,1}) => (“I”,6) • (“Laying”,1) • (“never”,1) • (“on”, 1) • (“watched”,1) 71 reduce stepmap step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1) เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
  • 73.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications 72
  • 74.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • ตัวอย่างการนำ Data Mining ไปใช้งาน 73 source: http://www.youtube.com/watch?v=f2Kji24833Y
  • 75.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • บัตรสมาชิก (loyalty card) • ติดตามพฤติกรรมการซื้อสินค้า ของลูกค้าจากบัตร loyalty • นำมาวิเคราะห์และนำเสนอเป็น โปรโมชันพิเศษให้แต่ละบุคคล • เพิ่มโอกาสในการขายสินค้าให้ กับลูกค้า • กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ ส่วนลดพิเศษ ทำให้ลูกค้าเกิด การตัดสินใจซื้อทันที 74 image source: http://www.positioningmag.com
  • 76.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล 75
  • 77.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • เบียร์และผ้าอ้อม • ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่าย โมง จะมีลูกค้าเพศชายอายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด 76
  • 78.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • คาดการณ์การตั้งครรภ์ • ห้าง Target ทำการ วิเคราะห์พฤติกรรมการซื้อ สินค้าของลูกค้าเพศหญิง • พบรูปแบบ (pattern) ว่า ถ้ามีการซื้อวิตามิน ซื้อ อาหารบำรุง หรือ ซื้อตู้ เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง ครรภ์ • Target จะส่ง promotion ให้ลูกค้าเหล่านั้น 77
  • 79.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • แนะนำสินค้าที่เกี่ยวข้อง • amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner • Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi 78
  • 80.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • Google Self-Driving Car 79 source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
  • 81.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • แนวโน้มราคาตั๋วเครื่องบิน 80
  • 82.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) • คาดการณ์การลาออกของพนักงาน Big Data & Analytics Applications 81 Receive Promotion = NO = YES Years with firm < 5 Not Quit = YES = NO Partner changed job Quit Not Quit = YES = NO Quit ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
  • 83.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 82
  • 84.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย) 83
  • 85.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • ทำนายอายุและเพศจากรูปภาพ 84 source: http://www.how-old.net
  • 86.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • Paypal uses RapidMiner to detect churn and identify issues 85 source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
  • 87.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • How Etihad Airways Uses Big Data To Reach Its Destination 86 source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
  • 88.
    Introduction to BigData & Analytics The First NIDA Business Analytics and Data Sciences Contest/Conference วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์ https://businessanalyticsnida.wordpress.com https://www.facebook.com/BusinessAnalyticsNIDA/ ดร.เอกสิทธิ์ พัชรวงศ์ศักดา อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube) นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น. แนะนํา Big Data และตัวอย่างต่างๆ แนะนํา Internet of Things (IoT) แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining แนะนําการ Big Data Analytics เช่น stream mining, text mining
  • 89.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Big Data & Analytics Applications • Business use cases • Sales and marketing analytics • Customer analytics • Social media analytics • Plant and facility management. • Supply chain and channel analytics • Fraud detection • Price optimization 87
  • 90.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Sales and marketing analytics • The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer • include better identifying opportunities for cross-selling and upselling • decreasing abandoned shopping carts and generally improving the accuracy of integrated recommendation engines • The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance. • Analyzing which campaign addressed the needs of identified clusters or segments • the success ratios for motivating the campaigns' call to action. 88
  • 91.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Customer analytics • This includes analyzing customer demographics, behaviors and characteristics to develop models for • segmenting customers • predicting churn • making next-best-offer recommendations to help with customer retention • Social media analytics • The content that streams across social media channels provides ample opportunities for analyzing customer sentiment and identifying brand risks when negative information is promulgated about a company's products 89
  • 92.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Plant and facility management. • As more devices and machines are Internet-enabled, organizations are able to collect and analyze streaming sensor data indicating continuous measures of power usage, temperature, humidity and contaminant particles, among a myriad of potential variables. • Models can be developed for predicting equipment failures and scheduling pre-emptive maintenance to keep items in working order without interruption. 90
  • 93.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Supply chain and channel analytics • Analyzing warehouse inventory, point-of-sale transactions and shipments via a variety of channels (e.g., trucking, rail, shipping) results in predictive analytical models that can help with • pre-emptive replenishment • inventory management strategies • logistics management • route optimization • notifications when delays imperil timely deliveries 91
  • 94.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Fraud detection • An adjunct to the growing risk of identity theft is the growth of fraudulent activity and transactions • Financial institutions analyze billions of transactions to identify patterns of fraudulent behavior, and the analytical models can also trigger alerts to customers when a potential fraudulent transaction might be taking place. 92
  • 95.
    Big Data EngineeringProgram College of Innovation Technology and Engineering (CITE) Business use cases • Price optimization • Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply). • The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts. 93