Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to Data Mining and Big Data Analytics

38,438 views

Published on

This slides present concept of Data Mining and Big Data Analytics.

Published in: Data & Analytics

Introduction to Data Mining and Big Data Analytics

  1. 1. การวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data) และเทคนิคดาต้า ไมน์นิ่ง (Data Mining) ดร.เอกสิทธิ์ พัชรวงศ์ศักดา ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญดาต้า คิวบ์ และ อาจารย์ประจำหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ 
 ณ มหาวิทยาลัยราชภัฏเพชรบุรี วันพุธที่ 8 มีนาคม 2560
  2. 2. http://dataminingtrend.com http://facebook.com/datacube.th ประวัติ • ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา • การศึกษา: • ปริญญาเอก วิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์ • ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ • ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 
 (เกียรตินิยมอันดับ 2) • ประสบการณ์ • Certified RapidMiner Analyst & Ambassador • Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน • ร่วมวิจัย โครงการสํารวจข้อมูลเพื่อการวิเคราะห์พฤติกรรมของนักท่องเที่ยวเชิงลึก ด้วยวิธีการทําเหมือง ข้อมูล การท่องเที่ยวแห่งประเทศไทย (ททท) • วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining 2
  3. 3. http://dataminingtrend.com http://facebook.com/datacube.th ประวัติ • หนังสือ Data Mining ฉบับภาษาไทย 3
  4. 4. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th About us 4 RapidMiner Analyst Certification This is to Certify that Successfully passed the examination for the Certified RapidMiner Analyst. The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate a fundamental understanding of how RapidMiner software works and is used. Certified Analyst professionals will be able to prepare data and create predictive models in standard data environments typically found within most analyst positions. The candidate has proven the ability to:  Prepare data  Build predictive models  Evaluate the model’s quality  Score new data sets  Deploy data mining models With:  RapidMiner Studio  RapidMiner Server Eakasit Pacharawongsakda
  5. 5. http://dataminingtrend.com http://facebook.com/datacube.th ผลงานการอบรม 5
  6. 6. http://dataminingtrend.com http://facebook.com/datacube.th ผลงานการอบรม 6
  7. 7. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 7
  8. 8. ในหนึ่งวันทำงาน
  9. 9. source:http://pad1.whstatic.com/images/thumb/a/aa/Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg/ aid196018-728px-Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg เวลา 07:00 น. ออกเดินทางไปทำงาน
  10. 10. source: http://www.clipartkid.com/images/259/research-and-report-writing-9-23-12-9-30-12-q2r0wg-clipart.jpg เวลา 07:45 น. ยังคงติดอยู่บนถนน
  11. 11. เวลา 08:00 น. เจ้านายโทรศัพท์เข้ามาถามงาน source: https://d1ai9qtk9p41kl.cloudfront.net/assets/mc/psuderman/2011_07/text-drive.png
  12. 12. เวลา 08:05 น. ขับรถไปชนกับคันอื่น
  13. 13. เวลา 10:00 น. ถึงที่ทำงานและทำงานต่อไป source: http://stuffpoint.com/anime-and-manga/image/285181-anime-and-manga-girl-working-in-the-computer.jpg
  14. 14. เวลา 18:00 น. แวะซื้อของกลับบ้าน
  15. 15. เวลา 20:00 น. กลับถึงบ้านและอยู่คนเดียว
  16. 16. ในหนึ่งวันทำงานกับ
 เทคโนโลยีข้อมูลขนาดใหญ่ (Big Data)
  17. 17. http://dataminingtrend.com http://facebook.com/datacube.th ระบบนำทาง • แอพพลิเคชัน Waze 17
  18. 18. http://dataminingtrend.com http://facebook.com/datacube.th ระบบนำทาง • แอพพลิเคชัน Waze 18
  19. 19. http://dataminingtrend.com http://facebook.com/datacube.th รถที่ไม่ต้องมีคนขับ (self driving car) • Waymo (Google self-driving car) 19
  20. 20. http://dataminingtrend.com http://facebook.com/datacube.th แผงไข่อัจฉริยะ • Egg Minder 20
  21. 21. http://dataminingtrend.com http://facebook.com/datacube.th ร้านค้าที่ไม่ต้องรอคิว • Amazon Go 21
  22. 22. http://dataminingtrend.com http://facebook.com/datacube.th เทคโนโลยีที่ทำให้ชีวิตประจำวันสะดวกขึ้น 22
  23. 23. http://dataminingtrend.com http://facebook.com/datacube.th ทำไมผู้หญิงถึงโสด 23 source: https://pishetshotisak.wordpress.com/2016/12/07/ทำไมผู้หญิงถึงขึ้นคาน-ค/
  24. 24. คนเรามักชอบอะไรใหญ่ๆ
  25. 25. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Bang 25 source:http://www.thetechy.com/science/exploring-universe-curiosity
  26. 26. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Architecture (Great wall of China) 26 source: http://www.history.com/topics/great-wall-of-china
  27. 27. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Data 27source: http://www.plmjim.com/?p=583
  28. 28. http://dataminingtrend.com http://facebook.com/datacube.th Data Evolutions 28 source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
  29. 29. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 29 source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
  30. 30. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 30 source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
  31. 31. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Big Data ประกอบด้วย 3 V • Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล • Velocity • ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว • Variety • ข้อมูลมีความหลากหลายมากขึ้น 31 source: https://upxacademy.com/beginners-guide-to-big-data/
  32. 32. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) 32
  33. 33. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Volume 33 source:https://datafloq.com/read/infographic/226
  34. 34. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Volume 34 source:https://www.adeptia.com
  35. 35. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ 35
  36. 36. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Velocity 36 source: https://upxacademy.com/beginners-guide-to-big-data/
  37. 37. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ • Complexity of data types and structures • ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip) 37
  38. 38. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 38 source: https://upxacademy.com/beginners-guide-to-big-data/
  39. 39. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 39 source: https://upxacademy.com/beginners-guide-to-big-data/
  40. 40. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 40 source: http://dataconomy.com/2014/08/infographic-how-to-explain-big-data-to-your-grandmother/
  41. 41. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 41
  42. 42. http://dataminingtrend.com http://facebook.com/datacube.th Internet of Things 42source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
  43. 43. http://dataminingtrend.com http://facebook.com/datacube.th Sensors 43source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
  44. 44. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications 44
  45. 45. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Disney’s Magic Band 45 source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
  46. 46. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • GlowCaps 46 source:http://www.vitality.net/glowcaps.html
  47. 47. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Connected Toothbrush 47 source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
  48. 48. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications 48 source:https://www.youtube.com/watch?v=TqRN7r7mGmk
  49. 49. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • iBeacon 49 source: https://www.mallmaverick.com/system/site_images/photos/000/001/700/original/blog_ibeacon1.jpg?1391033561
  50. 50. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 50
  51. 51. http://dataminingtrend.com http://facebook.com/datacube.th Data Scientist 51 source: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
  52. 52. http://dataminingtrend.com http://facebook.com/datacube.th Data Scientist/Engineer/Analyst 52 source: http://insidebigdata.com/wp-content/uploads/2016/04/springboard_infographic.jpg
  53. 53. http://dataminingtrend.com http://facebook.com/datacube.th Big Data and traditional analytics 53 Big Data Traditional analytics Type of data Unstructured formats Formatted in rows and columns Volume of data 100 terabytes to petabytes Tens of terabytes or less Flow of data Constant flow of data Static pool of data Analysis method Machine Learning/
 Data Mining Hypothesis-based Primary purpose Data-based products Internal decision support and services source: big data @ work
  54. 54. http://dataminingtrend.com http://facebook.com/datacube.th BI & Data Science/Data Mining 54 Business Intelligence Data Mining Time Analytical 
 Approach Past Future Explanatory Explanatory source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data BI questions • What happened last quarter? • How many unit sold? • Where is the problem? In which situations Data Mining questions • What if … ? • What will happen next? • Why is this happen?
  55. 55. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • การหาความสัมพันธ์ (association analysis) • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ • การจัดกลุ่มข้อมูล (clustering) • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน • การจำแนกประเภทข้อมูล (classification) • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป Data Science/Data Mining methods 55 association rules clustering classification
  56. 56. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 56 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  57. 57. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 57 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  58. 58. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 58 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  59. 59. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 59 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  60. 60. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 60 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  61. 61. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 61 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  62. 62. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 62 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  63. 63. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 63 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  64. 64. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่ม (Segmentation) 64
  65. 65. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 65 Customer ID Recency Frequency Monetary C10001 C10002 C10003 หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015 OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 ตาราง order detail
  66. 66. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 66 Customer ID Recency Frequency Monetary C10001 151 3 60 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  67. 67. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 67 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  68. 68. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 68 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 C10003 372 1 10 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  69. 69. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • เรียงลำดับข้อมูล • Recency จากน้อยไปมาก • Frequency และ Monetary จากมากไปน้อย • แบ่งข้อมูลออกเป็น 5 กลุ่ม กลุ่มละจำนวนเท่าๆ กัน (quintile) • คำนวณคะแนน RFM ของแต่ละกลุ่ม 69 source: http://www.b-eye-network.com/view/10256 น้อย มาก Recency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Frequency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Monetary 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล score = 5 score = 4 score = 3 score = 2 score = 1
  70. 70. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • ลูกค้าในแต่ละกลุ่มจะมีลักษณะต่างๆ กัน เช่น • ลูกค้ากลุ่ม RFM = 555 • เป็นกลุ่มลูกค้าที่มีค่ามากสุด • ลูกค้ากลุ่ม RFM = 551 • เป็นกลุ่มลูกค้าที่มีการซื้อบ่อยๆ 
 แต่ซื้อจำนวนน้อย • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าที่มีราคา
 สูงขึ้น (up-selling) • ลูกค้ากลุ่ม RFM = 115 • เป็นกลุ่มลูกค้าที่นานๆ จะซื้อสักครั้ง แต่ซื้อสินค้าที่มีราคาสูง • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าบ่อยขึ้น 70 Recency Frequency M onetary 1 2 3 4 5 5 4 3 2 1 5 4 3 2 1
  71. 71. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 71 1 2 3 5 6 4
  72. 72. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 72 1 6 4 5 2 3 ลูกค้าที่ใช้โทรเยอะ ลูกค้าที่ส่ง SMS เยอะ ลูกค้าที่ใช้งานไม่เยอะ
  73. 73. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 73
  74. 74. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label) 74 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal attribute label Free Won Normal Spam Spam classification model = N = Y = N = Y training data
  75. 75. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 75 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  76. 76. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 76 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  77. 77. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 77 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  78. 78. http://dataminingtrend.com http://facebook.com/datacube.th • ตัวอย่าง spam e-mail classification ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam Classification example 78 attribute labelID training data สร้าง classification model ID Free Won Cash Type 11 Y Y N ? 12 N Y N ? unseen data classification model ID Type 11 spam 12 spam 1 2 3 4
  79. 79. http://dataminingtrend.com http://facebook.com/datacube.th Challenges for mining Big Data • Heterogeneous and Complex Data • data types are varied such as Social Network data, Biological data, GIS • data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial • Scalability • data sets with sizes of gigabytes, terabytes are becoming common. • data mining technique can be improved by using sampling or developing parallel or distributed algorithms 79
  80. 80. http://dataminingtrend.com http://facebook.com/datacube.th Variety • ข้อมูลมีความหลากหลาย • Sequence • เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence) • ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence • Graph • เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link) • ตัวอย่างเช่น • ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network) • ข้อมูลโครงสร้างทางเคมี (chemical structure) • เครือข่ายคอมพิวเตอร์ (computer network) 80
  81. 81. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 81 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2
  82. 82. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 82 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33%
  83. 83. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 83 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33%
  84. 84. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 84 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33%
  85. 85. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 85 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, News> 2/6 = 33%
  86. 86. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 86 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, News> 2/6 = 33% <Sports, Finance, News> 2/6 = 33%
  87. 87. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 87 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  88. 88. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 88 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  89. 89. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 89 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  90. 90. http://dataminingtrend.com http://facebook.com/datacube.th Text Mining • การประยุกต์ใช้ข้อมูลประเภทข้อความ • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 90source:http://sentiment140.com และ http://www.techguide.com.au
  91. 91. http://dataminingtrend.com http://facebook.com/datacube.th Text representation • ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่
 ในรูปแบบที่มีโครงสร้าง 91 Laying on the sand sun hitting me, this feels good :) Smells so good I have two :) i watched 3 movies today, reminded me of my child hood! Finding Nemo 
 was always my favourite, but that was when i was MUCH younger! :) I think NYC would be amazing, I really wanna go there :) he never care,he never look at me..:( i am so tired!! and my feet hurt :( positive negative
  92. 92. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 92 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1
  93. 93. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 93 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3
  94. 94. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 94 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourite 1 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 bag of words
  95. 95. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Stemming • แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find 95 Term Count child 1 favourite 3 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 bag of words bag of words
  96. 96. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Remove stopwords • ตัดคำที่เป็น stop word ทิ้ง 96 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 look 1 me 1 … 1 Term Count find 1 i 6 lai 1 nyc 1 nemo 1 smell 1 alwai 1 amaz 1 child 1 favorit 1 feel 1 feet 1 go 1 good 2 hit 1 Term Count hood 1 hurt 1 look 1 care 1 movi 1 reali 1 remind 1 sand 1 sun 1 thi 1 think 1 tire 1 todai 1 wa 3 watch 1 remove stopwords
  97. 97. http://dataminingtrend.com http://facebook.com/datacube.th Convert text to structured data • Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1 
 ถ้าไม่เกิดขึ้นจะเป็น 0 97 ID find I lai nyc nemo smell alwai … Sentiment 1 0 0 1 0 0 0 0 … positive 2 0 1 0 0 0 1 0 … positive 3 1 1 0 0 1 0 1 … positive 4 0 1 0 1 0 0 0 … positive 5 0 0 0 0 0 0 0 … negative 6 0 1 0 0 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  98. 98. http://dataminingtrend.com http://facebook.com/datacube.th Convert text to structured data • Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด • TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร 98 ID find I lai nyc nemo … Sentiment 1 0 0 0.17 0 0 … positive 2 0 0.17 0 0 0 … positive 3 0.17 0.33 0 0 0.17 … positive 4 0 0.33 0 0.17 0 … positive 5 0 0 0 0 0 … negative 6 0 0.17 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  99. 99. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data • การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า • ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and Ghemawat, OSDI 2004) • Map takes an input pair and produces a set of intermediate key/value pairs. • จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1) • The Reduce function merges together values to form a possibly smaller set of values. • จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1}) • สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1) 99
  100. 100. http://dataminingtrend.com http://facebook.com/datacube.th Map/Reduce Framework 100 image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
  101. 101. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data 101 ID Tweet 1 Laying on the sand sun hitting me, this feels good. 2 Smells so good I have two. ID Tweet 3 I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger! 4 I think NYC would be amazing, I really wanna go there. ID Tweet 5 he never care,he never look at me. 6 I am so tired!! and my feet hurt. เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3 map step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1)
  102. 102. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data • (“he”,1) • (“I”,{1,1,1,1,1,1}) => (“I”,6) • (“Laying”,1) • (“never”,1) • (“on”, 1) • (“watched”,1) 102 reduce stepmap step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1) เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
  103. 103. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 103
  104. 104. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ตัวอย่างการนำ Data Mining ไปใช้งาน 104 source: http://www.youtube.com/watch?v=f2Kji24833Y
  105. 105. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • บัตรสมาชิก (loyalty card) • ติดตามพฤติกรรมการซื้อสินค้า ของลูกค้าจากบัตร loyalty • นำมาวิเคราะห์และนำเสนอเป็น โปรโมชันพิเศษให้แต่ละบุคคล • เพิ่มโอกาสในการขายสินค้าให้กับ ลูกค้า • กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการ ตัดสินใจซื้อทันที 105 image source: http://www.positioningmag.com
  106. 106. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
 นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล 106
  107. 107. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • เบียร์และผ้าอ้อม • ห้าง Walmart พบว่าทุกวันศุกร์ หลังบ่ายโมง จะมีลูกค้าเพศชาย อายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด 107
  108. 108. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การตั้งครรภ์ • ห้าง Target ทำการ วิเคราะห์พฤติกรรมการซื้อ สินค้าของลูกค้าเพศหญิง • พบรูปแบบ (pattern) ว่า ถ้ามีการซื้อวิตามิน ซื้อ อาหารบำรุง หรือ ซื้อตู้ เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง ครรภ์ • Target จะส่ง promotion ให้ลูกค้าเหล่านั้น 108
  109. 109. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนะนำสินค้าที่เกี่ยวข้อง • amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner • Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi 109
  110. 110. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Google Self-Driving Car 110 source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
  111. 111. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนวโน้มราคาตั๋วเครื่องบิน 111
  112. 112. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การลาออกของพนักงาน 112 Receive Promotion = NO = YES Years with firm < 5 Not Quit = YES = NO Partner changed job Quit Not Quit = YES = NO Quit ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
  113. 113. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 113
  114. 114. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย) 114
  115. 115. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทำนายอายุและเพศจากรูปภาพ 115 source: http://www.how-old.net
  116. 116. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Paypal uses RapidMiner to detect churn and identify issues 116 source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
  117. 117. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • How Etihad Airways Uses Big Data To Reach Its Destination 117 source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
  118. 118. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Business use cases • Sales and marketing analytics • Customer analytics • Social media analytics • Plant and facility management. • Supply chain and channel analytics • Fraud detection • Price optimization 118
  119. 119. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Sales and marketing analytics • The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer • include better identifying opportunities for cross-selling and upselling • decreasing abandoned shopping carts and generally improving the accuracy of integrated recommendation engines • The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance. • Analyzing which campaign addressed the needs of identified clusters or segments • the success ratios for motivating the campaigns' call to action. 119
  120. 120. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Customer analytics • This includes analyzing customer demographics, behaviors and characteristics to develop models for • segmenting customers • predicting churn • making next-best-offer recommendations to help with customer retention • Social media analytics • The content that streams across social media channels provides ample opportunities for analyzing customer sentiment and identifying brand risks when negative information is promulgated about a company's products 120
  121. 121. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Plant and facility management. • As more devices and machines are Internet-enabled, organizations are able to collect and analyze streaming sensor data indicating continuous measures of power usage, temperature, humidity and contaminant particles, among a myriad of potential variables. • Models can be developed for predicting equipment failures and scheduling pre-emptive maintenance to keep items in working order without interruption. 121
  122. 122. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Supply chain and channel analytics • Analyzing warehouse inventory, point-of-sale transactions and shipments via a variety of channels (e.g., trucking, rail, shipping) results in predictive analytical models that can help with • pre-emptive replenishment • inventory management strategies • logistics management • route optimization • notifications when delays imperil timely deliveries 122
  123. 123. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Fraud detection • An adjunct to the growing risk of identity theft is the growth of fraudulent activity and transactions • Financial institutions analyze billions of transactions to identify patterns of fraudulent behavior, and the analytical models can also trigger alerts to customers when a potential fraudulent transaction might be taking place. 123
  124. 124. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Price optimization • Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply). • The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts. 124
  125. 125. http://dataminingtrend.com http://facebook.com/datacube.th Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications • CRISP-DM Process 125
  126. 126. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM • CRoss-Industry Standard Process for Data Mining (CRISP-DM) • พัฒนาขึ้นโดย 3 บริษัท • บริษัท SPSS • บริษัท DaimlerChrysler • บริษัท NCR • เป็น Workflow มาตรฐานสำหรับการทำ data mining • ประกอบด้วย 6 ขั้นตอน 126
  127. 127. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 127 3 ขั้นตอนแรกจะใช้เวลา 80% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  128. 128. http://dataminingtrend.com http://facebook.com/datacube.th 1. Business Understanding • ขั้นตอนแรกของ CRISP-DM • ทำความเข้าใจกับปัญหา หรือ โอกาสเชิงธุรกิจ • ระบุ output หรือเป้าหมายที่ต้องการได้จากการวิเคราะห์ข้อมูลด้วย data mining • ตัวอย่างเช่น • ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆ ได้ • ต้องการแบ่งกลุ่มนักศึกษาออกตามความสนใจ • ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก • อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป • อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง 128 Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment
  129. 129. http://dataminingtrend.com http://facebook.com/datacube.th • ในขั้นตอนนี้เป็นการ • รวบรวมข้อมูลที่เกี่ยวข้อง • ข้อมูลถูกต้องน่าเชื่อถือ • ข้อมูลที่ได้มีปริมาณมากพอหรือยัง • ข้อมูลที่ได้มีความเหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์ • ตัวอย่าง • ข้อมูลการซื้อสินค้าคนแต่ละบุคคล • ข้อมูลการลงทะเบียนและผลการศึกษาของนักศึกษา Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 2. Data Understanding 129
  130. 130. http://dataminingtrend.com http://facebook.com/datacube.th • ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด • เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้อง หรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งออกได้เป็น 3 ขั้นตอน ย่อยคือ • 3.1 ทำการคัดเลือกข้อมูล (Data Selection)  • กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร • เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 130
  131. 131. http://dataminingtrend.com http://facebook.com/datacube.th • 3.2 ทำการกลั่นกรองข้อมูล (Data Cleaning)  • ลบข้อมูลซ้ำซ้อน • แก้ไขข้อมูลที่ผิดพลาด • ข้อมูลผิดรูปแบบ • ข้อมูลที่หายไป • ข้อมูล outlier ที่แปลกแยกจากคนอื่น Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 131 รหัส เพศ อายุ ความสูง น้ำหนัก 57001 ชาย 18 180 70 5702A ญ 80 35 57123 หญิง 19 150 2500 58002 ช 17 175 90 ข้อมูลนักศึกษาชั้นปีที่ 1 ปีการศึกษา 2557 ผิดรูปแบบ ขาดหาย outlier
  132. 132. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 132 ID สินค้า จำนวนที่ซื้อ 1 ปากกา 1 1 ยางลบ 1 1 คลิป 10 2 สมุด 2 2 ปากกา 2 3 สมุด 1 3 ปากกา 3 3 ยางลบ 2 ID สมุด ปากกา ยางลบ คลิป 1 - TRUE TRUE TRUE 2 TRUE TRUE - - 3 TRUE TRUE TRUE - ข้อมูลในฐานข้อมูล POS ข้อมูลสำหรับการหากฏความสัมพันธ์ (Association Rules)
  133. 133. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 133 เมื่อวันที่ 4 มกราคม 2557 เฟซบุ๊กเปิดตัวหน้าเพจใหม่ชื่อว่า Facebook A Look Back เมื่อผู้ใช้งาน คลิกไปยังหน้านี้ก็จะแสดงคลิปวิดีโอที่บอกเล่าเรื่องราวของผู้ใช้งานคนนั้นๆ เช่น เริ่มเล่นเฟซบุ๊กครั้ง แรกปีไหน, โพสต์แรกบนเฟซบุ๊ก, รูปภาพที่ถูกกดไลค์มากที่สุด, รูปภาพที่ถูกแชร์มากที่สุด และ 20 อันดับเรื่องราวต่าง ๆ ที่เกิดขึ้นในเฟซบุ๊กก็จะถูกแสดงและรวบรวมไว้ในคลิปวิดีโอนี้ ID เฟซบุ๊ก รูปภาพ ไลค์ แชร์ คลิปวิดีโอ 1 4 2 1 1 2 2 … เอกสารข่าว ตารางแสดงจำนวนความถี่ของแต่ละคำ
  134. 134. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 134 ID สีแดง สีเขียว สีน้ำเงิน 1 93 98 167 2 … รูปภาพ จำนวน pixel สีแดง สีเขียว สีนำ้เงินที่ปรากฏในรูปภาพ image source:http://www.travelhouse.ch/reisen/thailand/phuket/jw-marriott-phuket-resort-and-spa
  135. 135. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 135 3 ขั้นตอนหลังจะใช้เวลา 20% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  136. 136. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • classification • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป • clustering • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มนักศึกษาตามคะแนนที่ได้ • association rules • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 4. Modeling 136 classification clustering association rules
  137. 137. http://dataminingtrend.com http://facebook.com/datacube.th • ประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อน หน้านั้น Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 5. Evaluation 137 VS โมเดล decision tree โมเดล neural network
  138. 138. http://dataminingtrend.com http://facebook.com/datacube.th Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 6. Deployment • นำโมเดลที่ได้ หรือ ผลการวิเคราะห์ที่ได้ไปใช้งานจริง 138 ใช้จากกฏความสัมพันธ์ที่หาได้ image source: http://www.mysupermarket.co.uk/brands/tesco_discounter_brand_in_tesco.html
  139. 139. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 • ตัวอย่าง CRISP-DM • อ้างอิงจากงานวิจัยเรื่อง การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการ ศึกษานิสิตคณะวิศวกรรมศาสตร์ * 1. Business Understanding • นิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ จะเลือกภาควิชาเมื่อในชั้นปีที่ 2 • นิสิตเลือกภาควิชาไม่ตรงกับความสามารถของตนเอง • เลือกตามเพื่อน • เลือกตามที่ผู้ปกครองแนะนำ • นิสิตบางคนได้ผลการเรียนตกต่ำและทำให้ต้องออกจากมหาวิทยาลัยกลางคัน 139 * กฤษณะ ไวยมัย , ชิดชนก ส่งศิริ และ ธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะ
 วิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
  140. 140. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 2. Data Understanding • ข้อมูลนิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ช่วงปี พ.ศ. 2535 - 2542 • นิสิตประมาณ 10,000 คน • ข้อมูลมีจำนวน 476,085 แถว • ข้อมูลแบ่งเป็น 2 ส่วน • ข้อมูลประวัติส่วนตัวของนิสิต • เพศ, ที่อยู่, GPA ระดับมัธยมปลาย, GPA ชั้นปีที่ 1 • ข้อมูลการลงทะเบียนของนิสิต • เกรดวิชาคณิตศาสตร์, เกรดวิชาฟิสิกส์, เกรดวิชาเคมี 140
  141. 141. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 3. Data Preparation • คัดเลือกวิชาที่เกี่ยวข้องกับภาควิชาต่างๆ ในคณะวิศวกรรมศาสตร์ • แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ 141 รหัสนิสิต เพศ ที่อยู่ GPA มัธยมปลาย … GPA 37058063 ชาย กรุงเทพ 2.5 … 2.3 37058167 ชาย สงขลา 3.4 … 3.3 … … … … … … ข้อมูลประวัติส่วนตัวของนิสิต รหัสนิสิต วิชา ปีการศึกษา เกรด 37058063 คอมพิวเตอร์ 2537 C+ 37058063 คณิตศาสตร์ 2537 D … … … … ข้อมูลการลงทะเบียนของนิสิต รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … GPA 37058063 ชาย LOW LOW … 2.3 37058167 ชาย HIGH HIGH … 3.3 … … … … … … ข้อมูลสำหรับการใช้วิเคราะห์
  142. 142. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling • แบ่งข้อมูลออกเป็น 2 ส่วน คือ • 70% ของข้อมูลทั้งหมดใช้ในการสร้างโมเดล • 30% ของข้อมูลทั้งหมดใช้ในการทดสอบประสิทธิภาพของโมเดล • สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้โมเดลที่สามารถเข้าใจได้ง่าย • โมเดลแบ่งแยกตามภาควิชาต่างๆ เช่น ภาควิชาวิศวกรรมคอมพิวเตอร์ วิศกรรมไฟฟ้า • คำตอบ (class) จะแบ่งเป็น 2 ประเภท คือ • GOOD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% แรก (top 40%) • BAD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% จากท้าย (bottom 40%) 142
  143. 143. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling 143 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW • IF Computer is HIGH THEN Graduate is Good • IF Computer is LOW AND
 Mathematics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is LOW THEN
 Graduate is Bad โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ เงื่อนไขที่สร้างได้จากโมเดล
  144. 144. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 144 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  145. 145. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 145 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  146. 146. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 146 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  147. 147. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 147 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … Good ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  148. 148. http://dataminingtrend.com http://facebook.com/datacube.th References • Andrew Chisholm, Exploring Data with RapidMiner, November 2013 • Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business Analytics Applications, October 25, 2013 • Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013 • Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai version), 2014 148
  149. 149. http://dataminingtrend.com http://facebook.com/datacube.th For more information • หสม. ดาต้า คิวบ์ (data cube) • website: http://www.dataminingtrend.com • facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake • email: eakasit@datacube.asia • lineID: eakasitp 149
  150. 150. http://dataminingtrend.com http://facebook.com/datacube.th My contact 150

×