Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to Data Mining and Big Data Analytics

24,887 views

Published on

This slides present concept of Data Mining and Big Data Analytics. The topices are:
- Internet of Things (IoT)
- Data Science/Mining applications
- Data Science/Mining techniques including (1) Association, (2) Clustering, (3) Classification
- CRISP-DM: Cross Industry Standard Process for Data Mining

Published in: Data & Analytics
  • Hello! High Quality And Affordable Essays For You. Starting at $4.99 per page - Check our website! https://vk.cc/82gJD2
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Introduction to Data Mining and Big Data Analytics

  1. 1. ดร.เอกสิทธิ์ พัชรวงศ์ศักดา ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญดาต้า คิวบ์ และ ผู้อำนวยการหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering) วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์
 วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร วันอังคารที่ 12 กันยายน 2560 การวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data) และเทคนิคดาต้า ไมน์นิ่ง (Data Mining)
  2. 2. http://dataminingtrend.com http://facebook.com/datacube.th ประวัติ • ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา • การศึกษา: • ปริญญาเอก วิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์ • ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ • ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 
 (เกียรตินิยมอันดับ 2) • ประสบการณ์ • Certified RapidMiner Analyst & Ambassador • Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน • ร่วมวิจัย โครงการสํารวจข้อมูลเพื่อการวิเคราะห์พฤติกรรมของนักท่องเที่ยวเชิงลึก ด้วยวิธีการทําเหมือง ข้อมูล การท่องเที่ยวแห่งประเทศไทย (ททท) • วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining 2
  3. 3. http://dataminingtrend.com http://facebook.com/datacube.th ประวัติ • หนังสือ Data Mining ฉบับภาษาไทย 3
  4. 4. http://dataminingtrend.com http://facebook.com/datacube.th About us • 4 RapidMiner Analyst Certification This is to Certify that Successfully passed the examination for the Certified RapidMiner Analyst. The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate a fundamental understanding of how RapidMiner software works and is used. Certified Analyst professionals will be able to prepare data and create predictive models in standard data environments typically found within most analyst positions. The candidate has proven the ability to:  Prepare data  Build predictive models  Evaluate the model’s quality  Score new data sets  Deploy data mining models With:  RapidMiner Studio  RapidMiner Server Date: Eakasit Pacharawongsakda August 13, 2014
  5. 5. http://dataminingtrend.com http://facebook.com/datacube.th Our customers (Financial sector) 5 ผู้สนใจเข้าร่วมอบรมจากหน่วยงานต่างๆ
  6. 6. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 6
  7. 7. ในหนึ่งวันทำงาน
  8. 8. source:http://pad1.whstatic.com/images/thumb/a/aa/Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg/ aid196018-728px-Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg เวลา 07:00 น. ออกเดินทางไปทำงาน
  9. 9. source: http://www.clipartkid.com/images/259/research-and-report-writing-9-23-12-9-30-12-q2r0wg-clipart.jpg เวลา 07:45 น. ยังคงติดอยู่บนถนน
  10. 10. เวลา 08:00 น. เจ้านายโทรศัพท์เข้ามาถามงาน source: https://d1ai9qtk9p41kl.cloudfront.net/assets/mc/psuderman/2011_07/text-drive.png
  11. 11. เวลา 08:05 น. ขับรถไปชนกับคันอื่น
  12. 12. เวลา 10:00 น. ถึงที่ทำงานและทำงานต่อไป source: http://stuffpoint.com/anime-and-manga/image/285181-anime-and-manga-girl-working-in-the-computer.jpg
  13. 13. เวลา 18:00 น. แวะซื้อของกลับบ้าน
  14. 14. เวลา 20:00 น. กลับถึงบ้านและอยู่คนเดียว
  15. 15. ในหนึ่งวันทำงานกับ
 เทคโนโลยีข้อมูลขนาดใหญ่ (Big Data)
  16. 16. http://dataminingtrend.com http://facebook.com/datacube.th ระบบนำทาง • แอพพลิเคชัน Waze 16
  17. 17. http://dataminingtrend.com http://facebook.com/datacube.th ระบบนำทาง • แอพพลิเคชัน Waze 17
  18. 18. http://dataminingtrend.com http://facebook.com/datacube.th รถที่ไม่ต้องมีคนขับ (self driving car) • Waymo (Google self-driving car) 18
  19. 19. http://dataminingtrend.com http://facebook.com/datacube.th แผงไข่อัจฉริยะ • Egg Minder 19
  20. 20. http://dataminingtrend.com http://facebook.com/datacube.th ร้านค้าที่ไม่ต้องรอคิว • Amazon Go 20
  21. 21. http://dataminingtrend.com http://facebook.com/datacube.th เทคโนโลยีที่ทำให้ชีวิตประจำวันสะดวกขึ้น 21
  22. 22. http://dataminingtrend.com http://facebook.com/datacube.th ทำไมผู้หญิงถึงโสด 22 source: https://pishetshotisak.wordpress.com/2016/12/07/ทำไมผู้หญิงถึงขึ้นคาน-ค/
  23. 23. คนเรามักชอบอะไรใหญ่ๆ
  24. 24. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Bang 24 source:http://www.thetechy.com/science/exploring-universe-curiosity
  25. 25. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Architecture (Great wall of China) 25 source: http://www.history.com/topics/great-wall-of-china
  26. 26. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Data 26source: http://www.plmjim.com/?p=583
  27. 27. http://dataminingtrend.com http://facebook.com/datacube.th Data Evolutions 27 source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
  28. 28. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 28 source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
  29. 29. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 29 source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
  30. 30. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Big Data ประกอบด้วย 3 V • Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล • Velocity • ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว • Variety • ข้อมูลมีความหลากหลายมากขึ้น 30 source: https://upxacademy.com/beginners-guide-to-big-data/
  31. 31. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) 31
  32. 32. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Volume 32 source:https://datafloq.com/read/infographic/226
  33. 33. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Volume 33 source:https://www.adeptia.com
  34. 34. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ 34
  35. 35. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Velocity 35 source: https://upxacademy.com/beginners-guide-to-big-data/
  36. 36. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ • Complexity of data types and structures • ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip) 36
  37. 37. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 37 source: https://upxacademy.com/beginners-guide-to-big-data/
  38. 38. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 38 source: https://upxacademy.com/beginners-guide-to-big-data/
  39. 39. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 39 source: http://dataconomy.com/2014/08/infographic-how-to-explain-big-data-to-your-grandmother/
  40. 40. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 40
  41. 41. http://dataminingtrend.com http://facebook.com/datacube.th Internet of Things 41source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
  42. 42. http://dataminingtrend.com http://facebook.com/datacube.th Sensors 42source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
  43. 43. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications 43
  44. 44. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Disney’s Magic Band 44 source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
  45. 45. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • GlowCaps 45 source:http://www.vitality.net/glowcaps.html
  46. 46. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Connected Toothbrush 46 source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
  47. 47. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications 47 source:https://www.youtube.com/watch?v=TqRN7r7mGmk
  48. 48. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications 48
  49. 49. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • iBeacon 49 source: https://www.mallmaverick.com/system/site_images/photos/000/001/700/original/blog_ibeacon1.jpg?1391033561
  50. 50. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 50
  51. 51. http://dataminingtrend.com http://facebook.com/datacube.th Where does data come from? • ข้อมูลแบ่งตามที่มา • ภายในบริษัท/องค์กร • ข้อมูลการซื้อขาย • ข้อมูลประวัติลูกค้า • ข้อมูลประวัติพนักงาน • ภายนอกบริษัท/องค์กร • ข้อมูลจาก social media ต่างๆ • ข้อมูลข่าวต่างๆ • ข้อมูลรูปภาพและเสียง 51 source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
  52. 52. http://dataminingtrend.com http://facebook.com/datacube.th Database & warehouse & mining 52 Database Sales Accounting CRM Extract
 Transform
 Load
 (ETL) Data Mining Data Warehouse image source:https://sites.google.com/a/whps.org/diamond-teamkp/
 http://www.iconarchive.com/tag/data
  53. 53. http://dataminingtrend.com http://facebook.com/datacube.th Database & warehouse & mining • Database • ฐานข้อมูลใช้ในการจัดเก็บข้อมูล ลดความซ้ำซ้อนของข้อมูล เน้นการจัดเก็บ เพ่ิม แก้ไข และลบข้อมูล • Data warehouse • คลังข้อมูลรวบรวมช้อมูลจากหลายๆ ฐานข้อมูล แปลงข้อมูลให้มีความเหมือนกัน เหมาะสำหรับการเรียกดู (view) เพื่อสร้างรายงานสรุป • Data Mining • การวิเคราะห์ข้อมูลเพื่อค้นหาความสัมพันธ์หรือรูปแบบที่มีประโยชน์ในฐานข้อมูล 53
  54. 54. http://dataminingtrend.com http://facebook.com/datacube.th BI & Data Mining 54 Business Intelligence Data Mining Time Analytical 
 Approach Past Future Explanatory Exploratory source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data BI questions • What happened last quarter? • How many unit sold? • Where is the problem? In which situations Data Mining questions • What if … ? • What will happen next? • Why is this happen?
  55. 55. http://dataminingtrend.com http://facebook.com/datacube.th What is data mining • “The exploration and analysis of large quantities 
 of data in order to discover meaningful patterns and rules” – Data Mining Techniques (3rd Edition) • เป็นการวิเคราะห์ข้อมูล เพื่อหารูปแบบ (patterns) หรือความสัมพันธ์ (relation) ระหว่างข้อมูลในฐานข้อมูลขนาดใหญ่ • “Extraction of interesting (non-trivial, previously, unknown and potential useful) information from data in large databases” – Data Mining Concepts & Techniques (3rd Edition) • เป็นกระบวนการดึงข่าวสารที่น่าสนใจ และมีประโยชน์แต่ไม่เคยรู้มา ก่อนจากฐานข้อมูลขนาดใหญ่ 55 image sources: https://binarylinks.wordpress.com/tag/data-mining/
 http://www.amazon.com/Data-Mining-Techniques-Relationship-Management/dp/0470650931
  56. 56. http://dataminingtrend.com http://facebook.com/datacube.th What is data mining 56 ข้อมูล' เทคนิคการทำ data mining' รูปแบบที่มีประโยชน์' image source:http://www.computerrepairanaheim.net
 https://sites.google.com/a/whps.org/diamond-teamkp/
 http://meetings2.informs.org/wordpress/analytics2014/2014/04/01/why-oranalytics-people-need-to-know-about-database-technology/
  57. 57. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • การหาความสัมพันธ์ (association analysis) • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ • การจัดกลุ่มข้อมูล (clustering) • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน • การจำแนกประเภทข้อมูล (classification) • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป Data Science/Data Mining methods 57 association rules clustering classification
  58. 58. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 58 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  59. 59. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 59 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  60. 60. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 60 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  61. 61. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 61 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  62. 62. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 62 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  63. 63. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 63 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  64. 64. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 64 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  65. 65. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 65 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  66. 66. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่ม 
 (Segmentation) 66
  67. 67. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 67 Customer ID Recency Frequency Monetary C10001 C10002 C10003 หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015 OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 ตาราง order detail
  68. 68. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 68 Customer ID Recency Frequency Monetary C10001 151 3 60 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  69. 69. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 69 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  70. 70. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 70 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 C10003 372 1 10 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  71. 71. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • เรียงลำดับข้อมูล • Recency จากน้อยไปมาก • Frequency และ Monetary จากมากไปน้อย • แบ่งข้อมูลออกเป็น 5 กลุ่ม กลุ่มละจำนวนเท่าๆ กัน (quintile) • คำนวณคะแนน RFM ของแต่ละกลุ่ม 71 source: http://www.b-eye-network.com/view/10256 น้อย มาก Recency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Frequency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Monetary 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล score = 5 score = 4 score = 3 score = 2 score = 1
  72. 72. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • ลูกค้าในแต่ละกลุ่มจะมีลักษณะต่างๆ กัน เช่น • ลูกค้ากลุ่ม RFM = 555 • เป็นกลุ่มลูกค้าที่มีค่ามากสุด • ลูกค้ากลุ่ม RFM = 551 • เป็นกลุ่มลูกค้าที่มีการซื้อบ่อยๆ 
 แต่ซื้อจำนวนน้อย • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าที่มีราคา
 สูงขึ้น (up-selling) • ลูกค้ากลุ่ม RFM = 115 • เป็นกลุ่มลูกค้าที่นานๆ จะซื้อสักครั้ง แต่ซื้อสินค้าที่มีราคาสูง • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าบ่อยขึ้น 72 Recency Frequency M onetary 1 2 3 4 5 5 4 3 2 1 5 4 3 2 1
  73. 73. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 73 1 2 3 5 6 4
  74. 74. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 74 1 6 4 5 2 3 ลูกค้าที่ใช้โทรเยอะ ลูกค้าที่ส่ง SMS เยอะ ลูกค้าที่ใช้งานไม่เยอะ
  75. 75. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 75
  76. 76. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label) 76 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal attribute label Free Won Normal Spam Spam classification model = N = Y = N = Y training data
  77. 77. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 77 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  78. 78. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 78 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  79. 79. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 79 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  80. 80. http://dataminingtrend.com http://facebook.com/datacube.th • ตัวอย่าง spam e-mail classification ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam Classification example 80 attribute labelID training data สร้าง classification model ID Free Won Cash Type 11 Y Y N ? 12 N Y N ? unseen data classification model ID Type 11 spam 12 spam 1 2 3 4
  81. 81. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 81
  82. 82. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ตัวอย่างการนำ Data Mining ไปใช้งาน 82 source: http://www.youtube.com/watch?v=f2Kji24833Y
  83. 83. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • บัตรสมาชิก (loyalty card) • ติดตามพฤติกรรมการซื้อสินค้า ของลูกค้าจากบัตร loyalty • นำมาวิเคราะห์และนำเสนอเป็น โปรโมชันพิเศษให้แต่ละบุคคล • เพิ่มโอกาสในการขายสินค้าให้กับ ลูกค้า • กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการ ตัดสินใจซื้อทันที 83 image source: http://www.positioningmag.com
  84. 84. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
 นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล 84
  85. 85. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • เบียร์และผ้าอ้อม • ห้าง Walmart พบว่าทุกวันศุกร์ หลังบ่ายโมง จะมีลูกค้าเพศชาย อายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด 85
  86. 86. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การตั้งครรภ์ • ห้าง Target ทำการ วิเคราะห์พฤติกรรมการซื้อ สินค้าของลูกค้าเพศหญิง • พบรูปแบบ (pattern) ว่า ถ้ามีการซื้อวิตามิน ซื้อ อาหารบำรุง หรือ ซื้อตู้ เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง ครรภ์ • Target จะส่ง promotion ให้ลูกค้าเหล่านั้น 86
  87. 87. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนะนำสินค้าที่เกี่ยวข้อง • amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner • Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi 87
  88. 88. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Google Self-Driving Car 88 source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
  89. 89. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนวโน้มราคาตั๋วเครื่องบิน 89
  90. 90. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การลาออกของพนักงาน 90 Receive Promotion = NO = YES Years with firm < 5 Not Quit = YES = NO Partner changed job Quit Not Quit = YES = NO Quit ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
  91. 91. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 91
  92. 92. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย) 92
  93. 93. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทำนายอายุและเพศจากรูปภาพ 93 source: http://www.how-old.net
  94. 94. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Paypal uses RapidMiner to detect churn and identify issues 94 source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
  95. 95. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • How Etihad Airways Uses Big Data To Reach Its Destination 95 source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
  96. 96. http://dataminingtrend.com http://facebook.com/datacube.th Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications • CRISP-DM Process 96
  97. 97. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM • CRoss-Industry Standard Process for Data Mining (CRISP-DM) • พัฒนาขึ้นโดย 3 บริษัท • บริษัท SPSS • บริษัท DaimlerChrysler • บริษัท NCR • เป็น Workflow มาตรฐานสำหรับการทำ data mining • ประกอบด้วย 6 ขั้นตอน 97
  98. 98. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 98 3 ขั้นตอนแรกจะใช้เวลา 80% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  99. 99. http://dataminingtrend.com http://facebook.com/datacube.th 1. Business Understanding • ขั้นตอนแรกของ CRISP-DM • ทำความเข้าใจกับปัญหา หรือ โอกาสเชิงธุรกิจ • ระบุ output หรือเป้าหมายที่ต้องการได้จากการวิเคราะห์ข้อมูลด้วย data mining • ตัวอย่างเช่น • ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆ ได้ • ต้องการแบ่งกลุ่มนักศึกษาออกตามความสนใจ • ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก • อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป • อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง 99 Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment
  100. 100. http://dataminingtrend.com http://facebook.com/datacube.th • ในขั้นตอนนี้เป็นการ • รวบรวมข้อมูลที่เกี่ยวข้อง • ข้อมูลถูกต้องน่าเชื่อถือ • ข้อมูลที่ได้มีปริมาณมากพอหรือยัง • ข้อมูลที่ได้มีความเหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์ • ตัวอย่าง • ข้อมูลการซื้อสินค้าคนแต่ละบุคคล • ข้อมูลการลงทะเบียนและผลการศึกษาของนักศึกษา Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 2. Data Understanding 100
  101. 101. http://dataminingtrend.com http://facebook.com/datacube.th • ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด • เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้อง หรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งออกได้เป็น 3 ขั้นตอน ย่อยคือ • 3.1 ทำการคัดเลือกข้อมูล (Data Selection)  • กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร • เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 101
  102. 102. http://dataminingtrend.com http://facebook.com/datacube.th • 3.2 ทำการกลั่นกรองข้อมูล (Data Cleaning)  • ลบข้อมูลซ้ำซ้อน • แก้ไขข้อมูลที่ผิดพลาด • ข้อมูลผิดรูปแบบ • ข้อมูลที่หายไป • ข้อมูล outlier ที่แปลกแยกจากคนอื่น Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 102 รหัส เพศ อายุ ความสูง น้ำหนัก 57001 ชาย 18 180 70 5702A ญ 80 35 57123 หญิง 19 150 2500 58002 ช 17 175 90 ข้อมูลนักศึกษาชั้นปีที่ 1 ปีการศึกษา 2557 ผิดรูปแบบ ขาดหาย outlier
  103. 103. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 103 ID สินค้า จำนวนที่ซื้อ 1 ปากกา 1 1 ยางลบ 1 1 คลิป 10 2 สมุด 2 2 ปากกา 2 3 สมุด 1 3 ปากกา 3 3 ยางลบ 2 ID สมุด ปากกา ยางลบ คลิป 1 - TRUE TRUE TRUE 2 TRUE TRUE - - 3 TRUE TRUE TRUE - ข้อมูลในฐานข้อมูล POS ข้อมูลสำหรับการหากฏความสัมพันธ์ (Association Rules)
  104. 104. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 104 เมื่อวันที่ 4 มกราคม 2557 เฟซบุ๊กเปิดตัวหน้าเพจใหม่ชื่อว่า Facebook A Look Back เมื่อผู้ใช้งาน คลิกไปยังหน้านี้ก็จะแสดงคลิปวิดีโอที่บอกเล่าเรื่องราวของผู้ใช้งานคนนั้นๆ เช่น เริ่มเล่นเฟซบุ๊กครั้ง แรกปีไหน, โพสต์แรกบนเฟซบุ๊ก, รูปภาพที่ถูกกดไลค์มากที่สุด, รูปภาพที่ถูกแชร์มากที่สุด และ 20 อันดับเรื่องราวต่าง ๆ ที่เกิดขึ้นในเฟซบุ๊กก็จะถูกแสดงและรวบรวมไว้ในคลิปวิดีโอนี้ ID เฟซบุ๊ก รูปภาพ ไลค์ แชร์ คลิปวิดีโอ 1 4 2 1 1 2 2 … เอกสารข่าว ตารางแสดงจำนวนความถี่ของแต่ละคำ
  105. 105. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 105 ID สีแดง สีเขียว สีน้ำเงิน 1 93 98 167 2 … รูปภาพ จำนวน pixel สีแดง สีเขียว สีนำ้เงินที่ปรากฏในรูปภาพ image source:http://www.travelhouse.ch/reisen/thailand/phuket/jw-marriott-phuket-resort-and-spa
  106. 106. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 106 3 ขั้นตอนหลังจะใช้เวลา 20% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  107. 107. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • classification • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป • clustering • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มนักศึกษาตามคะแนนที่ได้ • association rules • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 4. Modeling 107 classification clustering association rules
  108. 108. http://dataminingtrend.com http://facebook.com/datacube.th • ประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อน หน้านั้น Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 5. Evaluation 108 VS โมเดล decision tree โมเดล neural network
  109. 109. http://dataminingtrend.com http://facebook.com/datacube.th Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 6. Deployment • นำโมเดลที่ได้ หรือ ผลการวิเคราะห์ที่ได้ไปใช้งานจริง 109 ใช้จากกฏความสัมพันธ์ที่หาได้ image source: http://www.mysupermarket.co.uk/brands/tesco_discounter_brand_in_tesco.html
  110. 110. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 • ตัวอย่าง CRISP-DM • อ้างอิงจากงานวิจัยเรื่อง การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการ ศึกษานิสิตคณะวิศวกรรมศาสตร์ * 1. Business Understanding • นิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ จะเลือกภาควิชาเมื่อในชั้นปีที่ 2 • นิสิตเลือกภาควิชาไม่ตรงกับความสามารถของตนเอง • เลือกตามเพื่อน • เลือกตามที่ผู้ปกครองแนะนำ • นิสิตบางคนได้ผลการเรียนตกต่ำและทำให้ต้องออกจากมหาวิทยาลัยกลางคัน 110 * กฤษณะ ไวยมัย , ชิดชนก ส่งศิริ และ ธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะ
 วิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
  111. 111. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 2. Data Understanding • ข้อมูลนิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ช่วงปี พ.ศ. 2535 - 2542 • นิสิตประมาณ 10,000 คน • ข้อมูลมีจำนวน 476,085 แถว • ข้อมูลแบ่งเป็น 2 ส่วน • ข้อมูลประวัติส่วนตัวของนิสิต • เพศ, ที่อยู่, GPA ระดับมัธยมปลาย, GPA ชั้นปีที่ 1 • ข้อมูลการลงทะเบียนของนิสิต • เกรดวิชาคณิตศาสตร์, เกรดวิชาฟิสิกส์, เกรดวิชาเคมี 111
  112. 112. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 3. Data Preparation • คัดเลือกวิชาที่เกี่ยวข้องกับภาควิชาต่างๆ ในคณะวิศวกรรมศาสตร์ • แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ 112 รหัสนิสิต เพศ ที่อยู่ GPA มัธยมปลาย … GPA 37058063 ชาย กรุงเทพ 2.5 … 2.3 37058167 ชาย สงขลา 3.4 … 3.3 … … … … … … ข้อมูลประวัติส่วนตัวของนิสิต รหัสนิสิต วิชา ปีการศึกษา เกรด 37058063 คอมพิวเตอร์ 2537 C+ 37058063 คณิตศาสตร์ 2537 D … … … … ข้อมูลการลงทะเบียนของนิสิต รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … GPA 37058063 ชาย LOW LOW … 2.3 37058167 ชาย HIGH HIGH … 3.3 … … … … … … ข้อมูลสำหรับการใช้วิเคราะห์
  113. 113. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling • แบ่งข้อมูลออกเป็น 2 ส่วน คือ • 70% ของข้อมูลทั้งหมดใช้ในการสร้างโมเดล • 30% ของข้อมูลทั้งหมดใช้ในการทดสอบประสิทธิภาพของโมเดล • สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้โมเดลที่สามารถเข้าใจได้ง่าย • โมเดลแบ่งแยกตามภาควิชาต่างๆ เช่น ภาควิชาวิศวกรรมคอมพิวเตอร์ วิศกรรมไฟฟ้า • คำตอบ (class) จะแบ่งเป็น 2 ประเภท คือ • GOOD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% แรก (top 40%) • BAD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% จากท้าย (bottom 40%) 113
  114. 114. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling 114 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW • IF Computer is HIGH THEN Graduate is Good • IF Computer is LOW AND
 Mathematics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is LOW THEN
 Graduate is Bad โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ เงื่อนไขที่สร้างได้จากโมเดล
  115. 115. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 115 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  116. 116. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 116 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  117. 117. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 117 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  118. 118. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 118 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … Good ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  119. 119. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 • ตัวอย่าง CRISP-DM • บริษัทแห่งหนึ่งกำลังจะวางตลาด eReader รุ่นใหม่ • ต้องการเพิ่มยอดขายของผลิตภัณฑ์ตัวนี้ • บริษัทมีข้อมูลการซื้อ eReader รุ่นก่อนหน้าและสินค้าทางเว็บไซต์ของลูกค้าอยู่ 1. Business Understanding • จากข้อมูลการซื้อสินค้า eReader รุ่นก่อน บริษัทสามารถแบ่งกลุ่มลูกค้าได้ออกเป็น กลุ่มตามช่วงเวลาที่ลูกค้าซื้อสินค้า • บริษัทต้องการทำนายว่าควรจะส่งโปรโมชันให้กับลูกค้าคนใดในช่วงเวลาใดบ้าง 119
  120. 120. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 2. Data Understanding • บริษัทใช้ข้อมูลลักษณะของลูกค้าและการซื้อสินค้าในเว็บ 120 ช่วง เวลาการซื้อ
  121. 121. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 2. Data Understanding • บริษัทใช้ข้อมูลลักษณะของลูกค้าและการซื้อสินค้าในเว็บ 121 source: http://beatechelette.com/wp-content/uploads/2013/03/graph.jpg
  122. 122. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 2. Data Understanding • บริษัทใช้ข้อมูลการซื้อสินค้าในเว็บของลูกค้า • คลาสที่ต้องการทำนายคือ eReader_Adoption แบ่งเป็น 4 ลาเบล • Innovator คือ ลูกค้าที่ซื้อหลังจากวางจำหน่ายสัปดาห์แรก • Early Adoptor คือ ลูกค้าที่ซื้อหลังจากสัปดาห์แรกแต่ไม่เกินสัปดาห์ที่ 3 • Early Majortiy คือ ลูกค้าที่ซื้อหลังจากสัปดาห์ที่ 3 แต่ไม่เกิน 2 เดือนแรก • Late Majority คือ ลูกค้าที่ซื้อหลังจาก 2 เดือนแรก 122
  123. 123. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 2. Data Understanding • ตัวอย่างของคนกลุ่ม Innovator คือ ผู้คนที่ต่อคิวเพื่อรอซื้อ iPhone 6 123 Source: http://www.telegraph.co.uk/technology/apple/iphone/11106696/Fans-queue-outside-Apples-London-stores-for-new-iPhone-6.html
  124. 124. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 3. Data Preparation • กำหนดแอตทริบิวต์ user_ID ให้เป็นประเภทไอดี (ID) เนื่องจากเป็นหมายเลขสมาชิก • กำหนดแอตทริบิวต์ eReader_Adoption ให้เป็นประเภทลาเบล (lebel) 124 labelID
  125. 125. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 4. Modeling • สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้โมเดลที่สามารถเข้าใจได้ง่าย 125
  126. 126. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 2 5. Evaluation • แบ่งข้อมูลเพื่อใช้ในการทดสอบ • คำนวณค่าความถูกต้อง 6. Deployment • นำข้อมูลของลูกค้าที่ยังไม่เคยซื้อ eReader รุ่นก่อนมาทำนายด้วย
 โมเดลที่สร้างขึ้น • ส่งโปรโมชันให้กับลูกค้าในตามช่วงเวลาในแต่ละกลุ่ม 126
  127. 127. http://dataminingtrend.com http://facebook.com/datacube.th References • Andrew Chisholm, Exploring Data with RapidMiner, November 2013 • Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business Analytics Applications, October 25, 2013 • Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013 • Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai version), 2014 127
  128. 128. http://dataminingtrend.com http://facebook.com/datacube.th For more information • หสม. ดาต้า คิวบ์ (data cube) • website: http://www.dataminingtrend.com • facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake • email: eakasit@datacube.asia • lineID: eakasitp 128
  129. 129. http://dataminingtrend.com http://facebook.com/datacube.th My contact 129

×