Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

29,429 views

Published on

ปัจจุบันเราสร้างข้อมูลขึ้นอย่างมากมายในแต่ละวัน ตัวอย่างเช่น การรับและส่ง email การติดตามข่าวสารต่างๆ บนเครือข่ายสังคมออนไลน์ (online social network) หรือ การซื้อสินค้าตามร้านค้าต่างๆ ผมรบกวนให้ท่านผู้อ่านลองจินตนาการดูนะครับว่าถ้าท่านเป็นเจ้าของร้านอาหารที่ได้รับความนิยมเป็นอย่างมากแห่งหนึ่งซึ่งในร้านที่มีจำนวน 30 โต๊ะ และถ้าในแต่ละวันมีลูกค้าเข้ามาเต็มร้านจำนวน 20 รอบ ร้านของเราจะมีข้อมูลการซื้อขายสินค้าเป็นจำนวน 600 transaction ต่อวัน และในหนึ่งเดือนเราจะมีข้อมูลจำนวนประมาณ 18,000 transaction ที่ถูกเก็บไว้ในฐานข้อมูลและหนึ่งปีจะมีจำนวน 216,000 transaction และถ้าเป็นข้อมูลของการซื้อขายในซุเปอร์มาร์เก็ตยิ่งมีจำนวนมากมายกว่านี้อีกหลายเท่า ทว่าข้อมูลที่มีมากมายเหล่านี้จะไม่ก่อให้เกิดประโยชน์เลยถ้าเราเพียงแค่เก็บไว้อย่างเดียว เพื่อให้ข้อมูลเหล่านี้มีมูลค่าเพิ่มมากขึ้นเราจึงจำเป็นต้องนำข้อมูลเหล่านี้มาทำการวิเคราะห์เพื่อดูในแง่มุมต่างๆ

ในหนังสือเล่มนี้จะแสดงวิธีการนำข้อมูลการซื้อขายมาวิเคราะห์ให้เห็นเป็นตัวอย่างโดยเริ่มจากการเตรียมข้อมูลเพื่อให้การวิเคราะห์ข้อมูลทำได้ง่ายมากขึ้น หลังจากนั้นจะเป็นการนำข้อมูลการซื้อสินค้าของลูกค้าแต่ละรายมาทำการแบ่งกลุ่ม (segmentation) ซึ่งจะช่วยให้สามารถเข้่าใจพฤติกรรมการซื้อสินค้าของลูกค้าได้ดีขึ้น เพราะการจะดูรายละเอียดของลูกค้าแต่ละรายคงเป็นไปได้ยาก โดยในหนังสือเล่มนี้เราจะใช้วิธีการแบ่งกลุ่มข้อมูลการซื้อด้วยเทคนิค RFM (ย่อมาจาก Recency, Frequency และ Monetary) เพื่อจะได้เข้าใจพฤติกรรมการซื้อสินค้าของลูกค้าแต่ละกลุ่มว่ามีจำนวนครั้งในการซื้อสินค้ามากน้อยแค่ไหนและมีการใช้จ่ายมากน้อยแค่ไ

Published in: Data & Analytics

Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

  1. 1. Introduction to Business Analytics 
 with RapidMiner Studio 6 Thai version Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst Data Cube http://www.dataminingtrend.com http://facebook.com/datacube.th
  2. 2. Introduction to Business Analytics with RapidMiner Studio 6 (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst
  3. 3. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 2 ชื่อผู้แต่ง ดร.เอกสิทธิ์ พัชรวงศ์ศักดา ชื่อหนังสือ Introduction to Business Analytics With RapidMiner Studio 6 จำนวนหน้า 138 หน้า พิมพ์ครั้งที่ 1 วันเดือนปีที่พิมพ์ สิงหาคม 2558 ชื่อสำนักพิมพ์ บริษัท เอเชีย ดิจิตอลการพิมพ์ จำกัด ถ.งามวงศ์วาน แขวงลาดยาว เขตจตุจักร กรุงเทพฯ 10900 ออกแบบปก กมนนัทธ์ บางแวก จัดรูปเล่ม เอกสิทธิ์ พัชรวงศ์ศักดา ราคา 299 บาท สงวนลิขสิทธิ์ ตาม พ.ร.บ. ลิขสิทธิ์ พ.ศ. 2537 ห้ามลอกเลียนแบบไม่ว่าส่วนหนึ่งส่วนใดของหนังสือ/เอกสารเล่มนี้ นอกจากจะได้รับอนุญาติเป็นลายลักษณ์อักษร คําเตือน !!! 
 การนําไปถ่ายเอกสารอาจจะทําให้ข้อความและรูปไม่ชัดทําให้อ่านได้ยากและ 
 จะทําให้ผู้แต่งเสียใจเป็นอันมาก T_T
  4. 4. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 “แด่คุณพ่อผู้เป็นฮีโร่เสมอมา คุณแม่ผู้คอยเฝ้าดูจากบนฝากฟ้า และภรรยาที่คอยอยู่เคียงข้างกันตลอดเวลา” 3
  5. 5. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 คำนำ ปัจจุบันเราสร้างข้อมูลขึ้นอย่างมากมายในแต่ละวัน ตัวอย่างเช่น การรับและส่ง email การติดตาม ข่าวสารต่างๆ บนเครือข่ายสังคมออนไลน์ (online social network) หรือ การซื้อสินค้าตามร้านค้าต่างๆ ผมรบกวนให้ท่านผู้อ่านลองจินตนาการดูนะครับว่าถ้าท่านเป็นเจ้าของร้านอาหารที่ได้รับความนิยมเป็น อย่างมากแห่งหนึ่งซึ่งในร้านที่มีจำนวน 30 โต๊ะ และถ้าในแต่ละวันมีลูกค้าเข้ามาเต็มร้านจำนวน 20 รอบ ร้านของเราจะมีข้อมูลการซื้อขายสินค้าเป็นจำนวน 600 transaction ต่อวัน และในหนึ่งเดือนเราจะ มีข้อมูลจำนวนประมาณ 18,000 transaction ที่ถูกเก็บไว้ในฐานข้อมูลและหนึ่งปีจะมีจำนวน 216,000 transaction และถ้าเป็นข้อมูลของการซื้อขายในซุเปอร์มาร์เก็ตยิ่งมีจำนวนมากมายกว่านี้อีกหลายเท่า ทว่าข้อมูลที่มีมากมายเหล่านี้จะไม่ก่อให้เกิดประโยชน์เลยถ้าเราเพียงแค่เก็บไว้อย่างเดียว เพื่อให้ข้อมูล เหล่านี้มีมูลค่าเพิ่มมากขึ้นเราจึงจำเป็นต้องนำข้อมูลเหล่านี้มาทำการวิเคราะห์เพื่อดูในแง่มุมต่างๆ ในหนังสือเล่มนี้จะแสดงวิธีการนำข้อมูลการซื้อขายมาวิเคราะห์ให้เห็นเป็นตัวอย่างโดยเริ่มจากการ
 เตรียมข้อมูลเพื่อให้การวิเคราะห์ข้อมูลทำได้ง่ายมากขึ้น หลังจากนั้นจะเป็นการนำข้อมูลการซื้อสินค้า ของลูกค้าแต่ละรายมาทำการแบ่งกลุ่ม (segmentation) ซึ่งจะช่วยให้สามารถเข้่าใจพฤติกรรมการซื้อ สินค้าของลูกค้าได้ดีขึ้น เพราะการจะดูรายละเอียดของลูกค้าแต่ละรายคงเป็นไปได้ยาก โ ดยในหนังสือ เล่มนี้เราจะใช้วิธีการแบ่งกลุ่มข้อมูลการซื้อด้วยเทคนิค RFM (ย่อมาจาก Recency, Frequency และ Monetary) เพื่อจะได้เข้าใจพฤติกรรมการซื้อสินค้าของลูกค้าแต่ละกลุ่มว่ามีจำนวนครั้งในการซื้อสินค้า มากน้อยแค่ไหนและมีการใช้จ่ายมากน้อยแค่ไหน หลังจากที่ได้ทำการเลือกกลุ่มที่น่าสนใจมาแล้วจึงนำ ไปหาความสัมพันธ์ของการซื้อสินค้า (product associate) ต่อเพื่อดูว่ามีสินค้าประเภทใดที่ลูกค้ามักจะ ซื้อพร้อมกันบ่อยครั้งบ้าง เมื่อทราบรูปแบบการซื้อสินค้าในลักษณะนี้แล้วอาจจะช่วยในการจัดวาง สินค้าหรือนำเสนอสินค้าหรือโปรโมโชัน ให้กับลูกค้าให้ตรงกับความต้องการได้มากขึ้น ซึ่งในปัจจุบันนี้ เราสามารถทำการวิเคราะห์ข้อมูลในลักษณะนี้ได้ง่ายขึ้นโดยใช้ซอฟต์แวร์ RapidMiner Studio 6 ซึ่ง สามารถดาวน์โหลดมาใช้งานได้ฟรี สุดท้ายนี้หวังว่าจะทำให้ท่านผู้อ่านเข้าใจเรื่องการวิเคราะห์ข้อมูลและสามารถนำไปใช้กับข้อมูลของ ตนเองที่มีอยู่ไม่มากก็น้อยครับ ^^ ขอบคุณมากครับ ดร. เอกสิทธิ์ พัชรวงศ์ศักดา 
 28 สิงหาคม 2558 4
  6. 6. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 สารบัญ 5 หน้า บทที่ 1 แนะนำส่วนต่างๆ ของ RapidMiner Studio 6 11 การติดตั้งซอฟต์แวร์ 13 ส่วนประกอบต่างๆ ของ RapidMiner Studio 6 19 บทที่ 2 การเตรียมข้อมูล (preprocess) 26 แนะนำข้อมูล Sales data 27 การสร้าง Repository ใหม่ 30 การ import ข้อมูลเข้ามาใช้งาน 33 การดูข้อมูลในรูปแบบต่างๆ (data exploration) 36 โอเปอเรเตอร์ที่ใช้งานในบทที่ 2 39 การคัดเลือกข้อมูล 40 การคำนวณราคา 45 แนะนำการแบ่งกลุ่มด้วยวิธี RFM (Recency, Frequency, Monetary) 49 การเตรียมข้อมูลสำหรับการแบ่งกลุ่มด้วยวิธี RFM 52 แบบฝึกท้ายบท 65 บทที่ 3 การแบ่งกลุ่มข้อมูล (segmentation) 66 การแบ่งกลุ่มลูกค้าตามพฤติกรรมการบริโภคด้วยวิธี RFM 68 โอเปอเรเตอร์ที่ใช้งานในบทที่ 3 70 การแบ่งกลุ่มข้อมูลด้วยวิธี RFM ใน RapidMiner Studio 6 71 แบบฝึกท้ายบท 90
  7. 7. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 สารบัญ (ต่อ) 6 หน้า บทที่ 4 การหาความสัมพันธ์ของข้อมูล (Product Association) 91 แนะนำการหากฏความสัมพันธ์ (Association Rules) 92 โอเปอเรเตอร์ที่ใช้งานในบทที่ 4 97 การเตรียมข้อมูลก่อนหาความสัมพันธ์ 99 การหารูปแบบของสินค้าที่เกิดขึ้นบ่อย (frequent itemset) 118 การหากฏความสัมพันธ์ 122 แบบฝึกท้ายบท 126 ภาคผนวก A การสร้างข้อมูล 129 ภาคผนวก B โอเปอเรเตอร์ที่ใช้งานทั้งหมด 133
  8. 8. (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th แนะนำตัว
 บทที่ 0
  9. 9. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 About me • ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา • การศึกษา: • ปริญญาเอก วิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัย ธรรมศาสตร์ • ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ • ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 
 (เกียรตินิยมอันดับ 2) • ประสบการณ์ • Certified RapidMiner Analyst • วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining • แต่งหนังสือ Data Mining ฉบับภาษาไทย 8
  10. 10. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • สอบวัดมาตรฐานและได้รับ certificate จาก RapidMiner About me (ต่อ) 9
  11. 11. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • วิทยากรรับเชิญอบรมทางด้าน Data Mining ให้กับหน่วยงานต่างๆ • มหาวิทยาลัยต่างๆ • หน่วยงานและบริษัทชั้นนำต่างๆ About me (ต่อ) 10
  12. 12. (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th แนะนำส่วนต่างๆ ของ
 RapidMiner Studio 6 บทที่ 1
  13. 13. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Introduction RapidMiner • RapidMiner • ในตอนแรกใช้ชื่อบริษัทว่า Rapid-I ก่อตั้งขึ้น
 เมื่อปี 2006 • ในช่วงแรกบริษัทตั้งอยู่ที่ประเทศเยอรมนี • ปี 2013 ได้เปลี่ยนชื่อบริษัทเป็น RapidMiner หลังจาก
 ได้รับเงินลงทุนจำนวน 5 ล้านเหรียญสหรัฐ • และย้ายบริษัทมาอยู่ที่บอสตัน ประเทศสหรัฐอเมริกา • ผลิตภัณฑ์หลักของบริษัทคือ RapidMiner Studio 6 • ผลการสำรวจจากเว็บไซต์ KDnuggets ในปี 2014 พบว่าผู้ร่วมตอบแบบสำรวจใช้ RapidMiner ในการวิเคราะห์ข้อมูลมากเป็นอันดับ 1 • Gartner ได้จัดให้ RapidMiner อยู่
 ในกลุ่ม Leaders สำหรับซอฟต์แวร์
 ในการวิเคราะห์ข้อมูล (2015) • SAS • IBM • KNIME • RapidMiner 12 Ingo Mierswa Ralf Klinkenberg source: http://techcrunch.com/2013/11/04/german-predictive-analytics-startup-rapid-i-rebrands-as-rapidminer-takes-5m-from-open-ocean-
 earlybird-to-tackle-the-u-s-market/ source: http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
 http://rapidminer.com/leader-gartners-magic-quadrant-advanced-analytics/
  14. 14. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • download ได้จาก http://rapidminer.com • กรอกข้อมูลเพื่อสร้าง Account สำหรับดาวน์โหลดซอฟต์แวร์ 13 1 คลิกเมนูดาวน์โหลด 2 3 4 5 email ที่ใช้สมัคร password ที่ใช้ ใส่ password ที่ กรอกไว้อีกครั้ง กดปุ่มเพื่อสมัคร
  15. 15. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • หลังจากยืนยันการลงทะเบียนทาง email แล้ว ให้คลิกที่เมนู login 
 เพื่อดาวน์โหลดซอฟต์แวร์ • กรอก username และ password ที่ได้สมัครไว้ในตอนแรก 14 6 7 8 9 คลิกเมนู Login email ที่ใช้สมัคร password ที่กรอก ไว้ตอนสมัคร กดปุ่ม Login
  16. 16. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • หลังจาก login แล้วจะพบเมนูต่างๆ คลิกที่เมนู Downloads • เลือกดาวน์โหลด version ที่เหมาะสมกับระบบปฏิบัติการของเรา 15 10 เลือกเมนู ดาวน์โหลด เลือกระบบปฏิบัติการ (OS) ที่ติดตั้งในเครื่อง
  17. 17. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • การติดตั้งซอฟต์แวร์ RapidMiner Studio 6 สำหรับระบบปฏิบัติการต่างๆ สามารถดูขั้นตอนอย่างละเอียดได้จาก http://docs.rapidminer.com/studio/ installation/ • double click ที่ icon เพื่อเริ่มใช้งานซอฟต์แวร์ • หลังจากติดตั้งซอฟต์แวร์เรียบร้อยแล้ว ขั้นตอนถัดมาจะต้อง login 
 โดยใช้ email และ password ที่ได้ทำการสมัครไว้ครับ 16 1 2 3 email ที่ใช้สมัคร password ที่กรอก ไว้ตอนสมัคร กดปุ่มเพื่อ login
  18. 18. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • หลังจากตรวจสอบกับ Server ถ้าสำเร็จจะแสดงดังในรูป • กดปุ่ม Restart เพื่อเริ่มการทำงานใหม่อีกครั้ง 17 แสดงชื่อเจ้าของ license แสดงวันหมดอายุ การใช้งาน 4 Note: RapidMiner Studio 6 มีหลาย license ครับ ในการติดตั้งครั้งแรก จะให้ใช้ Professional License เป็นเวลา 14 วัน หลังจากนั้นจึง กลายเป็น Starter License ที่ใช้ได้ ตลอดไปครับ กดปุ่มเพื่อเริ่มใช้งาน 5กดปุ่มเพื่อ restart
  19. 19. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • หน้าต่างเริ่มใช้งานจะแสดงขึ้นมา ซึ่งจะแสดง 4 เมนู คือ • Tutorials แสดงวิธีการใช้งาน • Documentation Site เพื่อ link ไปยังหน้าเว็บไซต์ที่แสดง document การใช้งาน • Accelerator แสดงโพรเซส (process) ตัวอย่างที่เตรียมไว้ให้ • New Process สร้างโพรเซสใหม่เพื่อเริ่มการใช้งาน RapidMiner • ในการใช้งาน RapidMiner Studio 6 จะเป็นการสร้างโพรเซส ขึ้นมาเพื่อทำงาน ต่างๆ โดยโพรเซสจะประกอบด้วย โอเปอเรเตอร์ (operator) ต่างๆ • โพรเซสที่สร้างขึ้นสามารถนำกลับมาใช้งานใหม่ได้ หรือ ส่งไปให้คนอื่นได้ 18 6 เลือกเมนู ‘New Process’ เพื่อเริ่มใช้งาน A B C D A B C D
  20. 20. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • องค์ประกอบของหน้าต่าง Design ใน RapidMiner Studio 6 • Operators • ส่วนนี้จะเก็บโอเปอเรตอร์ในการใช้งานต่างๆ ไว้เป็นกลุ่มตามหน้าที่ที่คล้ายคลึงกัน และในส่วนของโอเปอเรเตอร์นี้ยังมีที่สำหรับการค้นหาโอเปอเรเตอร์อีกด้วย • โอเปอเรเตอร์แต่ละตัวจะประกอบด้วย • ชื่อของโอเปอเรเตอร์ • อินพุต พอร์ต (Input port) เป็นส่วนรับข้อมูลเข้ามา
 ประมวลผล • เอาท์พุต พอร์ต (Output port) เป็นส่วนส่งผลลัพธ์ที่
 ประมวลได้ • ชื่ออินพุต พอร์ตและเอาท์พุต พอร์ตแสดงด้วยตัวอักษร 3 ตัวแรก
 ของชื่อพอร์ต เช่น exa ย่อมาจาก example set • สัญลักษณ์วงกลมแสดงสถานะการทำงานของโอเปอเรเตอร์ RapidMiner Studio 6 19 Operators Repositories Process Parameter help A B C D E a b c d A a b c d
  21. 21. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • Repositories • ส่วนนี้จะใช้ในการจัดการไฟล์ต่างๆ หลักการของ RapidMiner Studio 6 จะเก็บ ไฟล์ข้อมูลหรือโพรเซสต่างๆ ไว้ใน โฟลเดอร์เพื่อความสะดวกในการเรียกใช้งาน ครั้งถัดไป • Process • ส่วนนี้เป็นอีกส่วนที่สำคัญของ RapidMiner Studio เพราะหลักการทำงานของ ซอฟต์แวร์นี้คือการนำโอเปอเรเตอร์ต่างๆ มา ประกอบกันให้เป็นโพรเซสขึ้นมา • Parameters • ส่วนนี้จะเป็นส่วนที่แสดงพารามิเตอร์ (parameter) ที่ เกี่ยวข้องกับแต่ละ
 โอเปอเรเตอร์ เช่น โอเปอเรเตอร์ Read CSV สำหรับอ่านไฟล์ CSV จะมี พารามิเตอร์ที่เกี่ยวข้อง เช่น ชื่อและที่อยู่ของไฟล์ CSV เป็นต้น • Help • ส่วนนี้จะเป็นส่วนที่แสดงข้อความช่วยเหลือหรือรายละเอียดของโอเปอเรเตอร์ที่ เลือกใช้งานอยู่ ซึ่งประกอบด้วยรายละเอียดเบื้องต้น ความหมายของแต่ละ พารามิเตอร์ และตัวอย่างการใช้งานในส่วนท้ายสุด 20 B C แสดงโพรเซสที่กำลังทำงาน เพิ่ม Note ในโพรเซส เชื่อมโอเปอเรเตอร์ต่างๆใน โพรเซสแบบอัตโนมัติ D E
  22. 22. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RapidMiner Studio 6 • เมนูด้านบนในหน้าต่าง Design มีดังนี้ • เมนูทางด้านขวาบนของหน้าต่าง Design จะใช้สำหรับสลับหน้าจอ
 การทำงานไปยังหน้าต่างๆ ดังนี้
 • หน้า Home แสดงหน้าเริ่มต้นของ RapidMiner Studio 6 • หน้า Design แสดงหน้าสำหรับการสร้างโพรเซส • หน้า Results แสดงหน้าผลลัพธ์การทำงาน • หน้า Accelerator แสดงหน้าตัวอย่างระบบที่เตรียมไว้ให้ 21 เมนูสำหรับการสร้างโพรเซสใหม่ เมนูสำหรับการโหลดไฟล์ต่างๆ จาก repository เมนูสำหรับการบันทึกโพรเซส เมนูสำหรับบันทึกโพรเซสเป็นชื่อใหม่ เมนูสำหรับพิมพ์โพรเซสออกทางเครื่องพิมพ์
 หรือบันทึกเป็นไฟล์ PDF หรือรูปภาพ เมนูสำหรับการทำ undo หรือ redo เมนูสำหรับสั่งให้โพรเซสทำงาน (run) เมนูสำหรับสั่งให้โพรเซสหยุดทำงานชั่วคราว (pause) เมนูสำหรับสั่งให้โพรเซสยกเลิกทำงานชั่วคราว (stop) เมนูสำหรับเรียกดู tutorial Note: • เมนูที่เหลืออีก 2 เมนูเป็นการสั่งให้โพรเซสทำงานบนคลาวด์ (cloud) ซึ่งมีค่าใช้จ่ายรายเดือน
 เดือนละ 39$ และการทำงานจะคิดเป็นเครดิตโดยต้องซื้อครั้งละ 100 เครดิตเป็นจำนวนเงิน 39$ ครับ A B C D A B C D
  23. 23. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • หน้าต่าง Home • รายละเอียดของเมนูต่างๆ ในหน้า Home มีดังนี้ • Tutorials แสดงวิธีการใช้งานเบื้องต้น • Accelerators แสดง process ตัวอย่างที่เตรียมไว้ • New Process สำหรับสร้าง process ใหม่ขึ้นมา เพื่อทำงาน • Open สำหรับเปิด process เดิมที่บันทึกไว้เพื่อมาทำงาน RapidMiner Studio 6 22 A B C D A B C D
  24. 24. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • หน้าต่าง Results • หน้าต่าง Accelerator RapidMiner Studio 6 23 ส่วนของการแสดงผลลัพธ์ Repositories A B
  25. 25. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Business Analytics Example • ในหนังสือเล่มนี้จะแสดงวิธีการใช้งาน RapidMiner Studio 6 เพื่อ
 ช่วยในการวิเคราะห์ข้อมูลของซุเปอร์มาร์เก็ต (supermarket) 
 แห่งหนึ่งซึ่งได้ทำการเก็บข้อมูลสมาชิก (ลูกค้า) และการซื้อสินค้าต่างๆ ไว้ • วัตถุประสงค์เพื่อค้นหาว่าลูกค้ากลุ่มใดที่น่าสนใจและสินค้าที่ลูกค้ามักจะมาซื้อ ร่วมกันบ่อยๆ เพื่อจะได้นำเสนอโปรโมชันได้อย่างเหมาะสม • โพรเซสทั้งหมดแสดงดังในรูปด้านล่าง 24 Recency (R) Frequency (F) Monetary (M) ลำดับ ความสัมพันธ์ในการซื้อ สินค้า ความถี่ (%) 1 Sports, Health 36 2 Toys, Clothing 33 3 Toys, Electronics 30 4 Books, Movies 24sales data segmentation product association
  26. 26. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Business Analytics Example • ขั้นตอนการทำงานในบทต่อๆ ไปมีดังนี้ • บทที่ 2 แนะนำการนำข้อมูลเข้ามาใช้งานและการเตรียมข้อมูลต่างๆ • บทที่ 3 แนะนำการแบ่งกลุ่มลูกค้า (segmentation) ออกตามพฤติกรรมการซื้อ สินค้า • บทที่ 4 แนะนำการหาความสัมพันธ์ของการซื้อสินค้าต่างๆ (product association) 25
  27. 27. (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th การเตรียมข้อมูล
 (preprocess) บทที่ 2
  28. 28. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Sales database • ซุเปอร์มาร์เก็ตแห่งหนึ่งมีร้านอยู่หลายสาขา (Store) แต่การเก็บข้อมูลจะ
 เก็บไว้ในฐานข้อมูลกลาง ซึ่งมีรายละเอียดดังในตารางด้านล่าง • trans_id แสดงหมายเลขการซื้อสินค้า (transaction) • store_id แสดงหมายเลขของสาขา • customer_id แสดงหมายเลขของลูกค้า • product_id แสดงหมายเลขของสินค้า • product_cat แสดงประเภทของสินค้า (category) • date แสดงวันและเวลาที่ซื้อสินค้า • amount แสดงจำนวนสินค้าชนิดนั้นที่ซื้อ • single_price แสดงราคาสินค้า/หน่วย 27 trans_id store_id customer_id product_id product_cat date amount single_price 1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007 3.0 90.24 2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005 2.0 60.58 3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56 2007 5.0 96.61 4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007 3.0 90.24 A B C D E F G H A B C D E F G H Note: • ข้อมูลที่ใช้ในหนังสือเล่มนี้เป็นข้อมูลตัวอย่างที่สร้างขึ้นมาจาก RapidMiner Studio 6 ดูวิธีการสร้าง ชุดข้อมูลตัวอย่างนี้ได้จาก Appendix A ครับ
  29. 29. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Data • RapidMiner จะมีชื่อเรียกข้อมูลที่แสดงในรูปแบบของตาราง ดังนี้ • แถว เรียกว่า ตัวอย่าง (example) • คอลัมน์ เรียกว่า แอตทริบิวต์ (attribute) ซึ่งมี 2 หน้าที่ที่ใช้งานบ่อย • ไอดี (ID) เป็นแอตทริบิวต์ที่แสดงหมายเลขของข้อมูล หรือ primary key ในฐานข้อมูล • แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ไอดีจะแสดงด้วยสีฟ้า • แอตทริบิวต์ทั่วไป (attribute) เป็นแอตทริบิวต์ปกติที่ใช้ในการประมวลผลหรือ คำนวณต่างๆ • แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ทั่วไปจะแสดงด้วยสีเทา • ประเภทของข้อมูลที่เก็บในแต่ละแอตทริบิวต์ • Polynominal คือ ข้อมูลประเภท category (ข้อมูลที่ไม่ใช่ตัวเลข) มีค่ามากกว่า 2 ค่า ขึ้นไป • Integer/Real คือ ข้อมูลประเภทตัวเลขจำนวนเต็ม หรือ จำนวนที่มีทศนิยม • Date time คือ ข้อมูลประเภทวันที่และเวลา 28 attributeID trans_id store_id customer_id product_id product_cat date amount single_price 1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007 3.0 90.24 2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005 2.0 60.58 3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56 2007 5.0 96.61 4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007 3.0 90.24 polynominal data time realinteger
  30. 30. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • Repository • เป็นที่เก็บข้อมูลและโพรเซสเพื่อใช้งานใน RapidMiner Studio 6 ทำให้ไม่ต้อง โหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง • ส่วน Repository ประกอบด้วย 2 ส่วน คือ • เมนูสำหรับการจัดการ Repository • สำหรับสร้าง Repository ใหม่ • โหลดไฟล์ประเภทต่างๆ เข้าไปไว้ใน Repository • สร้างโฟลเดอร์ใหม่ • Repository ที่มีอยู่ใน RapidMiner Studio 6 • Samples เป็นข้อมูลและโพรเซส ตัวอย่างที่ RapidMiner Studio 6 เตรียมไว้ให้ • Local Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสในเครื่องคอมพิวเตอร์
 ของเราเอง (local) • Cloud Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสบน Cloud Data management 29 A B A B
  31. 31. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • ในหนังสือเล่มนี้เราจะสร้าง Repository ใหม่เพื่อเก็บข้อมูลและโพรเซส • คลิกที่ไอคอน • เลือก New local repository • กดปุ่ม Next • เปลี่ยนชื่อ Alias เป็น GettingStartedWithRapidMiner • คลิกที่ Use standard location เพื่อไม่เลือก option นี้ • คลิกที่ไอคอน เพื่อเลือก Root directory (ซึ่งเป็นโฟลเดอร์สำหรับเก็บข้อมูล) ใหม่ Create Repository 30 2 1 3 1 2 3 4 5 6 6 4 5
  32. 32. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • สร้าง Repository ใหม่ (ต่อ) • คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์สำหรับ Repository ใหม่ ในตัวอย่างนี้เลือกที่ Desktop (แต่ท่านผู้อ่านสามารถเลือกที่ไดรฟ์ C: หรือ D: ก็ได้ครับ) • สร้างโฟลเดอร์ชื่อ GettingStartedWithRapidMiner • กดปุ่ม OK • เลือกโฟลเดอร์ที่สร้างขึ้น • กดปุ่ม Open Create Repository 31 7 7 8 9 10 11 8 10 11 9
  33. 33. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Create Repository • สร้าง Repository ใหม่ (ต่อ) • กดปุ่ม Finish • จะได้ Repository ใหม่แสดงขึ้นมา 32 12 13 12 13 ขยายส่วน Repositories ให้ เต็มหน้าจอ
  34. 34. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Import Sale data • import ไฟล์ Excel เข้าไปไว้้ใน Repository • ในส่วน Repositories คลิกที่ไอคอน เลือก Import Excel Sheet… • เลือกไฟล์ sale_data.xlsx ที่สร้างขึ้น (ดูวิธีการสร้างไฟล์ประเภท Excel ได้จาก Appendix A ครับ) • ขั้นตอนที่ 2 ของการ Import ไฟล์ คือ การเลือก Worksheet ที่ต้องการ import • ในไฟล์ตัวอย่างมีแค่ Worksheet เดียวจึงมีเพียงแท็บเดียวให้เลือก 33 3 4 เลือกไฟล์ sales_data.xlsx 5 เลือก Worksheet นี้ 1 2
  35. 35. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Import Sale data • import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ) • ขั้นตอนที่ 3 กำหนดให้แถวแรกของไฟล์เป็นชื่อแอตทริบิวต์ และคลิก Next • ขั้นตอนที่ 4 เปลี่ยน Date format ให้เป็นแบบ yyyy-MM-dd HH:mm:ss • เปลี่ยนแอตทริบิวต์ transaction_id ให้มีหน้าที่ (role) เป็น ID และ product_id ให้เป็นประเภท Polynominal 34 7 6 กำหนดให้แถวแรกเป็น ชื่อแอตทริบิวต์ 10 8 9 11 เปลี่ยนรูปแบบของวันที่ และเวลา เปลี่ยนหน้าที่ของ แอตทริบิวต์ให้เป็น ID เปลี่ยนประเภทให้เป็น Polynominal แทน Integer
  36. 36. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ) • ขั้นตอนที่ 5 ซึ่งเป็นขั้นตอนสุดท้ายคือกำหนดว่าจะเก็บข้อมูลไว้ที่ Repository ที่ สร้างขึ้นมาใหม่ (GettingStartedWithRapidMiner) และตั้งชื่อไฟล์เป็น sales_data • ข้อมูลที่ import เข้ามาใน RapidMiner Studio 6 จะแสดงเป็นรูปแบบ
 ของตาราง แต่ก็สามารถเปลี่ยนไปดูในรูปแบบอื่นๆ ได้ เช่น กราฟ Import Sale data 35 13 12 14 เลือกไฟล์ Repository ที่สร้างขึ้นใหม่ ตั้งชื่อข้อมูลเป็น sales_data แสดงรายละเอียดของข้อมูล คลิกที่ชื่อแอตทริบิวต์เพื่อ sort
  37. 37. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 • แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ เช่น • แสดงข้อมูลในรูปแบบตาราง (Data) และถูกกำหนดเป็นค่าเริ่มต้น (default) • แสดงค่าสรุปทางสถิติ (Statistics) เช่น ค่า Min, Max, Average, Deviation • แสดงกราฟรูปแบบต่างๆ (Charts) เช่น กราฟแท่ง กราฟวงกลม • แสดงข้อมูลในรูปแบบตาราง • ExampleSet แสดงจำนวนข้อมูลทั้งหมดในไฟล์ • Filter แสดงจำนวนข้อมูลจากการกรอง (filter) ทำได้ 5 แบบ • all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง) • no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ • missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ • no_missing_labels แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล • missing_labels แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล • ตารางแสดงข้อมูลในแต่ละแอตทริิบิวต์ คลิกที่ชื่อแอตทริบิวต์เพื่อทำการเรียงลำดับ • กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลำดับมากกว่า 1 แอตทริบิวต์ (สำหรับระบบปฏิบัติการ OS X ให้กดปุ่ม command แทน) Data exploration 36 A B C A B C
  38. 38. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Data exploration • คลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติ มีคอลัมน์ต่างๆ ดังนี้ • Name แสดงชื่อแอตทริบิวต์ • Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์ เช่น Integer, Polynominal • Miss. จำนวนข้อมูลที่มีค่าว่าง • Statistics ค่าทางสถิติต่างๆ เช่น Min, Max, Average, Deviation, Least, Most, Values 37 A B C D A B C D • ข้อมูล sales_data ที่ import เข้ามาจะแสดงไว้ ใน Repository • สัญลักษณ์ แสดงข้อมูล (data) • ถ้าต้องการเรียกดูข้อมูลให้ double click ที่ชื่อ ของข้อมูล • ถ้าต้องการนำไปใช้ในโพรเซส ให้คลิกที่ชื่อ ข้อมูลและลากไปวางไว้ใน main process ข้อมูลที่ import เข้ามา
  39. 39. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Data exploration • ข้อมูล sales ที่ import เข้ามามีจำนวนการซื้อขายทั้งหมด 100,000 ตัวอย่าง (examples) • ระยะเวลาการซื้อขายตั้งแต่ วันที่ 1 กุมภาพันธ์ 2005 (Feb 1, 2005) จนถึง วันที่ 29 พฤศจิกายน 2008 (Nov 29, 2008) • มีการซื้อจากร้านค้าทั้งหมด 15 สาขา (Store) • มีลูกค้า (customers) ทั้งหมด 2,000 คน • มีสินค้าทั้งหมด 8 ประเภท คือ • Books, Clothing, Electronics, Health, Home/Garden, Movies, Sports และ Toys • ในบทนี้จะแนะนำการเตรียมข้อมูล (preprocessing) เพื่อใช้ในการแบ่งกลุ่ม ลูกค้า (รายละเอียดอยู่ในบทที่ 3) โดยมีขั้นตอนดังนี้ • เลือกเฉพาะสาขาที่สนใจ เช่น สาขาที่ 1 (Store 01) • คำนวณราคารวมสำหรับการซื้อสินค้าแต่ละครั้ง • สรุปค่าต่างๆ ได้แก่ • จำนวนครั้งในการซื้อสินค้าของลูกค้าแต่ละราย (Frequency) • จำนวนเงินที่ใช้จ่ายรวมของลูกค้าแต่ละราย (Monetary) • วันที่ซื้อสินค้าล่าสุดของลูกค้าแต่ละราย 38
  40. 40. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Preprocessing: Filter Examples • ในบทนี้จะแนะนำการเตรียมข้อมูล (preprocessing) เพื่อใช้ในการแบ่งกลุ่ม ลูกค้า (รายละเอียดอยู่ในบทที่ 3) โดยมีขั้นตอนดังนี้ • เลือกเฉพาะสาขาที่สนใจ เช่น สาขาที่ 1 (Store 01) • ใช้โอเปอเรเตอร์ Filter Examples • คำนวณราคารวมสำหรับการซื้อสินค้าแต่ละครั้ง • สรุปค่าต่างๆ ได้แก่ • จำนวนครั้งในการซื้อสินค้าของลูกค้าแต่ละราย (Frequency) • จำนวนเงินที่ใช้จ่ายรวมของลูกค้าแต่ละราย (Monetary) • วันที่ซื้อสินค้าล่าสุดของลูกค้าแต่ละราย • ดึงข้อมูล (retrieve) จาก Repository มาใช้งานในโพรเซส โดยลาก (drag) ข้อมูล sales_data มาไว้ในส่วน Main Process 40 1 2 คลิกที่ sales_data ลากมาวางไว้ที่ Main Process Note: • โอเปอเรเตอร์ที่เลือกจะมีเส้นกรอบสีส้มล้อมรอบโอเปอเรเตอร์นั้นอยู่
  41. 41. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Preprocessing: Filter Examples • เลือกโอเปอเรเตอร์ Filter Examples เพื่อเลือกเฉพาะข้อมูลของ
 สาขาที่ 1 (Store 1) • ค้นหาโอเปอเรเตอร์ Filter Examples ในส่วน Operators หลังจากนั้นโอเปอ
 เรเตอร์จะแสดงออกมา (สามารถพิมพ์บางส่วนของชื่อโอเปอเรเตอร์ได้) • ลากโอเปอเรเตอร์ไปวางไว้ใน Main Process • ลากเส้นเชื่อมจากพอร์ต out ของโอเปอเรเตอร์ Retrieve Sales_data ไปต่อกับ พอร์ต exa ของโอเปอเรเตอร์ Filter Examples เพื่อส่งข้อมูลที่ดึงมาจาก Repository ไปใช้งานต่อในโอเปอเรเตอร์ Filter Examples 41 3 4 คลิกที่โอเปอเรเตอร์ ใส่คำที่ต้องการค้นหา 5ลากมาวางไว้ที่ Main Process 6 ลากเส้นเชื่อมระหว่าง 2 โอเปอเรเตอร์
 เพื่อส่งข้อมูลไปใช้งานต่อ Note: • พอร์ตที่มีชื่อว่า exa จะเป็นข้อมูลที่อยู่ ในรูปแบบของตาราง (table) • เอาท์พุตพอร์ตของ Filter Examples จะ มี 3 พอร์ต คือ • exa แสดงข้อมูลที่ผ่านเงื่อนไขการ filter แล้ว • ori แสดงข้อมูลทั้งหมด • unm แสดงข้อมูลที่ไม่ผ่านเงื่อนไข • รายละเอียดของพอร์ตดูได้จากส่วน Help ในตัวซอฟต์แวร์
  42. 42. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Preprocessing: Filter Examples • คลิกที่โอเปอเรเตอร์ Filter Examples (ซึ่งจะมีกรอบสีส้มล้อมรอบอยู่) และส่วน พารามิเตอร์จะแสดงพารามิเตอร์ของโอเปอเรเตอร์ Filter Examples • คลิกที่ปุ่ม Add Filters... จะแสดงหน้าต่าง Create Filters ขึ้นมา • ใส่เงื่อนไขเพื่อเลือกเฉพาะสาขาที่ 1 (Store 01) • เลือกแอตทริบิวต์ store_id • เลือกเงื่อนไขเป็น equals • คลิกที่ไอคอน และเลือก Store 01 ในส่วนเงื่อนไข 42 7 คลิกที่ปุ่ม Add Filters... หน้าต่างสำหรับการใส่เงื่อนไขจะแสดงขึ้นมา 8 9 10คลิกเพื่อให้แสดงค่าต่างๆ ในแอตทริบิวต์ store_id 11
  43. 43. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Preprocessing: Filter Examples • ลากเส้นต่อจากพอร์ต exa ของโอเปอเรเตอร์ Filter Examples ไป
 ยังพอร์ต res (พอร์ตด้านขวามือเพื่อแสดงข้อมูลในหน้าต่าง Results) • คลิกที่ปุ่ม (Run process) เพื่อให้โพรเซสทำงาน • หลังจากที่โพรเซสทำงานเสร็จเรียบร้อยจะเปลี่ยนมายังหน้าต่าง Results • แสดงข้อมูลการซื้อขายเฉพาะของสาขาที่ 1 (Store 01) ซึ่งมีจำนวน 6,636 ตัวอย่าง 43 12 13 ลากเส้นเชื่อมระหว่างโอเปอเรเตอร์และพอร์ต res คลิกที่ปุ่ม Run เพื่อให้โพรเซสทำงาน แสดงเฉพาะข้อมูลที่เป็น Store 01
  44. 44. (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th การแบ่งกลุ่มลูกค้า (Segmentation) บทที่ 3
  45. 45. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Segmentation • หลังจากบทที่ผ่านมาเราได้ทำการสรุปค่าการซื้อสินค้าของลูกค้าแต่ละรายได้แล้วซึ่งถ้า ลูกค้ามีจำนวนไม่มากนักการดูพฤติกรรมการซื้อสินค้าของลูกค้าแต่ละรายก็ไม่ได้ยาก แต่ถ้าในกรณีที่ลูกค้ามีจำนวนมาก เช่นประมาณ 10,000 หรือ 100,000 คน การดูลูกค้า รายบุคคลคงจะทำได้ยากหรืออาจจะทำไม่ได้เลย • ดังนั้นการจัดกลุ่มลูกค้าที่มีพฤติกรรมคล้ายๆ กันไว้ด้วยกันจะช่วยให้สามารถดูภาพรวม ของลูกค้าได้ง่ายขึ้น เช่น กลุ่มลูกค้าที่มีการซื้อสินค้าของเราบ่อยๆ และมีการใช้จ่าย เยอะ หรือ กลุ่มลูกค้าที่ไม่ค่อยมาซื้อสินค้าของเราแต่เมื่อมาซื้อแต่ละครั้งจะซื้อใน จำนวนที่มาก หลังจากที่เราเลือกกลุ่มที่น่าสนใจแล้วเราก็นำไปวิเคราะห์ในด้านอื่นๆ ได้ ต่อไป เช่น การหาว่าลูกค้ากลุ่มที่เลือกมามักจะซื้อสินค้าอะไรด้วยกันบ่อยๆ บ้าง (ซึ่งราย ละเอียดจะอยู่ในบทที่ 4 การหาความสัมพันธ์ของการซื้อสินค้า (product association) • การจัดกลุ่มลูกค้ามีหลายวิธีครับ ในหนังสือเล่มนี้ผมจะขอแนะนำวิธีการหนึ่งที่นิยมใช้ กัน วิธีการนี้เรียกว่าการจัดกลุ่มตามพฤติกรรมการซื้อสินค้า โดยดูจาก • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) • วิธีการนี้นำเสนอโดย Fader ในปี 2005 เราเรียกวิธีการนี้แบบย่อๆ ว่า RFM ครับ ซึ่งวิธี การนี้เราจะแบ่งค่า Recency (R), Frequency (F) และ Monetary (M) ออกเป็น 5 ส่วน เท่าๆ กันโดยเลขที่มีค่ามากสุด (คือเลข 5) จะมีความสำคัญที่สุด และใช้ค่าตัวเลข 3 หลักเป็นตัวแทนของแต่ละกลุ่ม เช่น กลุ่ม 555 คือกลุ่มที่มีค่า R = 5, F = 5 และ M = 5 หมายความว่าเป็นลูกค้าที่มักจะมาซื้อสินค้าของเราบ่อยๆ และมีการใช้จ่ายที่สูงนั่นเอง ครับ 67
  46. 46. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 RFM Segmentation: Data Exploration • กราฟแท่ง (Bars) ที่แสดงจำนวนข้อมูลลูกค้าในแต่ละกลุ่มตามค่า RFM 83 10 11 คลิกเพื่อดูกราฟ 12 13 14 เปลี่ยนให้แสดงกราฟใน แนวนอน (horizontal)
  47. 47. (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th การหาความสัมพันธ์ของข้อมูล (Product Association) บทที่ 4
  48. 48. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Product Association • ก่อนที่จะไปดูว่าการหาความสัมพันธ์คืออะไร ผมจะขอยกตัวอย่างให้ดูสัก 3 ตัวอย่างนะ ครับ ตัวอย่างแรกก็คือ • ประโยคฮิตของร้านสะดวกซื้อแห่งหนึ่งที่ว่า “รับขนมจีบ ซาลาเปาทานเพิ่มไหม ครับ/คะ?” ซึ่งผมคิดว่าผู้อ่านหลายท่านคงจะคุ้นหูกันเป็นอย่างดี ประโยคนี้ไม่ได้ เป็นเพียงการพูดขึ้นมาลอยๆ แต่มันมีความหมายในเชิงการตลาดซึ่งมีวัตถุประสงค์ เพื่อเพิ่มยอดขายให้กับทางร้านอีกด้วยครับ • การซื้อสินค้าในเว็บไซต์อเมซอน (amazon.com) ซึ่งในขณะที่เรากำลังเลือกหนังสือ อยู่นั้น จะมีหนังสืออื่นที่ลูกค้ามักจะซื้อไปพร้อมกับเรื่องที่เรากำลังสนใจอยู่แสดงใน ส่วนของ Frequently Bought Together ปรากฎขึ้นมาด้วยครับ • การจัดวางสินค้าในแคตตาล็อก (catalog) หรือการจัดวางสินค้าตามชั้นต่างๆ จะ เลือกสินค้าที่มักจะมีการซื้อร่วมกันบ่อยมาวางไว้ใกล้ๆ กันเพื่อให้ลูกค้าสะดุดตา และเลือกซื้อสินค้าได้ง่ายขึ้นครับ • จากตัวอย่างทั้ง 3 มีวัตถุประสงค์คล้ายกัน คือ การเพิ่มยอดขายให้กับร้านค้าโดยใช้ ประวัติการซื้อสินค้าของลูกค้าในอดีต ในทางการตลาดการเสนอสินค้าที่เกี่ยวข้องให้กับ ลูกค้าจะเรียกว่า “cross-selling” ซึ่งการทำ cross-sell แบบนี้อาศัยข้อมูลจากการค้นหา ความสัมพันธ์ในการซื้อสินค้าต่างๆ ที่ผ่านมา • ในการค้นหาความสัมพันธ์ในการซื้อสินค้านี้จะมีวิธีการที่เรียกว่า การหากฏความ สัมพันธ์ (Association Rules) ซึ่งเป็นเทคนิคหนึ่งที่สำคัญในการวิเคราะห์ข้อมูลด้วย ดาต้า ไมน์นิง (Data Mining) ซึ่งวิธีการค้นหาอย่างละเอียดได้อธิบายไว้ในหนังสือ 
 “An Introduction to Data Mining Techniques (Thai version)” ซึ่งเขียนโดยผู้แต่ง
 เอง [1] แต่ในหนังสือเล่มนี้จะขอสรุปคำจำกัดความ (technical term) ที่เกี่ยวข้องในการ ค้นหากฏความสัมพันธ์และใช้งานในซอฟต์แวร์ RapidMiner Studio 6 92
  49. 49. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Product Association • ในการหาความสัมพันธ์ของการซื้อสินค้านี้จะใช้ข้อมูลจากการซื้อที่ผ่านมาดังเช่น ข้อมูลที่ได้ จาก POS (Point of Sales) ซึ่งมักจะเก็บไว้ในตาราง Order Detail ซึ่งประกอบไปด้วยหลายๆ ฟิลด์ดังตัวอย่างด้านล่าง ซึ่งยกตัวอย่างฟิลด์ที่สำคัญเพียง 3 ฟิลด์ คือ • TID แสดงหมายเลขการซื้อสินค้า (transaction ID) • Transaction time แสดงช่วงวลาในการซื้อสินค้า • Product แสดงสินค้าที่ซื้อ • จากตาราง Order Detail จะเห็นได้ว่าหนึ่งเรคอร์ด (record) เป็นการซื้อสินค้าหนึ่งชนิด ดังนั้น ถ้าในหนึ่งครั้งมีการซื้อสินค้ามากกว่าหนึ่งชนิดแล้วจะมีจำนวนเรคอร์ดมากกว่าหนึ่งเรคอร์ดแต่ ใช้ TID เป็นตัวบ่งบอกว่าเป็นการซื้อสินค้าในครั้งเดียวกัน ซึ่งข้อมูลที่เก็บอยู่ในลักษณะนี้ไม่ เหมาะที่จะนำไปหาความสัมพันธ์ของการซื้อขายต่อ ดังนั้นจึงต้องทำการแปลงข้อมูลในตาราง Order Detail (ซ้ายมือ) ให้เป็นตาราง Transaction ทางขวามือเสียก่อน 93 TID Transaction time Product 1 01-13-2014 20:04 Apple 1 01-13-2014 20:04 Cereal 1 01-13-2014 20:04 Diapers 2 01-14-2014 11:30 Beer 2 01-14-2014 11:30 Cereal 2 01-14-2014 11:30 Eggs 3 01-15-2014 14:30 Apple 3 01-15-2014 14:30 Beer 3 01-15-2014 14:30 Cereal 3 01-15-2014 14:30 Eggs 4 01-16-2014 14:15 Beer 4 01-16-2014 14:15 Eggs TID Products 1 Apple, Cereal, Diapers 2 Beer, Cereal, Eggs 3 Apple, Beer, Cereal, Eggs 4 Beer, Eggs ตาราง Order Detail ตาราง Transaction
  50. 50. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Appendix B: Operators • ส่วนประกอบสำคัญในการทำงานของซอฟต์แวร์ RapidMiner Studio 6 คือโอเปอเรเตอร์ (Operator) การทำงานต่างๆ จะใช้โอเปอเรเตอร์มาเชื่อมกันเพื่อสร้างเป็น workflow หรือใน ซอฟต์แวร์นี้เรียกว่าโพรเซส (process) ในภาคผนวกนี้จะเป็นการสรุปโอเปอเรเตอร์ต่างๆ ที่ใช้ในหนังสือเล่มนี้ครับ แต่ก่อนอื่นมาดูองค์ประกอบของโอเปอเรเตอร์กันก่อนครับ • โอเปอเรเตอร์แต่ละตัวจะประกอบด้วย • ชื่อของโอเปอเรเตอร์ • อินพุต พอร์ต (Input port) เป็นส่วนรับข้อมูลเข้ามา
 ประมวลผล • เอาท์พุต พอร์ต (Output port) เป็นส่วนส่งผลลัพธ์ที่
 ประมวลได้ 
 โดยชื่ออินพุต พอร์ตและเอาท์พุต พอร์ตแสดงด้วย ตัวอักษร 3 ตัวแรกของชื่อพอร์ต เช่น exa ย่อมาจาก example set • สัญลักษณ์วงกลมแสดงสถานะการทำงานของ
 โอเปอเรเตอร์ 133 a b c d a b c d โอเปอเรเตอร์ คำอธิบาย Retrieve ใช้สำหรับดึงข้อมูลที่เก็บไว้ใน Repository มาใช้งานใน
 โพรเซส (Process) Filter Example ใช้สำหรับเลือก (filter) ข้อมูลที่สนใจออกมาแสดงผล Generate Attribute ใช้สำหรับสร้างแอตทริบิวต์ใหม่ขึ้นมา
  51. 51. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 Appendix B: Operators • โอเปอเรเตอร์ที่ใช้ในบทนี้มีดังต่อไปนี้ 134 โอเปอเรเตอร์ คำอธิบาย Aggregate ใช้สำหรับสรุปค่าต่างๆ เช่น ค่ามากสุด (Max) ค่าน้อย สุด (Min) และค่าเฉลี่ย (Average) Rename ใช้สำหรับเปลี่ยนชื่อแอตทริบิวต์ต่างๆ Subprocess ใช้สำหรับรวบรวมโพรเซสที่สร้างไว้มาไว้ภายใน
 โอเปอเรเตอร์ สำหรับตัวอย่างนี้จะนำโพรเซสที่สร้าง ได้จากบทที่ 2 นี้ไว้ในโอเปอเรเตอร์ Subprocess นี้ Discretize by Frequency ใช้สำหรับแบ่งช่วงข้อมูลให้แต่ละช่วงมีจำนวนที่เท่ากัน Nominal to Numerical ใช้สำหรับแปลงข้อมูลที่เป็นนอมินอล (Nominal) ให้เป็น ข้อมูลตัวเลข (Numeric) Numerical to Nominal ใช้สำหรับแปลงข้อมูลที่เป็นข้อมูลตัวเลข (Numeric) ให้ เป็นนอมินอล (Nominal) สำหรับในตัวอย่างนี้ใช้เพื่อ แปลงค่า RFM ให้กับไปเป็นประเภทนอมินอล Numerical to Binominal ใช้สำหรับแปลงข้อมูลที่เป็นตัวเลขให้เป็นค่า true/false หรือที่เรียกว่า binominal
  52. 52. (data)3
 base|warehouse|mining Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th Introduction to Business Analytics with RapidMiner Studio 6 136
  53. 53. ปัจจุบันเราสร้างข้อมูลขึ้นอย่างมากมายในแต่ละวัน ตัวอย่างเช่น การรับและส่ง email การติดตาม ข่าวสารต่างๆ บนเครือข่ายสังคมออนไลน์ (online social network) หรือ การซื้อสินค้าตามร้านค้า ต่างๆ ผมรบกวนให้ท่านผู้อ่านลองจินตนาการดูนะครับว่าถ้าท่านเป็นเจ้าของร้านอาหารที่ได้รับ ความนิยมเป็นอย่างมากแห่งหนึ่งซึ่งในร้านที่มีจำนวน 30 โต๊ะ และถ้าในแต่ละวันมีลูกค้าเข้ามา เต็มร้านจำนวน 20 รอบ ร้านของเราจะมีข้อมูลการซื้อขายสินค้าเป็นจำนวน 600 transaction ต่อวัน และในหนึ่งเดือนเราจะมีข้อมูลจำนวนประมาณ 18,000 transaction ที่ถูกเก็บไว้ในฐานข้อมูลและ หนึ่งปีจะมีจำนวน 216,000 transaction และถ้าเป็นข้อมูลของการซื้อขายในซุเปอร์มาร์เก็ตยิ่งมี จำนวนมากมายกว่านี้อีกหลายเท่า ทว่าข้อมูลที่มีมากมายเหล่านี้จะไม่ก่อให้เกิดประโยชน์เลยถ้าเรา เพียงแค่เก็บไว้อย่างเดียว เพื่อให้ข้อมูลเหล่านี้มีมูลค่าเพิ่มมากขึ้นเราจึงจำเป็นต้องนำข้อมูลเหล่านี้ มาทำการวิเคราะห์เพื่อดูในแง่มุมต่างๆ ในหนังสือเล่มนี้จะแสดงวิธีการนำข้อมูลการซื้อขายมาวิเคราะห์ให้เห็นเป็นตัวอย่างโดยเริ่มจาก การเตรียมข้อมูลเพื่อให้การวิเคราะห์ข้อมูลทำได้ง่ายมากขึ้น หลังจากนั้นจะเป็นการนำข้อมูลการซื้อ สินค้าของลูกค้าแต่ละรายมาทำการแบ่งกลุ่ม (segmentation) ซึ่งจะช่วยให้สามารถเข้่าใจ พฤติกรรมการซื้อสินค้าของลูกค้าได้ดีขึ้น เพราะการจะดูรายละเอียดของลูกค้าแต่ละรายคงเป็นไป ได้ยาก ใ นหนังสือเล่มนี้เราจะใช้วิธีการแบ่งกลุ่มข้อมูลการซื้อด้วยเทคนิค RFM (ย่อมาจาก Recency, Frequency และ Monetary) เพื่อจะได้เข้าใจพฤติกรรมการซื้อสินค้าของลูกค้าแต่ละ กลุ่มว่ามีจำนวนครั้งในการซื้อสินค้ามากน้อยแค่ไหน มีการใช้จ่ายมากน้อยแค่ไหน หลังจากที่ได้ ทำการเลือกกลุ่มที่น่าสนใจมาแล้วจึงนำไปหาความสัมพันธ์ของการซื้อสินค้า (product associate) ต่อเพื่อดูว่ามีสินค้าประเภทใดที่ลูกค้ามักจะซื้อพร้อมกันบ่อยครั้งบ้าง เมื่อทราบรูปแบบการซื้อสินค้า ในลักษณะนี้แล้วอาจจะช่วยในการจัดวางสินค้าหรือนำเสนอสินค้าหรือโปรโมโชัน ใ ห้กับลูกค้าให้ ตรงกับความต้องการได้มากขึ้น ซึ่งในปัจจุบันนี้เราสามารถทำการวิเคราะห์ข้อมูลในลักษณะนี้ได้ ง่ายขึ้นโดยใช้ซอฟต์แวร์ RapidMiner Studio 6 ซึ่งสามารถดาวน์โหลดมาใช้งานได้ฟรี การวิเคราะห์ข้อมูลทางธุรกิจเพื่อเพิ่มยอดขาย
 ด้วยซอฟต์แวร์ RapidMiner Studio 6 โดย หสม. ดาต้า คิวบ์ http://www.dataminingtrend.com http://facebook.com/datacube.th

×