SlideShare a Scribd company logo
Final Project
“การทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้าน
ด้วยการเรียนรู้แบบเบย์และการทาเหมืองข้อมูล”
เสนอ
ดร. วันชัย ขันตี
จัดทาโดย
นายศรัณย์ยุวรรณะ 09010104
นางสาวนลินรัตน์ ชูธรรม 09010105
รายงานนี้เป็นส่วนหนึ่งของวิชา MA524 การทาเหมืองข้อมูล
2
Contents
ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน......................................................................................................4
ความสาคัญของข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน..........................................................................4
ข้อมูลสถานภาพหมู่บ้านชนบทไทยแบ่งเป็น 8 ส่วน คือ...................................................................5
เครื่องชี้วัดข้อมูล กชช. 2ค ในช่วงแผนพัฒนาฯ ฉบับที่ 10..............................................................5
1. ด้านโครงสร้างพื้นฐาน มี 7 ตัวชี้วัด......................................................................................................6
2. ด้านการประกอบอาชีพ มี 7 ตัวชี้วัด.....................................................................................................6
3. ด้านสุขภาพอนามัย มี 4 ตัวชี้วัด........................................................................................................6
4. ด้านความรู้และการศึกษา มี 3 ตัวชี้วัด..................................................................................................6
5. ด้านความเข้มแข็งของชุมชน มี 5 ตัวชี้วัด...............................................................................................6
6. ด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม มี 5ตัวชี้วัด...................................................................................7
วัตถุประสงค์ของการทา Data Mining.................................................................................................7
ขอบเขต.........................................................................................................................................7
ประโยชน์.......................................................................................................................................7
ทฤษฎีที่เกี่ยวข้อง...............................................................................................................................8
กระบวนการในการทาเหมืองข้อมูล.................................................................................................8
แนวคิดข่ายงานความเชื่อเบย์ (Bayesian Belief Network)..............................................................9
โปรแกรม Clementine.......................................................................................................................9
ประโยชน์ของ Clementine.............................................................................................................9
กระบวนการทาเหมืองข้อมูล.............................................................................................................10
การเตรียมข้อมูล...........................................................................................................................10
TambonNRD1.........................................................................................................................10
TambonNRD2.........................................................................................................................11
TambonNRD345.....................................................................................................................11
TambonNRD5.........................................................................................................................11
3
TambonNRD678.....................................................................................................................11
Nrd50.mdb..............................................................................................................................12
SQL.........................................................................................................................................12
Compute Field........................................................................................................................12
Output.....................................................................................................................................13
ตัวแปรที่ใช้จริง................................................................................................................................14
การพัฒนาตัวแบบด้วยโปรแกรม SPSS Clementine 12.0............................................................14
Input Node..............................................................................................................................16
การแปลงรูปแบบข้อมูล.................................................................................................................17
Filter Node (1)........................................................................................................................17
Type Node..............................................................................................................................18
Filter Node (2)........................................................................................................................18
Model Node (TAN).................................................................................................................19
Model Node (Markov).............................................................................................................20
Model Node (Markov-FS).......................................................................................................21
การทดสอบโมเดล(ตัวแบบ)..........................................................................................................22
Filter Node (3).........................................................................................................................22
Analysis Node ........................................................................................................................23
Graph Node (TAN Markov Markov-FS).................................................................................24
การแปลผล และประเมินผลลัพธ์ที่ได้.............................................................................................25
TAN Model..............................................................................................................................25
การทดสอบความถูกต้องในการทานายของตัวแบบ (TAN).............................................................27
สรุป.............................................................................................................................................27
ข้อเสนอแนะ.................................................................................................................................27
4
ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน
ปัจจุบันปัญหายาเสพติดในประเทศไทยมีแนวโน้มสูงเพิ่มมากขึ้น ดังนัน้ผู้จัดทาจึงขอนาเสนอ
การพัฒนาตัวแบบในการทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้าน โดยใช้ ข้อมูล
กชช. 2ค ซึ่งเป็นข้อมูลของหมู่บ้านที่แสดงให้เห็นสภาพทั่วไป และปัญหา ของหมู่บ้าน ชนบทด้านต่าง ๆ
ได้แก่โครงสร้างพื้นฐานเศรษฐกิจสุขภาพและอนามัย ความรู้และการศึกษา ความเข้มแข็งของชุมชน
ทรัพยากรธรรมชาติและสิ่งแวดล้อม สภาพแรงงานและยาเสพติด
กชช. 2ค เป็นข้อมูลที่จัดเก็บทุกหมู่บ้านในชนบท เป็ นประจาทุก 2 ปี เป็นเครื่องชี้วัดสภาพ
ปัญหา ของหมู่บ้านในช่วงแผนพัฒนา เศรษฐกิจและสังคมแห่งชาติ ฉบับที่10 (ปี 2550-2554) มี 6 ด้าน
31 ตัวชี้วัด เพื่อนามาทาการพยากรณ์ โดยนาเทคนิคเหมืองข้อมูล (Data mining Techniques) เพื่อ
ประโยชน์ในการวิเคราะห์ข้อมูลของประชาชนเพื่อ ทาให้ทราบว่าประชาชนในหมู่บ้านใดมีโอกาสติดยา
เพื่อนาผลที่ได้จากการพยากรณ์ที่ได้มาทาการรณรงค์ส่งเสริมให้ห่างไกลจากยาเสพติด และช่วยป้องกัน
การติดยาเสพติดของประชากรในหมู่บ้านที่มีแนวโน้มมีการติดยาเสพติด โดยใช้ตัวแบบที่สร้างขึ้น โดย
ใช้อัลกอริทึมข่ายงานเบย์ (Bayes Net) ซึ่งทฤษฎีพื้นฐานของการจัดหมวดหมู่ วิธีนี้พัฒนามาจาก
ปรัชญาหรือหลักการของทฤษฎีเบย์
ความสาคัญของข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน
ข้อมูล กชช . 2ค เป็นข้อมูลกลางของประเทศ ที่ใช้เป็นเครื่องมือในการบริหารการพัฒนาชนบท
และยังเป็นข้อมูลชุดเดียวที่จัดเก็บทุกหมู่บ้านทั่วประเทศที่มีอยู่ในขณะนี้ โดยมีการนาข้อมูล กชช . 2ค
มาใช้ประโยชน์ทั้งในระดับนโยบายและการแปลงสู่การปฏิบัติของส่วนภูมิภาคและท้องถิ่นและเป็นข้อมูล
ที่หน่วยปฏิบัติในส่วนภูมิภาค สามารถค้นหาปัญหาเบื้องต้นในส่วนที่เกี่ยวข้องเพื่อใช้ในก ารกาหนด
นโยบายและแนวทางการดาเนินการ เช่น การส่งเสริมอุตสาหกรรมในครัวเรือนและการส่งเสริมฟื้นฟู
สภาพแวดล้อมสาหรับแหล่งท่องเที่ยวที่สามารถก่อให้เกิดรายได้ในท้องถิ่นซึ่งหน่วยงานปฏิบัติสามารถ
จัดสรรงบประมาณให้ตรงตามปัญหาที่พบจากข้อมูล กชช. 2ค ได้ เป็นต้น
5
ข้อมูลสถานภาพหมู่บ้านชนบทไทยแบ่งเป็น 8 ส่วน คือ
1. โครงสร้างพื้นฐาน
2. สภาพพื้นฐานทางเศรษฐกิจ
3. สุขภาพอนามัย
4. ความรู้และการศึกษา
5. การมีส่วนร่วมและความเข้มแข็งของชุมชน
6. สภาพแรงงาน
7. ยาเสพติด
8. ทรัพยากรธรรมชาติและสิ่งแวดล้อม
เครื่องชี้วัดข้อมูล กชช. 2ค ในช่วงแผนพัฒนาฯ ฉบับที่ 10
เครื่องชี้วัดข้อมูลพื้นฐานระดับหมู่บ้าน(กชช. 2ค) ในช่วงแผนพัฒนาเศษฐกิจและสังคมแห่งชาติ
ฉบับที่ 10 (พ.ศ.2550-2554) มี 6 ด้าน 31 ตัวชี้วัดดังนี้
1. โครงสร้างพื้นฐาน
2. การประกอบอาชีพ
3. สุขภาพอนามัย
4. ความรู้และการศึกษา
5. ความเข้มแข็งของ
ชุมชน
6. ทรัพยากรธรรมชาติ
และสิ่งแวดล้อม
6
1. ด้านโครงสร้างพื้นฐานมี 7 ตัวชี้วัด
(1) ถนน
(2) น้าดื่ม
(3) น้าใช้
(4) น้าเพื่อการเกษตร
(5) ไฟฟ้า
(6) การมีที่ดินทากิน
(7) การติดต่อสื่อสาร
2. ด้านการประกอบอาชีพ มี 7 ตัวชี้วัด
(8) การมีงานทา
(9) การทางานในสถานประกอบการ
(10) ผลผลิตจากการทานา
(11) ผลผลิตจากการทาไร่
(12) ผลผลิตจากการทาการเกษตรอื่นๆ
(13) การประกอบอุตสาหกรรมในครัวเรือน
(14) การได้รับประโยชน์จากการมีสถานที่ท่องเที่ยว
3. ด้านสุขภาพอนามัย มี 4 ตัวชี้วัด
(15) ความปลอดภัยในการทางาน
(16) การป้องกันโรคติดต่อ
(17) การกีฬา
(18) การปลอดยาเสพติด
4. ด้านความรู้และการศึกษา มี 3 ตัวชี้วัด
(19) การได้รับการศึกษา
(20) อัตราการเรียนต่อของประชาชน
(21) ระดับการศึกษาของประชาชน
5. ด้านความเข้มแข็งของชุมชน มี 5 ตัวชี้วัด
(22) การเรียนรู้โดยชุมชน
(23) การได้รับการคุ้มครองทางสังคม
7
(24) การมีส่วนร่วมของชุมชน
(25) การรวมกลุ่มของประชาชน
(26) การเข้าถึงแหล่งเงินทุน
6. ด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม มี5 ตัวชี้วัด
(27) คุณภาพของดิน
(28) คุณภาพของน้า
(29) การปลูกป่าหรือไม้ยืนต้น
(30) การใช้ประโยชน์ที่ดิน
(31) การจัดการสภาพแวดล้อม
วัตถุประสงค์ของการทา Data Mining
1. เพื่อสร้างแบบจาลองในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้าน
เพื่อนามาวิเคราะห์และแก้ปัญหาโดยการส่งเสริมกิจกรรมรณรงค์การห่างไกลจากยาเสพติด จาก
ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชนที่ทาให้สามารถรู้สภาพปัญหาของหมู่บ้าน โดยใช้โดยใช้
อัลกอริทึมข่ายงานเบย์ (Bayes Net)
2. เพื่อวิเคราะห์หาคุณสมบัติ (Attribute) หรือตัวแปลที่มีผลต่อการมีการติดยาเสพติดของ
ประชาชนในระดับหมู่บ้าน
ขอบเขต
พัฒนาตัวแบบในการทานายผลการติดยาเสพติดของประชาชนในระดับหมู่บ้าน โดยใช้ข้อมูล
ข้อมูลพื้นฐานระดับหมู่บ้าน (กชช. 2ค) ปี 2552 ข้อมูลระดับหมู่บ้านที่แสดงสภาพทั่วไปของหมู่บ้าน
สภาพพื้นฐานทางเศรษฐกิจ ระดับการศึกษา การมีส่วนร่วมและความเข้มแข็งของชุมชน สุขภาพและ
อนามัย สภาพแรงงาน และยาเสพติด ซึ่งดาเนินการจัดเก็บทุกหมู่บ้านในเขตชนบทเป็นประจาทุก 2 ปี
และพัฒนาระบบสนับสนุนผลการติดยาเสพติดของประชาชนในระดับหมู่บ้านโดยใช้ตัวแบบที่สร้างขึ้น
ประโยชน์
ตัวแบบเพื่อใช้ในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้านเพื่อนามา
วิเคราะห์และแก้ปัญหาโดยการส่งเสริมกิจกรรมรณรงค์การห่างไกลจากยาเสพติด จาก ข้อมูลพื้นฐาน
ระดับหมู่บ้าน/ชุมชนที่ทาให้สามารถรู้สภาพปัญหาของหมู่บ้าน โดยใช้โดยใช้อัลกอริทึมข่ายงานเบย์
(Bayes Net)
8
ทฤษฎีที่เกี่ยวข้อง
ในงานศึกษาเรื่องนี้ ผู้จัดทาได้เลือกใช้แบบจาลองเชิงทานาย โดยใช้อัลกอริทึมข่ายงานความ
เชื่อเบย์ (Bayesian Belief Network) ในการสร้างแบบจาลองเพื่อทานายผล ซึ่งเป็นเทคนิคหนึ่งในการ
ทาเหมืองข้อมูล
กระบวนการในการทาเหมืองข้อมูล
ในการทาเหมืองข้อมูลนั้นมีลาดับขั้นตอนและสามารถสรุป ได้ดังต่อไปนี้
1. การคัดเลือกข้อมูล (Data Selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนามาใช้ในการทาเหมือง
ข้อมูล
2. การเตรียมข้อมูล (Data Preprocessing) ขั้นตอนการเตรียมข้อมูลโดยการแยกข้อมูลที่ไม่มีค่า
ข้อมูลที่ทาการบันทึกผิด ข้อมูลที่มีความซ้า ซ้อน หรือไม่สอดคล้องกันออกไป และทาการ
รวบรวมข้อมูลที่ต้องการที่มาจากหลายๆ ฐานข้อมูลจุดประสงค์ก็เพื่อทาให้มั่นใจว่าคุณภาพของ
ข้อมูลที่ถูกเลือกนั้นเหมาะสม
3. การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบ
ที่ เหมาะสมสาหรับการนาไปใช้วิเคราะห์ตามอัลกอริทึม (Algorithm) ที่ใช้ในการทาเหมืองข้อมูล
ต่อไป
4. การทาเหมืองข้อมูล (Data Mining) เป็นการใช้เทคนิคภายในการทาเหมืองข้อมูลโดยทั่วไป
ประเภทของงานตามลักษณะของแบบจาลองที่ใช้ในการทาเหมืองข้อมูล นั้นสามารถแบ่งกลุ่มได้
เป็น 2 ประเภทใหญ่ ๆ คือ
a. แบบจาลองเชิงทานาย (Predictive Data Mining) คือเป็นการคาดคะเนลักษณะหรื
อประมาณค่าที่ชัดเจนของข้อมูลที่จะเกิดขึ้นโดยใช้พื้นฐานจากข้อมูล ที่ผ่านมาในอดีต
b. แบบจาลองเชิงพรรณนา (Descriptive Data Mining) คือ เป็นการหาแบบจาลองเพื่อ
อธิบายลักษณะบางอย่างของข้อมูลที่มีอยู่ ซึ่งโดยส่วนมากจะเป็นลักษณะการแบ่งกลุ่ม
ให้กับข้อมูล
5. การแปลผล และประเมินผลลัพธ์ที่ได้ (Interpretation and Evaluation) เป็นขั้นตอนการแปล
ความหมายและการประเมินผลลัพธ์ที่ได้ว่ามีความเหมาะสม หรือตรงกับวัตถุประสงค์ที่ต้องการ
หรือไม่ โดยทั่วไปควรมีการแสดงผลในรูปแบบที่สามารถเข้าใจ ได้โดยง่าย
9
แนวคิดข่ายงานความเชื่อเบย์(Bayesian Belief Network)
ข่ายงานความเชื่อเบย์ (Bayesian Belief Network) เรียกโดยย่อว่า ข่ายงานเบย์ (Bayes Net)
เป็นเทคนิคที่เลือกใช้ในการศึกษานี้เทคนิคนี้เป็นวิธีการเรียนรู้ที่ลดข้อจากัดของการเรียนรู้เบย์อย่างง่าย
ในสมมติฐานของความไม่ขึ้นต่อกันระหว่างคุณสมบัติในวิธี การเรียนรู้เบย์อย่างง่าย ในสมมติฐานของ
ความไม่ขึ้นต่อกัน แต่ในความเป็นจริงเราพบว่าคุณสมบัติบางตัวจะขึ้นต่อกันบ้างและควรที่จะนาความ
ขึ้นต่อกันนี้เข้ามาใส่ไว้ในโมเดลด้วย เราจึงใช้ข่ายงานความเชื่อเบย์ในการอธิบายความไม่ขึ้นต่อกันอย่าง
มีเงื่อนไข (Condition Independent) ระหว่างตัวแปร บริบทของข่ายงานความเชื่อเบย์นิยมใช้คาว่า “ตัว
แปร” (Variable) แทนคาว่า “คุณสมบัติ” เพื่อทาให้กระบวนการเรียนรู้มีประสิทธิภาพโดยเราสามารถใส่
ความรู้ก่อนในข่ายงานความเชื่อเบย์ให้อยู่ในรูปของโครงสร้างข่ายงานและตารางความน่าจะเป็น มี
เงื่อนไขข่ายงานเบย์มีลักษณะที่สา คัญ คือสามารถที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรโดยแสดง
ออกมาในรูปแบบแผนภาพ (Graphical Model) โดยอาศัยฐานความรู้ก่อนหน้า (Prior Knowledge) ใน
การที่จะอธิบายและสร้างข่ายงานเบย์
โปรแกรม Clementine
Clementine เป็น an industry-leading data mining โซลูชั่นที่ช่วยให้เข้าใจพฤติกรรมของลูกค้า
และคาดการณ์พฤติกรรมในอนาคต ใช้ Clementine นักวิเคราะห์และผู้ใช้งานสามารถเข้าถึงข้อมูลจาก
หลายแหล่ง การประเมินและการนาโมเดลวิเคราะห์ไปประยุกต์ใช้ ได้ง่าย รวดเร็ว ด้วยการทางานที่เป็น
ระบบเปิด รองรับการทางานร่วมกันกับระบบ infrastructure ที่องค์กรมีอยู่และทางานในระดับ
Enterpriseได้
ประโยชน์ของ Clementine
ด้านการเข้าถึงระบบเป็นไปได้ง่ายและสะดวกในการใช้งาน มีกระบวนการแนะนากระบวนการ
ในการทางานด้านวิเคราะห์ ง่ายในการเรียนรู้ในการทางาน ไม่ต้องใช้ความสามารถด้าน Programming
ลดเวลาในการ learning curve และสามารถเพิ่มประสิทธิภาพในการวิเคราะห์สาหรับผู้ใช้เบื้องต้น จนถึง
ระดับผู้ชานาญการ
ด้านการพยากรณ์ได้รับประโยชน์ จากความได้เปรียบในการแข่งขันด้วยโมเดลที่ดีที่สุดสาหรับ
การคาดการณ์ในอนาคต Clementine สามารถแก้ปัญหาได้เร็วและคุ้มในการลงทุน ด้วยการลดเวลาโดย
การ automated modeling การใช้เทคนิคขั้นสูงในการเตรียมข้อมูล และการรวมโมเดลวิเคราะห์เพื่อการ
คาดการณ์ที่แม่นยา
10
เพิ่มประสิทธิภาพการทางานด้วย Data mining เพื่อเพิ่มศักยภาพของระบบ infrastructureที่มี
อยู่ Clementine เป็นระบบเปิดและรองรับสถาปัตยกรรมที่อนุญาตให้หลายขั้นตอนของการดาเนินงานใช้
ความสามารถภายในฐานข้อมูล รวมถึงการเข้าถึงการรวม algorithms ซึ่งสามารถช่วยให้เพิ่ม
ประสิทธิภาพการทางานและความเร็วของฐานข้อมูล
กระบวนการทาเหมืองข้อมูล
วิธีการดาเนินการศึกษา โดยการศึกษาในครั้งนี้ใช้อัลกอริทึ มข่ายงานเบย์ (Bayes Net) เพื่อ
สร้างแบบจาลองในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้าน ซึ่งข้อมูลที่ใช้
ในการศึกษานี้คือ ข้อมูล กชช . 2ค เป็นข้อมูลกลางของประเทศที่ใช้เป็นเครื่องมือในการบริหาร การ
พัฒนาชนบท ซึ่งในการจัดทาตัวแบบได้ใช้โปรแกรม SPSS Clementine 12.0
การเตรียมข้อมูล
เลือกข้อมูลขั้นต้นจากตารางดังต่อไปนี้
Table Data
TambonNRD1 โครงสร้างพื้นฐาน, จานวนประชากร, สถานศึกษา
TambonNRD2 สภาพพื้นฐานทางเศรษฐกิจ
TambonNRD345 สุขภาพอนามัย, ความรู้และการศึกษา
TambonNRD5 การมีส่วนร่วมและความเข้มแข็งของชุมชน, กีฬา
TambonNRD678 สภาพแรงงาน, ยาเสพติด, ทรัพยากรธรรมชาติและสิ่งแวดล้อม
TambonNRD1
Q1_3 >= 100 and Q1_3_1 >= 100 and Q3_1 In (1, 2) and Q3_20 In (1, 2) and Q4_6 In (1, 2)
ชื่อตัวแปร คำอธิบำย Data Type
VillID รหัสหมู่บ้าน Number
Q1_3 1.3 หมู่บ้านนี้มีครัวเรือนทั้งหมด(ครัวเรือน) Number
Q1_3_1 1.3.1 จานวนราษฎรที่อาศัยอยู่จริงมีทั้งหมด(คน) Number
Q3_1 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number
Q3_20 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number
Q4_6 4.6 สถานีตารวจ(มี,ไม่มี) Number
11
TambonNRD2
TambonNRD345
Q44_1 >= 0
TambonNRD5
TambonNRD678
ชื่อตัวแปร คำอธิบำย Data Type
Q11_4 10.4 ครัวเรือนส่วนมากมีรายได้ครัวเรือนละ(บาท/ปี) Currency
ชื่อตัวแปร คาอธิบาย Data Type
Q30_3 30.3 จานวนคนในหมู่บ้านนี้อายุระหว่าง6-15 ปีที่ไม่
เรียนหรือเรียนไม่จบภาคบังคับ(คน)
Number
Q30_4 30.4 คนในหมู่บ้านอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(คน) Number
Q30_4_1 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number
Q31_2_4 31.2.4 การป้องกันและแก้ไขปัญหายาเสพติด(คน) Number
Q44_1 44.1 จานวนครอบครัวที่มีลักษณะหม้าย, หย่าหรือแยก
ทางกัน(ครอบครัว)
Number
Q28_1New 28.1 ในหมู่บ้านมีร้านขายของชาที่ขายยาชุดหรือยา
อันตรายหรือยาควบคุมพิเศษหรือยาวัตถุออกฤทธิ์(แห่ง)
Number
ชื่อตัวแปร คำอธิบำย Data Type
Q33_3 37.3 หมู่บ้านนี้มีศูนย์การเรียนรู้ชุมชนหรือไม่ Number
Q39_3New 39.3 จานวนเด็กกาพร้า, เด็กถูกทอดทิ้ง,เด็กเร่ร่อนที่
ไม่ได้รับการดูแล(คน)
Number
ชื่อตัวแปร คำอธิบำย Data Type
Q45_5aNew 45.6 ในหมู่บ้านนี้มีแรงงานต่างด้าวหรือไม่ Number
Q47 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number
Q47_1 46.1 จานวนผู้ใช้ยาเสพติดทั้งหมดในหมู่บ้าน(คน) Number
12
Nrd50.mdb
SQL
SELECT TambonNRD1.VillID, TambonNRD1.Q1_3, TambonNRD1.Q1_3_1, TambonNRD1.Q3_1,
TambonNRD1.Q3_20, TambonNRD1.Q4_6, TambonNRD2.Q11_4, TambonNRD345.Q30_3,
TambonNRD345.Q30_4, TambonNRD345.Q30_4_1, TambonNRD345.Q31_2_4,
TambonNRD345.Q44_1, Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2) AS Divorce,
TambonNRD345.Q28_1New, TambonNRD5.Q33_3, TambonNRD5.Q39_3New,
TambonNRD678.Q45_5aNew, TambonNRD678.Q47, TambonNRD678.Q47_1
FROM TambonNRD2 INNER JOIN (TambonNRD678 INNER JOIN (TambonNRD5 INNER JOIN
(TambonNRD345 INNER JOIN TambonNRD1 ON (TambonNRD345.Year = TambonNRD1.Year) AND
(TambonNRD345.VillID = TambonNRD1.VillID)) ON (TambonNRD5.Year = TambonNRD1.Year) AND
(TambonNRD5.VillID = TambonNRD1.VillID)) ON (TambonNRD678.Year = TambonNRD1.Year) AND
(TambonNRD678.VillID = TambonNRD1.VillID)) ON (TambonNRD2.Year = TambonNRD1.Year) AND
(TambonNRD2.VillID = TambonNRD1.VillID)
WHERE (((TambonNRD1.Q1_3)>=100) AND ((TambonNRD1.Q1_3_1)>=100) AND
((TambonNRD1.Q3_1) In (1,2)) AND ((TambonNRD1.Q3_20) In (1,2)) AND ((TambonNRD1.Q4_6) In
(1,2)) AND ((TambonNRD345.Q44_1)>0) AND
((Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))>=0 And
(Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))<=100))
Compute Field
Divorce >=0 and Divorce <= 100
ชื่อตัวแปร คำอธิบำย Data Type
Divorce (TambonNRD345.Q44_1/TambonNRD1.Q1_3)*100 Number
13
Output
นาผลลัพธ์ที่ได้ Export เป็นไฟล์ NRD52.xls ซึ่งมีจานวนระเบียน 32,637 ระเบียน โดยที่มีกา
แทนที่ค่าใน Column Temple, Sport, Police และ Used_Drug จากค่า (1, 2) เป็นค่า (Yes, No)
แบ่งข้อมูลเป็นไฟล์ NRD52-1.xls ซึ่งมี 28,000 ระเบียน เพื่อใช้เป็น Training Set และที่เหลือ
อีก 4,637 ระเบียนจะถูกเก็บไว้ใน NRD52-2.xls
Training
Set
Test Set
Data Collection
Nrd50.mdb
Bayesian Learning
Software (SPSS
Clementine)
NRD52-1.xls
NRD52-2.xls
14
ตัวแปรที่ใช้จริง
การพัฒนาตัวแบบด้วยโปรแกรม SPSS Clementine 12.0
โปรแกรม SPSS Clementine เป็นโปรแกรมที่ได้ถูกพัฒนาขึ้นโดยพนักงานของ Integral
Solutions Ltd. (ISL) ซึ่ง Clementine นั้นเป็นผลิตภัณฑ์ที่รวบรวมเทคนิควิธีการต่าง ๆ ในการทา Data
mining ให้เลือกใช้ตามความเหมาะสมอย่างมากมาย เช่น Neural Networks, Rule Induction, Bayes
Net, Association Rule และ C5.0 เป็นต้น
ชื่อตัวแปร คำอธิบำย Data Type
VillID รหัสหมู่บ้าน Number
Temple 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number
Sport 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number
Police 4.6 สถานีตารวจ(มี,ไม่มี) Number
None_Edu 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number
Divorce Compute: % ครอบครัวที่หย่าร้าง Number
Used_Drug 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number
15
โปรแกรม Clementine 12.0 ซึ่งมีองค์ประกอบหลักดังนี้
 Managers เป็นส่วนที่แสดง Streams ที่ใช้งาน
 Nodes Palette เป็นส่วนที่แสดง Nodes ประเภทต่าง ๆ ได้แก่
 Sources เป็นกลุ่ม Nodes สาหรับอ่านข้อมูลจากแหล่งข้อมูลต่าง ๆ
 Record Ops เป็นกลุ่ม Nodes ที่ใช้จัดการเก็บเรคคอร์ดของข้อมูล เช่น การจัดเรียง การ
รวบรวมข้อมูล เป็นต้น
 Field Ops เป็นกลุ่ม Nodes ที่ใช้สาหรับจัดการเก็บ Field ข้อมูล เช่น การกาหนดชนิด
ข้อมูล (Type) การแสดงข้อมูล (filter) เป็นต้น
 Graphs เป็นกลุ่ม Nodes ที่ใช้แสดงกราฟแบบต่าง ๆ
 Modeling เป็นกลุ่ม Nodes สาหรับประมวลผลข้อมูลด้วยอัลกอริทึมแบบต่าง ๆ เช่น
Bayes Net เป็นต้น
 Output เป็นกลุ่ม Nodes ที่ใช้แสดงผลลัพธ์ในรูปแบบต่าง ๆ
เมื่อจัดเตรียมข้อมูลเรียบร้อยแล้ว ขั้นตอนต่อมา คือ การพัฒนาตัวแบบโดยใช้โปรแกรม SPSS
Clementine โดยเลือกใช้ อัลกอริทึม Bayes Net ในการสร้างตัวแบบตามขั้นตอนดังต่อไปนี้
16
Input Node
เป็นการนาเข้าข้อมูลจากไฟล์ NRD52-1.xls และคัดเลือกข้อมูลที่ต้องการ
กาหนดชนิดของข้อมูลให้เหมาะสมและกาหนดตัวแปร Temple, Sport, Police, Divorce ให้เป็น
Attribute และ Used_Drug เป็น Class
17
การแปลงรูปแบบข้อมูล
Filter Node (1)
แปลงค่า Divorce จากค่าต่อเนื่องให้เป็นแบบ Set (Low, Medium, High)
if Divorce = 0 then "None"
elseif Divorce >0 and Divorce <= 33 then "Low"
elseif Divorce > 33 and Divorce <= 67 then "Medium"
else "High" endif
18
Type Node
กาหนดชนิดของข้อมูลของ Divorce ใหม่
Filter Node (2)
ก่อนจะทาการสร้างโมเดลให้เอาค่าที่ไม่ต้องการออก (VillID)
19
Model Node (TAN)
กาหนดค่าโมเดลดังรูปแล้วกด Execute
โมเดลที่สร้างได้ (TAN)
20
Model Node (Markov)
กาหนดค่าโมเดลดังรูปแล้วกด Execute
โมเดลที่สร้างได้ (Markov)
21
Model Node (Markov-FS)
กาหนดค่าโมเดลดังรูปแล้วกด Execute
โมเดลที่สร้างได้ (Markov-FS)
22
การทดสอบโมเดล(ตัวแบบ)
นาโมเดลที่ได้ไปใส่ไว้ใน Stream แล้วเปลี่ยนไฟล์ Source เป็น NRD52-2.xls
Filter Node (3)
แก้ไข Field $B-Used_Drug  TAN, $B1-Used_Drug  Markov, $B2-Used_Drug 
Markov-FS
23
Analysis Node
ตั้งค่าตามรูปแล้วกด Execute
จะได้ผลดังรูป
24
Graph Node (TAN Markov Markov-FS)
ตั้งค่าตามรูปแล้วกด Execute
จะได้กราฟดังรูป
25
การแปลผล และประเมินผลลัพธ์ที่ได้
จากโมเดลที่ได้สามารถอธิบายความหมายได้ดังนี้
TAN Model
Condition Probabilities of Used_Drug
ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด
P(U) = 0.112, P(-U) = 0.887
Condition Probabilities of Temple
ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติดและ
มีวัด
P(T|U) =0.353, P(-T|U) =0.646
P(T|-U) =0.288, P(-T|-U) =0.711
26
Condition Probabilities of Sport
ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มี
วัดและมีสนามกีฬา
P(S|T^U) =0.324, P(-S|T^U) =0.675
P(S|T^-U) =0.325, P(-S|T^-U) =0.674
P(S|-T^U) =0.211, P(-S|-T^U) =0.788
P(S|-T^-U) =0.207, P(-S|-T^-U) =0.792
Condition Probabilities of Police
ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มี
วัดและมีสถานีตารวจ
P(P|S^U) =0.773, P(-P|S^U) =0.226
P(P|S^-U) =0.776, P(-P|S^-U) =0.223
P(P|-S^U) =0.750, P(-P|-S^U) =0.261
P(P|-S^-U) =0.738, P(-P|-S^-U) =0.261
Condition Probabilities of Divorce
ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มีสถานีตารวจและการหย่าร้าง
P(DH|P^U) =0.000, P(DL|P^U) =0.967, P(DM|P^U) =0.031
P(DH|P^-U) =0.001, P(DL|P^-U) =0.965, P(DM|P^-U) =0.032
P(DH|-P^U) =0.001, P(DL|-P^U) =0.968, P(DM|-P^U) =0.030
P(DH|-P^-U) =0.001, P(DL|-P^-U) =0.972, P(DM|-P^-U) =0.025
27
จาก Bayesian network ที่ได้นามาใช้ทานายโอกาสความน่าจะเป็นของการมีการใช้ยาเสพติด
ของหมู่บ้านได้ดังนี้
1. หมู่บ้านที่มีวัดและมีสนามกีฬา P(U, T, S)= P(S|T^U) =0.324
2. หมู่บ้านที่มีวัดและไม่มีสนามกีฬา P(U, T, -S)= P(-S|T^U) =0.675
3. หมู่บ้านที่มีวัดและมีสนามกีฬาและมีสถานีตารวจ
P(U, T, S, P) = P(T|S^U) x P(T|U)
= 0.773 x 0.353
= 0.273
การทดสอบความถูกต้องในการทานายของตัวแบบ (TAN)
จากการทดสอบตัวแบบด้วย Test Set ได้ผลการทดสอบดังนี้
Correct 3,697 79.73%
Wrong 940 20.27%
Total 4,637
สรุปภาพรวมของการทดสอบ
 มีระเบียนที่ทานายถูกต้องทั้งหมด 3,697 ระเบียน คิดเป็น 79.73 %
 มีระเบียนที่ทานายผิดทั้งหมด 940 ระเบียน คิดเป็น 20.27 %
 จากข้อมูลทดสอบทั้งหมด 4,637 ระเบียน
สรุป
ในการสร้างแบบจาลองเพื่อทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้านด้วย
การเรียนรู้แบบเบย์นี้เป็นการทดสอบเบื้องต้นเท่านั้น ยังไม่สามารถนาไปใช้ได้จริงเนื่องจากผู้จัดทามี
ข้อจากัดด้านเวลา ทาให้การนาตัวแปรมาใช้ยังไม่เหมาะสมเท่าที่ควร แต่จากการทดสอบสร้างโมเดลทั้ง
สาม(TAN, Markov, Markov-FS) และการดูกราฟที่ได้นั้นพอจะสรุปได้ว่าตัวแปร Temple (มีหรือไม่มี
วัด) มีผลต่อการติดยาเสพติดในระดับหมู่บ้านมากที่สุด โดยผลการทดสอบที่ได้คือ ถ้าหมู่บ้านไหนมีวัด
โอกาสในการติดยาเสพติดจะมีน้อยกว่าหมู่บ้านที่ไม่มีวัด
ข้อเสนอแนะ
จากการที่ผู้จัดได้นาเสนอเทคนิคข่ายงานเบย์สาหรับทานายแนวโน้มการติดยาเสพติดของ
ประชาชนในระดับหมู่บ้านแล้วนั้น หากผู้ใดสนใจยังสามารถที่จะนาหลักการดังกล่าวไปพัฒนาต่อได้โดย
การปรับปรุงตัวแปรที่ใช้ในการทานายเพื่อผลการทานายที่ดีขึ้นกว่านี้

More Related Content

More from Saran Yuwanna

การสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งานการสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งาน
Saran Yuwanna
 
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอการใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
Saran Yuwanna
 
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
Saran Yuwanna
 
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
Saran Yuwanna
 
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่นใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
Saran Yuwanna
 
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
Saran Yuwanna
 
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่นใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
Saran Yuwanna
 
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
Saran Yuwanna
 
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 255740 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
Saran Yuwanna
 
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะหวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
Saran Yuwanna
 
Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่
Saran Yuwanna
 
Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร
Saran Yuwanna
 
Social media for pr สปสช
Social media for pr สปสชSocial media for pr สปสช
Social media for pr สปสช
Saran Yuwanna
 
123 อาชีพเกษตรกรรมทางเลือก
123 อาชีพเกษตรกรรมทางเลือก123 อาชีพเกษตรกรรมทางเลือก
123 อาชีพเกษตรกรรมทางเลือก
Saran Yuwanna
 
Thailand-UK Seminar on the Construction Sector Transparency Initiative
Thailand-UK Seminar on the Construction Sector Transparency InitiativeThailand-UK Seminar on the Construction Sector Transparency Initiative
Thailand-UK Seminar on the Construction Sector Transparency Initiative
Saran Yuwanna
 
วิธีการประหยัดพลังงานภายในบ้าน
วิธีการประหยัดพลังงานภายในบ้านวิธีการประหยัดพลังงานภายในบ้าน
วิธีการประหยัดพลังงานภายในบ้าน
Saran Yuwanna
 
Google+ & IFTTT Workshop
Google+ & IFTTT Workshop Google+ & IFTTT Workshop
Google+ & IFTTT Workshop
Saran Yuwanna
 
รู้ทันภัยไซเบอร์
รู้ทันภัยไซเบอร์รู้ทันภัยไซเบอร์
รู้ทันภัยไซเบอร์
Saran Yuwanna
 
ฉลาดรู้เน็ต 1 ตอน internet of things
ฉลาดรู้เน็ต 1 ตอน internet of thingsฉลาดรู้เน็ต 1 ตอน internet of things
ฉลาดรู้เน็ต 1 ตอน internet of things
Saran Yuwanna
 
การประชาสัมพันธ์เชิงรุกในยุค Social media
การประชาสัมพันธ์เชิงรุกในยุค Social mediaการประชาสัมพันธ์เชิงรุกในยุค Social media
การประชาสัมพันธ์เชิงรุกในยุค Social media
Saran Yuwanna
 

More from Saran Yuwanna (20)

การสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งานการสร้าง Line@ และการใช้งาน
การสร้าง Line@ และการใช้งาน
 
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอการใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
การใช้งาน Twitter และโปรแกรมตัดต่อวีดีโอ
 
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
กำหนดการจัดงานมหกรรมเปิดตัวโครงการ “สินค้าชุมชนขับเคลื่อนเศรษฐกิจฐานราก”
 
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
กำหนดการสัมมนาห้องย่อย Village E-Commerce มหกรรมสินค้าชุมชนขับเคลื่อนเศรษฐกิจ...
 
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่นใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
ใบสมัคร ประเภท 1.1 ประเภทศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น
 
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
ใบสมัคร ประเภท 1.2 ประเภทวิทยากรศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุม...
 
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่นใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
ใบสมัคร ประเภท 1.3 ประเภทผู้ประกอบการร้านค้าออนไลน์ดีเด่น
 
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
การประกวดศูนย์การเรียนรู้ ICT ชุมชนหรือศูนย์ดิจิทัลชุมชนดีเด่น และบุคคลดีเด่น...
 
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 255740 ครูช่างศิลปหัตถกรรม ประจำปี 2557
40 ครูช่างศิลปหัตถกรรม ประจำปี 2557
 
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะหวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
หวัดเจ็บคอหายได้ ไม่ต้องใช้ยาปฏิชีวนะ
 
Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่Ecommerce โอกาสทองของคนยุคใหม่
Ecommerce โอกาสทองของคนยุคใหม่
 
Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร Social media for pr กรมส่งเสริมการเกษตร
Social media for pr กรมส่งเสริมการเกษตร
 
Social media for pr สปสช
Social media for pr สปสชSocial media for pr สปสช
Social media for pr สปสช
 
123 อาชีพเกษตรกรรมทางเลือก
123 อาชีพเกษตรกรรมทางเลือก123 อาชีพเกษตรกรรมทางเลือก
123 อาชีพเกษตรกรรมทางเลือก
 
Thailand-UK Seminar on the Construction Sector Transparency Initiative
Thailand-UK Seminar on the Construction Sector Transparency InitiativeThailand-UK Seminar on the Construction Sector Transparency Initiative
Thailand-UK Seminar on the Construction Sector Transparency Initiative
 
วิธีการประหยัดพลังงานภายในบ้าน
วิธีการประหยัดพลังงานภายในบ้านวิธีการประหยัดพลังงานภายในบ้าน
วิธีการประหยัดพลังงานภายในบ้าน
 
Google+ & IFTTT Workshop
Google+ & IFTTT Workshop Google+ & IFTTT Workshop
Google+ & IFTTT Workshop
 
รู้ทันภัยไซเบอร์
รู้ทันภัยไซเบอร์รู้ทันภัยไซเบอร์
รู้ทันภัยไซเบอร์
 
ฉลาดรู้เน็ต 1 ตอน internet of things
ฉลาดรู้เน็ต 1 ตอน internet of thingsฉลาดรู้เน็ต 1 ตอน internet of things
ฉลาดรู้เน็ต 1 ตอน internet of things
 
การประชาสัมพันธ์เชิงรุกในยุค Social media
การประชาสัมพันธ์เชิงรุกในยุค Social mediaการประชาสัมพันธ์เชิงรุกในยุค Social media
การประชาสัมพันธ์เชิงรุกในยุค Social media
 

Recently uploaded

กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
Postharvest Technology Innovation Center
 
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdfRecap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
NuttavutThongjor1
 
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
NuttavutThongjor1
 
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.pptโรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
pakpoomounhalekjit
 
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdfความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
Pattie Pattie
 
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
SweetdelMelon
 
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกันbio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
CholapruekSangkamane1
 
Artificial Intelligence in Education2.pdf
Artificial Intelligence in Education2.pdfArtificial Intelligence in Education2.pdf
Artificial Intelligence in Education2.pdf
Prachyanun Nilsook
 

Recently uploaded (8)

กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
กำหนดการ การประชุมวิชาการวิทยาการหลังการเก็บเกี่ยวครั้งที่ 21
 
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdfRecap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
Recap JavaScript and TypeScript.pdf Recap JavaScript and TypeScript.pdf
 
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
Fullstack Nest.js and Next.js.pdfFullstack Nest.js and Next.js.pdfFullstack N...
 
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.pptโรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
โรคทางพันธุกรรมมมมมมมมมมมมมมมมมมมมมม.ppt
 
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdfความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
ความสุจริตทางวิชาการ “เชื่อมไทยเชื่อมโลก”.pdf
 
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
โครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิตโครงงานคณิต...
 
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกันbio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
bio62สอวน.ชีววิทยา-ชีววิทยาปี62-ข้อสอบแข่งกัน
 
Artificial Intelligence in Education2.pdf
Artificial Intelligence in Education2.pdfArtificial Intelligence in Education2.pdf
Artificial Intelligence in Education2.pdf
 

Bayes Net NRD50

  • 1. Final Project “การทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้าน ด้วยการเรียนรู้แบบเบย์และการทาเหมืองข้อมูล” เสนอ ดร. วันชัย ขันตี จัดทาโดย นายศรัณย์ยุวรรณะ 09010104 นางสาวนลินรัตน์ ชูธรรม 09010105 รายงานนี้เป็นส่วนหนึ่งของวิชา MA524 การทาเหมืองข้อมูล
  • 2. 2 Contents ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน......................................................................................................4 ความสาคัญของข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน..........................................................................4 ข้อมูลสถานภาพหมู่บ้านชนบทไทยแบ่งเป็น 8 ส่วน คือ...................................................................5 เครื่องชี้วัดข้อมูล กชช. 2ค ในช่วงแผนพัฒนาฯ ฉบับที่ 10..............................................................5 1. ด้านโครงสร้างพื้นฐาน มี 7 ตัวชี้วัด......................................................................................................6 2. ด้านการประกอบอาชีพ มี 7 ตัวชี้วัด.....................................................................................................6 3. ด้านสุขภาพอนามัย มี 4 ตัวชี้วัด........................................................................................................6 4. ด้านความรู้และการศึกษา มี 3 ตัวชี้วัด..................................................................................................6 5. ด้านความเข้มแข็งของชุมชน มี 5 ตัวชี้วัด...............................................................................................6 6. ด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม มี 5ตัวชี้วัด...................................................................................7 วัตถุประสงค์ของการทา Data Mining.................................................................................................7 ขอบเขต.........................................................................................................................................7 ประโยชน์.......................................................................................................................................7 ทฤษฎีที่เกี่ยวข้อง...............................................................................................................................8 กระบวนการในการทาเหมืองข้อมูล.................................................................................................8 แนวคิดข่ายงานความเชื่อเบย์ (Bayesian Belief Network)..............................................................9 โปรแกรม Clementine.......................................................................................................................9 ประโยชน์ของ Clementine.............................................................................................................9 กระบวนการทาเหมืองข้อมูล.............................................................................................................10 การเตรียมข้อมูล...........................................................................................................................10 TambonNRD1.........................................................................................................................10 TambonNRD2.........................................................................................................................11 TambonNRD345.....................................................................................................................11 TambonNRD5.........................................................................................................................11
  • 3. 3 TambonNRD678.....................................................................................................................11 Nrd50.mdb..............................................................................................................................12 SQL.........................................................................................................................................12 Compute Field........................................................................................................................12 Output.....................................................................................................................................13 ตัวแปรที่ใช้จริง................................................................................................................................14 การพัฒนาตัวแบบด้วยโปรแกรม SPSS Clementine 12.0............................................................14 Input Node..............................................................................................................................16 การแปลงรูปแบบข้อมูล.................................................................................................................17 Filter Node (1)........................................................................................................................17 Type Node..............................................................................................................................18 Filter Node (2)........................................................................................................................18 Model Node (TAN).................................................................................................................19 Model Node (Markov).............................................................................................................20 Model Node (Markov-FS).......................................................................................................21 การทดสอบโมเดล(ตัวแบบ)..........................................................................................................22 Filter Node (3).........................................................................................................................22 Analysis Node ........................................................................................................................23 Graph Node (TAN Markov Markov-FS).................................................................................24 การแปลผล และประเมินผลลัพธ์ที่ได้.............................................................................................25 TAN Model..............................................................................................................................25 การทดสอบความถูกต้องในการทานายของตัวแบบ (TAN).............................................................27 สรุป.............................................................................................................................................27 ข้อเสนอแนะ.................................................................................................................................27
  • 4. 4 ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน ปัจจุบันปัญหายาเสพติดในประเทศไทยมีแนวโน้มสูงเพิ่มมากขึ้น ดังนัน้ผู้จัดทาจึงขอนาเสนอ การพัฒนาตัวแบบในการทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้าน โดยใช้ ข้อมูล กชช. 2ค ซึ่งเป็นข้อมูลของหมู่บ้านที่แสดงให้เห็นสภาพทั่วไป และปัญหา ของหมู่บ้าน ชนบทด้านต่าง ๆ ได้แก่โครงสร้างพื้นฐานเศรษฐกิจสุขภาพและอนามัย ความรู้และการศึกษา ความเข้มแข็งของชุมชน ทรัพยากรธรรมชาติและสิ่งแวดล้อม สภาพแรงงานและยาเสพติด กชช. 2ค เป็นข้อมูลที่จัดเก็บทุกหมู่บ้านในชนบท เป็ นประจาทุก 2 ปี เป็นเครื่องชี้วัดสภาพ ปัญหา ของหมู่บ้านในช่วงแผนพัฒนา เศรษฐกิจและสังคมแห่งชาติ ฉบับที่10 (ปี 2550-2554) มี 6 ด้าน 31 ตัวชี้วัด เพื่อนามาทาการพยากรณ์ โดยนาเทคนิคเหมืองข้อมูล (Data mining Techniques) เพื่อ ประโยชน์ในการวิเคราะห์ข้อมูลของประชาชนเพื่อ ทาให้ทราบว่าประชาชนในหมู่บ้านใดมีโอกาสติดยา เพื่อนาผลที่ได้จากการพยากรณ์ที่ได้มาทาการรณรงค์ส่งเสริมให้ห่างไกลจากยาเสพติด และช่วยป้องกัน การติดยาเสพติดของประชากรในหมู่บ้านที่มีแนวโน้มมีการติดยาเสพติด โดยใช้ตัวแบบที่สร้างขึ้น โดย ใช้อัลกอริทึมข่ายงานเบย์ (Bayes Net) ซึ่งทฤษฎีพื้นฐานของการจัดหมวดหมู่ วิธีนี้พัฒนามาจาก ปรัชญาหรือหลักการของทฤษฎีเบย์ ความสาคัญของข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชน ข้อมูล กชช . 2ค เป็นข้อมูลกลางของประเทศ ที่ใช้เป็นเครื่องมือในการบริหารการพัฒนาชนบท และยังเป็นข้อมูลชุดเดียวที่จัดเก็บทุกหมู่บ้านทั่วประเทศที่มีอยู่ในขณะนี้ โดยมีการนาข้อมูล กชช . 2ค มาใช้ประโยชน์ทั้งในระดับนโยบายและการแปลงสู่การปฏิบัติของส่วนภูมิภาคและท้องถิ่นและเป็นข้อมูล ที่หน่วยปฏิบัติในส่วนภูมิภาค สามารถค้นหาปัญหาเบื้องต้นในส่วนที่เกี่ยวข้องเพื่อใช้ในก ารกาหนด นโยบายและแนวทางการดาเนินการ เช่น การส่งเสริมอุตสาหกรรมในครัวเรือนและการส่งเสริมฟื้นฟู สภาพแวดล้อมสาหรับแหล่งท่องเที่ยวที่สามารถก่อให้เกิดรายได้ในท้องถิ่นซึ่งหน่วยงานปฏิบัติสามารถ จัดสรรงบประมาณให้ตรงตามปัญหาที่พบจากข้อมูล กชช. 2ค ได้ เป็นต้น
  • 5. 5 ข้อมูลสถานภาพหมู่บ้านชนบทไทยแบ่งเป็น 8 ส่วน คือ 1. โครงสร้างพื้นฐาน 2. สภาพพื้นฐานทางเศรษฐกิจ 3. สุขภาพอนามัย 4. ความรู้และการศึกษา 5. การมีส่วนร่วมและความเข้มแข็งของชุมชน 6. สภาพแรงงาน 7. ยาเสพติด 8. ทรัพยากรธรรมชาติและสิ่งแวดล้อม เครื่องชี้วัดข้อมูล กชช. 2ค ในช่วงแผนพัฒนาฯ ฉบับที่ 10 เครื่องชี้วัดข้อมูลพื้นฐานระดับหมู่บ้าน(กชช. 2ค) ในช่วงแผนพัฒนาเศษฐกิจและสังคมแห่งชาติ ฉบับที่ 10 (พ.ศ.2550-2554) มี 6 ด้าน 31 ตัวชี้วัดดังนี้ 1. โครงสร้างพื้นฐาน 2. การประกอบอาชีพ 3. สุขภาพอนามัย 4. ความรู้และการศึกษา 5. ความเข้มแข็งของ ชุมชน 6. ทรัพยากรธรรมชาติ และสิ่งแวดล้อม
  • 6. 6 1. ด้านโครงสร้างพื้นฐานมี 7 ตัวชี้วัด (1) ถนน (2) น้าดื่ม (3) น้าใช้ (4) น้าเพื่อการเกษตร (5) ไฟฟ้า (6) การมีที่ดินทากิน (7) การติดต่อสื่อสาร 2. ด้านการประกอบอาชีพ มี 7 ตัวชี้วัด (8) การมีงานทา (9) การทางานในสถานประกอบการ (10) ผลผลิตจากการทานา (11) ผลผลิตจากการทาไร่ (12) ผลผลิตจากการทาการเกษตรอื่นๆ (13) การประกอบอุตสาหกรรมในครัวเรือน (14) การได้รับประโยชน์จากการมีสถานที่ท่องเที่ยว 3. ด้านสุขภาพอนามัย มี 4 ตัวชี้วัด (15) ความปลอดภัยในการทางาน (16) การป้องกันโรคติดต่อ (17) การกีฬา (18) การปลอดยาเสพติด 4. ด้านความรู้และการศึกษา มี 3 ตัวชี้วัด (19) การได้รับการศึกษา (20) อัตราการเรียนต่อของประชาชน (21) ระดับการศึกษาของประชาชน 5. ด้านความเข้มแข็งของชุมชน มี 5 ตัวชี้วัด (22) การเรียนรู้โดยชุมชน (23) การได้รับการคุ้มครองทางสังคม
  • 7. 7 (24) การมีส่วนร่วมของชุมชน (25) การรวมกลุ่มของประชาชน (26) การเข้าถึงแหล่งเงินทุน 6. ด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม มี5 ตัวชี้วัด (27) คุณภาพของดิน (28) คุณภาพของน้า (29) การปลูกป่าหรือไม้ยืนต้น (30) การใช้ประโยชน์ที่ดิน (31) การจัดการสภาพแวดล้อม วัตถุประสงค์ของการทา Data Mining 1. เพื่อสร้างแบบจาลองในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้าน เพื่อนามาวิเคราะห์และแก้ปัญหาโดยการส่งเสริมกิจกรรมรณรงค์การห่างไกลจากยาเสพติด จาก ข้อมูลพื้นฐานระดับหมู่บ้าน/ชุมชนที่ทาให้สามารถรู้สภาพปัญหาของหมู่บ้าน โดยใช้โดยใช้ อัลกอริทึมข่ายงานเบย์ (Bayes Net) 2. เพื่อวิเคราะห์หาคุณสมบัติ (Attribute) หรือตัวแปลที่มีผลต่อการมีการติดยาเสพติดของ ประชาชนในระดับหมู่บ้าน ขอบเขต พัฒนาตัวแบบในการทานายผลการติดยาเสพติดของประชาชนในระดับหมู่บ้าน โดยใช้ข้อมูล ข้อมูลพื้นฐานระดับหมู่บ้าน (กชช. 2ค) ปี 2552 ข้อมูลระดับหมู่บ้านที่แสดงสภาพทั่วไปของหมู่บ้าน สภาพพื้นฐานทางเศรษฐกิจ ระดับการศึกษา การมีส่วนร่วมและความเข้มแข็งของชุมชน สุขภาพและ อนามัย สภาพแรงงาน และยาเสพติด ซึ่งดาเนินการจัดเก็บทุกหมู่บ้านในเขตชนบทเป็นประจาทุก 2 ปี และพัฒนาระบบสนับสนุนผลการติดยาเสพติดของประชาชนในระดับหมู่บ้านโดยใช้ตัวแบบที่สร้างขึ้น ประโยชน์ ตัวแบบเพื่อใช้ในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้านเพื่อนามา วิเคราะห์และแก้ปัญหาโดยการส่งเสริมกิจกรรมรณรงค์การห่างไกลจากยาเสพติด จาก ข้อมูลพื้นฐาน ระดับหมู่บ้าน/ชุมชนที่ทาให้สามารถรู้สภาพปัญหาของหมู่บ้าน โดยใช้โดยใช้อัลกอริทึมข่ายงานเบย์ (Bayes Net)
  • 8. 8 ทฤษฎีที่เกี่ยวข้อง ในงานศึกษาเรื่องนี้ ผู้จัดทาได้เลือกใช้แบบจาลองเชิงทานาย โดยใช้อัลกอริทึมข่ายงานความ เชื่อเบย์ (Bayesian Belief Network) ในการสร้างแบบจาลองเพื่อทานายผล ซึ่งเป็นเทคนิคหนึ่งในการ ทาเหมืองข้อมูล กระบวนการในการทาเหมืองข้อมูล ในการทาเหมืองข้อมูลนั้นมีลาดับขั้นตอนและสามารถสรุป ได้ดังต่อไปนี้ 1. การคัดเลือกข้อมูล (Data Selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนามาใช้ในการทาเหมือง ข้อมูล 2. การเตรียมข้อมูล (Data Preprocessing) ขั้นตอนการเตรียมข้อมูลโดยการแยกข้อมูลที่ไม่มีค่า ข้อมูลที่ทาการบันทึกผิด ข้อมูลที่มีความซ้า ซ้อน หรือไม่สอดคล้องกันออกไป และทาการ รวบรวมข้อมูลที่ต้องการที่มาจากหลายๆ ฐานข้อมูลจุดประสงค์ก็เพื่อทาให้มั่นใจว่าคุณภาพของ ข้อมูลที่ถูกเลือกนั้นเหมาะสม 3. การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบ ที่ เหมาะสมสาหรับการนาไปใช้วิเคราะห์ตามอัลกอริทึม (Algorithm) ที่ใช้ในการทาเหมืองข้อมูล ต่อไป 4. การทาเหมืองข้อมูล (Data Mining) เป็นการใช้เทคนิคภายในการทาเหมืองข้อมูลโดยทั่วไป ประเภทของงานตามลักษณะของแบบจาลองที่ใช้ในการทาเหมืองข้อมูล นั้นสามารถแบ่งกลุ่มได้ เป็น 2 ประเภทใหญ่ ๆ คือ a. แบบจาลองเชิงทานาย (Predictive Data Mining) คือเป็นการคาดคะเนลักษณะหรื อประมาณค่าที่ชัดเจนของข้อมูลที่จะเกิดขึ้นโดยใช้พื้นฐานจากข้อมูล ที่ผ่านมาในอดีต b. แบบจาลองเชิงพรรณนา (Descriptive Data Mining) คือ เป็นการหาแบบจาลองเพื่อ อธิบายลักษณะบางอย่างของข้อมูลที่มีอยู่ ซึ่งโดยส่วนมากจะเป็นลักษณะการแบ่งกลุ่ม ให้กับข้อมูล 5. การแปลผล และประเมินผลลัพธ์ที่ได้ (Interpretation and Evaluation) เป็นขั้นตอนการแปล ความหมายและการประเมินผลลัพธ์ที่ได้ว่ามีความเหมาะสม หรือตรงกับวัตถุประสงค์ที่ต้องการ หรือไม่ โดยทั่วไปควรมีการแสดงผลในรูปแบบที่สามารถเข้าใจ ได้โดยง่าย
  • 9. 9 แนวคิดข่ายงานความเชื่อเบย์(Bayesian Belief Network) ข่ายงานความเชื่อเบย์ (Bayesian Belief Network) เรียกโดยย่อว่า ข่ายงานเบย์ (Bayes Net) เป็นเทคนิคที่เลือกใช้ในการศึกษานี้เทคนิคนี้เป็นวิธีการเรียนรู้ที่ลดข้อจากัดของการเรียนรู้เบย์อย่างง่าย ในสมมติฐานของความไม่ขึ้นต่อกันระหว่างคุณสมบัติในวิธี การเรียนรู้เบย์อย่างง่าย ในสมมติฐานของ ความไม่ขึ้นต่อกัน แต่ในความเป็นจริงเราพบว่าคุณสมบัติบางตัวจะขึ้นต่อกันบ้างและควรที่จะนาความ ขึ้นต่อกันนี้เข้ามาใส่ไว้ในโมเดลด้วย เราจึงใช้ข่ายงานความเชื่อเบย์ในการอธิบายความไม่ขึ้นต่อกันอย่าง มีเงื่อนไข (Condition Independent) ระหว่างตัวแปร บริบทของข่ายงานความเชื่อเบย์นิยมใช้คาว่า “ตัว แปร” (Variable) แทนคาว่า “คุณสมบัติ” เพื่อทาให้กระบวนการเรียนรู้มีประสิทธิภาพโดยเราสามารถใส่ ความรู้ก่อนในข่ายงานความเชื่อเบย์ให้อยู่ในรูปของโครงสร้างข่ายงานและตารางความน่าจะเป็น มี เงื่อนไขข่ายงานเบย์มีลักษณะที่สา คัญ คือสามารถที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรโดยแสดง ออกมาในรูปแบบแผนภาพ (Graphical Model) โดยอาศัยฐานความรู้ก่อนหน้า (Prior Knowledge) ใน การที่จะอธิบายและสร้างข่ายงานเบย์ โปรแกรม Clementine Clementine เป็น an industry-leading data mining โซลูชั่นที่ช่วยให้เข้าใจพฤติกรรมของลูกค้า และคาดการณ์พฤติกรรมในอนาคต ใช้ Clementine นักวิเคราะห์และผู้ใช้งานสามารถเข้าถึงข้อมูลจาก หลายแหล่ง การประเมินและการนาโมเดลวิเคราะห์ไปประยุกต์ใช้ ได้ง่าย รวดเร็ว ด้วยการทางานที่เป็น ระบบเปิด รองรับการทางานร่วมกันกับระบบ infrastructure ที่องค์กรมีอยู่และทางานในระดับ Enterpriseได้ ประโยชน์ของ Clementine ด้านการเข้าถึงระบบเป็นไปได้ง่ายและสะดวกในการใช้งาน มีกระบวนการแนะนากระบวนการ ในการทางานด้านวิเคราะห์ ง่ายในการเรียนรู้ในการทางาน ไม่ต้องใช้ความสามารถด้าน Programming ลดเวลาในการ learning curve และสามารถเพิ่มประสิทธิภาพในการวิเคราะห์สาหรับผู้ใช้เบื้องต้น จนถึง ระดับผู้ชานาญการ ด้านการพยากรณ์ได้รับประโยชน์ จากความได้เปรียบในการแข่งขันด้วยโมเดลที่ดีที่สุดสาหรับ การคาดการณ์ในอนาคต Clementine สามารถแก้ปัญหาได้เร็วและคุ้มในการลงทุน ด้วยการลดเวลาโดย การ automated modeling การใช้เทคนิคขั้นสูงในการเตรียมข้อมูล และการรวมโมเดลวิเคราะห์เพื่อการ คาดการณ์ที่แม่นยา
  • 10. 10 เพิ่มประสิทธิภาพการทางานด้วย Data mining เพื่อเพิ่มศักยภาพของระบบ infrastructureที่มี อยู่ Clementine เป็นระบบเปิดและรองรับสถาปัตยกรรมที่อนุญาตให้หลายขั้นตอนของการดาเนินงานใช้ ความสามารถภายในฐานข้อมูล รวมถึงการเข้าถึงการรวม algorithms ซึ่งสามารถช่วยให้เพิ่ม ประสิทธิภาพการทางานและความเร็วของฐานข้อมูล กระบวนการทาเหมืองข้อมูล วิธีการดาเนินการศึกษา โดยการศึกษาในครั้งนี้ใช้อัลกอริทึ มข่ายงานเบย์ (Bayes Net) เพื่อ สร้างแบบจาลองในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้าน ซึ่งข้อมูลที่ใช้ ในการศึกษานี้คือ ข้อมูล กชช . 2ค เป็นข้อมูลกลางของประเทศที่ใช้เป็นเครื่องมือในการบริหาร การ พัฒนาชนบท ซึ่งในการจัดทาตัวแบบได้ใช้โปรแกรม SPSS Clementine 12.0 การเตรียมข้อมูล เลือกข้อมูลขั้นต้นจากตารางดังต่อไปนี้ Table Data TambonNRD1 โครงสร้างพื้นฐาน, จานวนประชากร, สถานศึกษา TambonNRD2 สภาพพื้นฐานทางเศรษฐกิจ TambonNRD345 สุขภาพอนามัย, ความรู้และการศึกษา TambonNRD5 การมีส่วนร่วมและความเข้มแข็งของชุมชน, กีฬา TambonNRD678 สภาพแรงงาน, ยาเสพติด, ทรัพยากรธรรมชาติและสิ่งแวดล้อม TambonNRD1 Q1_3 >= 100 and Q1_3_1 >= 100 and Q3_1 In (1, 2) and Q3_20 In (1, 2) and Q4_6 In (1, 2) ชื่อตัวแปร คำอธิบำย Data Type VillID รหัสหมู่บ้าน Number Q1_3 1.3 หมู่บ้านนี้มีครัวเรือนทั้งหมด(ครัวเรือน) Number Q1_3_1 1.3.1 จานวนราษฎรที่อาศัยอยู่จริงมีทั้งหมด(คน) Number Q3_1 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number Q3_20 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number Q4_6 4.6 สถานีตารวจ(มี,ไม่มี) Number
  • 11. 11 TambonNRD2 TambonNRD345 Q44_1 >= 0 TambonNRD5 TambonNRD678 ชื่อตัวแปร คำอธิบำย Data Type Q11_4 10.4 ครัวเรือนส่วนมากมีรายได้ครัวเรือนละ(บาท/ปี) Currency ชื่อตัวแปร คาอธิบาย Data Type Q30_3 30.3 จานวนคนในหมู่บ้านนี้อายุระหว่าง6-15 ปีที่ไม่ เรียนหรือเรียนไม่จบภาคบังคับ(คน) Number Q30_4 30.4 คนในหมู่บ้านอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(คน) Number Q30_4_1 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number Q31_2_4 31.2.4 การป้องกันและแก้ไขปัญหายาเสพติด(คน) Number Q44_1 44.1 จานวนครอบครัวที่มีลักษณะหม้าย, หย่าหรือแยก ทางกัน(ครอบครัว) Number Q28_1New 28.1 ในหมู่บ้านมีร้านขายของชาที่ขายยาชุดหรือยา อันตรายหรือยาควบคุมพิเศษหรือยาวัตถุออกฤทธิ์(แห่ง) Number ชื่อตัวแปร คำอธิบำย Data Type Q33_3 37.3 หมู่บ้านนี้มีศูนย์การเรียนรู้ชุมชนหรือไม่ Number Q39_3New 39.3 จานวนเด็กกาพร้า, เด็กถูกทอดทิ้ง,เด็กเร่ร่อนที่ ไม่ได้รับการดูแล(คน) Number ชื่อตัวแปร คำอธิบำย Data Type Q45_5aNew 45.6 ในหมู่บ้านนี้มีแรงงานต่างด้าวหรือไม่ Number Q47 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number Q47_1 46.1 จานวนผู้ใช้ยาเสพติดทั้งหมดในหมู่บ้าน(คน) Number
  • 12. 12 Nrd50.mdb SQL SELECT TambonNRD1.VillID, TambonNRD1.Q1_3, TambonNRD1.Q1_3_1, TambonNRD1.Q3_1, TambonNRD1.Q3_20, TambonNRD1.Q4_6, TambonNRD2.Q11_4, TambonNRD345.Q30_3, TambonNRD345.Q30_4, TambonNRD345.Q30_4_1, TambonNRD345.Q31_2_4, TambonNRD345.Q44_1, Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2) AS Divorce, TambonNRD345.Q28_1New, TambonNRD5.Q33_3, TambonNRD5.Q39_3New, TambonNRD678.Q45_5aNew, TambonNRD678.Q47, TambonNRD678.Q47_1 FROM TambonNRD2 INNER JOIN (TambonNRD678 INNER JOIN (TambonNRD5 INNER JOIN (TambonNRD345 INNER JOIN TambonNRD1 ON (TambonNRD345.Year = TambonNRD1.Year) AND (TambonNRD345.VillID = TambonNRD1.VillID)) ON (TambonNRD5.Year = TambonNRD1.Year) AND (TambonNRD5.VillID = TambonNRD1.VillID)) ON (TambonNRD678.Year = TambonNRD1.Year) AND (TambonNRD678.VillID = TambonNRD1.VillID)) ON (TambonNRD2.Year = TambonNRD1.Year) AND (TambonNRD2.VillID = TambonNRD1.VillID) WHERE (((TambonNRD1.Q1_3)>=100) AND ((TambonNRD1.Q1_3_1)>=100) AND ((TambonNRD1.Q3_1) In (1,2)) AND ((TambonNRD1.Q3_20) In (1,2)) AND ((TambonNRD1.Q4_6) In (1,2)) AND ((TambonNRD345.Q44_1)>0) AND ((Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))>=0 And (Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))<=100)) Compute Field Divorce >=0 and Divorce <= 100 ชื่อตัวแปร คำอธิบำย Data Type Divorce (TambonNRD345.Q44_1/TambonNRD1.Q1_3)*100 Number
  • 13. 13 Output นาผลลัพธ์ที่ได้ Export เป็นไฟล์ NRD52.xls ซึ่งมีจานวนระเบียน 32,637 ระเบียน โดยที่มีกา แทนที่ค่าใน Column Temple, Sport, Police และ Used_Drug จากค่า (1, 2) เป็นค่า (Yes, No) แบ่งข้อมูลเป็นไฟล์ NRD52-1.xls ซึ่งมี 28,000 ระเบียน เพื่อใช้เป็น Training Set และที่เหลือ อีก 4,637 ระเบียนจะถูกเก็บไว้ใน NRD52-2.xls Training Set Test Set Data Collection Nrd50.mdb Bayesian Learning Software (SPSS Clementine) NRD52-1.xls NRD52-2.xls
  • 14. 14 ตัวแปรที่ใช้จริง การพัฒนาตัวแบบด้วยโปรแกรม SPSS Clementine 12.0 โปรแกรม SPSS Clementine เป็นโปรแกรมที่ได้ถูกพัฒนาขึ้นโดยพนักงานของ Integral Solutions Ltd. (ISL) ซึ่ง Clementine นั้นเป็นผลิตภัณฑ์ที่รวบรวมเทคนิควิธีการต่าง ๆ ในการทา Data mining ให้เลือกใช้ตามความเหมาะสมอย่างมากมาย เช่น Neural Networks, Rule Induction, Bayes Net, Association Rule และ C5.0 เป็นต้น ชื่อตัวแปร คำอธิบำย Data Type VillID รหัสหมู่บ้าน Number Temple 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number Sport 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number Police 4.6 สถานีตารวจ(มี,ไม่มี) Number None_Edu 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number Divorce Compute: % ครอบครัวที่หย่าร้าง Number Used_Drug 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number
  • 15. 15 โปรแกรม Clementine 12.0 ซึ่งมีองค์ประกอบหลักดังนี้  Managers เป็นส่วนที่แสดง Streams ที่ใช้งาน  Nodes Palette เป็นส่วนที่แสดง Nodes ประเภทต่าง ๆ ได้แก่  Sources เป็นกลุ่ม Nodes สาหรับอ่านข้อมูลจากแหล่งข้อมูลต่าง ๆ  Record Ops เป็นกลุ่ม Nodes ที่ใช้จัดการเก็บเรคคอร์ดของข้อมูล เช่น การจัดเรียง การ รวบรวมข้อมูล เป็นต้น  Field Ops เป็นกลุ่ม Nodes ที่ใช้สาหรับจัดการเก็บ Field ข้อมูล เช่น การกาหนดชนิด ข้อมูล (Type) การแสดงข้อมูล (filter) เป็นต้น  Graphs เป็นกลุ่ม Nodes ที่ใช้แสดงกราฟแบบต่าง ๆ  Modeling เป็นกลุ่ม Nodes สาหรับประมวลผลข้อมูลด้วยอัลกอริทึมแบบต่าง ๆ เช่น Bayes Net เป็นต้น  Output เป็นกลุ่ม Nodes ที่ใช้แสดงผลลัพธ์ในรูปแบบต่าง ๆ เมื่อจัดเตรียมข้อมูลเรียบร้อยแล้ว ขั้นตอนต่อมา คือ การพัฒนาตัวแบบโดยใช้โปรแกรม SPSS Clementine โดยเลือกใช้ อัลกอริทึม Bayes Net ในการสร้างตัวแบบตามขั้นตอนดังต่อไปนี้
  • 16. 16 Input Node เป็นการนาเข้าข้อมูลจากไฟล์ NRD52-1.xls และคัดเลือกข้อมูลที่ต้องการ กาหนดชนิดของข้อมูลให้เหมาะสมและกาหนดตัวแปร Temple, Sport, Police, Divorce ให้เป็น Attribute และ Used_Drug เป็น Class
  • 17. 17 การแปลงรูปแบบข้อมูล Filter Node (1) แปลงค่า Divorce จากค่าต่อเนื่องให้เป็นแบบ Set (Low, Medium, High) if Divorce = 0 then "None" elseif Divorce >0 and Divorce <= 33 then "Low" elseif Divorce > 33 and Divorce <= 67 then "Medium" else "High" endif
  • 18. 18 Type Node กาหนดชนิดของข้อมูลของ Divorce ใหม่ Filter Node (2) ก่อนจะทาการสร้างโมเดลให้เอาค่าที่ไม่ต้องการออก (VillID)
  • 19. 19 Model Node (TAN) กาหนดค่าโมเดลดังรูปแล้วกด Execute โมเดลที่สร้างได้ (TAN)
  • 20. 20 Model Node (Markov) กาหนดค่าโมเดลดังรูปแล้วกด Execute โมเดลที่สร้างได้ (Markov)
  • 21. 21 Model Node (Markov-FS) กาหนดค่าโมเดลดังรูปแล้วกด Execute โมเดลที่สร้างได้ (Markov-FS)
  • 22. 22 การทดสอบโมเดล(ตัวแบบ) นาโมเดลที่ได้ไปใส่ไว้ใน Stream แล้วเปลี่ยนไฟล์ Source เป็น NRD52-2.xls Filter Node (3) แก้ไข Field $B-Used_Drug  TAN, $B1-Used_Drug  Markov, $B2-Used_Drug  Markov-FS
  • 24. 24 Graph Node (TAN Markov Markov-FS) ตั้งค่าตามรูปแล้วกด Execute จะได้กราฟดังรูป
  • 25. 25 การแปลผล และประเมินผลลัพธ์ที่ได้ จากโมเดลที่ได้สามารถอธิบายความหมายได้ดังนี้ TAN Model Condition Probabilities of Used_Drug ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด P(U) = 0.112, P(-U) = 0.887 Condition Probabilities of Temple ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติดและ มีวัด P(T|U) =0.353, P(-T|U) =0.646 P(T|-U) =0.288, P(-T|-U) =0.711
  • 26. 26 Condition Probabilities of Sport ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มี วัดและมีสนามกีฬา P(S|T^U) =0.324, P(-S|T^U) =0.675 P(S|T^-U) =0.325, P(-S|T^-U) =0.674 P(S|-T^U) =0.211, P(-S|-T^U) =0.788 P(S|-T^-U) =0.207, P(-S|-T^-U) =0.792 Condition Probabilities of Police ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มี วัดและมีสถานีตารวจ P(P|S^U) =0.773, P(-P|S^U) =0.226 P(P|S^-U) =0.776, P(-P|S^-U) =0.223 P(P|-S^U) =0.750, P(-P|-S^U) =0.261 P(P|-S^-U) =0.738, P(-P|-S^-U) =0.261 Condition Probabilities of Divorce ความน่าจะเป็นที่หมูบ้านจะมีการใช้ยาเสพติด, มีสถานีตารวจและการหย่าร้าง P(DH|P^U) =0.000, P(DL|P^U) =0.967, P(DM|P^U) =0.031 P(DH|P^-U) =0.001, P(DL|P^-U) =0.965, P(DM|P^-U) =0.032 P(DH|-P^U) =0.001, P(DL|-P^U) =0.968, P(DM|-P^U) =0.030 P(DH|-P^-U) =0.001, P(DL|-P^-U) =0.972, P(DM|-P^-U) =0.025
  • 27. 27 จาก Bayesian network ที่ได้นามาใช้ทานายโอกาสความน่าจะเป็นของการมีการใช้ยาเสพติด ของหมู่บ้านได้ดังนี้ 1. หมู่บ้านที่มีวัดและมีสนามกีฬา P(U, T, S)= P(S|T^U) =0.324 2. หมู่บ้านที่มีวัดและไม่มีสนามกีฬา P(U, T, -S)= P(-S|T^U) =0.675 3. หมู่บ้านที่มีวัดและมีสนามกีฬาและมีสถานีตารวจ P(U, T, S, P) = P(T|S^U) x P(T|U) = 0.773 x 0.353 = 0.273 การทดสอบความถูกต้องในการทานายของตัวแบบ (TAN) จากการทดสอบตัวแบบด้วย Test Set ได้ผลการทดสอบดังนี้ Correct 3,697 79.73% Wrong 940 20.27% Total 4,637 สรุปภาพรวมของการทดสอบ  มีระเบียนที่ทานายถูกต้องทั้งหมด 3,697 ระเบียน คิดเป็น 79.73 %  มีระเบียนที่ทานายผิดทั้งหมด 940 ระเบียน คิดเป็น 20.27 %  จากข้อมูลทดสอบทั้งหมด 4,637 ระเบียน สรุป ในการสร้างแบบจาลองเพื่อทานายแนวโน้มการติดยาเสพติดของประชาชนในระดับหมู่บ้านด้วย การเรียนรู้แบบเบย์นี้เป็นการทดสอบเบื้องต้นเท่านั้น ยังไม่สามารถนาไปใช้ได้จริงเนื่องจากผู้จัดทามี ข้อจากัดด้านเวลา ทาให้การนาตัวแปรมาใช้ยังไม่เหมาะสมเท่าที่ควร แต่จากการทดสอบสร้างโมเดลทั้ง สาม(TAN, Markov, Markov-FS) และการดูกราฟที่ได้นั้นพอจะสรุปได้ว่าตัวแปร Temple (มีหรือไม่มี วัด) มีผลต่อการติดยาเสพติดในระดับหมู่บ้านมากที่สุด โดยผลการทดสอบที่ได้คือ ถ้าหมู่บ้านไหนมีวัด โอกาสในการติดยาเสพติดจะมีน้อยกว่าหมู่บ้านที่ไม่มีวัด ข้อเสนอแนะ จากการที่ผู้จัดได้นาเสนอเทคนิคข่ายงานเบย์สาหรับทานายแนวโน้มการติดยาเสพติดของ ประชาชนในระดับหมู่บ้านแล้วนั้น หากผู้ใดสนใจยังสามารถที่จะนาหลักการดังกล่าวไปพัฒนาต่อได้โดย การปรับปรุงตัวแปรที่ใช้ในการทานายเพื่อผลการทานายที่ดีขึ้นกว่านี้