ความสุจริตทางวิชาการ เชื่อมไทยเชื่อมโลก Connect Thailand, Connect the World in The “Academic Honesty”
With Five Tools to Drive The Universities to Build The Smart Graduates
With Integrity
10. 10
เพิ่มประสิทธิภาพการทางานด้วย Data mining เพื่อเพิ่มศักยภาพของระบบ infrastructureที่มี
อยู่ Clementine เป็นระบบเปิดและรองรับสถาปัตยกรรมที่อนุญาตให้หลายขั้นตอนของการดาเนินงานใช้
ความสามารถภายในฐานข้อมูล รวมถึงการเข้าถึงการรวม algorithms ซึ่งสามารถช่วยให้เพิ่ม
ประสิทธิภาพการทางานและความเร็วของฐานข้อมูล
กระบวนการทาเหมืองข้อมูล
วิธีการดาเนินการศึกษา โดยการศึกษาในครั้งนี้ใช้อัลกอริทึ มข่ายงานเบย์ (Bayes Net) เพื่อ
สร้างแบบจาลองในการทานายแนวโน้มมีการติดยาเสพติดของประชาชนในระดับหมู่บ้าน ซึ่งข้อมูลที่ใช้
ในการศึกษานี้คือ ข้อมูล กชช . 2ค เป็นข้อมูลกลางของประเทศที่ใช้เป็นเครื่องมือในการบริหาร การ
พัฒนาชนบท ซึ่งในการจัดทาตัวแบบได้ใช้โปรแกรม SPSS Clementine 12.0
การเตรียมข้อมูล
เลือกข้อมูลขั้นต้นจากตารางดังต่อไปนี้
Table Data
TambonNRD1 โครงสร้างพื้นฐาน, จานวนประชากร, สถานศึกษา
TambonNRD2 สภาพพื้นฐานทางเศรษฐกิจ
TambonNRD345 สุขภาพอนามัย, ความรู้และการศึกษา
TambonNRD5 การมีส่วนร่วมและความเข้มแข็งของชุมชน, กีฬา
TambonNRD678 สภาพแรงงาน, ยาเสพติด, ทรัพยากรธรรมชาติและสิ่งแวดล้อม
TambonNRD1
Q1_3 >= 100 and Q1_3_1 >= 100 and Q3_1 In (1, 2) and Q3_20 In (1, 2) and Q4_6 In (1, 2)
ชื่อตัวแปร คำอธิบำย Data Type
VillID รหัสหมู่บ้าน Number
Q1_3 1.3 หมู่บ้านนี้มีครัวเรือนทั้งหมด(ครัวเรือน) Number
Q1_3_1 1.3.1 จานวนราษฎรที่อาศัยอยู่จริงมีทั้งหมด(คน) Number
Q3_1 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number
Q3_20 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number
Q4_6 4.6 สถานีตารวจ(มี,ไม่มี) Number
11. 11
TambonNRD2
TambonNRD345
Q44_1 >= 0
TambonNRD5
TambonNRD678
ชื่อตัวแปร คำอธิบำย Data Type
Q11_4 10.4 ครัวเรือนส่วนมากมีรายได้ครัวเรือนละ(บาท/ปี) Currency
ชื่อตัวแปร คาอธิบาย Data Type
Q30_3 30.3 จานวนคนในหมู่บ้านนี้อายุระหว่าง6-15 ปีที่ไม่
เรียนหรือเรียนไม่จบภาคบังคับ(คน)
Number
Q30_4 30.4 คนในหมู่บ้านอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(คน) Number
Q30_4_1 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number
Q31_2_4 31.2.4 การป้องกันและแก้ไขปัญหายาเสพติด(คน) Number
Q44_1 44.1 จานวนครอบครัวที่มีลักษณะหม้าย, หย่าหรือแยก
ทางกัน(ครอบครัว)
Number
Q28_1New 28.1 ในหมู่บ้านมีร้านขายของชาที่ขายยาชุดหรือยา
อันตรายหรือยาควบคุมพิเศษหรือยาวัตถุออกฤทธิ์(แห่ง)
Number
ชื่อตัวแปร คำอธิบำย Data Type
Q33_3 37.3 หมู่บ้านนี้มีศูนย์การเรียนรู้ชุมชนหรือไม่ Number
Q39_3New 39.3 จานวนเด็กกาพร้า, เด็กถูกทอดทิ้ง,เด็กเร่ร่อนที่
ไม่ได้รับการดูแล(คน)
Number
ชื่อตัวแปร คำอธิบำย Data Type
Q45_5aNew 45.6 ในหมู่บ้านนี้มีแรงงานต่างด้าวหรือไม่ Number
Q47 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number
Q47_1 46.1 จานวนผู้ใช้ยาเสพติดทั้งหมดในหมู่บ้าน(คน) Number
12. 12
Nrd50.mdb
SQL
SELECT TambonNRD1.VillID, TambonNRD1.Q1_3, TambonNRD1.Q1_3_1, TambonNRD1.Q3_1,
TambonNRD1.Q3_20, TambonNRD1.Q4_6, TambonNRD2.Q11_4, TambonNRD345.Q30_3,
TambonNRD345.Q30_4, TambonNRD345.Q30_4_1, TambonNRD345.Q31_2_4,
TambonNRD345.Q44_1, Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2) AS Divorce,
TambonNRD345.Q28_1New, TambonNRD5.Q33_3, TambonNRD5.Q39_3New,
TambonNRD678.Q45_5aNew, TambonNRD678.Q47, TambonNRD678.Q47_1
FROM TambonNRD2 INNER JOIN (TambonNRD678 INNER JOIN (TambonNRD5 INNER JOIN
(TambonNRD345 INNER JOIN TambonNRD1 ON (TambonNRD345.Year = TambonNRD1.Year) AND
(TambonNRD345.VillID = TambonNRD1.VillID)) ON (TambonNRD5.Year = TambonNRD1.Year) AND
(TambonNRD5.VillID = TambonNRD1.VillID)) ON (TambonNRD678.Year = TambonNRD1.Year) AND
(TambonNRD678.VillID = TambonNRD1.VillID)) ON (TambonNRD2.Year = TambonNRD1.Year) AND
(TambonNRD2.VillID = TambonNRD1.VillID)
WHERE (((TambonNRD1.Q1_3)>=100) AND ((TambonNRD1.Q1_3_1)>=100) AND
((TambonNRD1.Q3_1) In (1,2)) AND ((TambonNRD1.Q3_20) In (1,2)) AND ((TambonNRD1.Q4_6) In
(1,2)) AND ((TambonNRD345.Q44_1)>0) AND
((Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))>=0 And
(Round(([TambonNRD345].[Q44_1]/[TambonNRD1].[Q1_3])*100,2))<=100))
Compute Field
Divorce >=0 and Divorce <= 100
ชื่อตัวแปร คำอธิบำย Data Type
Divorce (TambonNRD345.Q44_1/TambonNRD1.Q1_3)*100 Number
13. 13
Output
นาผลลัพธ์ที่ได้ Export เป็นไฟล์ NRD52.xls ซึ่งมีจานวนระเบียน 32,637 ระเบียน โดยที่มีกา
แทนที่ค่าใน Column Temple, Sport, Police และ Used_Drug จากค่า (1, 2) เป็นค่า (Yes, No)
แบ่งข้อมูลเป็นไฟล์ NRD52-1.xls ซึ่งมี 28,000 ระเบียน เพื่อใช้เป็น Training Set และที่เหลือ
อีก 4,637 ระเบียนจะถูกเก็บไว้ใน NRD52-2.xls
Training
Set
Test Set
Data Collection
Nrd50.mdb
Bayesian Learning
Software (SPSS
Clementine)
NRD52-1.xls
NRD52-2.xls
14. 14
ตัวแปรที่ใช้จริง
การพัฒนาตัวแบบด้วยโปรแกรม SPSS Clementine 12.0
โปรแกรม SPSS Clementine เป็นโปรแกรมที่ได้ถูกพัฒนาขึ้นโดยพนักงานของ Integral
Solutions Ltd. (ISL) ซึ่ง Clementine นั้นเป็นผลิตภัณฑ์ที่รวบรวมเทคนิควิธีการต่าง ๆ ในการทา Data
mining ให้เลือกใช้ตามความเหมาะสมอย่างมากมาย เช่น Neural Networks, Rule Induction, Bayes
Net, Association Rule และ C5.0 เป็นต้น
ชื่อตัวแปร คำอธิบำย Data Type
VillID รหัสหมู่บ้าน Number
Temple 3.1 ศาสนสถานเช่นวัด, มัสยิด, โบสถ์และอื่นๆ(มี,ไม่มี) Number
Sport 3.20 ลานกีฬาหรือสนามกีฬาของหมู่บ้าน(มี,ไม่มี) Number
Police 4.6 สถานีตารวจ(มี,ไม่มี) Number
None_Edu 30.4.1 คนอายุระหว่าง15-60 ปีที่ไม่รู้หนังสือ(%) Number
Divorce Compute: % ครอบครัวที่หย่าร้าง Number
Used_Drug 46. ในหมู่บ้านนี้มีการใช้ยาเสพติดหรือไม่ Number