การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมือง้้อมล
Question Classification for Answer Searching Using Semantic Web and Data Mining
โดย
สุพจน์ บัวเลิง และ วรารัตน์ สงฆ์แป้ น
www.mbs.msu.ac.th,www.cs.kku.ac.th
หัว้้อที่นาเสนอ
www.mbs.msu.ac.th,www.cs.kku.ac.th
หลักการและเหตุผล
ทฤษฎีที่เกี่ยว้้อง
วิธีดาเนินงานวิจัย
ผลการดาเนินงานวิจัย
สรุปการทดลอง
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
หลักการและเหตุผล
www.mbs.msu.ac.th,www.cs.kku.ac.th
ปัจจุบันนี้การเกิดสารสนเทศไม่ว่าจะเป็นคาถามคาตอบที่
มากมายและยังไม่ได้มีการรวบรวมเพื่อแยกแยะประเภทเพื่อให้
ง่ายต่อการนาไปใช้งาน จะเห็นได้ว่าเมื่อมีผู้ถามคาถามบนเว็บจะ
มีคาถามอื่นๆที่มีความใกล้เคียงและเป็นการคาถามเดียวกัน ทาให้
ผู้ดูแลเว็บต้องมีการตอบคาถามซ้าๆ จึงเกิดความซ้าซ้อนและ
เสียเวลาสาหรับการตอบคาถามดังกล่าว
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
หลักการและเหตุผล (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
ดั้งนั้นเว็บเชิงความหมาย (Semantic Web) ซึ่งเป็น
เทคโนโลยีที่ใช้ในการจัดการจัดเก็บและนาเสนอเนื้อหาแบบมี
โครงสร้างรวมถึงสามารถที่จะวิเคราะห์ จาแนกหรือจัดแบ่งได้ว่า
คาที่ปรากฏในเอกสารมีความสัมพันธ์กับเอกสารอื่นๆ กล่าวคือ
เป็นการจัดเก็บและนาเสนอแบบมีลาดับชั้น (Hierarchy)
จากเนื้อหาของเว็บจะจากัดกลุ่มตามหัวข้อ(Content)
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
หลักการและเหตุผล (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
ซึ่งการทางานแบบเว็บเชิงความหมายจะช่วยให้คาถามหรือกลุ่ม
ปัญหาต่างๆ ที่ใกล้เคียงหรือมีลักษณะกลุ่มเดียวกันได้รวมทั้งจะ
จัดหมวดหมู่ได้ง่ายต่อการค้นหาและช่วยอานวยความสะดวกต่อ
ผู้ใช้งานและผู้ที่สนใจในการใช้งานสารสนเทศดังกล่าว
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
หลักการและเหตุผล (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
ดังนั้นงานวิจัยจึงนาเสนอสถาปัตยกรรมและพัฒนา
เป็นต้นแบบของระบบการทางานการแยกกลุ่มคาถามเพื่อการ
ค้นหาคาตอบโดยอาศัยเว็บเชิงความหมายโดยมุ่งเน้นการสร้าง
การแยกกลุ่มคาถามบนเว็บและการทาเหมืองข้อมูล
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
1 เว็บเชิงความหมาย (Semantic Web)
2 การตัดคา (Word Segmentation)
3 การสรุปใจความสาคัญ (Text Summarization)
4 กฎความสัมพันธ์ (Association Rules)
5 การวัดประสิทธิภาพการสืบค้น้องระบบ





ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
1 เว็บเชิงความหมาย (Semantic Web)
เว็บเชิงความหมาย (Semantic Web)[1,2] เป็นการจัดการข้อมูลในลักษณะ
ของการเชื่อมโยงความสัมพันธ์ของข้อมูลในระดับเมตาดาต้า (Metadata) เพื่อทาการ
อ่านข้อมูลแบบออนไลน์ทาให้เครื่องคอมพิวเตอร์สามารถเข้าใจ ความหมายของข้อมูลต่างๆ
ได้ว่าเป็นอะไรมาจากข้อมูลส่วนไหนของชุดข้อมูล ทาให้คอมพิวเตอร์ สามารถนาข้อมูล
ที่ได้นั้นไปประมวลผลได้โดยอัตโนมัติ ยกตัวอย่างเช่น
ถ้าคอมพิวเตอร์พบข้อมูลว่า X เป็นน้องของ Y และ Z เป็นลูกของ Y
คอมพิวเตอร์จะสามารถรับรู้ได้เองว่า Z เป็นหลานของ X เป็นต้น
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
2 การตัดคา (Word Segmentation)
การตัดคา (Word segmentation) [3,4,5]คือการแบ่งตัวอักษรจากข้อความ
(String)เพื่อหาขอบเขตของแต่ละหน่วยคา (Morpheme) เนื่องจากส่วนมากภาษา
ไทยมีการเขียนในลักษณะที่ ติดกันโดยไม่มีการใช้เครื่องหมายวรรคตอนคั่นระหว่างคา
เหมือนภาษาอังกฤษซึ่งใช้ช่องว่าง(Space) คั่นระหว่างคา แต่ภาษาไทยจะมีการเว้นวรรค
เป็นระยะดังนั้นการตัดคาในงานวิจัยฉบับนี้ได้ใช้หลักการตัดคาโดยใช้พจนานุกรมโดยวิธี
เทียบคาที่ยาวที่สุด (Longest Matching) ซึ่งเป็นเทคนิคอย่างหนึ่งที่เป็นการตัดคา
ด้วยวิธีทาง Heuristic อย่างหนึ่ง และเมื่อทดสอบกับระบบผู้วิจัยพบว่าให้ประสิทธิภาพ
ที่ดีเมื่อใช้กับภาษาไทย
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
3 การสรุปใจความสาคัญ (Text Summarization)
การสรุปใจความสาคัญ (Text Summarization)[6] เป็นเทคนิคที่ใช้ในการสรุป
เนื้อหาของเอกสารโดยมีขั้นตอนในการสรุปเนื้อหาของเอกสารอยู่ 3ขั้นตอนคือขั้นตอนการ
วิเคราะห์คา ขั้นตอนการหาประเด็นสาคัญ และขั้นตอนการสังเคราะห์ประโยคโดยสามารถ
แบ่งวิธีการสรุปใจความสาคัญตามวิธีการสรุปแบบภาพรวม (Abstraction) ซึ่งเป็น
การวิเคราะห์คาจากต้นฉบับด้วยหลักการทางภาษาศาสตร์ (Semantic)โดยเป็นการถอด
ความหมายหรือแปลความหมายจากต้นฉบับผลที่ได้มีประสิทธิภาพและความถูกต้องมาก
กว่าการใช้วิธี Extraction ซึ่งวิธีการ Abstraction ประกอบด้วย 3 ขั้นตอนดังนี้
เป็นการคานวณและให้ค่าน้าหนัก
ในแต่ละ Chain ว่าสมาชิกใน
Chain มีความสัมพันธ์กันมาก
น้อยเพียงใด การหาค่าน้าหนักของ
Lexical Chain
เป็นการนาคาหลักที่สกัดได้มาทาการ
จัดกลุ่มใหม่หรือทาการสร้าง Chain
ของคาศัพท์โดยอาศัยความสัมพันธ์
ของคาเชิงความหมาย จากฐานข้อมูล
คาศัพท์เวิร์ดเนตที่ได้นิยาม
ความสัมพันธ์ของคาศัพท์ไว้มาทาการ
จัดหมวดหมู่ของคาหลัก
เป็นการหาคาหลักของ
เอกสารโดยอาศัยจาก
ฐานข้อมูลคาศัพท์
WordNetในการคัด
เลือกคาหลักจากเอกสาร
การคัดเลือกคาหลักจะคัด
เลือกเอาเฉพาะคาที่สามารถ
สื่อความหมายได้เท่านั้น
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
3 การสรุปใจความสาคัญ (Text Summarization) ต่อ
1.การสกัดคาหลัก 2.การจัดหมวดหมู่ของคา
(Lexical Chain)
3.การคานวณค่าน้าหนัก
Lexical Chain
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
1.การสกัดคาหลักและการหาค่าน้าหนักของคา
𝑊 =
𝑇𝐹
𝑇𝐹𝑚𝑎𝑥
โดย W คือ ค่าน้าหนักของคาหลัก
TF คือ ค่าความถี่ของคาหลัก
TFmax คือ ค่าความถี่สูงสุดของคาหลัก
เป็นการหาคาหลักของเอกสารโดยอาศัยฐานข้อมูลคาศัพท์ WordNet Thai ในการ
คัดเลือกคาหลักจากเอกสาร การคัดเลือกคาหลักจะคัดเลือกเอาเฉพาะคานามและ
คากริยาที่สามารถสื่อความหมายได้เท่านั้น
(1)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
2.การจัดหมวดหมู่ของคา(Lexical Chain)
REPEAT
READnext word
IF word is suitable for lexical analysis (see section 3.2.1)THEN
CHECKfor chains within a suitable span
(up to 3 intermediary sentences, and nolimitation on returns):
CHECKthesaurus for relationships (section 3.2.2).
CHECKother knowledgesources
(situational, general words,proper names).
IF chain relationship is foundTHEN
INCLUDEword in chain.
CALCULATEchain so far
(allow one transitive link).
ENDIF
IF there are wordsthat have not formed a chain for a suitable
number of sentences (up to 3) THEN
ELIMINATEwordsfrom the span.
ENDIF
CHECKnew wordfor relevance to existing chains that
are suitable for checking.
ELIMINATEchains that are not suitable for checking.
ENDIF
ENDREPEAT
1. กาหนดให้เซตของคาที่จะสร้าง Chain เป็น n1 .. nm และ v1 .. vm
2. เริ่มต้นด้วยการเลือกคาหลักคานามที่1 (n1) และคาหลักคากริยาที่1 (v1) กาหนดให้เป็น
ส่วนหัวเริ่มต้น Chain ที่1 (Cn1) และ (Cv1) ของคาหลักคานามและคาหลักคากริยาตาม
ลาดับ
3. เลือกคาที่2 (n2) และ (v2)
ค้นหา Chain ตั้งแต่ Cn1 ... Cnm และ Cv1 ... Cvm โดยพิจารณาความสัมพันธ์ในลักษณะ
ต่างๆ ที่ปรากฏในฐานความรู้เวิร์ดเนต ที่ทาให้ n2 และ v2 มีความสัมพันธ์กับคาที่อยู่ใน
Chain แบบใดแบบหนึ่งดังต่อไปนี้
1) Extra-strong (Repection)
2) Strong (Synonym, kindOf, Is-A, hasPart, part of, oppositeOF)
3) Medium-strong (ความสัมพันธ์แบบถ่ายถอด) ถ้าพบความสัมพันธ์แบบใดแบบ
หนึ่ง จะทาการเพิ่ม n2 และ v2 เข้าไปใน Chain ที่พบความสัมพันธ์แบบเหนียว
แน่นที่สุด (mostly strong) หรือถ้าพบความสัมพันธ์ที่มีความเหนียวแน่นเท่ากัน
ให้เพิ่มลงใน chain ที่ update ล่าสุด ถ้าไม่พบ ทาการสร้างให้ n2 และ n2 เป็น
ส่วนหัวของ Chain ใหม่
4. ทาซ้าขั้นตอนที่3 จนถึงค่า nm และ vm
ภาพที่1: ลาดับขั้นตอนการสร้าง Lexical Chain
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
3. การคานวณค่าน้าหนัก Lexical Chain
𝑆 𝑘 = (
𝑚=1
𝑃 𝑘+1
𝑡𝑓 𝑚𝑘 𝑅 𝑚𝑘 𝑊 𝑚𝑘)𝐻 𝑘
โดย Sk คือ ค่าน้าหนักของ Lexical Chain ที่ k
m คือ คาหลักที่ m
fmk คือ ความถี่ของการเกิดคาหลักที่ m ที่เกิดขึ้นซ้าใน Lexical Chain ที่ k
Rmk คือ น้าหนักของความสัมพันธ์ของคาที่ m ใน Lexical Chainที่ k
Wmk คือ น้าหนักของคาหลักที่ m ที่เกิดซ้าใน Lexical Chain ที่ k
Hk คือ ค่า Homogeneity Index ซึ่งคานวณได้จาก
𝐻 𝑘 = 1 −
𝑃𝑘
𝐿 𝑘
โดย Lk คือ จานวนสมาชิกที่เกิดแตกต่างกันใน Lexical Chain ที่ k
Pk คือ จานวนคาหลักที่เป็นสมาชิกทั้งหมดใน Lexical Chain ที่ k
(2)
(3)
เป็นการคานวณและให้ค่าน้าหนักในแต่ละ Chain ว่าสมาชิกใน
Chain มีความสัมพันธ์กันมากน้อยเพียงใดการหาค่าน้าหนักของ
Lexical Chain สามารถคานวณได้จากสมการ
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
4 กฎความสัมพันธ์ (Association Rules)
การหากฎความสัมพันธ์ [7] คือ การได้มาของกฎความสัมพันธ์โดยการหารูปแบบที่เกิดขึ้น
บ่อยคู่กัน และเรียกว่า frequent pattern และความสัมพันธ์ที่เกิดขึ้น เรียกว่า
association ของกลุ่มไอเท็มจากข้อมูลที่อยู่ในรูปแบบ transaction ผลลัพธ์ที่ได้
จะอยู่ในรูปแบบของกฎความสัมพันธ์ (Association Rules)
item1 item2
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
4. กฎความสัมพันธ์ (Association Rules)(ต่อ)
ในงานวิจัยนี้ได้ใช้อัลกอรึทึมเพื่อหากฎความสัมพันธ์ คือ แอพพริออริ(Apriori) หาก
ต้องการทราบความสัมพันธ์ของกฎ จะต้องคานวณหาค่าสนับสนุน ค่าความเชื่อมั่นและการ
หาค่าสหสัมพันธ์ระหว่างข้อมูล เพื่อทราบความสัมพันธ์ของข้อมูลทั้งสองว่ามีความสัมพันธ์
มากน้อยเพียงใด
การคานวณหาค่าสนับสนุน Support
Support(XY) = P(X∪Y)
คือ ค่าความน่าจะเป็นของจานวนของค่าข้อมูล X เกิดขึ้นคู่กับค่าข้อมูล Y ซึ่งมีค่าอยู่ระหว่าง
[0-1] ถ้าค่าใกล้1 หมายถึงมีความสัมพันธ์กันมาก
(4)
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
4. กฎความสัมพันธ์ (Association Rules)(ต่อ)
การคานวณหาค่าความเชื่อมั่น Confidence (Conf)
Confidence(XY) = P(X∪Y)/P(X)
คือ ค่าความน่าจะเป็นของจานวนของค่าข้อมูล X เกิดขึ้นคู่กับค่าข้อมูล Y ตามมาเสมอโดยที่
มีลาดับเหตุการณ์ของข้อมูลเข้ามาเกี่ยวข้องซึ่งมีค่าอยู่ระหว่าง [0-1] ถ้าค่าใกล้1 หมายถึง
มีความสัมพันธ์กันตามลาดับของข้อมูลมาก
(5)
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
4. กฎความสัมพันธ์ (Association Rules)(ต่อ)
การคานวณหาค่าสหสัมพันธ์ (Lift)
Lift(XY) =
𝑃(𝑋∪𝑌)
𝑃 𝑋 𝑃(𝑌)
คือ ค่าความน่าจะเป็นของจานวนของค่าข้อมูล X เกิดขึ้นคู่กับค่าข้อมูล Y ตามมาเสมอโดยที่
มีลาดับเหตุการณ์ของข้อมูลเข้ามาเกี่ยวข้องซึ่งมีค่าอยู่ระหว่าง [0-1] ถ้าค่าใกล้1 หมายถึง
มีความสัมพันธ์กันตามลาดับของข้อมูลมาก
(6)
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
5 การวัดประสิทธิภาพการสืบค้นของระบบ
การวัดประสิทธิภาพการสืบค้น [8] เป็นการตรวจสอบความถูกต้องของการสืบค้นเอกสาร
โดยพิจารณาจากระดับความ แม่นยา (Precision) และความครบถ้วน (Recall) รวม
ไปถึงประสิทธิภาพโดยรวมของการสืบค้น (F-Measure) ตามสมการต่อไปนี้
𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
2𝑅𝑃
𝑅 + 𝑃
(7)
ทฤษฎีที่เกี่ยว้้อง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
5. การวัดประสิทธิภาพการสืบค้นของระบบ(ต่อ)
𝑃 =
𝐴
𝐴 + 𝐵
𝑥100
𝑅 =
𝐴
𝐴 + 𝐶
𝑥100
โดย
P คือ ค่าความถูกต้อง (Precision)
R คือ ค่าความครบถ้วน (Recall)
A คือ จานวนเอกสารที่ถูกต้องและถูกสืบค้น
B คือ จานวนเอกสารที่ไม่ถูกต้องและถูกสืบค้น
C คือ จานวนเอกสารที่ถูกต้องแต่ไม่ถูกสืบค้น
(9)
(8)
วิธีดาเนินงานวิจัย
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
การเก็บรวบรวมข้อมูลต้นแบบ
วิธีการดาเนินการศึกษาวิจัยได้ทาการสกัดคาจากคาถามและคาตอบที่เก็บในระบบฐานข้อมูล
ที่เป็นภาษาไทยจากข้อมูลเดิมที่มีอยู่แล้วและมีการจัดเก็บในระบบฐานข้อมูล MySQL
และทาการสุ่มมาเพื่อทาการวัดประสิทธิภาพของระบบจานวน 200 เรคคอร์ด โดยเลือกเอา
ประโยคคาถามในเว็บบอร์ดที่มีคนอ่านมากที่สุดมาดาเนินเป็นกลุ่มตัวอย่าง
วิธีดาเนินงานวิจัย (ต่อ) สถาปัตยกรรมระบบการค้นหา
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
User Interface (Admin, Users) Application Layer
Mediation Layer
Resource Layer
Text Abstraction
Lexical Chain
Chain Ranking
Training Module Search Module
Text Abstraction
Semantic similarity
Lexical Chain
Resource Database
Lexical Chain Database
QA Database WordNet Data mining
วิธีดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
ภาพที่2: การหาคาของคาถามตั้งต้น
โดยการเลือกมาจากคาที่เกิดความถี่มากที่สุดจะเห็นได้ว่ามีทั้งหมดจานวน 15 คา แล้วกาหนด
ให้เป็นตัว แปร Q1 จนถึง Q15 ตามลาดับ
 การหาคาของคาถามตั้งต้น
วิธีดาเนินงานวิจัย (ต่อ)
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
การหาคาของคาตอบตั้งต้นโดยการเลือกมาจากคาตอบที่
ตอบคาถามทั้ง15 ข้อที่เกิดจานวนของคาตอบมากที่สุดใน
แต่ละคาถามและตัดกลุ่มคาที่ซ้ากันออก โดยการไล่ดู
คาตอบของถามทั้ง 15 ว่าคาถามใดมีคาตอบเยอะที่สุด จะ
นามาเป็น คาตอบตั้งต้นโดยตัดคาที่ซ้าออก แล้วกาหนดให้
เป็นตัว แปร A1 จนถึง A25 ตามลาดับ ภาพที่3:การหาคาของคาตอบตั้งต้นโดยการเลือกมาจากคาตอบของคาถาม
วิธีดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
ภาพที่4: ผลลัพธ์จากโปรแกรม Weka ที่ใช้ในการวิเคราะห์
 การประมวลผลในโปแกรม Weka เพื่อหากฏที่ต้องการ
Best rules found:
1.Q8=4543 1 ==>A17=95650 1 conf:(1) <lift:(14.75)> lev:(0.01) [0] conv:(0.93)
2.A17=95650 8 ==>Q8=4543 1 conf:(0.13) <lift:(14.75)> lev:(0.01) [0] conv:(0.99)
3.Q9=4 4 ==>A19=39455 1 conf:(0.25) <lift:(9.83)> lev:(0.01) [0] conv:(0.97)
4.A19=39455 3 ==>Q9=4 1 conf:(0.33) <lift:(9.83)> lev:(0.01) [0] conv:(0.97)
5.Q10=81559 5 ==>A22=34997 1 conf:(0.2) <lift:(7.87)> lev:(0.01) [0] conv:(0.97)
6.A22=34997 3 ==>Q10=81559 1 conf:(0.33) <lift:(7.87)> lev:(0.01) [0] conv:(0.96)
7.Q14=95650 5 ==>A22=34997 1 conf:(0.2) <lift:(7.87)> lev:(0.01) [0] conv:(0.97)
8.A22=34997 3 ==>Q14=95650 1 conf:(0.33) <lift:(7.97)> lev:(0.01) [0] conv:(0.96)
9.Q3=85108 1 ==>A4=90293 1 conf:(1) <lift:(7.38)> lev:(0.01) [0] conv:(0.86)
10.A4=90293= 16 ==>Q3=85108 1 conf:(0.06) <lift:(7.38)> lev:(0.01) [0] conv:(0.99)
วิธีดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
ภาพที่5: ขั้นตอนการทางานของระบบค้นหา
 กระบวนการการพัฒนาระบบสืบค้น
Document Database
Search Results
WordNet
Data
Mining
Chain Ranking
Lexical Chain Database
Text/Keyword
Abstraction
Create Lexical Chain
Keyword List
ผลการดาเนินงานวิจัย
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
 กฎที่สามารถนามาเพื่อใช้พัฒนาระบบสืบค้นหาคาตอบ
กฏ ค่าConf ค่าLift
1. Q8(ปฐมนิเทศ)=4543 1 ==> A17(เทียบ)=95650 1 1 14.75
3. Q9(ของ)=4 4 ==> A19(เรื่อง)=39455 1 0.25 9.83
5. Q10(ปี)=81559 5 ==> A22(ปฏิทิน)=34997 1 0.20 7.87
7. Q14(เทียบ)=95650 5 ==> A22(ปฏิทิน)=34997 1 0.20 7.87
9. Q3(รับ)=85108 1 ==> A4(ได้)=90293 1 1 7.38
จากการวิเคราะห์เราจะสนใจเฉพาะกฎที่ขึ้นต้นด้วย Q ที่อยู่ฝั่งซ้ายของลูกศรจากกฎที่ได้จะเห็น
ได้ว่ามี 5 กฎที่น่าสนใจและจะสามารถนาไปทดสอบการใช้งานได้ ดังต่อไปนี้
ตารางที่ 1: กลุ่มคาและกฏความสัมพันธ์
ผลการดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
 ตัวอย่างคาถามเพื่อทดสอบการค้นหา
ภาพที่7: ตัวอย่างการพัฒนาระบบการค้นหาคาตอบอัตโนมัติ
ผลการดาเนินงานวิจัย (ต่อ)
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
คาค้นหา
ต้องการทราบวันปฐมนิเทศนิสิตใหม่
คาตอบที่#1|1586
วันที่ 13 พ.ค. 54 ปฐมนิเทศปริญญาโทและปริญญาเอก
วันที่ 25 พ.ค. 54 ระดับปริญญาตรีเทียบเข้า พบอาจารย์ที่ปรึกษาและดาเนินการทาเรื่องเทียบโอนรายวิชา
วันที่ 26 พ.ค.54 ระดับปริญญาตรีเทียบเข้า ปฐมนิเทศ
คาตอบที่#2|1754
การเทียบสามารถเทียบโอนได้แต่ต้องดูรายละเอียดขอให้ติดต่อที่เจ้าหน้าที่คณะการบัญชีและการจัดการครับ
คาตอบที่#3|1594
วันที่ 25 พ.ค. 54 ระดับปริญญาตรีเทียบเข้า พบอาจารย์ที่ปรึกษาและดาเนินการทาเรื่องเทียบโอนรายวิชา
วันที่ 26 พ.ค.54ระดับปริญญาตรีเทียบเข้า ปฐมนิเทศ ม.เก่า
คาตอบที่#4|1592
วันที่ 25 พ.ค. 54 ระดับปริญญาตรีเทียบเข้า พบอาจารย์ที่ปรึกษาและดาเนินการทาเรื่องเทียบโอนรายวิชา อาคาร 3 ม.เก่าค่ะ
วันที่ 26 พ.ค.54 ระดับปริญญาตรีเทียบเข้า ปฐมนิเทศ นเว็บบ กาลังจะปิดรับสมัครแล้ว
ผลการดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
จากกฏความสัมพันธ์ที่สามารถนาไปใช้งานได้จริง จานวน 5 กฏ และทาให้ทราบ
รูปแบบการหาคาตอบ ของคาถามตามข้อมูลที่ได้จากการวิจัย โดยทดสอบแบ่ง
ออกเป็น 2 รปแบบ
โดยแบบที่ 1 เป็นกลุ่มคาถามแบบหลายประโยคยาวรวมกัน
ได้ทาการทดสอบ 4 กลุ่มคาถาม ดังตารางที่ 2 ต่อไปนี้
ผลการดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
กลุ่มคาถามเกี่ยวกับ Precision Recall F-Measure
ระยะเวลาการรับสมัคร 78.54% 100% 86.92%
วันเวลาในการปฐมนิเทศ 89.83% 100% 94.05%
การกู้ยืม กยศ. 68.50% 100% 80.11%
การเทียบโอนรายวิชา 73.76% 100% 83.92%
ค่าเฉลี่ย 77.66% 100% 86.25%
ตารางที่ 2: วัดประสิทธิภาพกลุ่มคาถามรูปแบบที่ 1 แบบหลายประโยคยาวรวมกัน
ผลการดาเนินงานวิจัย (ต่อ)
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
และรูปแบบที่ 2 จากกลุ่มคาถามแบบคาถามเดียว หรือประโยคเดียว
โดยมีการวัดประสิทธิภาพการสืบค้นด้วยค่าความถูกต้องในการสืบค้น
(Precision)โดยเฉลี่ย 73.96%การวัดค่าความครบถ้วนในการสืบค้นด้วยค่าความ
ครบถ้วน (Recall) โดยเฉลี่ย 100%และการวัดค่าประสิทธิภาพการสืบค้นด้วยค่า
F-measure มีค่าโดยเฉลี่ย 82.47% ดังนั้นเมื่อวัดประสิทธิภาพค่าเฉลี่ยโดยรวม
ของระบบโดยวัดเป็นค่าเฉลี่ยทั้งสองรูปแบบจะได้ค่า F-measure เท่ากับ 84.36%
สรุปการทดลอง
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
การวิจัยนี้ได้ใช้คาถามและคาตอบภาษาไทยจานวน 200 เรคคอร์ดที่มีจานวนการอ่านมาก
ที่สุดไปจนถึงน้อยที่สุดมาใช้ในการทดลองจะประกอบด้วยขั้นตอนหลัก 2 ขั้นตอน ขั้นตอนที่1
ขั้นตอนสรุปใจความสาคัญของคาถามเพื่อหาตัวแทนของประโยคโดยใช้หลักการ Lexical
Chain ขั้นตอนที่ 2 ขั้นตอนการสืบค้นข้อมูลเชิงความหมาย การวิจัยนี้ได้พัฒนาและ
ออกแบบระบบสืบค้นคาถามภาษาไทยเชิงความหมายที่ใช้ข้อมูลจากการประมวลผลใน
ขั้นตอนสรุปใจความสาคัญของประโยคคาถามซึ่งจะเก็บค่าน้าหนักของแต่ละ Chain ที่เป็น
ตัวแทนของประโยคมาใช้ในการสืบค้นผลของคาตอบที่ได้ถือว่าค่อนข้างมีประสิทธิภาพดี
ด้วยการวัดประสิทธิภาพการสืบค้นด้วยค่า F-measure เฉลี่ยของ กลุ่มตัวอย่างของ
ประโยคคาถามทั้งหมด 2 รูปแบบและ 5 กลุ่ม มีค่าเฉลี่ยโดยรวมเท่ากับ 84.36% รวมทั้ง
ระบบสามารถทางานและประมวลผลนาคาตอบที่ได้มาตอบรวมทั้งยังมีคาตอบอื่นๆที่อยู่ใน
กลุ่มเดียวกันมาตอบด้วยตรงกับวัตถุประสงค์และสมมุติฐานที่ตั้งไว้
จบการนาเสนอ
www.mbs.msu.ac.th,www.cs.kku.ac.th
การแยกกลุ่มคาถามเพื่อค้นหาคาตอบโดยใช้เว็บเชิงความหมายและการทาเหมืองข้อมูล
Contact : Supote Bualerng
Tel : 085-0119626
E-mail : supote.b@acc.msu.ac.th,supote.b@mbs.msu.ac.th
Website : www.mbs.msu.ac.th

Slide ProceedingNccit 2014-69