SlideShare a Scribd company logo
1 of 6
Download to read offline
NCSEC2004 
โปรแกรมสอนภาษามือด้วยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพด้วยเสียง 
A Sign Language Teaching Program with Sound Searching for 3-D Animation 
ศิฬาณี นุชิตประสิทธิ์ชัย1, สมชาย ปราการเจริญ2 และไชยันต์ สุวรรณชีวะศิริ 3 
1,2ภาควิชาเทคโนโลยีสารสนเทศ คณะเทคโนโลยีสารสนเทศ 
3ภาควิชาวิศวกรรมไฟฟ้า คณะวิศวกรรมศาสตร์ 
สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ 1518 ถนนพิบูลสงคราม บางซื่อ กรุงเทพฯ 10800 
E-mail: ochin2808@hotmail.com1 , spk@kmitnb.ac.th 2,chaiyang@samarts.com3 
280 
บทคัดย่อ 
บทความนี้ขอเสนอโปรแกรมสอนภาษามือด้วยภาพเคลื่อน 
ไหว 3 มิติที่มีความถูกต้องสวยงามโดยผ่านการตรวจสอบจากผู้ 
เชี่ยวชาญภาษามือ และเพิ่มการค้นหาภาพด้วยเสียงเพิ่มเติมจาก 
การค้นหาด้วยคีย์บอร์ด ซึ่งมีความยืดหยุ่นสามารถเพิ่มจำนวน 
คำศัพท์ได้ตามต้องการลักษณะเด่นที่ใช้ในการรู้จำเสียงคือ MFCC 
และคาบเวลาพิตช์ค่าที่ได้จะถูกนำมาเปรียบเทียบกับต้นแบบเพื่อ 
หาคำที่มีค่าความแตกต่างเฉลี่ยที่น้อยที่สุด จากการทดสอบระบบ 
จากชาย 5 คนและหญิง 5 คน พบว่าอัตราส่วนที่ส่งผลให้อัตรา 
ความถูกต้องในการรู้จำเฉลี่ยสูงสุด คือ MFCC:0.3 Pitch Period 
มีค่าเท่ากับ 90% และ 89%สำหรับเพศชายและหญิงที่ต้นแบบ 1 
ชุดและเพิ่มขึ้นเป็น 95.2 %และ 91.8%ที่ต้นแบบ 2 ชุด 
Abstract 
This article presents a self -learning, sign language 
application with 3D animation, appropriated and verified 
by sign language experts. It also includes voice searching 
(new feature),and key in (from keyboard) searching. It is a 
flexible application with allows for users to add more 
words as they want. The conspicuous for voice recognition 
is MFCC and Pitch period. The result value will be 
compared to the models to find the closest value. By the 
test of 5 men and 5 women, we found the ratio that gave 
the best correctly result for recognition was MFCC: 0.3 
Pitch Period. It gave 90% and 80% for men and women 
respectively When doing the test with 1 model, and it gave 
95.2% and 91.8% When doing the test with 2 models. 
Key-words : Sign Language , Speech Recognition , 
MFCC , Pitch Period 
1. บทนำ 
ปัญหาของโปรแกรมภาษามือที่ผ่านมา คือ ภาพที่ใช้เป็นภาพ 
วีดีโอที่มีขนาดเล็กทำให้ภาพที่ได้มีความไม่ชัดเจนและไม่ 
น่าสนใจ [1] หรือ ภาพที่ใช้เป็นภาพเคลื่อนไหว 3 มิติที่มีทั้ง 
ด้านซ้าย กลาง และขวา ซึ่งในความเป็นจริงแล้วสามารถดูได้ 
เพียงทีละช่องเท่านั้น เนื่องจากมีทั้ง 3 ด้านภาพจึงมีขนาดเล็กทำ 
ให้มองภาพได้ไม่ชัดเจน [2-5] 
จึงเกิดแนวความคิดที่จะพัฒนาโปรแกรมสอนภาษามือโดย 
ภาพเคลื่อนไหว 3 มิติ ที่มีความถูกต้องชัดเจน และนำระบบรู้จำ 
เสียงพูดมาประยุกต์ใช้ในการค้นหาภาพด้วยเสียงเพื่อเพิ่มความ 
สะดวกให้กับคนปรกติสามารถใช้เสียงในการค้นหาภาพภาษามือ 
ระบบที่ออกแบบจะมีการประมวลผลที่รวดเร็วและมีความ 
ยืดหยุ่นต่อการใช้งานโดยสามารถเพิ่มจำนวนคำศัพท์ได้ตาม 
ต้องการ 
2. การออกแบบโปรแกรม 
การออกแบบโปรแกรมสอนภาษามือด้วยภาพเคลื่อนไหว 3 
มิติ และค้นหาภาพด้วยเสียง ดังแสดงในภาพที่ 1 ซึ่งผู้ใช้สามารถ 
ค้นหาภาพภาษามือ ได้จากคีย์บอร์ดและ เสียงของผู้ใช้ ในส่วนที่ 
ติดต่อกับผู้ใช้และตัวจัดการกับฐานข้อมูลเพื่อดึงข้อมูลต่าง ๆ มา 
แสดงผลทางหน้าจอ พัฒนาด้วยโปรแกรมVisual Basic 6.0 [6]
NCSEC2004 
281 
ซึ่งผู้ใช้สามารถติดต่อโปรแกรมได้ง่ายและสะดวก ระบบจัดการ 
ฐานข้อมูล (DBMS) [7] เลือกโปรแกรม MS – Accessซึ่งสามารถ 
ติดต่อกับโปรแกรม Visual Basic 6.0 ได้ และโปรแกรม Poser 4 
[8] สำหรับออกแบบและสร้างภาพเคลื่อนไหวให้ออกมาเป็น 
ภาษามือ 3 มิติที่มีความถูกต้องสวยงามจากหนังสือสมาคมคนหู 
หนวก ด้วยการทำงานที่มีหุ่นจำลองเหมือนจริงของมนุษย์และ 
ในส่วนของระบบรู้จำเสียงพัฒนาขึ้นด้วยโปรแกรมMatLab และ 
ทำการแปลงไฟล์เป็นนามสกุล .dll ก่อนโปรแกรม Visual Basic 
6.0 จึงจะสามารถเรียกใช้งานได้ 
วิเคราะห์หาพารามิเตอร์ 
แสดงภาพเคลื่อนไหว 
ภาษามือ 3 มิติ 
ภาพที่ 1 Flow Chart โปรแกรมสอนภาษามือด้วยภาพเคลื่อไหว 
3 มิติ และค้นหาภาพด้วยเสียง 
3. ระบบรู้จำเสียง 
เนื่องจากเสียงพูดแต่ละคนมีลักษณะที่โดดเด่นแตกต่างกัน 
สามารถนำมาหาค่าพารามิเตอร์เพื่อเป็นตัวแทนของเสียงพูดทำ 
ให้สามารถแยกแยะเสียงและทำการจดจำได้ ในการพัฒนา 
โปรแกรมสอนภาษามือโดยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพ 
ด้วยเสียงมีโครงสร้างระบบรู้จำเสียงพูด ดังแสดงภาพที่2 
รูปแบบ 
อ้างอิง 
ภาพที่ 2 โครงสร้างระบบรู้จำเสียงพูด 
3.1 การวัดพารามิเตอร์ (Parameter Measurement) 
เสียงพูดที่เป็นต้นแบบและแบบทดสอบจะต้องนำมาหา 
ค่าพารามิเตอร์ หรือลักษณะเด่นของเสียงพูด งานวิจัยฉบับนี้ 
เลือกใช้พารามิเตอร์ 2 ตัวคือ MFCC และคาบเวลาพิตช์ ซึ่งการ 
วิเคราะห์หาใช้วิธีการเดียวกับงานวิจัย [9] 
3.2 การเปรียบเทียบรูปแบบ (Pattern Comparison) 
สัญญาณเสียงของต้นแบบและแบบทดสอบ ที่ผ่านการวัด 
พารามิเตอร์จะได้ค่า MFCC และ คาบเวลาพิตช์จะต้องนำมา 
เปรียบเทียบค่าของแต่ละค่าเพื่อช่วยในการตัดสินใจ มีดังนี้ 
3.2.1 MFCC สัญญาณเสียงที่ผ่านการวัดพารามิเตอร์ ของ 
วิธีการแยกสัมประสิทธิ์เซปตรัลตามความถี่เมล (Mel-Frequency 
Ceptral Coefficient , MFCC)ขนาดเท่ากับ 21 ผลลัพธ์ที่ได้คือ 
สัญญาณเสียงของแต่ละคำจะถูกแบ่งเป็นเฟรม ๆ ซึ่งแต่ละเฟรม 
เป็นเวกเตอร์ขนาด 21 เมื่อพิจารณา 2 สัญญาณเสียงของคำ 
เดียวกันน่าจะมีจำนวนเฟรมเท่ากัน ที่ส่งผลให้เฟรมที่ตำแหน่ง 
เดียวกันควรจะเป็นสัญญาณเสียงเดียวกัน แต่จากการทดลอง 
พบว่าคำพูดคำเดียวกันแต่เมื่อเปล่งเสียงคนละครั้ง กลับให้ 
จำนวนเฟรมที่แตกต่างกัน จึงเกิดแนวความคิดที่ว่าเฟรมที่น่าจะ 
เป็นตำแหน่งเดียวกันน่าจะอยู่บริเวณที่ใกล้เคียงกัน จึงได้ทำการ 
กำหนดให้สัญญาณเสียงที่มีจำนวนเฟรมน้อยกว่า เป็นสัญญาณ 
เสียงที่ 1 และทำการเปรียบเทียบกับสัญญาณที่ 2 ตามจำนวน 
ขอบเขตของการเปรียบเทียบที่กำหนดไว้ ซึ่งจะได้ค่าความ 
แตกต่างเฉลี่ยของแต่ละคำเก็บไว้ดังแสดงในภาพที่3 
ต้นฉบับ 
สำหรับอ้างอิง 
เริ่มต้น 
เปรียบเทียบพารามิเตอร์ 
ตัดสินใจ 
ค้นหาภาพ 
ด้วย 
ค้นหาภาพด้วยเสียง 
จบ 
แฟ้มขัอมูล 
ภาพภาษามือ 
ค้นหา 
ภาพเคลื่อนไหว 
Decision 
Parameter Measurement Rule 
เสียงพูด 
การหา 
จุดเริ่มต้น 
และ 
สิ้นสุด 
ของ 
สัญญาณเ 
Pattern 
comparison 
การหา 
ค่า 
MFCC 
การหา 
ตำแหน่ง 
พิตช์ 
และ Pitch 
Period 
กฏ 
การ 
ตัดสิ 
นใจ 
เปรียบ 
เทียบ 
รูป 
แบบ 
คำรู้จำ
NCSEC2004 
282 
ตำแหน่งของเฟรม 
ภาพที่3 การเปรียบเทียบวิธีการแยกสัมประสิทธิ์เซปตรัลตาม 
ความถี่เมล (MFCC) 
โดยสัญลักษณ์มีความหมายดังนี้ 
แทนการเปรียบเทียบค่าความ 
แตกต่างของแต่ละคู่เฟรม 
3.2.2 คาบเวลาพิตช์ สัญญาณเสียงที่ผ่านการวัดพารามิเตอร์ 
ในการวิเคราะห์หาตำแหน่งพิตช์และคาบเวลาพิตช์ ผลลัพธ์ที่ได้ 
คือ จะได้คาบเวลาพิตช์เป็นจำนวนมากของแต่ละคำ เมื่อพิจารณา 
2 สัญญาณเสียงของคำเดียวกัน แต่เปล่งเสียงคนละครั้งจะมี 
จำนวนพิตช์ที่แตกต่างกัน จึงมีการแบ่งข้อมูลของคาบเวลาพิตช์ 
ออกเป็น 10 ช่วง ๆ ละเท่า ๆ กันทำการเปรียบเทียบระหว่าง 
สัญญาณเสียงต้นแบบกับแบบทดสอบ ซึ่งจะได้ค่าความแตกต่าง 
เฉลี่ยของแต่ละคำเก็บไว้ดังแสดงในภาพที่4 
ภาพที่ 4 การเปรียบเทียบคาบเวลาพิตช์ 
โดยสัญลักษณ์มีความหมายดังนี้ 
3.3 กฏการตัดสินใจ (Decision Rule) ในการตัดสินใจจะ 
พิจารณาจากค่าความแตกต่างเฉลี่ยของต้นแบบและแบบทดสอบ 
ที่ต้องการ โดยตรวจสอบว่าคู่ใดมีค่าความแตกต่างเฉลี่ยที่น้อย 
ที่สุดก็จะสรุปว่าเป็นคำศัพท์คำนั้น 
4. ผลการทดลองการค้นหาด้วยเสียง 
ในการทดลองได้ทำการสุ่มตัวอย่าง เพื่อบันทึกเสียงชาย 5 
คน และหญิง 5 คน คน ๆ ละ 3 ชุด แต่ละชุดมี10 กลุ่ม ๆ ละ 
10 คำ ซึ่งคำที่ใช้ในการบันทึกได้ทำการคัดเลือกมาจากหนังสือ 
ของสมาคมคนหูหนวกซึ่งแสดงในภาคผนวก ด้วยอัตราสุ่ม 
11,025 kHz และความละเอียด 8 Bits/Sample โดยตั้งชื่อไฟล์ 
ดังนี้ x1_2_3.wav คือ x แทนเพศ ถ้าเป็นเพศชายใช้อักษร “m” 
และเพศหญิงใช้อักษร “w” , 1 แทนคนที่ , 2 แทนครั้งที่ , 3 
แทนไฟล์ที่ ด้วยนามสกุล wav เนื่องจาก 1 ไฟล์มีจำนวน 10 
คำ ดังนั้นขณะที่ทำการบันทึกแต่ละคำ จะต้องเว้นระยะห่าง 
พอสมควรให้เกิดช่วงเงียบ (Unvoiced Sound) เพื่อช่วยให้การ 
หาจุดเริ่มต้น และสิ้นสุดของสัญญาณเสียงทำได้อย่างถูกต้อง 
กำหนดให้ความกว้างของหน้าต่างในการหาจุดเริ่มต้นและ 
จุดสิ้นสุดมีค่าเท่ากับ 100 และกำหนดให้ค่า Pitch Periodของชาย 
มีค่าระหว่าง 55-140 Samples และหญิงมีค่า40 - 80 Samplesได้ 
ทำการทดลองทั้งหมด 3 การทดลอง คือ 
การทดลองที่ 1 ทดลองเพื่อที่จะทราบว่า ผลความถูกต้อง 
ในการค้นหาภาพด้วยเสียงระหว่างการใช้ลักษณะเด่น MFCC 
เพียงอย่างเดียวกับเมื่อเพิ่ม Pitch Periodในอัตราส่วนต่าง ๆ มี ผล 
ความถูกต้องในการค้นหาภาพด้วยเสียง ของเพศชายกรณีต้นแบบ 
1 ชุดอย่างไรโดยวัดผลความถูกต้องในการรู้จำจากชาย 5 คน 
กำหนดให้เสียงต้นแบบ 1 ชุด และเสียงทดสอบ 1 ชุด แต่ละชุดมี 
10 กลุ่ม ๆ ละ 10 คำ ได้ผลการทดลองดังตารางที่1 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
สัญญาณเสียงที่ 1 
สัญญาณเสียงที่ 2 
ตำแหน่งของเฟรม 
แทนเฟรมที่เป็นเวกเตอร์ขนาด 21 
แทนขอบเขตของการเปรียบเทียบเฟรม 
สัญญาณเสียงที่ 1 
สัญญาณเสียงที่ 2 
xx xx xx xx xx xx xx xx xx xx 
xxx xxx xxx xxx xxx xxx xxx xxx 
แทนคาบเวลาพิตช์ 
แทนการเปรียบเทียบค่าความแตกต่างของ 
แต่ละคู่าคาบเวลาพิตช์ 
x 
แทนขอบเขตของแต่ละช่วงในการ 
เปรียบเทียบคาบเวลาพิตช์
NCSEC2004 
283 
ตารางที่1 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ 
ชาย กรณีต้นแบบ 1 ชุด 
ผลการทดลองในตารางที่ 1 พบว่าผลความถูกต้องใน 
การค้นหาภาพด้วยเสียงของเพศชาย กรณีต้นแบบ 1 ชุดจากชาย 
5 คนสูงที่สุดมีค่า 90% ที่ MFCC : 0.3 Pitch Period ซึ่งสูงกว่า 
การใช้ MFCC เพียงอย่างเดียวถึง 3.2 % 
การทดลองที่ 2 เหมือนกับการทดลองที่ 1 แต่เปลี่ยนจาก 
เพศชายเป็นเพศหญิง ได้ผลการทดลองดังตารางที่2 
ตารางที่ 2 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ 
หญิง กรณีต้นแบบ 1 ชุด 
ผลการทดลองในตารางที่ 2 พบว่าผลความถูกต้องในการ 
ค้นหาภาพด้วยเสียงของเพศหญิงกรณีต้นแบบ1 ชุดจากหญิง 5คน 
สูงที่สุดมีค่า 89 % ที่ MFCC : 0.3 Pitch Period และ MFCC : 0.4 
Pitch Period ซึ่งสูงกว่าการใช้ MFCC เพียงอย่างเดียวถึง 4.6 % 
การทดลองที่ 3 
จากการทดลองที่ 1 และ 2 ทำให้ทราบว่าอัตราส่วน 
ระหว่าง MFCC : Pitch Period ที่ทำให้ผลความถูกต้องในการ 
ค้นหาภาพด้วยเสียง กรณีต้นแบบ 1 ชุดมีค่าสูงที่สุด คือ 1 : 0.3 
ดังนั้นในการทดลองที่ 3 ต้องการทดลองเพื่อที่จะทราบว่าผล 
ความถูกต้อง ในการค้นหาภาพด้วยเสียงของ MFCC : 0.3 Pitch 
Period เมื่อเพิ่มจำนวนต้นแบบแล้ว ส่งผลให้ผลความถูกต้องใน 
การค้นหาภาพด้วย เสียงมีค่าเพิ่มขึ้นอย่างไร จากชาย 5 คน หญิง 
5 คน กำหนดให้เสียงต้นแบบ 2 ชุดและเสียงทดสอบ 1 ชุดแต่ละ 
ชุดมี 10 กลุ่ม ๆละ 10 คำ 
ตารางที่ 3 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ 
ชายและหญิง กรณีต้นแบบ 2 ชุด 
เพศ ชาย หญิง 
คนที่ 1 95 95 
คนที่ 2 93 83 
คนที่ 3 94 93 
คนที่ 4 100 96 
คนที่ 5 94 92 
ผลรวม 476 459 
Mean 95.2 91.8 
% 95.2 91.8 
% ที่เพิ่มขึ้น 5.2 2.8 
ผลการทดลองในตารางที่ 3 พบว่าผลความถูกต้องในการ 
ค้นหาภาพด้วยเสียงกรณีต้นแบบ 2 ชุดของเพศชายมีค่าเพิ่มขึ้น 
5.2 % และเพศหญิงมีค่าเพิ่มขึ้น 2.8 % เมื่อเทียบกับกรณีต้นแบบ 
1 ชุด
NCSEC2004 
284 
5. สรุปผล 
จากการทดลองพบว่ากรณีต้นแบบ 1 ชุด เมื่อใช้ลักษณะเด่น 
MFCC เพียงอย่างเดียวมีให้ผลความถูกต้องในการค้นหาภาพด้วย 
เสียงเฉลี่ย 85.6 % และเมื่อเพิ่ม Pitch Period ทำให้ผลความ 
ถูกต้องในการค้นหาภาพด้วยเสียงมีค่าเพิ่มขึ้นและสูงที่สุดใน 
อัตราส่วน MFCC : 0.3 Pitch Period ที่ค่าเฉลี่ย 89.5 % และเมื่อ 
เพิ่มจำนวนต้นแบบเป็น 2 ชุด ที่อัตราส่วน MFCC : 0.3 Pitch 
Period มีค่าผลความถูกต้องในการค้นหาภาพด้วยเสียงเฉลี่ย 
เพิ่มขึ้น 4 % 
จากการทดลองใช้โปรแกรมสอนภาษามือ ด้วยภาพเคลื่อน 
ไหว 3 มิติ และค้นหาภาพด้วยเสียง คนปรกติและผู้บกพร่อง 
ทางการได้ยิน มีความพึงพอใจกับภาพภาษามือ 3 มิติเนื่องจากดู 
ภาพภาษามือแล้วสามารถเข้าใจความหมายได้อย่างชัดเจน เพราะ 
ภาพภาษามือมีความคมชัด มีขนาดใหญ่กว่าการทำวิจัยที่ผ่านมา 
และภาพเคลื่อนไหวอย่างถูกต้องสวยงามดังแสดงในภาพที่5 และ 
คนปรกติยังสามารถค้นหาภาพด้วยเสียง เพิ่มจากการค้นหาด้วย 
คีย์บอร์ดทำให้มีความสะดวกในการค้นหามากขึ้น 
ภาพที่ 5 หน้าจอโปรแกรมสอนภาษามือโดยภาพเคลื่อนไหว 3 
มิติ และค้นหาภาพด้วยเสียง 
6. กิตติกรรมประกาศ 
ขอขอบคุณอาจารย์ญาดา ชีนะโชติ โรงเรียนเศรษฐเสถียร 
ในพระบรมราชูปถัมภ์ ที่ได้ให้คำแนะนำและตรวจสอบภาษามือ 
7. เอกสารอ้างอิง 
[1]. ชาลิสา วิเลิศลัยกุลและโอม ทองพิทักษ์, “ โปรแกรมคอมพิวเตอร์ 
ช่วยสอนภาษามือไทยโดยผ่านเครือข่ายอินเตอร์เน็ต”, วิทยานิพนธ์ 
ปริญญาวิทยาศาสตรบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ คณะ 
เทคโนโลยีสารสนเทศ สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 
2544. 
[2]. สิทธิเดช นาควิโรจน์และ สุกิจ เตชะสุวรรณ์ , “โปรแกรมปทานุกรม 
ภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ก. ถึง ด.) ” กรุงเทพฯ , สถาบัน 
เทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2542 . 
[3]. บัณฑิต เตชะภูวภัทรและ สุภาพรรณ เขมวาส , “โปรแกรม 
ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ต. ถึง ป.)” , กรุงเทพฯ , 
สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2543 
[4]. กมลรัตน์ ชอบชื่นชมลและรัชนีวรรณ์ ฉาพิมาย , “โปรแกรม 
ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ผ. ถึง ล.) ” , กรุงเทพฯ , 
สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2542 . 
[5]. กิตติกร ประชุมพรรณ์และ ยิ่งลักษณ์ สีหมนตรี , “โปรแกรม 
ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ว. ถึง ฮ.) ” , 
กรุงเทพฯ , สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2543. 
[6].ธาริน สิทธิธรรมชารีและสุรสิทธิ์ คิวประสพภักดี, “คู่มือการเขียน 
โปรแกรม Advance Visual Basic Version 6.0” กรุงเทพมหานคร , บริษัท 
ส.เอเชียเพลส (1989) จำกัด, 2544. 
[7]. สมจิตร อาจอินทร์และงามนิจ อาจอินทร์ , “ระบบฐานข้อมูล” , 
พิมพ์ครั้งที่6 , ขอนแก่น.ศูนย์หนังสือมหาวิทยาลัยขอนแก่น, 2546. 
[8].ฉัตรชัย บุษบงค์, “ Poser 4 สร้างสรรค์งาน 3 มิติให้เหมือนจริง”, 
กรุงเทพมหานคร,บริษัท ซีเอ็ดยูเคชั่น จำกัด มหาชน, 2543. 
[9]. ไชยันต์สุวรรณชีวะศิริ, “ การรู้จำเสียงพูดภาษาไทยจำนวนคำศัพท์ 
500 คำเฉพาะบุคคลโดยใช้ลักษณะบ่งความต่างหน่วยเสียงของพยางค์โดด 
และโครงข่ายสมองเทียม”,NCSEC, 2001.
NCSEC2004 
285 
8. ภาคผนวก 
1. หมวดการทักทาย 
1.1 สวัสดี 
1.2 ขอบคุณ 
1.3 สบายดี 
1.4 ไม่สบาย 
1.5 ชื่อ 
1.6 นามสกุล 
1.7 ใช่ 
1.8 ไม่ใช่ 
1.9 พบกันใหม่ 
1.10 คนหูหนวก 
1.11 สนุก 
1.12 คนหูตึง 
1.13 คนปรกติ 
1.14 เรียน 
1.15 พบ 
1.16 ไม่สบายใจ 
1.17 จดจำ 
2. หมวดเวลา 
2.1 เวลา 
2.2 เช้า 
2.3 กลางวัน 
2.4 บ่าย 
2.5 เย็น 
2.6 กลางคืน 
2.7 เที่ยงคืน 
2.8 24 ชม. 
2.9 ทั้งวัน ทั้งคืน 
2.10 ค่ำ 
2.11 ปี 
3. หมวด วันเดือน ปี 
3.1 วันจันทร์ 
3.2 วันอังคาร 
3.3 วันพุธ 
3.4 วันพฤหัสบดี 
3.5 วันศุกร์ 
3.6 วันเสาร์ 
3.7 วันอาทิตย์ 
3.8 สัปดาห์ 
3.9 วันนี้ 
3.10 พรุ่งนี้ 
3.11 มะรืนนี้ 
3.12 เมื่อวานนี้ 
3.13 เมื่อวานซืน 
3.14 เดือน 
3.15 มกราคม 
3.16 กุมภาพันธ์ 
3.17 มีนาคมเมษายน 
3.18 พฤษภาคม 
3.19 มิถุนายน 
3.20 กรกฎาคม 
3.21 สิงหาคม 
3.22 กันยายน 
3.23 ตุลาคม 
3.24 พฤศจิกายน 
3.25 ธันวาคม 
3.26 อายุ 
3.27 วัน 
4. หมวดคำถาม 
4.1 ที่ไหน 
4.2 อย่างไร 
4.3 ทำไม 
5. หมวดบุคคล 
5.1 บุคคล 
5.2 ผู้ใหญ่ 
5.3 ผู้ชาย 
5.4 เด็ก 
5.5 คนชรา 
5.6 ป้า 
5.7 แฟน 
5.8 เพื่อน 
5.9 ย่า 
5.10 ปู่ 
5.11 เขา 
5.12 ฉัน 
5.13 เธอ 
5.14 โสด 
5.15 เยาวชน 
5.16 หนุ่มสาว 
6. หมวดครอบครัว 
6.1 ครอบครัว 
6.2 บิดา 
6.3 มารดา 
6.4 พี่ 
6.5 น้อง 
6.6 ลูก 
7. หมวดอาหาร 
7.1 ซีอิ๊วดำ 
7.2 น้ำปลา 
7.3 อาหาร 
7.4 เส้นหมี่ 
7.5 เส้นเล็ก 
7.6 เส้นใหญ่ 
7.7 เต้าเจี๊ยว 
7.8 ซอสมะเขือเทศ 
7.9 น้ำส้มสายชู 
8. หมวดร่างกาย 
8.1 ลูกกระเดือก 
8.2 แขน 
8.3 แก้ม 
8.4 คาง 
8.5 ตา 
8.6 คิ้ว 
8.7 มือ 
8.8 ปาก 
8.9 คอ 
8.10 จมูก

More Related Content

More from Thirawut Saenboon

ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...
ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...
ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...Thirawut Saenboon
 
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือ
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือเครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือ
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือThirawut Saenboon
 
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์Thirawut Saenboon
 
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่น
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่นการวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่น
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่นThirawut Saenboon
 
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...Thirawut Saenboon
 
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...Thirawut Saenboon
 
Physically plausible simulation for character animation
Physically plausible simulation for character animationPhysically plausible simulation for character animation
Physically plausible simulation for character animationThirawut Saenboon
 

More from Thirawut Saenboon (7)

ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...
ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...
ผลของการเรียนแบบค้นพบร่วมกับเทคนิคผังกราฟิกที่มีต่อความคิดเชิงมโนทัศน์ความพึง...
 
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือ
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือเครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือ
เครื่องมือวาดภาพ 2 มิติโดยใช้การร่างภาพสำหรับการสร้างภาพเคลื่อนไหวของภาษามือ
 
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์
ความพึงพอใจต่อการทำงานของพนักงานในอุตสาหกรรมกราฟิกส์
 
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่น
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่นการวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่น
การวิเคราะห์และวิจารณ์ภาพยนตร์แอนิเมชั่น
 
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...
การพัฒนาหลักสูตรฝึกอบรมการสร้างสื่อภาพเคลื่อนไหวสำหรับการสอน วิชาทฤษฎีช่างอุต...
 
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...
การใช้ภาพยนตร์แอนิเมชันเรื่องพระพุทธเจ้าเพื่อเพิ่มความรู้ด้านพุทธประวัติการใช...
 
Physically plausible simulation for character animation
Physically plausible simulation for character animationPhysically plausible simulation for character animation
Physically plausible simulation for character animation
 

โปรแกรมสอนภาษามือด้วยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพด้วยเสียง

  • 1. NCSEC2004 โปรแกรมสอนภาษามือด้วยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพด้วยเสียง A Sign Language Teaching Program with Sound Searching for 3-D Animation ศิฬาณี นุชิตประสิทธิ์ชัย1, สมชาย ปราการเจริญ2 และไชยันต์ สุวรรณชีวะศิริ 3 1,2ภาควิชาเทคโนโลยีสารสนเทศ คณะเทคโนโลยีสารสนเทศ 3ภาควิชาวิศวกรรมไฟฟ้า คณะวิศวกรรมศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ 1518 ถนนพิบูลสงคราม บางซื่อ กรุงเทพฯ 10800 E-mail: ochin2808@hotmail.com1 , spk@kmitnb.ac.th 2,chaiyang@samarts.com3 280 บทคัดย่อ บทความนี้ขอเสนอโปรแกรมสอนภาษามือด้วยภาพเคลื่อน ไหว 3 มิติที่มีความถูกต้องสวยงามโดยผ่านการตรวจสอบจากผู้ เชี่ยวชาญภาษามือ และเพิ่มการค้นหาภาพด้วยเสียงเพิ่มเติมจาก การค้นหาด้วยคีย์บอร์ด ซึ่งมีความยืดหยุ่นสามารถเพิ่มจำนวน คำศัพท์ได้ตามต้องการลักษณะเด่นที่ใช้ในการรู้จำเสียงคือ MFCC และคาบเวลาพิตช์ค่าที่ได้จะถูกนำมาเปรียบเทียบกับต้นแบบเพื่อ หาคำที่มีค่าความแตกต่างเฉลี่ยที่น้อยที่สุด จากการทดสอบระบบ จากชาย 5 คนและหญิง 5 คน พบว่าอัตราส่วนที่ส่งผลให้อัตรา ความถูกต้องในการรู้จำเฉลี่ยสูงสุด คือ MFCC:0.3 Pitch Period มีค่าเท่ากับ 90% และ 89%สำหรับเพศชายและหญิงที่ต้นแบบ 1 ชุดและเพิ่มขึ้นเป็น 95.2 %และ 91.8%ที่ต้นแบบ 2 ชุด Abstract This article presents a self -learning, sign language application with 3D animation, appropriated and verified by sign language experts. It also includes voice searching (new feature),and key in (from keyboard) searching. It is a flexible application with allows for users to add more words as they want. The conspicuous for voice recognition is MFCC and Pitch period. The result value will be compared to the models to find the closest value. By the test of 5 men and 5 women, we found the ratio that gave the best correctly result for recognition was MFCC: 0.3 Pitch Period. It gave 90% and 80% for men and women respectively When doing the test with 1 model, and it gave 95.2% and 91.8% When doing the test with 2 models. Key-words : Sign Language , Speech Recognition , MFCC , Pitch Period 1. บทนำ ปัญหาของโปรแกรมภาษามือที่ผ่านมา คือ ภาพที่ใช้เป็นภาพ วีดีโอที่มีขนาดเล็กทำให้ภาพที่ได้มีความไม่ชัดเจนและไม่ น่าสนใจ [1] หรือ ภาพที่ใช้เป็นภาพเคลื่อนไหว 3 มิติที่มีทั้ง ด้านซ้าย กลาง และขวา ซึ่งในความเป็นจริงแล้วสามารถดูได้ เพียงทีละช่องเท่านั้น เนื่องจากมีทั้ง 3 ด้านภาพจึงมีขนาดเล็กทำ ให้มองภาพได้ไม่ชัดเจน [2-5] จึงเกิดแนวความคิดที่จะพัฒนาโปรแกรมสอนภาษามือโดย ภาพเคลื่อนไหว 3 มิติ ที่มีความถูกต้องชัดเจน และนำระบบรู้จำ เสียงพูดมาประยุกต์ใช้ในการค้นหาภาพด้วยเสียงเพื่อเพิ่มความ สะดวกให้กับคนปรกติสามารถใช้เสียงในการค้นหาภาพภาษามือ ระบบที่ออกแบบจะมีการประมวลผลที่รวดเร็วและมีความ ยืดหยุ่นต่อการใช้งานโดยสามารถเพิ่มจำนวนคำศัพท์ได้ตาม ต้องการ 2. การออกแบบโปรแกรม การออกแบบโปรแกรมสอนภาษามือด้วยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพด้วยเสียง ดังแสดงในภาพที่ 1 ซึ่งผู้ใช้สามารถ ค้นหาภาพภาษามือ ได้จากคีย์บอร์ดและ เสียงของผู้ใช้ ในส่วนที่ ติดต่อกับผู้ใช้และตัวจัดการกับฐานข้อมูลเพื่อดึงข้อมูลต่าง ๆ มา แสดงผลทางหน้าจอ พัฒนาด้วยโปรแกรมVisual Basic 6.0 [6]
  • 2. NCSEC2004 281 ซึ่งผู้ใช้สามารถติดต่อโปรแกรมได้ง่ายและสะดวก ระบบจัดการ ฐานข้อมูล (DBMS) [7] เลือกโปรแกรม MS – Accessซึ่งสามารถ ติดต่อกับโปรแกรม Visual Basic 6.0 ได้ และโปรแกรม Poser 4 [8] สำหรับออกแบบและสร้างภาพเคลื่อนไหวให้ออกมาเป็น ภาษามือ 3 มิติที่มีความถูกต้องสวยงามจากหนังสือสมาคมคนหู หนวก ด้วยการทำงานที่มีหุ่นจำลองเหมือนจริงของมนุษย์และ ในส่วนของระบบรู้จำเสียงพัฒนาขึ้นด้วยโปรแกรมMatLab และ ทำการแปลงไฟล์เป็นนามสกุล .dll ก่อนโปรแกรม Visual Basic 6.0 จึงจะสามารถเรียกใช้งานได้ วิเคราะห์หาพารามิเตอร์ แสดงภาพเคลื่อนไหว ภาษามือ 3 มิติ ภาพที่ 1 Flow Chart โปรแกรมสอนภาษามือด้วยภาพเคลื่อไหว 3 มิติ และค้นหาภาพด้วยเสียง 3. ระบบรู้จำเสียง เนื่องจากเสียงพูดแต่ละคนมีลักษณะที่โดดเด่นแตกต่างกัน สามารถนำมาหาค่าพารามิเตอร์เพื่อเป็นตัวแทนของเสียงพูดทำ ให้สามารถแยกแยะเสียงและทำการจดจำได้ ในการพัฒนา โปรแกรมสอนภาษามือโดยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพ ด้วยเสียงมีโครงสร้างระบบรู้จำเสียงพูด ดังแสดงภาพที่2 รูปแบบ อ้างอิง ภาพที่ 2 โครงสร้างระบบรู้จำเสียงพูด 3.1 การวัดพารามิเตอร์ (Parameter Measurement) เสียงพูดที่เป็นต้นแบบและแบบทดสอบจะต้องนำมาหา ค่าพารามิเตอร์ หรือลักษณะเด่นของเสียงพูด งานวิจัยฉบับนี้ เลือกใช้พารามิเตอร์ 2 ตัวคือ MFCC และคาบเวลาพิตช์ ซึ่งการ วิเคราะห์หาใช้วิธีการเดียวกับงานวิจัย [9] 3.2 การเปรียบเทียบรูปแบบ (Pattern Comparison) สัญญาณเสียงของต้นแบบและแบบทดสอบ ที่ผ่านการวัด พารามิเตอร์จะได้ค่า MFCC และ คาบเวลาพิตช์จะต้องนำมา เปรียบเทียบค่าของแต่ละค่าเพื่อช่วยในการตัดสินใจ มีดังนี้ 3.2.1 MFCC สัญญาณเสียงที่ผ่านการวัดพารามิเตอร์ ของ วิธีการแยกสัมประสิทธิ์เซปตรัลตามความถี่เมล (Mel-Frequency Ceptral Coefficient , MFCC)ขนาดเท่ากับ 21 ผลลัพธ์ที่ได้คือ สัญญาณเสียงของแต่ละคำจะถูกแบ่งเป็นเฟรม ๆ ซึ่งแต่ละเฟรม เป็นเวกเตอร์ขนาด 21 เมื่อพิจารณา 2 สัญญาณเสียงของคำ เดียวกันน่าจะมีจำนวนเฟรมเท่ากัน ที่ส่งผลให้เฟรมที่ตำแหน่ง เดียวกันควรจะเป็นสัญญาณเสียงเดียวกัน แต่จากการทดลอง พบว่าคำพูดคำเดียวกันแต่เมื่อเปล่งเสียงคนละครั้ง กลับให้ จำนวนเฟรมที่แตกต่างกัน จึงเกิดแนวความคิดที่ว่าเฟรมที่น่าจะ เป็นตำแหน่งเดียวกันน่าจะอยู่บริเวณที่ใกล้เคียงกัน จึงได้ทำการ กำหนดให้สัญญาณเสียงที่มีจำนวนเฟรมน้อยกว่า เป็นสัญญาณ เสียงที่ 1 และทำการเปรียบเทียบกับสัญญาณที่ 2 ตามจำนวน ขอบเขตของการเปรียบเทียบที่กำหนดไว้ ซึ่งจะได้ค่าความ แตกต่างเฉลี่ยของแต่ละคำเก็บไว้ดังแสดงในภาพที่3 ต้นฉบับ สำหรับอ้างอิง เริ่มต้น เปรียบเทียบพารามิเตอร์ ตัดสินใจ ค้นหาภาพ ด้วย ค้นหาภาพด้วยเสียง จบ แฟ้มขัอมูล ภาพภาษามือ ค้นหา ภาพเคลื่อนไหว Decision Parameter Measurement Rule เสียงพูด การหา จุดเริ่มต้น และ สิ้นสุด ของ สัญญาณเ Pattern comparison การหา ค่า MFCC การหา ตำแหน่ง พิตช์ และ Pitch Period กฏ การ ตัดสิ นใจ เปรียบ เทียบ รูป แบบ คำรู้จำ
  • 3. NCSEC2004 282 ตำแหน่งของเฟรม ภาพที่3 การเปรียบเทียบวิธีการแยกสัมประสิทธิ์เซปตรัลตาม ความถี่เมล (MFCC) โดยสัญลักษณ์มีความหมายดังนี้ แทนการเปรียบเทียบค่าความ แตกต่างของแต่ละคู่เฟรม 3.2.2 คาบเวลาพิตช์ สัญญาณเสียงที่ผ่านการวัดพารามิเตอร์ ในการวิเคราะห์หาตำแหน่งพิตช์และคาบเวลาพิตช์ ผลลัพธ์ที่ได้ คือ จะได้คาบเวลาพิตช์เป็นจำนวนมากของแต่ละคำ เมื่อพิจารณา 2 สัญญาณเสียงของคำเดียวกัน แต่เปล่งเสียงคนละครั้งจะมี จำนวนพิตช์ที่แตกต่างกัน จึงมีการแบ่งข้อมูลของคาบเวลาพิตช์ ออกเป็น 10 ช่วง ๆ ละเท่า ๆ กันทำการเปรียบเทียบระหว่าง สัญญาณเสียงต้นแบบกับแบบทดสอบ ซึ่งจะได้ค่าความแตกต่าง เฉลี่ยของแต่ละคำเก็บไว้ดังแสดงในภาพที่4 ภาพที่ 4 การเปรียบเทียบคาบเวลาพิตช์ โดยสัญลักษณ์มีความหมายดังนี้ 3.3 กฏการตัดสินใจ (Decision Rule) ในการตัดสินใจจะ พิจารณาจากค่าความแตกต่างเฉลี่ยของต้นแบบและแบบทดสอบ ที่ต้องการ โดยตรวจสอบว่าคู่ใดมีค่าความแตกต่างเฉลี่ยที่น้อย ที่สุดก็จะสรุปว่าเป็นคำศัพท์คำนั้น 4. ผลการทดลองการค้นหาด้วยเสียง ในการทดลองได้ทำการสุ่มตัวอย่าง เพื่อบันทึกเสียงชาย 5 คน และหญิง 5 คน คน ๆ ละ 3 ชุด แต่ละชุดมี10 กลุ่ม ๆ ละ 10 คำ ซึ่งคำที่ใช้ในการบันทึกได้ทำการคัดเลือกมาจากหนังสือ ของสมาคมคนหูหนวกซึ่งแสดงในภาคผนวก ด้วยอัตราสุ่ม 11,025 kHz และความละเอียด 8 Bits/Sample โดยตั้งชื่อไฟล์ ดังนี้ x1_2_3.wav คือ x แทนเพศ ถ้าเป็นเพศชายใช้อักษร “m” และเพศหญิงใช้อักษร “w” , 1 แทนคนที่ , 2 แทนครั้งที่ , 3 แทนไฟล์ที่ ด้วยนามสกุล wav เนื่องจาก 1 ไฟล์มีจำนวน 10 คำ ดังนั้นขณะที่ทำการบันทึกแต่ละคำ จะต้องเว้นระยะห่าง พอสมควรให้เกิดช่วงเงียบ (Unvoiced Sound) เพื่อช่วยให้การ หาจุดเริ่มต้น และสิ้นสุดของสัญญาณเสียงทำได้อย่างถูกต้อง กำหนดให้ความกว้างของหน้าต่างในการหาจุดเริ่มต้นและ จุดสิ้นสุดมีค่าเท่ากับ 100 และกำหนดให้ค่า Pitch Periodของชาย มีค่าระหว่าง 55-140 Samples และหญิงมีค่า40 - 80 Samplesได้ ทำการทดลองทั้งหมด 3 การทดลอง คือ การทดลองที่ 1 ทดลองเพื่อที่จะทราบว่า ผลความถูกต้อง ในการค้นหาภาพด้วยเสียงระหว่างการใช้ลักษณะเด่น MFCC เพียงอย่างเดียวกับเมื่อเพิ่ม Pitch Periodในอัตราส่วนต่าง ๆ มี ผล ความถูกต้องในการค้นหาภาพด้วยเสียง ของเพศชายกรณีต้นแบบ 1 ชุดอย่างไรโดยวัดผลความถูกต้องในการรู้จำจากชาย 5 คน กำหนดให้เสียงต้นแบบ 1 ชุด และเสียงทดสอบ 1 ชุด แต่ละชุดมี 10 กลุ่ม ๆ ละ 10 คำ ได้ผลการทดลองดังตารางที่1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 สัญญาณเสียงที่ 1 สัญญาณเสียงที่ 2 ตำแหน่งของเฟรม แทนเฟรมที่เป็นเวกเตอร์ขนาด 21 แทนขอบเขตของการเปรียบเทียบเฟรม สัญญาณเสียงที่ 1 สัญญาณเสียงที่ 2 xx xx xx xx xx xx xx xx xx xx xxx xxx xxx xxx xxx xxx xxx xxx แทนคาบเวลาพิตช์ แทนการเปรียบเทียบค่าความแตกต่างของ แต่ละคู่าคาบเวลาพิตช์ x แทนขอบเขตของแต่ละช่วงในการ เปรียบเทียบคาบเวลาพิตช์
  • 4. NCSEC2004 283 ตารางที่1 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ ชาย กรณีต้นแบบ 1 ชุด ผลการทดลองในตารางที่ 1 พบว่าผลความถูกต้องใน การค้นหาภาพด้วยเสียงของเพศชาย กรณีต้นแบบ 1 ชุดจากชาย 5 คนสูงที่สุดมีค่า 90% ที่ MFCC : 0.3 Pitch Period ซึ่งสูงกว่า การใช้ MFCC เพียงอย่างเดียวถึง 3.2 % การทดลองที่ 2 เหมือนกับการทดลองที่ 1 แต่เปลี่ยนจาก เพศชายเป็นเพศหญิง ได้ผลการทดลองดังตารางที่2 ตารางที่ 2 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ หญิง กรณีต้นแบบ 1 ชุด ผลการทดลองในตารางที่ 2 พบว่าผลความถูกต้องในการ ค้นหาภาพด้วยเสียงของเพศหญิงกรณีต้นแบบ1 ชุดจากหญิง 5คน สูงที่สุดมีค่า 89 % ที่ MFCC : 0.3 Pitch Period และ MFCC : 0.4 Pitch Period ซึ่งสูงกว่าการใช้ MFCC เพียงอย่างเดียวถึง 4.6 % การทดลองที่ 3 จากการทดลองที่ 1 และ 2 ทำให้ทราบว่าอัตราส่วน ระหว่าง MFCC : Pitch Period ที่ทำให้ผลความถูกต้องในการ ค้นหาภาพด้วยเสียง กรณีต้นแบบ 1 ชุดมีค่าสูงที่สุด คือ 1 : 0.3 ดังนั้นในการทดลองที่ 3 ต้องการทดลองเพื่อที่จะทราบว่าผล ความถูกต้อง ในการค้นหาภาพด้วยเสียงของ MFCC : 0.3 Pitch Period เมื่อเพิ่มจำนวนต้นแบบแล้ว ส่งผลให้ผลความถูกต้องใน การค้นหาภาพด้วย เสียงมีค่าเพิ่มขึ้นอย่างไร จากชาย 5 คน หญิง 5 คน กำหนดให้เสียงต้นแบบ 2 ชุดและเสียงทดสอบ 1 ชุดแต่ละ ชุดมี 10 กลุ่ม ๆละ 10 คำ ตารางที่ 3 ผลความถูกต้องในการค้นหาภาพด้วยเสียงของเพศ ชายและหญิง กรณีต้นแบบ 2 ชุด เพศ ชาย หญิง คนที่ 1 95 95 คนที่ 2 93 83 คนที่ 3 94 93 คนที่ 4 100 96 คนที่ 5 94 92 ผลรวม 476 459 Mean 95.2 91.8 % 95.2 91.8 % ที่เพิ่มขึ้น 5.2 2.8 ผลการทดลองในตารางที่ 3 พบว่าผลความถูกต้องในการ ค้นหาภาพด้วยเสียงกรณีต้นแบบ 2 ชุดของเพศชายมีค่าเพิ่มขึ้น 5.2 % และเพศหญิงมีค่าเพิ่มขึ้น 2.8 % เมื่อเทียบกับกรณีต้นแบบ 1 ชุด
  • 5. NCSEC2004 284 5. สรุปผล จากการทดลองพบว่ากรณีต้นแบบ 1 ชุด เมื่อใช้ลักษณะเด่น MFCC เพียงอย่างเดียวมีให้ผลความถูกต้องในการค้นหาภาพด้วย เสียงเฉลี่ย 85.6 % และเมื่อเพิ่ม Pitch Period ทำให้ผลความ ถูกต้องในการค้นหาภาพด้วยเสียงมีค่าเพิ่มขึ้นและสูงที่สุดใน อัตราส่วน MFCC : 0.3 Pitch Period ที่ค่าเฉลี่ย 89.5 % และเมื่อ เพิ่มจำนวนต้นแบบเป็น 2 ชุด ที่อัตราส่วน MFCC : 0.3 Pitch Period มีค่าผลความถูกต้องในการค้นหาภาพด้วยเสียงเฉลี่ย เพิ่มขึ้น 4 % จากการทดลองใช้โปรแกรมสอนภาษามือ ด้วยภาพเคลื่อน ไหว 3 มิติ และค้นหาภาพด้วยเสียง คนปรกติและผู้บกพร่อง ทางการได้ยิน มีความพึงพอใจกับภาพภาษามือ 3 มิติเนื่องจากดู ภาพภาษามือแล้วสามารถเข้าใจความหมายได้อย่างชัดเจน เพราะ ภาพภาษามือมีความคมชัด มีขนาดใหญ่กว่าการทำวิจัยที่ผ่านมา และภาพเคลื่อนไหวอย่างถูกต้องสวยงามดังแสดงในภาพที่5 และ คนปรกติยังสามารถค้นหาภาพด้วยเสียง เพิ่มจากการค้นหาด้วย คีย์บอร์ดทำให้มีความสะดวกในการค้นหามากขึ้น ภาพที่ 5 หน้าจอโปรแกรมสอนภาษามือโดยภาพเคลื่อนไหว 3 มิติ และค้นหาภาพด้วยเสียง 6. กิตติกรรมประกาศ ขอขอบคุณอาจารย์ญาดา ชีนะโชติ โรงเรียนเศรษฐเสถียร ในพระบรมราชูปถัมภ์ ที่ได้ให้คำแนะนำและตรวจสอบภาษามือ 7. เอกสารอ้างอิง [1]. ชาลิสา วิเลิศลัยกุลและโอม ทองพิทักษ์, “ โปรแกรมคอมพิวเตอร์ ช่วยสอนภาษามือไทยโดยผ่านเครือข่ายอินเตอร์เน็ต”, วิทยานิพนธ์ ปริญญาวิทยาศาสตรบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ คณะ เทคโนโลยีสารสนเทศ สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2544. [2]. สิทธิเดช นาควิโรจน์และ สุกิจ เตชะสุวรรณ์ , “โปรแกรมปทานุกรม ภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ก. ถึง ด.) ” กรุงเทพฯ , สถาบัน เทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2542 . [3]. บัณฑิต เตชะภูวภัทรและ สุภาพรรณ เขมวาส , “โปรแกรม ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ต. ถึง ป.)” , กรุงเทพฯ , สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2543 [4]. กมลรัตน์ ชอบชื่นชมลและรัชนีวรรณ์ ฉาพิมาย , “โปรแกรม ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ผ. ถึง ล.) ” , กรุงเทพฯ , สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2542 . [5]. กิตติกร ประชุมพรรณ์และ ยิ่งลักษณ์ สีหมนตรี , “โปรแกรม ปทานุกรมภาษามือไทย เวอร์ชั่น 2.0 (หมวดคำ ว. ถึง ฮ.) ” , กรุงเทพฯ , สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2543. [6].ธาริน สิทธิธรรมชารีและสุรสิทธิ์ คิวประสพภักดี, “คู่มือการเขียน โปรแกรม Advance Visual Basic Version 6.0” กรุงเทพมหานคร , บริษัท ส.เอเชียเพลส (1989) จำกัด, 2544. [7]. สมจิตร อาจอินทร์และงามนิจ อาจอินทร์ , “ระบบฐานข้อมูล” , พิมพ์ครั้งที่6 , ขอนแก่น.ศูนย์หนังสือมหาวิทยาลัยขอนแก่น, 2546. [8].ฉัตรชัย บุษบงค์, “ Poser 4 สร้างสรรค์งาน 3 มิติให้เหมือนจริง”, กรุงเทพมหานคร,บริษัท ซีเอ็ดยูเคชั่น จำกัด มหาชน, 2543. [9]. ไชยันต์สุวรรณชีวะศิริ, “ การรู้จำเสียงพูดภาษาไทยจำนวนคำศัพท์ 500 คำเฉพาะบุคคลโดยใช้ลักษณะบ่งความต่างหน่วยเสียงของพยางค์โดด และโครงข่ายสมองเทียม”,NCSEC, 2001.
  • 6. NCSEC2004 285 8. ภาคผนวก 1. หมวดการทักทาย 1.1 สวัสดี 1.2 ขอบคุณ 1.3 สบายดี 1.4 ไม่สบาย 1.5 ชื่อ 1.6 นามสกุล 1.7 ใช่ 1.8 ไม่ใช่ 1.9 พบกันใหม่ 1.10 คนหูหนวก 1.11 สนุก 1.12 คนหูตึง 1.13 คนปรกติ 1.14 เรียน 1.15 พบ 1.16 ไม่สบายใจ 1.17 จดจำ 2. หมวดเวลา 2.1 เวลา 2.2 เช้า 2.3 กลางวัน 2.4 บ่าย 2.5 เย็น 2.6 กลางคืน 2.7 เที่ยงคืน 2.8 24 ชม. 2.9 ทั้งวัน ทั้งคืน 2.10 ค่ำ 2.11 ปี 3. หมวด วันเดือน ปี 3.1 วันจันทร์ 3.2 วันอังคาร 3.3 วันพุธ 3.4 วันพฤหัสบดี 3.5 วันศุกร์ 3.6 วันเสาร์ 3.7 วันอาทิตย์ 3.8 สัปดาห์ 3.9 วันนี้ 3.10 พรุ่งนี้ 3.11 มะรืนนี้ 3.12 เมื่อวานนี้ 3.13 เมื่อวานซืน 3.14 เดือน 3.15 มกราคม 3.16 กุมภาพันธ์ 3.17 มีนาคมเมษายน 3.18 พฤษภาคม 3.19 มิถุนายน 3.20 กรกฎาคม 3.21 สิงหาคม 3.22 กันยายน 3.23 ตุลาคม 3.24 พฤศจิกายน 3.25 ธันวาคม 3.26 อายุ 3.27 วัน 4. หมวดคำถาม 4.1 ที่ไหน 4.2 อย่างไร 4.3 ทำไม 5. หมวดบุคคล 5.1 บุคคล 5.2 ผู้ใหญ่ 5.3 ผู้ชาย 5.4 เด็ก 5.5 คนชรา 5.6 ป้า 5.7 แฟน 5.8 เพื่อน 5.9 ย่า 5.10 ปู่ 5.11 เขา 5.12 ฉัน 5.13 เธอ 5.14 โสด 5.15 เยาวชน 5.16 หนุ่มสาว 6. หมวดครอบครัว 6.1 ครอบครัว 6.2 บิดา 6.3 มารดา 6.4 พี่ 6.5 น้อง 6.6 ลูก 7. หมวดอาหาร 7.1 ซีอิ๊วดำ 7.2 น้ำปลา 7.3 อาหาร 7.4 เส้นหมี่ 7.5 เส้นเล็ก 7.6 เส้นใหญ่ 7.7 เต้าเจี๊ยว 7.8 ซอสมะเขือเทศ 7.9 น้ำส้มสายชู 8. หมวดร่างกาย 8.1 ลูกกระเดือก 8.2 แขน 8.3 แก้ม 8.4 คาง 8.5 ตา 8.6 คิ้ว 8.7 มือ 8.8 ปาก 8.9 คอ 8.10 จมูก