ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

File : voice.doc page : 1
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นับถอยหลังสู .....
ระบบสั่งงานคอมพิวเตอรดวยเสียง
สุรพล ศรีบุญทรง
บทความป 2000
แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ
เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร
และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม
มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ
มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ
ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา)
ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย
ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี
ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน
การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ
บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น
ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี
สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น
เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ
ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย
ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ
"Gentleman" "Lady" "Lavatory" หรือ "Rest Room"
และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช
รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง
พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture
Interface) ไดดวย
อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ
สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ
ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน
มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม
ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน
โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา
ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้
โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ
เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ

พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช
กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น
นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก
การทดสอบโปรแกรม Ofﬁce 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี
ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่
ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา
มาในชิปเพนเที่ยมทรีได
ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง
คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน
สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time)
ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย
เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน
กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด
ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให
โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ
แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต
"ฮัลโหล ... เทสต"
เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) "
ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร
เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง
เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส,
โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ
บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม
โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon
PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ
ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ
ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก
ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ
ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง
แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ
อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice
Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ
ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)

บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก
จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว
ความยากงายในการติดตั้ง
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง
จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน
การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง
นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง
การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ
เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน
บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน
เหลานั้นอยูบอยๆ
หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ
VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช
โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให
โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง
โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม
อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา
เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน
เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว
อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง
คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค
สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ
อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic
การฝกโปรแกรมใหจดจําสําเนียงพูด
หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให
โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง
ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค
เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม
เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33”
วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก
ภูมิภาคไหนของประเทศ
สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน
ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น

โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที
เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท
ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด
ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด
จะแยขนาดไหน)
อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา
ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว
โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่
ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง
ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ
ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่
โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง
ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค
แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ
หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี
ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม
ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที
นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน
มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน
ทั้งนั้น
ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ
สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document
สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ
ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง
ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด
หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให
เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย
เจาะแจะ (Chatter jargon)" เทานั้น)
ความยืดหยุนของโปรแกรม
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม
หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่
เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง
ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด

สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช
โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก)
สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด
โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (speciﬁc lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน
ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน speciﬁc lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ
ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ)
อยางไรก็
ตาม ไมวาจะเปนศัพท
แพทย หรือศัพทกฎหมาย
พวกมันลวนแตเปน
ภาษาอังกฤษดวยกันทั้งนั้น
แถมเปนภาษาอังกฤษ
แบบอังกริ้ด อังกฤษ ไมใช
ภาษาอังกฤษแบบอเมริกัน
ที่คนไทยเราคุนหูมากกวา
(เพราะอิทธิพลของสื่อ ซี
เอ็นเอ็น และฮอลลีวูด ?)
หากตองการสั่งงาน
คอมพิวเตอรดวย
ภาษาสากลอื่นๆ ก็คงตอง
ยอมจายสัก 80 ปอนด
หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน
ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก
นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป
เลย)
ความถูกตองแมนยํา
จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง
ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ
ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด
โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน
ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม
(new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก
นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย

นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่
มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue
twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่
คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล
ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย
กับสําเนียงของคนพูดไปแลว
การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา
กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน
การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่
โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง
ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็
ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม
ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก
เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี
ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ
ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา
การแกไขขอมูล
มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม
เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น
ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก
โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด
การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion
window
โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก
จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม
VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง
ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ
ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ
เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ
(เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ
ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)

รูปแบบคําสั่ง
โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ
ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก
สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ
ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให
เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต
ขึ้นมาใหอยางอัตโนมัต
โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว
หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ
โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง
ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ
ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad
Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ
ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง
แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต
Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ
บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง
เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา
หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา
หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็
ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด
ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย
แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command
ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง
ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม
NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็
สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน
โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท
ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต
ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร
ทํานองนี้
อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ
โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ
ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท
ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา

โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่
จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่
เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม
ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได
บทสรุปของโรเจอร แกนน
จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา
โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่
สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน
ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่
รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000)
พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II,
Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู
ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช
ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม
ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ
ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน
อะไรทํานองนั้น
อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ
ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้

Dragon Systems NaturallySpeaking Prefered 4.0
ราคา : 130 ปอนด
ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)

IBM ViaVoice Millenium Standard
ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)

L&H VoiceXpress Professional 4.0
ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)


Philips FreeSpeech 2000
ราคา : 79.95 ปอนด
ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com)
อุปกรณรับเสียงก็สําคัญ
อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว
โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป
ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให
ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง
พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น
ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส
ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด
แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ
ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช
ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย
สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง
หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช
โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม
จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา
ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress
Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว
โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180
ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย
หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง
ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน
NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร
เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี
คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย)
นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear
USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง
เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก
ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ
ที่จะปอนเขาสูโปรแกรมสูงที่สุด

อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต
อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง
คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท
กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล
ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย
จากรับเสียงสูสรางเสียง ?
หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา
จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี
เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง
ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร
ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก
เสียง
คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ
จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว
ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้
ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่
การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ
ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม
คุนเคยกับเสียงดังกลาวมากอน (เสียง
แบบเดียวกับที่เราไดยินเวลาดูหนัง
หุนยนตรุนเกาๆ )
ในระยะหลัง นักวิจัย
จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด
ของมนุษยจริงๆ เขาไปไวในฐานขอมูล
เพื่อจะนํามาประมวลผลเปนคํา และผูก
ประโยคใหมแทน แตก็อีกนั่นแหละ
หลักการสรางเสียงพูดนั้นมีความ
สลับซับซอนมากจนไมอาจจะเห็น
ผลสําเร็จไดในชวงระยะเวลาสั้นๆ
เพราะนักวิจัยจะตองผนวกความรูความ
เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน
คือ จะตองมีพื้นฐานความรูในดานระบบ
คอมพิวเตอร ระบบเสียง และหลักการ
ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"

เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3
โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย
หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก
ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ
ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง
คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต
อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม
มีการแบงคําแบงประโยค)
ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่
ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง
ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย
แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช
ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด
ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน
กันแลววาแพง)

ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

More Related Content

What's hot

Similar to ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

More from Surapol Imi

ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง