More Related Content Similar to ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง
Similar to ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง (20) More from Surapol Imi (20) ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง1. File : voice.doc page : 1
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นับถอยหลังสู .....
ระบบสั่งงานคอมพิวเตอรดวยเสียง
สุรพล ศรีบุญทรง
บทความป 2000
แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ
เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร
และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม
มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ
มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ
ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา)
ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย
ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี
ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน
การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ
บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น
ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี
สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น
เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ
ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย
ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ
"Gentleman" "Lady" "Lavatory" หรือ "Rest Room"
และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช
รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง
พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture
Interface) ไดดวย
อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ
สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ
ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน
มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม
ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน
โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา
ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้
โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ
เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ
2. File : voice.doc page : 2
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช
กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น
นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก
การทดสอบโปรแกรม Office 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี
ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่
ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา
มาในชิปเพนเที่ยมทรีได
ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง
คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน
สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time)
ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย
เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน
กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด
ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให
โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ
แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต
"ฮัลโหล ... เทสต"
เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) "
ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร
เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง
เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส,
โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ
บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม
โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon
PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ
ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ
ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก
ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ
ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง
แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ
อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice
Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ
ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)
3. File : voice.doc page : 3
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก
จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว
ความยากงายในการติดตั้ง
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง
จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน
การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง
นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง
การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ
เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน
บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน
เหลานั้นอยูบอยๆ
หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ
VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช
โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให
โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง
โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม
อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา
เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน
เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว
อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง
คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค
สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ
อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic
การฝกโปรแกรมใหจดจําสําเนียงพูด
หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให
โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง
ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค
เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม
เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33”
วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก
ภูมิภาคไหนของประเทศ
สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน
ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น
4. File : voice.doc page : 4
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที
เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท
ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด
ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด
จะแยขนาดไหน)
อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา
ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว
โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่
ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง
ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ
ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่
โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง
ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค
แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ
หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี
ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม
ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที
นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน
มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน
ทั้งนั้น
ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ
สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document
สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ
ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง
ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด
หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให
เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย
เจาะแจะ (Chatter jargon)" เทานั้น)
ความยืดหยุนของโปรแกรม
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม
หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่
เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง
ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด
5. File : voice.doc page : 5
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช
โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก)
สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด
โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (specific lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน
ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน specific lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ
ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ)
อยางไรก็
ตาม ไมวาจะเปนศัพท
แพทย หรือศัพทกฎหมาย
พวกมันลวนแตเปน
ภาษาอังกฤษดวยกันทั้งนั้น
แถมเปนภาษาอังกฤษ
แบบอังกริ้ด อังกฤษ ไมใช
ภาษาอังกฤษแบบอเมริกัน
ที่คนไทยเราคุนหูมากกวา
(เพราะอิทธิพลของสื่อ ซี
เอ็นเอ็น และฮอลลีวูด ?)
หากตองการสั่งงาน
คอมพิวเตอรดวย
ภาษาสากลอื่นๆ ก็คงตอง
ยอมจายสัก 80 ปอนด
หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน
ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก
นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป
เลย)
ความถูกตองแมนยํา
จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง
ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ
ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด
โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน
ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม
(new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก
นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย
6. File : voice.doc page : 6
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่
มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue
twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่
คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล
ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย
กับสําเนียงของคนพูดไปแลว
การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา
กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน
การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่
โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง
ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็
ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม
ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก
เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี
ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ
ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา
การแกไขขอมูล
มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม
เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น
ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก
โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด
การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion
window
โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก
จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม
VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง
ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ
ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ
เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ
(เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ
ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)
7. File : voice.doc page : 7
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
รูปแบบคําสั่ง
โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ
ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก
สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ
ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให
เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต
ขึ้นมาใหอยางอัตโนมัต
โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว
หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ
โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง
ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ
ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad
Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ
ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง
แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต
Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ
บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง
เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา
หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา
หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็
ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด
ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย
แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command
ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง
ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม
NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็
สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน
โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท
ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต
ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร
ทํานองนี้
อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ
โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ
ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท
ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา
8. File : voice.doc page : 8
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่
จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่
เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม
ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได
บทสรุปของโรเจอร แกนน
จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา
โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่
สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน
ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่
รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000)
พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II,
Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู
ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช
ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม
ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ
ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน
อะไรทํานองนั้น
อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ
ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้
Dragon Systems NaturallySpeaking Prefered 4.0
ราคา : 130 ปอนด
ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)
IBM ViaVoice Millenium Standard
ราคา : 40 ปอนด
ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)
L&H VoiceXpress Professional 4.0
ราคา : 120 ปอนด
ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)
9. File : voice.doc page : 9
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
Philips FreeSpeech 2000
ราคา : 79.95 ปอนด
ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com)
อุปกรณรับเสียงก็สําคัญ
อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว
โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป
ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให
ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง
พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น
ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส
ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด
แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ
ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช
ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย
สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง
หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช
โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม
จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา
ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress
Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว
โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180
ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย
หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง
ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน
NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร
เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี
คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย)
นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear
USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง
เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก
ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ
ที่จะปอนเขาสูโปรแกรมสูงที่สุด
10. File : voice.doc page : 10
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต
อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง
คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท
กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล
ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย
จากรับเสียงสูสรางเสียง ?
หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา
จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี
เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง
ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร
ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก
เสียง
คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ
จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว
ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้
ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่
การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ
ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม
คุนเคยกับเสียงดังกลาวมากอน (เสียง
แบบเดียวกับที่เราไดยินเวลาดูหนัง
หุนยนตรุนเกาๆ )
ในระยะหลัง นักวิจัย
จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด
ของมนุษยจริงๆ เขาไปไวในฐานขอมูล
เพื่อจะนํามาประมวลผลเปนคํา และผูก
ประโยคใหมแทน แตก็อีกนั่นแหละ
หลักการสรางเสียงพูดนั้นมีความ
สลับซับซอนมากจนไมอาจจะเห็น
ผลสําเร็จไดในชวงระยะเวลาสั้นๆ
เพราะนักวิจัยจะตองผนวกความรูความ
เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน
คือ จะตองมีพื้นฐานความรูในดานระบบ
คอมพิวเตอร ระบบเสียง และหลักการ
ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"
11. File : voice.doc page : 11
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3
โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย
หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก
ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ
ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง
คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต
อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม
มีการแบงคําแบงประโยค)
ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่
ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง
ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย
แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช
ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด
ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน
กันแลววาแพง)