File : voice.doc page : 1
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นับถอยหลังสู .....
ระบบสั่งงานคอมพิวเตอรดวยเสียง
สุรพล ศรีบุญทรง
บทความป 2000
แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ
เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร
และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม
มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ
มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ
ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา)
ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย
ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี
ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน
การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ
บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น
ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี
สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น
เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ
ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย
ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ
"Gentleman" "Lady" "Lavatory" หรือ "Rest Room"
และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช
รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง
พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture
Interface) ไดดวย
อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ
สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ
ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน
มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม
ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน
โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา
ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้
โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ
เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ
File : voice.doc page : 2
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช
กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น
นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก
การทดสอบโปรแกรม Office 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี
ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่
ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา
มาในชิปเพนเที่ยมทรีได
ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง
คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน
สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time)
ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย
เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน
กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด
ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให
โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ
แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต
"ฮัลโหล ... เทสต"
เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) "
ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร
เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง
เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส,
โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ
บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม
โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon
PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ
ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ
ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก
ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ
ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง
แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ
อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice
Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ
ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)
File : voice.doc page : 3
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก
จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว
ความยากงายในการติดตั้ง
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง
จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน
การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง
นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง
การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ
เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน
บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน
เหลานั้นอยูบอยๆ
หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ
VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช
โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให
โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง
โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม
อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา
เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน
เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว
อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง
คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค
สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ
อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic
การฝกโปรแกรมใหจดจําสําเนียงพูด
หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให
โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง
ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค
เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม
เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33”
วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก
ภูมิภาคไหนของประเทศ
สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน
ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น
File : voice.doc page : 4
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที
เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท
ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด
ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด
จะแยขนาดไหน)
อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา
ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว
โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่
ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง
ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ
ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่
โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง
ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค
แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ
หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี
ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม
ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที
นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน
มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน
ทั้งนั้น
ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ
สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document
สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ
ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง
ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด
หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให
เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย
เจาะแจะ (Chatter jargon)" เทานั้น)
ความยืดหยุนของโปรแกรม
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม
หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่
เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง
ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด
File : voice.doc page : 5
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช
โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก)
สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด
โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (specific lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน
ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน specific lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ
ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ)
อยางไรก็
ตาม ไมวาจะเปนศัพท
แพทย หรือศัพทกฎหมาย
พวกมันลวนแตเปน
ภาษาอังกฤษดวยกันทั้งนั้น
แถมเปนภาษาอังกฤษ
แบบอังกริ้ด อังกฤษ ไมใช
ภาษาอังกฤษแบบอเมริกัน
ที่คนไทยเราคุนหูมากกวา
(เพราะอิทธิพลของสื่อ ซี
เอ็นเอ็น และฮอลลีวูด ?)
หากตองการสั่งงาน
คอมพิวเตอรดวย
ภาษาสากลอื่นๆ ก็คงตอง
ยอมจายสัก 80 ปอนด
หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน
ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก
นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป
เลย)
ความถูกตองแมนยํา
จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง
ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ
ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด
โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน
ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม
(new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก
นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย
File : voice.doc page : 6
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่
มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue
twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่
คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล
ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย
กับสําเนียงของคนพูดไปแลว
การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา
กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน
การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่
โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง
ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็
ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม
ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก
เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี
ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ
ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา
การแกไขขอมูล
มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม
เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น
ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก
โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด
การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion
window
โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก
จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม
VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง
ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ
ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ
เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ
(เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ
ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)
File : voice.doc page : 7
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
รูปแบบคําสั่ง
โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ
ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก
สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ
ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให
เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต
ขึ้นมาใหอยางอัตโนมัต
โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว
หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ
โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง
ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ
ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad
Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ
ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง
แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต
Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ
บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง
เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา
หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา
หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็
ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด
ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย
แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command
ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง
ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม
NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็
สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน
โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท
ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต
ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร
ทํานองนี้
อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ
โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ
ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท
ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา
File : voice.doc page : 8
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่
จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่
เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม
ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได
บทสรุปของโรเจอร แกนน
จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา
โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่
สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน
ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่
รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000)
พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II,
Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู
ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช
ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม
ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ
ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน
อะไรทํานองนั้น
อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ
ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้

Dragon Systems NaturallySpeaking Prefered 4.0
ราคา : 130 ปอนด
ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)

IBM ViaVoice Millenium Standard
ราคา : 40 ปอนด
ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)

L&H VoiceXpress Professional 4.0
ราคา : 120 ปอนด
ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)
File : voice.doc page : 9
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol

Philips FreeSpeech 2000
ราคา : 79.95 ปอนด
ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com)
อุปกรณรับเสียงก็สําคัญ
อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว
โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป
ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให
ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง
พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น
ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส
ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด
แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ
ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช
ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย
สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง
หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช
โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม
จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา
ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress
Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว
โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180
ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย
หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง
ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน
NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร
เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี
คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย)
นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear
USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง
เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก
ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ
ที่จะปอนเขาสูโปรแกรมสูงที่สุด
File : voice.doc page : 10
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต
อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง
คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท
กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล
ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย
จากรับเสียงสูสรางเสียง ?
หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา
จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี
เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง
ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร
ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก
เสียง
คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ
จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว
ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้
ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่
การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ
ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม
คุนเคยกับเสียงดังกลาวมากอน (เสียง
แบบเดียวกับที่เราไดยินเวลาดูหนัง
หุนยนตรุนเกาๆ )
ในระยะหลัง นักวิจัย
จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด
ของมนุษยจริงๆ เขาไปไวในฐานขอมูล
เพื่อจะนํามาประมวลผลเปนคํา และผูก
ประโยคใหมแทน แตก็อีกนั่นแหละ
หลักการสรางเสียงพูดนั้นมีความ
สลับซับซอนมากจนไมอาจจะเห็น
ผลสําเร็จไดในชวงระยะเวลาสั้นๆ
เพราะนักวิจัยจะตองผนวกความรูความ
เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน
คือ จะตองมีพื้นฐานความรูในดานระบบ
คอมพิวเตอร ระบบเสียง และหลักการ
ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"
File : voice.doc page : 11
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3
โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย
หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก
ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ
ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง
คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต
อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม
มีการแบงคําแบงประโยค)
ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่
ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง
ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย
แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช
ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด
ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน
กันแลววาแพง)

ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

  • 1.
    File : voice.docpage : 1 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol นับถอยหลังสู ..... ระบบสั่งงานคอมพิวเตอรดวยเสียง สุรพล ศรีบุญทรง บทความป 2000 แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา) ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ "Gentleman" "Lady" "Lavatory" หรือ "Rest Room" และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture Interface) ไดดวย อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้ โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ
  • 2.
    File : voice.docpage : 2 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก การทดสอบโปรแกรม Office 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่ ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา มาในชิปเพนเที่ยมทรีได ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time) ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต "ฮัลโหล ... เทสต" เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) " ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส, โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)
  • 3.
    File : voice.docpage : 3 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว ความยากงายในการติดตั้ง โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน เหลานั้นอยูบอยๆ หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic การฝกโปรแกรมใหจดจําสําเนียงพูด หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33” วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก ภูมิภาคไหนของประเทศ สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น
  • 4.
    File : voice.docpage : 4 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด จะแยขนาดไหน) อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่ ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่ โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน ทั้งนั้น ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย เจาะแจะ (Chatter jargon)" เทานั้น) ความยืดหยุนของโปรแกรม โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่ เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด
  • 5.
    File : voice.docpage : 5 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก) สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (specific lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน specific lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ) อยางไรก็ ตาม ไมวาจะเปนศัพท แพทย หรือศัพทกฎหมาย พวกมันลวนแตเปน ภาษาอังกฤษดวยกันทั้งนั้น แถมเปนภาษาอังกฤษ แบบอังกริ้ด อังกฤษ ไมใช ภาษาอังกฤษแบบอเมริกัน ที่คนไทยเราคุนหูมากกวา (เพราะอิทธิพลของสื่อ ซี เอ็นเอ็น และฮอลลีวูด ?) หากตองการสั่งงาน คอมพิวเตอรดวย ภาษาสากลอื่นๆ ก็คงตอง ยอมจายสัก 80 ปอนด หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป เลย) ความถูกตองแมนยํา จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม (new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย
  • 6.
    File : voice.docpage : 6 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่ มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่ คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย กับสําเนียงของคนพูดไปแลว การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่ โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็ ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา การแกไขขอมูล มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion window โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ (เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)
  • 7.
    File : voice.docpage : 7 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol รูปแบบคําสั่ง โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต ขึ้นมาใหอยางอัตโนมัต โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็ ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็ สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร ทํานองนี้ อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา
  • 8.
    File : voice.docpage : 8 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่ จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่ เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได บทสรุปของโรเจอร แกนน จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่ สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่ รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000) พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II, Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน อะไรทํานองนั้น อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้  Dragon Systems NaturallySpeaking Prefered 4.0 ราคา : 130 ปอนด ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)  IBM ViaVoice Millenium Standard ราคา : 40 ปอนด ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)  L&H VoiceXpress Professional 4.0 ราคา : 120 ปอนด ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)
  • 9.
    File : voice.docpage : 9 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol  Philips FreeSpeech 2000 ราคา : 79.95 ปอนด ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com) อุปกรณรับเสียงก็สําคัญ อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180 ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย) นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ ที่จะปอนเขาสูโปรแกรมสูงที่สุด
  • 10.
    File : voice.docpage : 10 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย จากรับเสียงสูสรางเสียง ? หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก เสียง คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้ ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่ การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม คุนเคยกับเสียงดังกลาวมากอน (เสียง แบบเดียวกับที่เราไดยินเวลาดูหนัง หุนยนตรุนเกาๆ ) ในระยะหลัง นักวิจัย จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด ของมนุษยจริงๆ เขาไปไวในฐานขอมูล เพื่อจะนํามาประมวลผลเปนคํา และผูก ประโยคใหมแทน แตก็อีกนั่นแหละ หลักการสรางเสียงพูดนั้นมีความ สลับซับซอนมากจนไมอาจจะเห็น ผลสําเร็จไดในชวงระยะเวลาสั้นๆ เพราะนักวิจัยจะตองผนวกความรูความ เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน คือ จะตองมีพื้นฐานความรูในดานระบบ คอมพิวเตอร ระบบเสียง และหลักการ ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"
  • 11.
    File : voice.docpage : 11 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3 โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม มีการแบงคําแบงประโยค) ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่ ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน กันแลววาแพง)