SlideShare a Scribd company logo
File : voice.doc page : 1
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นับถอยหลังสู .....
ระบบสั่งงานคอมพิวเตอรดวยเสียง
สุรพล ศรีบุญทรง
บทความป 2000
แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ
เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร
และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม
มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ
มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ
ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา)
ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย
ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี
ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน
การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ
บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น
ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี
สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น
เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ
ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย
ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ
"Gentleman" "Lady" "Lavatory" หรือ "Rest Room"
และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช
รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง
พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture
Interface) ไดดวย
อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ
สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ
ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน
มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม
ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน
โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา
ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้
โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ
เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ
File : voice.doc page : 2
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช
กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น
นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก
การทดสอบโปรแกรม Office 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี
ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่
ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา
มาในชิปเพนเที่ยมทรีได
ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง
คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน
สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time)
ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย
เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน
กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด
ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให
โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ
แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต
"ฮัลโหล ... เทสต"
เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) "
ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร
เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง
เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส,
โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ
บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม
โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon
PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ
ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ
ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก
ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ
ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง
แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ
อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice
Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ
ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)
File : voice.doc page : 3
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก
จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว
ความยากงายในการติดตั้ง
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง
จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน
การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง
นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง
การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ
เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน
บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน
เหลานั้นอยูบอยๆ
หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ
VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช
โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให
โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง
โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม
อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา
เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน
เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว
อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง
คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค
สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ
อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic
การฝกโปรแกรมใหจดจําสําเนียงพูด
หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให
โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง
ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค
เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม
เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33”
วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก
ภูมิภาคไหนของประเทศ
สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน
ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น
File : voice.doc page : 4
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที
เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท
ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด
ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด
จะแยขนาดไหน)
อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา
ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว
โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่
ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง
ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ
ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่
โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง
ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค
แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ
หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี
ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม
ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที
นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน
มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน
ทั้งนั้น
ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ
สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document
สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ
ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง
ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด
หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให
เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย
เจาะแจะ (Chatter jargon)" เทานั้น)
ความยืดหยุนของโปรแกรม
โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม
หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่
เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง
ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด
File : voice.doc page : 5
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช
โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก)
สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด
โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (specific lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน
ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน specific lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ
ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ)
อยางไรก็
ตาม ไมวาจะเปนศัพท
แพทย หรือศัพทกฎหมาย
พวกมันลวนแตเปน
ภาษาอังกฤษดวยกันทั้งนั้น
แถมเปนภาษาอังกฤษ
แบบอังกริ้ด อังกฤษ ไมใช
ภาษาอังกฤษแบบอเมริกัน
ที่คนไทยเราคุนหูมากกวา
(เพราะอิทธิพลของสื่อ ซี
เอ็นเอ็น และฮอลลีวูด ?)
หากตองการสั่งงาน
คอมพิวเตอรดวย
ภาษาสากลอื่นๆ ก็คงตอง
ยอมจายสัก 80 ปอนด
หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน
ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก
นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป
เลย)
ความถูกตองแมนยํา
จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง
ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ
ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด
โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน
ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม
(new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก
นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย
File : voice.doc page : 6
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่
มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue
twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่
คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล
ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย
กับสําเนียงของคนพูดไปแลว
การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา
กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน
การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่
โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง
ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็
ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม
ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก
เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี
ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ
ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา
การแกไขขอมูล
มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม
เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น
ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก
โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด
การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion
window
โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก
จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม
VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง
ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ
ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ
เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ
(เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ
ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)
File : voice.doc page : 7
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
รูปแบบคําสั่ง
โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ
ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก
สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ
ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให
เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต
ขึ้นมาใหอยางอัตโนมัต
โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว
หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ
โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง
ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ
ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad
Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ
ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง
แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต
Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ
บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง
เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา
หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา
หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็
ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด
ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย
แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command
ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง
ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม
NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็
สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน
โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท
ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต
ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร
ทํานองนี้
อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ
โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ
ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท
ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา
File : voice.doc page : 8
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่
จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่
เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม
ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได
บทสรุปของโรเจอร แกนน
จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา
โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่
สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน
ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่
รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000)
พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II,
Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู
ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช
ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม
ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ
ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน
อะไรทํานองนั้น
อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ
ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้

Dragon Systems NaturallySpeaking Prefered 4.0
ราคา : 130 ปอนด
ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)

IBM ViaVoice Millenium Standard
ราคา : 40 ปอนด
ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)

L&H VoiceXpress Professional 4.0
ราคา : 120 ปอนด
ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)
File : voice.doc page : 9
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol

Philips FreeSpeech 2000
ราคา : 79.95 ปอนด
ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com)
อุปกรณรับเสียงก็สําคัญ
อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว
โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป
ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให
ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง
พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น
ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส
ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด
แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ
ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช
ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย
สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง
หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช
โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม
จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา
ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress
Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว
โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180
ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย
หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง
ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน
NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร
เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี
คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย)
นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear
USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง
เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก
ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ
ที่จะปอนเขาสูโปรแกรมสูงที่สุด
File : voice.doc page : 10
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต
อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง
คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท
กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล
ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย
จากรับเสียงสูสรางเสียง ?
หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา
จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี
เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง
ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร
ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก
เสียง
คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ
จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว
ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้
ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่
การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ
ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม
คุนเคยกับเสียงดังกลาวมากอน (เสียง
แบบเดียวกับที่เราไดยินเวลาดูหนัง
หุนยนตรุนเกาๆ )
ในระยะหลัง นักวิจัย
จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด
ของมนุษยจริงๆ เขาไปไวในฐานขอมูล
เพื่อจะนํามาประมวลผลเปนคํา และผูก
ประโยคใหมแทน แตก็อีกนั่นแหละ
หลักการสรางเสียงพูดนั้นมีความ
สลับซับซอนมากจนไมอาจจะเห็น
ผลสําเร็จไดในชวงระยะเวลาสั้นๆ
เพราะนักวิจัยจะตองผนวกความรูความ
เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน
คือ จะตองมีพื้นฐานความรูในดานระบบ
คอมพิวเตอร ระบบเสียง และหลักการ
ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"
File : voice.doc page : 11
Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol
เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3
โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย
หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก
ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ
ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง
คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต
อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม
มีการแบงคําแบงประโยค)
ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่
ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง
ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย
แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช
ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด
ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน
กันแลววาแพง)

More Related Content

What's hot

ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์
ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์
ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์Tay Chaloeykrai
 
คำศัพท์เทคโนโลยีสารสนเทศ
คำศัพท์เทคโนโลยีสารสนเทศคำศัพท์เทคโนโลยีสารสนเทศ
คำศัพท์เทคโนโลยีสารสนเทศ
Phatthira Thongdonmuean
 
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
Phicha Pintharong
 
อบรมคอมพิวเตอร์เบื้องต้น
อบรมคอมพิวเตอร์เบื้องต้นอบรมคอมพิวเตอร์เบื้องต้น
อบรมคอมพิวเตอร์เบื้องต้นbigman27skydrive
 
Computer and Internet
Computer and InternetComputer and Internet
Computer and Internet
vayalun
 
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศ
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศแนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศ
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศLupin F'n
 
Computer
ComputerComputer
Computernuting
 
คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์เบื้องต้นคอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์เบื้องต้นNOiy Ka
 
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้นคอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
พัน พัน
 
บทที่ 1
บทที่ 1บทที่ 1
บทที่ 1
manit akkhachat
 
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4Mevenwen Singollo
 
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
Bhisut Boonyen
 
บทที่ 4 ระบบเครือข่าย network
บทที่ 4 ระบบเครือข่าย networkบทที่ 4 ระบบเครือข่าย network
บทที่ 4 ระบบเครือข่าย networkBeauso English
 
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์Nattapon
 
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์supatra2011
 
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์konkamon
 

What's hot (19)

ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์
ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์
ใบความรู้ที่ 2 หลักการพื้นฐานของคอมพิวเตอร์
 
คำศัพท์เทคโนโลยีสารสนเทศ
คำศัพท์เทคโนโลยีสารสนเทศคำศัพท์เทคโนโลยีสารสนเทศ
คำศัพท์เทคโนโลยีสารสนเทศ
 
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
เอกสารประกอบการสอน ซอฟต์แวร์ และฮาร์ดแวร์
 
อบรมคอมพิวเตอร์เบื้องต้น
อบรมคอมพิวเตอร์เบื้องต้นอบรมคอมพิวเตอร์เบื้องต้น
อบรมคอมพิวเตอร์เบื้องต้น
 
Computer and Internet
Computer and InternetComputer and Internet
Computer and Internet
 
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศ
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศแนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศ
แนวข้อสอบคอมพิวเตอร์และเทคโนโลยีสารสนเทศ
 
Computer
ComputerComputer
Computer
 
คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์เบื้องต้นคอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์เบื้องต้น
 
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้นคอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
คอมพิวเตอร์ ม.1 คอมพิวเตอร์เบื้องต้น
 
บทที่ 1
บทที่ 1บทที่ 1
บทที่ 1
 
หน่วยที่1
หน่วยที่1หน่วยที่1
หน่วยที่1
 
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4
แนวข้อสอบบรรจุครูผู้ช่วย วิชาเอกคอมพิวเตอร์ ชุดที่ 4
 
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
หน่วยการเรียนรู้ที่ 1 ซอฟต์แวร์และการเลือกใช้
 
บทที่ 4 ระบบเครือข่าย network
บทที่ 4 ระบบเครือข่าย networkบทที่ 4 ระบบเครือข่าย network
บทที่ 4 ระบบเครือข่าย network
 
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์
ใบความรู้ที่ 1 ระบบการทำงานของคอมพิวเตอร์
 
Computer
ComputerComputer
Computer
 
ใบงาน 1 คอมพิวเตอร์เบื้องต้น
ใบงาน 1 คอมพิวเตอร์เบื้องต้นใบงาน 1 คอมพิวเตอร์เบื้องต้น
ใบงาน 1 คอมพิวเตอร์เบื้องต้น
 
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
สรุปความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
 
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
 

Similar to ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

Ch03 handout
Ch03 handoutCh03 handout
Ch03 handoutNaret Su
 
Ch02 handout
Ch02 handoutCh02 handout
Ch02 handoutNaret Su
 
ซอฟต์แวร์และภาษาคอมพิวเตอร์
ซอฟต์แวร์และภาษาคอมพิวเตอร์ซอฟต์แวร์และภาษาคอมพิวเตอร์
ซอฟต์แวร์และภาษาคอมพิวเตอร์
Dr.Kridsanapong Lertbumroongchai
 
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสารเทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
สราวุฒิ จบศรี
 
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่นโครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่นwiratchadaporn
 
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่นโครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
kvcthidarat
 
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
jamiezaa123
 
Software 7
Software 7Software 7
Software 7paween
 
ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์
Saranya Sirimak
 
ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์
Saranya Sirimak
 
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสาร
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสารองค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสาร
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสารปิยะดนัย วิเคียน
 
ระบบปฎิบัติการ ปวช
ระบบปฎิบัติการ ปวชระบบปฎิบัติการ ปวช
ระบบปฎิบัติการ ปวช
ปภัสรา ปัญญาวง
 
เทคโนโลยีคอมพิวเตอร์
เทคโนโลยีคอมพิวเตอร์เทคโนโลยีคอมพิวเตอร์
เทคโนโลยีคอมพิวเตอร์prakaipet
 
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์Pokypoky Leonardo
 
Dc102 Understanding Digital Media-System Computer
Dc102 Understanding Digital Media-System ComputerDc102 Understanding Digital Media-System Computer
Dc102 Understanding Digital Media-System Computerajpeerawich
 
Report Thailand ICT Market 2011 and Outlook 2012
Report Thailand ICT Market 2011 and Outlook 2012Report Thailand ICT Market 2011 and Outlook 2012
Report Thailand ICT Market 2011 and Outlook 2012
NECTEC
 

Similar to ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง (20)

Learnning 04
Learnning 04Learnning 04
Learnning 04
 
Ch03 handout
Ch03 handoutCh03 handout
Ch03 handout
 
Ch02 handout
Ch02 handoutCh02 handout
Ch02 handout
 
ซอฟต์แวร์และภาษาคอมพิวเตอร์
ซอฟต์แวร์และภาษาคอมพิวเตอร์ซอฟต์แวร์และภาษาคอมพิวเตอร์
ซอฟต์แวร์และภาษาคอมพิวเตอร์
 
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสารเทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
เทคโนโลยีคอมพิวเตอร์เพื่อการสื่อสาร
 
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่นโครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงานระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
 
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่นโครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
โครงงาน ระดับ ปวช. วิทยาลัยอาชีวศึกษาขอนแก่น
 
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
โครงงานคอมพิวเตอร์ เผยแพร่ความรู้ออนไลน์ เรื่อง ระบบปฏิบัติการ
 
Jamie
JamieJamie
Jamie
 
Software 7
Software 7Software 7
Software 7
 
ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์
 
ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์ศัพท์เทคโนสมบูรณ์
ศัพท์เทคโนสมบูรณ์
 
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสาร
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสารองค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสาร
องค์ประกอบของเทคโนโลยีสารสนเทศและการสื่อสาร
 
ระบบปฎิบัติการ ปวช
ระบบปฎิบัติการ ปวชระบบปฎิบัติการ ปวช
ระบบปฎิบัติการ ปวช
 
เทคโนโลยีคอมพิวเตอร์
เทคโนโลยีคอมพิวเตอร์เทคโนโลยีคอมพิวเตอร์
เทคโนโลยีคอมพิวเตอร์
 
Learnning02
Learnning02Learnning02
Learnning02
 
Computer
ComputerComputer
Computer
 
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์
บทที่ 3. คอมพิวเตอร์ซอฟต์แวร์
 
Dc102 Understanding Digital Media-System Computer
Dc102 Understanding Digital Media-System ComputerDc102 Understanding Digital Media-System Computer
Dc102 Understanding Digital Media-System Computer
 
Report Thailand ICT Market 2011 and Outlook 2012
Report Thailand ICT Market 2011 and Outlook 2012Report Thailand ICT Market 2011 and Outlook 2012
Report Thailand ICT Market 2011 and Outlook 2012
 

More from Surapol Imi

ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษาตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
Surapol Imi
 
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาดแนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
Surapol Imi
 
การประมาณราคาก่อสร้างและดูแลห้องสะอาด
การประมาณราคาก่อสร้างและดูแลห้องสะอาดการประมาณราคาก่อสร้างและดูแลห้องสะอาด
การประมาณราคาก่อสร้างและดูแลห้องสะอาด
Surapol Imi
 
1ก่อกำเนิดมนุษย์
1ก่อกำเนิดมนุษย์1ก่อกำเนิดมนุษย์
1ก่อกำเนิดมนุษย์
Surapol Imi
 
การเปลี่ยนแปลงหลังการตาย
การเปลี่ยนแปลงหลังการตายการเปลี่ยนแปลงหลังการตาย
การเปลี่ยนแปลงหลังการตาย
Surapol Imi
 
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้านเคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
Surapol Imi
 
เคล็ดลับวินโดวส์ ไอทีซอฟต์ ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
เคล็ดลับวินโดวส์  ไอทีซอฟต์   ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102 เคล็ดลับวินโดวส์  ไอทีซอฟต์   ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
เคล็ดลับวินโดวส์ ไอทีซอฟต์ ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
Surapol Imi
 
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
Surapol Imi
 
แนะวิธีเปิดร้านบนอินเทอร์เน็ต
แนะวิธีเปิดร้านบนอินเทอร์เน็ตแนะวิธีเปิดร้านบนอินเทอร์เน็ต
แนะวิธีเปิดร้านบนอินเทอร์เน็ต
Surapol Imi
 
Personal videoconference system
Personal videoconference systemPersonal videoconference system
Personal videoconference system
Surapol Imi
 
ปกิณกะคดีในแวดวงพีซีปี1998
ปกิณกะคดีในแวดวงพีซีปี1998ปกิณกะคดีในแวดวงพีซีปี1998
ปกิณกะคดีในแวดวงพีซีปี1998
Surapol Imi
 
Van หนึ่งในธุรกิจมาแรงของสหรัฐ
Van  หนึ่งในธุรกิจมาแรงของสหรัฐVan  หนึ่งในธุรกิจมาแรงของสหรัฐ
Van หนึ่งในธุรกิจมาแรงของสหรัฐ
Surapol Imi
 
ศึกหลายด้านของไมโครซอฟท์
ศึกหลายด้านของไมโครซอฟท์ศึกหลายด้านของไมโครซอฟท์
ศึกหลายด้านของไมโครซอฟท์
Surapol Imi
 
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคนTelecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
Surapol Imi
 
Realtime computing
Realtime computingRealtime computing
Realtime computing
Surapol Imi
 
Psion vs win ce
Psion vs  win ce Psion vs  win ce
Psion vs win ce
Surapol Imi
 
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
Surapol Imi
 
อุปกรณ์ลูกผสมPctv
อุปกรณ์ลูกผสมPctvอุปกรณ์ลูกผสมPctv
อุปกรณ์ลูกผสมPctv
Surapol Imi
 
PCI local bus
PCI  local busPCI  local bus
PCI local bus
Surapol Imi
 
คอมพิวเตอร์ปี 2000
คอมพิวเตอร์ปี 2000คอมพิวเตอร์ปี 2000
คอมพิวเตอร์ปี 2000
Surapol Imi
 

More from Surapol Imi (20)

ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษาตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
ตำแหน่งทางวิชาการกับคุณภาพอุดมศึกษา
 
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาดแนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
แนวทางสำหรับผู้ต้องการลดฝุ่นในห้องสะอาด
 
การประมาณราคาก่อสร้างและดูแลห้องสะอาด
การประมาณราคาก่อสร้างและดูแลห้องสะอาดการประมาณราคาก่อสร้างและดูแลห้องสะอาด
การประมาณราคาก่อสร้างและดูแลห้องสะอาด
 
1ก่อกำเนิดมนุษย์
1ก่อกำเนิดมนุษย์1ก่อกำเนิดมนุษย์
1ก่อกำเนิดมนุษย์
 
การเปลี่ยนแปลงหลังการตาย
การเปลี่ยนแปลงหลังการตายการเปลี่ยนแปลงหลังการตาย
การเปลี่ยนแปลงหลังการตาย
 
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้านเคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
เคล็ดลับวินโดวส์ ตอน เก็บเบี้ยใต้ถุนร้าน
 
เคล็ดลับวินโดวส์ ไอทีซอฟต์ ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
เคล็ดลับวินโดวส์  ไอทีซอฟต์   ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102 เคล็ดลับวินโดวส์  ไอทีซอฟต์   ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
เคล็ดลับวินโดวส์ ไอทีซอฟต์ ปีที่ 7 ฉบับที่ 81 ธ.ค. 2541 87-102
 
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
เมื่อต้องใช้เครื่องแมคอินทอชรันวินโดวส์
 
แนะวิธีเปิดร้านบนอินเทอร์เน็ต
แนะวิธีเปิดร้านบนอินเทอร์เน็ตแนะวิธีเปิดร้านบนอินเทอร์เน็ต
แนะวิธีเปิดร้านบนอินเทอร์เน็ต
 
Personal videoconference system
Personal videoconference systemPersonal videoconference system
Personal videoconference system
 
ปกิณกะคดีในแวดวงพีซีปี1998
ปกิณกะคดีในแวดวงพีซีปี1998ปกิณกะคดีในแวดวงพีซีปี1998
ปกิณกะคดีในแวดวงพีซีปี1998
 
Van หนึ่งในธุรกิจมาแรงของสหรัฐ
Van  หนึ่งในธุรกิจมาแรงของสหรัฐVan  หนึ่งในธุรกิจมาแรงของสหรัฐ
Van หนึ่งในธุรกิจมาแรงของสหรัฐ
 
ศึกหลายด้านของไมโครซอฟท์
ศึกหลายด้านของไมโครซอฟท์ศึกหลายด้านของไมโครซอฟท์
ศึกหลายด้านของไมโครซอฟท์
 
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคนTelecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
Telecommuting เมื่อออฟฟิซเป็นฝ่ายวิ่งมาหาคน
 
Realtime computing
Realtime computingRealtime computing
Realtime computing
 
Psion vs win ce
Psion vs  win ce Psion vs  win ce
Psion vs win ce
 
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
สุดยอดประดิษฐกรรมและการค้นพบแห่งปี 96
 
อุปกรณ์ลูกผสมPctv
อุปกรณ์ลูกผสมPctvอุปกรณ์ลูกผสมPctv
อุปกรณ์ลูกผสมPctv
 
PCI local bus
PCI  local busPCI  local bus
PCI local bus
 
คอมพิวเตอร์ปี 2000
คอมพิวเตอร์ปี 2000คอมพิวเตอร์ปี 2000
คอมพิวเตอร์ปี 2000
 

ระบบสั่งงานคอมพิวเตอร์ด้วยเสียง

  • 1. File : voice.doc page : 1 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol นับถอยหลังสู ..... ระบบสั่งงานคอมพิวเตอรดวยเสียง สุรพล ศรีบุญทรง บทความป 2000 แตไหนแตไรมา การใชงานคอมพิวเตอรมักถูกจํากัดอยูกับอุปกรณอินพุตแค 2 อยาง คือ คียบอรด กับ เมาส หรือถาจะมีการพลิกแพลงออกไปบางเปน จอยสติ้ก แทร็กบอล ปากกาอิเล็กทรอนิกส สแกนเนอร ดิจิไทซเซอร และกลองดิจิตัล มันก็ยังคงจํากัดรูปแบบการใชงานอยูที่การใชนิ้วควบคุม สงผลใหเกิดคําถามขึ้นในใจของผูเขียนวา ทําไม มนุษยถึงตองถูกจํากัดรูปแบบการสื่อสารกับเครื่องคอมพิวเตอรดวยนิ้วมือเทานั้น ทั้งที่รูปแบบการสื่อสารตามปรกติของ มนุษยนั้นประกอบไปดวยการแสดงออกทางรางกายหลากหลายรูปแบบ มีทั้งการสื่อสารผานภาษาพูดภาษาเขียน (วัจนะ ภาษา) และการสื่อสารดวยหนาตาทาทาง ไมตองใชภาษา (อวัจนะภาษา) ลําพังแคการสื่อสารดวยภาษานั้น สวนใหญก็มักจะไมใชการใชนิ้วมือเขียน แตเปนการพูดจาสื่อสารกันดวย ปาก ซึ่งถาเราพิจารณาใหลึกลงไปอีกก็จะพบวาผูคนสวนใหญของโลกเรายังรูแตภาษาพูด ไมรูภาษาเขียน ฉนั้น หากจะมี ใครกลาวหาวาระบบคอมพิวเตอรและเทคโนโลยีสารสนเทศเปนเครื่องมือถางชองวางระหวางคนรวยกับคนจนก็นาจะเปน การพูดที่ไมเกินเลยความจริงไปสักเทาใดนัก เพียงแตความเหลื่อมล้ําในสังคมที่เกิดขึ้นนั้นมิไดเกิดขึ้นอยางเจตนา และ บรรดานักประดิษฐที่ชวยกันพัฒนาเทโนโลยีคอมพิวเตอรตางลวนมีเจตนาที่ดีในการพัฒนาโลกพัฒนาสังคมดวยกันทั้งนั้น ทางออกอยางหนึ่งของการลดชองวางดานเทคโนโลยีระหวางคนรวยกับคนจน คือ การพยายามพัฒนาวิธี สื่อสารระหวางมนุษยกับ คอมพิวเตอรใหมีลักษณะงายขึ้น เชน แทนที่จะตองใช ภาษาคอมพิวเตอร หรือ ตัวหนังสือ ก็ใชภาษาภาพแทน อยางภาพสัญญลักษณผูชาย ผูหญิงหนาหองน้ํา ยอมเขาใจ งายกวาตัวหนังสือ "Gentleman" "Lady" "Lavatory" หรือ "Rest Room" และนั่นเอง จึงเปนที่มาของการ พัฒนาอุปกรณ "เมาส" เพื่อใช รวมกับภาพสัญลักษณตางๆ บน หนาจอ นอกจากนั้น ยังตอง พัฒนาระบบคอมพิวเตอรใหสามารถสื่อสารกับมนุษยดวยเสียงพูด (Voice interface) และภาษาทาทาง (Gesture Interface) ไดดวย อยางไรก็ตาม การพัฒนารูปแบบการสื่อสารใหงายขึ้นนั้นกลับจะทําใหเครื่องคอมพิวเตอรมีความ สลับซับซอนมากขึ้น มีราคาแพงขึ้น ซึ่งสวนทางกับแนวความคิดที่จะกระจายเทคโนโลยีไปสูคนยากคนจน พูดงายๆ ก็คือ ยิ่งเราพัฒนาเครื่องคอมพิวเตอรใหใชงานไดงายขึ้นเทาไร ตัวเครื่องคอมพิวเตอรเองก็ยิ่งจะตองมีประสิทธิภาพและซับซอน มากขึ้นเทานั้น กระนั้น ถาจะวากันไปตามจริงแลว เทคโนโลยีการสื่อสารดวยเสียงพูดและภาษาทาทางนั้นไมใชของใหม ในวงการคอมพิวเตอร พวกมันลวนไดรับการพัฒนาขึ้นมานับเปนสิบปแลวโดยศูนยวิจัยหลายๆ แหง ยกตัวอยางเชน โปรแกรมจดจําเสียงพูด (Voice Recognition) นั้นก็เปนที่รูจัก และมีจําหนายในทองตลาดมาเนิ่นนานแลว แตติดขัดวา ผูใชคอมพิวเตอรจะตองลงทุนคอนขางแพงสําหรับการสื่อสารที่ไมตองใชนิ้วมือเหลานี้ โชคดีที่บรรดาเทคโนโลยีคอมพิวเตอรมีแนวโนมที่จะมีราคาถูกลงเรื่อยๆ ในขณะที่มีสมรรถนะสูงขึ้นเรื่อยๆ เชนเดียวกัน อยางเครื่องคอมพิวเตอรเพนเที่ยมทูราคาไมถึงสามหมื่นบาทก็ยังรันโปรแกรมจดจําเสียงพูดตัวใหญๆ ได มิ
  • 2. File : voice.doc page : 2 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol พักที่จะพูดถึงเครื่องคอมพิวเตอรเพนเที่ยมทรี ความเร็ว 600 MHz ซึ่งติดตั้งไวดวย RAM มากถึง 128 MB อยางที่นิยมใช กันอยูในขณะนี้ จนผูเชี่ยวชาญหลายคนตั้งขอสังเกตุวาสมรรถนะที่เพิ่มมากขึ้นของผลิตภัณฑคอมพิวเตอรรุนใหมๆ นั้น นาจะเกินขีดความตองการของการใชคอมพิวเตอรตามสํานักงาน และจาก การทดสอบโปรแกรม Office 2000 กับเครื่องเพนเที่ยมทรีรุนใหม พบวามี ประสิทธิภาพเพิ่มขึ้นเพียงเล็กนอย เพราะมีโปรแกรมประยุกตเพียงไมกี่ ประเภทเทานั้นที่จะใชประโยชนจากรูปแบบการทํางาน SSE ซึ่งถูกเพิ่มเขา มาในชิปเพนเที่ยมทรีได ตรงกันขาม การรันโปรแกรมจดจําเสียงพูดบนเครื่อง คอมพิวเตอรเพนเที่ยมทรีนั้นไดผลลัพธที่เปนเนื้อเปนหนังอยางชัดเจน สามารถลดเวลาการเรียนรูสําเนียงพูดของผูใชโปรแกรม (Learning time) ลงไปไดกวาครึ่ง ในขณะเดียวกัน การรับคําสั่งดวยเสียงก็มีความถูกตองแมนยํา (accuracy) มากขึ้น และอาจจะเปนดวย เหตุผลนี้ก็ได ทําใหบรรดาบริษัทผูผลิตซอฟทแวรคอมพิวเตอร หันมาพัฒนาผลิตภัณฑ "โปรแกรมจดจําเสียงพูด" ของตน กันเปนการใหญ หลายรายไปไกลถึงขนาดที่ผูใชโปรแกรมไมจําเปนตองใชคียบอรดเลยก็ยังได สวนบางรายก็เรงขีด ความเร็วในการประมวลคําสั่งเสียงใหสามารถปอนคําสั่งไดดวยความเร็วถึง 50 คําตอนาที ตลอดจนสามารถสั่งให โปรแกรมปรับแตงและแกไขเอกสารดวยเสียงพูด โดยเอกสารนี้ไมจํากัดแคตัวอักษร แตรวมถึงภาพกราฟฟก ตาราง และ แผนภาพดวย หรือถาใครเปนนักทองเว็บ ก็อาจจะใชโปรแกรมตัวเดียวกันนี้แหละในการติดตอเขาสูอินเทอรเน็ต "ฮัลโหล ... เทสต" เพื่อใหทานผูอานมีความเขาใจในผลิตภัณฑ "โปรแกรมจดจําเสียงพูด (Voice recognition package) " ไดอยางเหมาะสม ผูเขียนจึงถือโอกาสนําเอาบทความ "His Master's Voice" ของ โรเจอร แกนน ที่ลงตีพิมพในนิตยสาร เพอรซันนัล คอมพิวเตอร เวิลด ฉบับเดือนมกราคม 2000 อันเปนการเปรียบเทียบผลิตภัณฑโปรแกรมจดจําเสียงพูดซึ่ง เปนที่รูจักกันดีในทองตลาด 4 ยี่หอ ไดแก โปรแกรม NaturallySpeaking Prefered 4.0 ของบริษัทดรากอนซิสเต็มส, โปรแกรม VoiceXpress Professional 4.0 ของบริษัทเลินเอาท แอนด ฮอสพาย, โปรแกรม FreeSpeech 2000 ของ บริษัทฟลลิปส, และโปรแกรม ViaVoice Millenium ของบริษัทไอบีเอ็ม โดยโรเจอร แกนน ไดนําเอาโปรแกรมทั้ง 4 ยี่หอที่วานี้มาลงบนเครื่องคอมพิวเตอร 500 MHz Athlon PC ซึ่งติดตั้งไวดวย RAM ขนาด 128 MB และใชโปรแกรม Windows 98CE เปนระบบปฏิบัติการ แลวลองเปรียบเทียบ ดูความยากงายในการติดตั้ง (Ease of Installation), การฝกโปรแกรมใหจดจําสําเนียงพูดของผูใช (Training), ความ ยืดหยุนของโปรแกรมในแงที่จะอนุญาตใหมีผูใชโปรแกรมไดมากกวาหนึ่งคนหรืออนุญาตใหใชภาษาอื่นๆ นอกเหนือจาก ภาษาอังกฤษ (Users & Languages), ความถูกตองแมนยําในระบบการวิเคราะหจําแนกเสียง (Accuracy) , รูปแบบการ ทํางานตลอดจนคําสั่งตางๆ ที่มีอยูในโปรแกรม (Command & Control), ตลอดไปจนถึงความสามารถในการดัดแปลง แกไขขอมูลที่ถูกปอนเขาไปแลว (Mistake correcting) ฯลฯ อยางไรก็ตาม มีขอสังเกตุวาการทดสอบโปรแกรมครั้งนี้ ทางบริษัทไบีเอ็ม ไดจัดสงผลิตภัณฑ ViaVoice Millenium รุนมาตรฐาน (standard) มาใหโรเจอร แกนน แทนที่จะเปนรุนพิเศษ (Pro) ทําใหสมรรถนะที่ไดจากการ ทดสอบออกจะดอยไปบางเมื่อเทียบกับอีกสามยี่หอที่เหลือ เชน อาจจะขาดรูปแบบคําสั่ง (functionally control)
  • 3. File : voice.doc page : 3 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol บางอยางไป ตลอดจนมีขีดความสามารถในการบอกจด (dictate) ใหกับโปรแกรมประยุกตบางตัวเทานั้น ไมสามารถบอก จดใหกับโปรแกรมประยุกตหลักๆ บนระบบปฏิบัติการวินโดวสไดหมดทุกตัว ความยากงายในการติดตั้ง โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนแตมีโปรแกรมวิซารดสําหรับชวยอํานวยความสะดวกในการติดตั้ง จึงมีขั้นตอนการติดตั้งคอนขางงาย แตอาจจะแตกตางกันไปเล็กนอยในเรื่องประสิทธิภาพใน การทดสอบอุปกรณเสียง (audio test) ทั้งนี้ เนื่องจากหัวใจของการการรับคําสั่งดวยเสียง นั้นขึ้นอยูกับคุณภาพของไมโครโฟนและอุปกรณรับเสียงทั้งหลาย ฉนั้น หากในระหวาง การติดตั้งโปรแกรมไมมีการปรับระดับเสียงจากสภาพแวดลอม (background) หรือระดับ เสียงรบกวน (Noise) ใหดี การใชงานหลังจากติดตั้งไปแลวก็อาจจะวุนวายสับสนพิลึก เชน บานใครมีเสียงสัตวเลี้ยง หรือมีมอเตอรไซควิ่งผานประจํา ก็อาจจะตองมานั่งลบขอความที่มาจากเสียงแทรกเสียงรบกวน เหลานั้นอยูบอยๆ หลังจากทดสอบติดตั้งโปรแกรมทั้ง 4 ยี่หอไปแลว โรเจอร แกนน ยกนิ้วใหกับผลิตภัณฑ ViaVoice และ VoiceXpress ในฐานะที่มีระบบปรับตําแหนงการวางและทิศทางของไมโครโฟนเพื่อใหไดคุณภาพเสียงดีที่สุด และเมื่อผูใช โปรแกรมตองการยอนตําแหนงชี้ของเคอรเซอรกลับคืนไปที่เดิมก็มีระบบภาพเคลื่อนไหว (video clip) คอยจัดการให โดยเฉพาะโปรแกรม VoiceXpress นั้นดูจะเอาใจลูกคาของตนคอนขางมาก เพราะมีการเปดสายใหคําแนะนําทาง โทรศัพทตลอดเวลาในกรณีที่ลูกคามีปญหาในการติดตั้ง หรือมีปญหากับตัวโปรแกรม อยางไรก็ตาม เรื่องการปรับแตงอุปกรณรับเสียงนี้ยังตองคุยกันอีกยาว ลําพังตัวผูผลิตโปรแกรมจดจํา เสียงพูด และผูผลิตอุปกรณเครื่องเสียงดวยกันเองก็ยังไมมีการตกลงรูปแบบมาตรฐานของอุปกรณออกมาใหชัดเจน เพราะในขณะที่ผูผลิตแผงวงจรเสียง (Sound card) กําหนดสีมาตรฐานของรูเสียบแจคบนแผงวงจร (3.5 mm jack) ไว อยาง ผูผลิตหูฟงและไมโครโฟนกลับเลือกใชสีมาตรฐานไปอีกอยาง เชน รูแจคบนแผงวงจรเสียงนั้นถูกกําหนดไววา สีแดง คือรูเสียบแจ็คไมโครโฟน รูสีเขียวไวเสียบแจคสัญญาณเสียงขาออก (Line out) สวนรูสีน้ําเงินเปนชองเสียบแจค สัญญาณเสียงขาเขา (line in) แตฝายผูผลิตไมโครโฟนอยางบริษัทเลินเอาทแอนดฮอสพายกลับเลือกใชสีน้ําเงินกับ อุปกรณไมโครโฟนสวมหัวของตน ในขณะที่ทางบริษัทไอบีเอ็มก็ใชสีแดงกับไมโครโฟนรุน Andra mic การฝกโปรแกรมใหจดจําสําเนียงพูด หลังจากติดตั้งโปรแกรมจดจําเสียงพูดใหกับเครื่องคอมพิวเตอรเสร็จแลว ขั้นตอนตอมาที่จะทําให โปรแกรมสามารถจดจําเสียงพูดของผูใชโปรแกรมไดก็คือการลงทะเบียนผูใช (enrollment) เพื่อใหโปรแกรมทราบสําเนียง ของผูพูด จะไดจําแนกไดวาผูพูดตองการสื่อถึงคําศัพทตัวใดกันแน เพราะถาใหคนอังกฤษกับคนอเมริกันออกเสียงประโยค เดียวกันก็จะไดตางกันไปลิบ จนแมขนาดคนอเมริกันดวยกันเองกยังมีสําเนียงที่แตกตางกันไปตามภูมิภาค และระดับสังคม เชน คนนิวยอรคมักจะเวนการออกเสียงตัว R ในกรณีที่ r นั่นอยูทายคํา ในขณะที่คนบรูคลีนออกเสียง “ตําแหนงที่33” วา ธ’อยตี้ ธ’อย หรือกระทั่งของไทยเราเองนั้น แคคําวา "กินขาว" ก็ออกเสียงตางกันไปเยอะแลวตามแตวาผูพูดมาจาก ภูมิภาคไหนของประเทศ สําหรับวิธีการสอนโปรแกรมใหรูจักกับสําเนียงของผูใชนั้น แตไหนแตไรมาก็จะประกอบไปดวยการอาน ประโยคภาษาอังกฤษที่ผูผลิตโปรแกรมระบุมา 100 ประโยค ซึ่งจะกินเวลาประมาณ 45 นาทีเปนอยางนอย หลังจากนั้น
  • 4. File : voice.doc page : 4 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol โปรแกรมจดจําเสียงพูดก็จะใชเวลาประมวลผลและวิเคราะหเปรียบเทียบเสียงของคําแตละอีกเปนเวลาอยางนอย 20 นาที เบ็ดเสร็จก็ปาเขาไปเกือบชั่วโมงครึ่ง แถมบางครั้งอาจจะตองใชเวลาปรับแกขอผิดพลาดบางอยางในเรื่องเสียงของศัพท ภาษาอังกฤษบางตัวอีกตางหาก กระบวนการฝกโปรแกรมใหรูจักสําเนียงของผูใชจึงออกจะนาเบื่อหนายเอาการ (ขนาด ฝรั่งยังบนวานาเบื่อจะแย แลวคนไทยที่ลิ้นแข็งเพราะขาดการฝกสําเนียงมาตั้งแตเกิด จะแยขนาดไหน) อยางไรก็ตาม ดวยประสิทธิภาพของไมโครโพรเซสเซอรรุนใหมก็ทํา ใหเวลาที่ตองใชไปกับการฝกสําเนียงใหกับโปรแกรมลดลงไปไดอักโข ประกอบกับตัว โปรแกรมจดจําเสียงพูดเองก็ไดรับการปรับปรุงรูปแบบการฝกเสียง จนทําใหเวลาที่ ผูใชโปรแกรม NaturallySpeaking และ VoiceXpress ใชไปกับการลงทะเบียนเสียง ลดลงเหลือแค 8 นาทีเทานั้น โดยเฉพาะในสวนของการประมวลและเปรียบเทียบ ระหวางคําศัพทกับเสียงพูดนั้นลดลงไปเหลือแค 2 - 3 นาทีเทานั้นเอง ในขณะที่ โปรแกรม FreeSpeech 2000 และ ViaVoice Millenium จะยนเวลาลงทะเบียนเสียงไมมากเทา 2 ยี่หอขางตน ยังคง ตองเวลารวม 15 นาที ในการลงทะเบียนเสียง เพราะกําหนดใหผูใชโปรแกรมตองอานประโยคบังคับไวถึง 88 ประโยค แตก็ยังถือวาไมชาเกินไปจนนาเบื่อ หลายคนเชื่อวาขั้นตอนการอานประโยคบังคับนั้นใหชาๆ มากๆ ไวกอนเปนดี เพราะจะทําใหมี ขอผิดพลาดใหตามแกไขเวลาใชงานจริงนอยลง ดังจะเห็นไดจากการที่ทางบริษัทไอบีเอ็มมีการเปดโอกาสใหผูใชโปรแกรม ViaVoice Millenium เลือกไดวาจะลงทะเบียนแบบเรงดวน 15 นาที หรือจะลงทะเบียนแบบเต็มรูปแบบ 60 นาที นอกจากนั้น บรรดาบริษัทผูผลิตโปรแกรมจดจําเสียงพูดที่ไดปรับปรุงผลิตภัณฑใหใชเวลาลงทะเบียนเสียงนอยลง ตางลวน มีรูปแบบการทํางานเสริมในลักษณะที่เปดโอกาสใหฝกฝนสําเนียงพูดไดในภายหลัง (Additional trainning) ดวยกัน ทั้งนั้น ยิ่งไปกวานั้น ผูผลิตโปรแกรมจดจําเสียงพูดอีกหลายรายยังไดพัฒนารูปแบบการทํางานซึ่งจะชวยใหการ สั่งงานดวยเสียงเปนไปอยางมีประสิทธิภาพมากขึ้น เชน โปรแกรม ViaVoice มีระบบการทํางาน Analyse Document สําหรับตรวจหาคําศัพทที่โปรแกรมยังไมเคยรูจักไมเคยไดยินมากอน และมีการทํางาน Topic สําหรับเลือกประเภทของ ขอมูลที่จะถูกสั่งเขาไปดวยเสียงได เพราะเวลาที่เราใชภาษากับศาสตรสาขาหนึ่ง หรือผูฟงระดับหนึ่ง ศัพทแสง หรือแสลง ที่ใชก็ยอมจะมีความที่แตกตางกันออกไป อยางเชน การรางหนังสือกฏหมายก็ตองใชศัพทที่เปนภาษาเขียน เวลาจะรางจด หมายถึงเพื่อนสนิทก็ใชศัพทที่งายๆ และเปนภาษาพูดอะไรทํานองนี้ (ไมทราบวา โปรแกรม ViaVoice มีหัวขอศัพทให เลือกใชไดกี่ประเภทแน ที่ยกตัวอยางอยูในบทความของ โรเจอร แกนน ระบุแคหัวขอ "คอมพิวเตอร" และ "การพูดคุย เจาะแจะ (Chatter jargon)" เทานั้น) ความยืดหยุนของโปรแกรม โปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ลวนถูกออกแบบใหสามารถรับคําสั่งจากเสียงพูดของผูใชโปรแกรม หลายๆ คน (Multiple users) ได ขอเพียงแตวาผูใชโปรแกรมทุกคนจะตองลงทะเบียนเสียงไวกอนเทานั้น เชนในกรณีที่ เปนการซื้อโปรแกรมจดจําเสียงพูดไปใชกับเครื่องคอมพิวเตอรในบาน ทั้ง พอ แม ลูก ก็อาจจะทยอยมาลงทะเบียนเสียง ของตัวเองไว โปรแกรมจะไดรับฟงคําสั่งไดจากทุกคน (โปรแกรม NaturallySpeaking 4.0 ดูจะมีความนาสนใจมากที่สุด
  • 5. File : voice.doc page : 5 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol สําหรับการใชงานภายในบาน เพราะมีการทํางาน language models ซึ่งจําแนกลักษณะภาษาออกตามวัยของผูใช โปรแกรม เปนภาษาเด็ก ภาษาวัยรุน ภาษาผูใหญ และภาษาคนแก) สวนถาใครคิดจะซื้อโปรแกรมจดจําเสียงพูดไปใชติดตั้งในสํานักงาน โปรแกรม VoiceXpress ก็จะเปด โอกาสใหเลือกไดวาจะศัพทแสงในแวดวงวิชาชีพไหน (specific lexicon) เชน จะใชกับสํานักงานแพทย หรือสํานักงาน ทนายความ ฯลฯ (เขาใจวารูปแบบการทํางาน specific lexicon นี้อาจจะตองจายเงินซื้อเพิ่มเติมขึ้นจากราคาปรกติของ ซอฟทแวร ไมเหมือนผลิตภัณฑ ViaVoice Millenium ของไอบีเอ็ม ที่แถมระบบศัพทกฎหมายใหมาฟรีๆ) อยางไรก็ ตาม ไมวาจะเปนศัพท แพทย หรือศัพทกฎหมาย พวกมันลวนแตเปน ภาษาอังกฤษดวยกันทั้งนั้น แถมเปนภาษาอังกฤษ แบบอังกริ้ด อังกฤษ ไมใช ภาษาอังกฤษแบบอเมริกัน ที่คนไทยเราคุนหูมากกวา (เพราะอิทธิพลของสื่อ ซี เอ็นเอ็น และฮอลลีวูด ?) หากตองการสั่งงาน คอมพิวเตอรดวย ภาษาสากลอื่นๆ ก็คงตอง ยอมจายสัก 80 ปอนด หรือประมาณหาพันบาทเพิ่มจากราคาเดิมขอผลิตภัณฑ FreeSpeech 2000 อันจะสงผลใหไดระบบการรับคําสั่งเปน ภาษายุโรปอื่นๆ มาอีกไมนอยกวา 13 ภาษา (ซึ่งก็นับวายังดีกวาโปรแกรมจดจําเสียงพูดอีกสามยี่หอที่เหลือ เพราะพวก นั้นมีแคภาษาอังกฤษภาษาเดียว หากตองการใชภาษาฝรั่งเศสหรือเยอรมันก็ตองซื้อเวอรชั่นที่ออกแบบมาเฉพาะภาษาไป เลย) ความถูกตองแมนยํา จากพื้นฐานของโปรแกรมที่ถูกออกแบบมาเพื่องานธุรกิจในเบื้องแรก ทําใหเวลาที่เราพูดถึงความถูกตอง ของระบบรับคําสั่งดวยเสียงของโปรแกรมจดจําเสียงพูดนั้น มักจะตั้งเปาไปที่ภาษาธุรกิจมากกวาภาษาพูดทั่วๆ ไป และ ผลจากการทดลองอานรายงานทางธุรกิจที่ประกอบไปดวยศัพทที่คอนขางยาก 160 คํา โรเจอร แกนน รายงานวามีคําผิด โดยเฉลี่ยของโปรแกรมทั้ง 4 ยี่หอประมาณ 4 คํา หรือคิดเปนเปอรเซนตความถูกตองไดกวา 97 % สวนใหญจะเปน ขอบกพรองเล็กๆ นอยๆ ยกตัวอยางเชน การที่โปรแกรม VoiceXpress ฟงคําสั่งผิดเวลาที่เราบอกใหขึ้นบรรทัดใหม (new line) มันก็จัดการขึ้นขอความวา "the line" แทน สวนโปรแกรม FreeSpeech 2000 นั้นก็ออกจะดื้อดานอยูสัก นิด เพราะสอนไมคอยจํา เวลาที่ฟงผิด (mis-recognized word) แลวเราบอกใหแก ปรากฏวาตองบอกใหแกซ้ําอยูเรื่อย
  • 6. File : voice.doc page : 6 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol นอกจากการทดสอบดวยบทความรายงานธุรกิจที่ใชศัพทคอนขางยากแลว โรเจอร แกนน ยังลองพูดคําที่ มีเสียงใกลเคียงกันติดๆ กัน เพื่อทดสอบดูวาโปรแกรมทั้ง 4 ตัวนี้จะแยกแยะคําประเภทที่จะทําใหลิ้นพันกัน (tongue twister) ไดดีแคไหนอีกดวย เชน ลองพูดประโยควา "Peter Piper picked a peck of pickled pepper" (คลายๆ กับที่ คนไทยเราชอบบอกใหฝรั่งทวนประโยค "ยักษใหญไลยักษเล็ก" หรือ "ใครขายไขไก" เร็วๆ อะไรทํานองนั้นแหละ) ผล ปรากฎวาโปรแกรมทั้ง 4 มักจะมีปญหากับศัพท peck แตก็สามารถแกไขใหถูกตองได หลังจากสอนใหโปรแกรมไดคุนเคย กับสําเนียงของคนพูดไปแลว การทดสอบอีกวิธีที่โรเจอร แกนน เลือกใช คือ การลองไปคนบทกลอนที่เด็กฝรั่งรุนเกาๆ เคยใชทองจํา กันมาอานใหโปรแกรมฟง เชน เอาบทกวีชื่อ Ol'Blue Eyes และเพลง My Way มาอาน ผลปรากฏวาความถูกตองใน การรับฟงของโปรแกรมก็ยังคงอยูในเกณฑที่ยอมรับได โดยผลิตภัณฑ ViaVoice ทําคะแนนความถูกตองไดสูงสุด ในขณะที่ โปรแกรม VoiceXpress ทําคะแนนไดต่ําสุด เพราะคอยแตขึ้นศัพทวา My wife ขึ้นมาทุกที เวลาที่โรเจอร แกนน อานถึงง ชวง My way แตก็นั่นแหละ ผลรวมของความถูกตองของโปรแกรมทั้งสี่ตัวนี้ก็ ยังคงอยูที่ 96 % จนทําใหโรเจอร แกนน ตั้งขอสังเกตุไววา การเพียรพยายาม ฝกฝนโปรแกรมใหดวยศัพทยากๆ นั้นอาจจะใหผลลัพธที่ไมคุมคาเทาใดนัก เพราะอยางมากก็คงจะเพิ่มความถูกตองขึ้นมาไดอีกสักแค 1 % - 2 % ทางที่ดี ผูใชโปรแกรมนาจะยอมรับมาตรฐานความถูกตอง 97 % ตามมาตรฐานเดิมของ ผลิตภัณฑ แลวไปหาทางแกไขคําศัพทผิดเปนคําๆ ในภายหลังดีกวา การแกไขขอมูล มันเปนสิ่งจําเปนอยางมากสําหรับผูใชโปรแกรมจดจําเสียงพูดที่จะตองคอยแกไขขอผิดพลาดใหโปรแกรม เปนระยะๆ ในกรณีที่โปรแกรมดังกลาวจับสําเนียงเสียงพูดผิดไป เพราะหากไมแกไข โปรแกรมก็จะเขาใจวาตัวสะกดนั้น ถูกตองและจะขึ้นตัวสะกดที่ผิดนั้นขึ้นมาทุกครั้งที่ผูใชโปรแกรมการกลาวถึง ดังนั้น โปรแกรมประเภทนี้สวนใหญ อันไดแก โปรแกรม VoiceXpress, FreeSpeech 2000, และ ViaVoice Millenium นั้นจะอนุญาตใหผูใชโปรแกรมสามารถหยุด การบอกจด (dictate) เพื่อสอนใหโปรแกรมเรียนรูถึงความผิดที่เกิดขึ้นในตัวสะกดไดทันที ผานทางหนาตาง Corretion window โดยโปรแกรม FreeSpeech 2000 และ ViaVoice Millenium นั้นจะจัดการบันทึกเสียง (record) บอก จดของผูใชโปรแกรมไว เพื่อนํากลับมายอนเปดใหฟงใหม (replay) เพื่อตรวจสอบความถูกตอง ในขณะที่โปรแกรม VoiceXpress 4.0 นั้นไปไกลอีกขั้น ดวยระบบการสรางเสียงจากขอมูลที่ถูกบันทึกไว เพื่อที่จะนํายอนกลับมาเปดใหไดฟง ใหมในรูปของเสียงพูดของสตรีที่ระบบไดสังเคราะหขึ้น ตรงนี้อาจจะมีคนมองวาดีกับคนลิ้นแข็งแบบคนไทย ที่จะไดฝกการ ออกเสียงทีถูกตองตามหลักไวยากรณ แต โรเจอร แกนน ชี้วามันคงไมไดประโยชนอะไรขึ้นมาเปนชิ้นเปนอันนัก เพราะ เสียงผูหญิงที่โปรแกรมVoiceXpress 4.0 สังเคราะหขึ้นก็จะมีความผิดพลาดเชนเดียวกับเสียงพูดที่เราบอกมันไปนั่นแหละ (เชนถาเราตองการพูดวา reevaluate แตโปรแกรม VoiceXpress 4.0 ฟงเพี้ยนไปเปน Rio value weight มันก็คงจะ ออกเสียงเปน Rio value weightตามที่มันเขาใจนั่นแหละ)
  • 7. File : voice.doc page : 7 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol รูปแบบคําสั่ง โปรแกรมจดจําเสียงพูดทั้งหมดที่โรเจอร แกนน นํามาเปนตัวอยางนั้น ตางลวนมีรูปแบบคําสั่งและการ ควบคุมโปรแกรม (Command & Control) ที่คลายๆ กัน คือ จะเปดโอกาสใหผูใชวินโดวสสามารถควบคุมโปรแกรมจาก สวนเดสกท็อป หรือจากโปรแกรมประยุกตอื่นๆ บนวินโดวส ดวยการสงเสียงเรียกชื่อของเมนู (Menu names) หรือ ตัวเลือกภายในเมนู (menu choices) ไดโดยตรง เชน ถาจะเปดไฟลลก็อาจจะเริ่มดวยการพูดวา "File menu" เพื่อให เมนูจัดการเรื่องไฟลลถูกเปดขึ้นมาบนหนาจอ หรือถาพูดวา "Export" โปรแกรมก็จะจัดการเรียกการทํางานเอกซพอรต ขึ้นมาใหอยางอัตโนมัต โดยโปรแกรมทั้งสี่ตัวนี้จะอนุญาตใหผูใชคอมพิวเตอรบอกจด (dictate) ผานทางโปรแกรมประยุกตตัว หลักๆที่รันอยูบนวินโดวสไดทุกตัว ไมวาจะเปน ออฟฟซ 97 ออฟฟซ 2000 เวิรดเพอรเฟค เวอรชั่น 8 เวอรชั่น 9 หรือ โปรแกรมเอาทลุค รุน 97 รุน 98 และรุน 2000 อยางไรก็ตาม เพื่ออํานวยความสะดวกใหกับผูใชโปรแกรมที่อาจจะยัง ไมคุนเคยกับคําสั่งตางของโปรแกรมประยุกตบนวินโดวสเทาใดนัก โปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไดมีการออกแบบสวนการทํางานซึ่งลักษณะคลายๆ กับโปรแกรมเวิรดแพ็ด (speech-enable wordpad Look-alike) ขึ้นมารับคําสั่งจากผูใชโปรแกรมเปนการเฉพาะ ลาสุด ผูผลิตโปรแกรมจดจําเสียงพูดทั้งสี่ยี่หอก็กําลัง แขงกันเปดตัวเวอรชั่นที่มีคําสั่งควบคุมโปรแกรมสํารวจอินเทอรเน็ต Internet Explorer ออกมาไลๆ กัน ซึ่งจะสงผลใหผูใชโปรแกรมสามารถ บอกบทใหเครื่องคอมพิวเตอรมุงหนาไปยังเว็บไซทไดทันทีที่เปดเครื่อง เชน อาจจะบอกตําแหนงเว็บแอดเดรส สั่งใหสํารวจไลไปยังหนาใดหนา หนึ่งบนเว็บไซท หรือจะเชื่อมขามไปยังเว็บไซทอื่นๆ ที่เกี่ยวของ และถา หากมีแบบฟอรมอะไรใหกรอกระหวางเขาไปในเว็บไซท ผูใชโปรแกรมก็ ไมตองมานั่งคียขอมูลใหหงุดหงิดรําคาญ เพราะสามารถบอกรายละเอียด ตางๆ ปอนเขาไปในแบบฟอรมไดทันที โดยเฉพาะในโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice ดวย แลว จะอํานวยความสะดวกใหกับผูใชโปรแกรมอยางสุดๆ ดวยระบบการรับคําสั่งแบบ natural language command ซึ่งจะสงผลใหผูใชโปรแกรมสามารถสามารถสั่งงานดวยภาษาพูดธรรมดาของตัวเอง ดวยระบบการทํางานแบบ Natural Language command ดังกลาว ผูใชโปรแกรม NaturallySpeaking, VoiceXpress, และ ViaVoice จึงไมจําเปนตองพูดตามแบบฟอรมมาตรฐาน และเมื่อพูดผิดก็ สามารถพูดใหมตามความเขาใจ ไมตองทวนรูปแบบประโยคเดิม ยกตัวอยางเชน การเปลี่ยนขนาดตัวอักษรที่ใชบน โปรแกรมเวิรดนั้น ถาเปนโปรแกรมจดจําเสียงพูดแบบเดิมๆ ผูใชโปรแกรมอาจจะตองพูดตามขอกําหนดวา "ฟอรแมท ฟอนต ไซส" แตถาเปนโปรแกรมที่มีระบบ Natural laguage ผูใชโปรแกรมสามารถจะสั่งงานหลังจากบอกใหไฮไลต ขอความที่ตองการเปลี่ยนแปลงแกไขวา "ทําใหมันใหญขึ้นอีกนิดซิ" หรือ "เพิ่มขนาดฟอนตขึ้นไปสักหนึ่งพอยนต" อะไร ทํานองนี้ อยางไรก็ดี เปนเรื่องนาเสียดายวารูปแบบการทํางาน Natural language ตัวนี้จะทํางานรวมกับ โปรแกรมประยุกตรุนใหมอยาง ออฟฟซ 97 และ ออฟฟซ 2000 เทานั้น ทั้งนี้ เนื่องจากการแปรคําสั่งเสียงพูดเพื่อ ปอนเขาสูระบบปฏิบัติการ (OS) นั้นจะตองอาศัยสวนการทํางานที่มีชื่อเรียกวา Speech API (SAPI) ซึ่งทางบริษัท ไมโครซอฟทเพิ่งพัฒนาขึ้นมาเมื่อไมนานมานี้ และปรากฏอยูในโปรแกรมระบบปฏิบัติการตั้งแตรุน วินโดวส 98 เปนตนมา
  • 8. File : voice.doc page : 8 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol โดยระบบการทํางาน SAPI จะถูกวางอยูในระดับกึ่งกลางระหวางโปรแกรมประยุกตกับตัวระบบปฏิบัติการ และรับหนาที่ จัดการเรื่องคําสั่งตางๆ ที่เกี่ยวของกับเสียงพูด อันจะสงผลใหบรรดาโปรแกรมเมอรทั้งหลายไมตองมานั่งเขียนคําสั่งที่ เกี่ยวของกับเสียงพูดดวยตนเองใหเสียเวลา แตก็ดวยเหตุนี้เชนเดียวกัน ที่ทําใหในระยะแรกๆ นี้ มีเฉพาะโปรแกรม ประยุกตของไมโครซอฟท (ออฟฟซ 97 และ ออฟฟซ 2000) เทานั้น ที่สามารถใชงานระบบ SAPI ได บทสรุปของโรเจอร แกนน จากการทดสอบผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอดังกลาว โรเจอร แกนน ใหขอสรุปวา โปรแกรมเหลานี้ไดรับการปรับปรุงประสิทธิภาพใหสูงขึ้นจากเมื่อปสองปที่แลวเปนอยางมาก ดังจะเห็นไดจากการติดตั้งที่ สะดวกงายดายขึ้น ในขณะที่เวลาลงทะเบียนเสียงก็นอยลงไปกวาเทาตัว แถมเวลาใชงานก็งาย เพราะมีรูปแบบการทํางาน ใหมใหเลือกไดสารพัด ไมวาจะเปนพูดสั่งงานผานโปรแกรมจดจําเสียงพูดโดยตรง หรือการสั่งงานผานโปรแกรมประยุกตที่ รันบนวินโดวสตัวอื่นๆ (ย้ํา! เนนเฉพาะวินโดวส และผลิตภัณฑของไมโครซอฟท อยางออฟฟซ 97 และ ออฟฟซ 2000) พูดงายๆ ก็คือ หากรันโปรแกรมทั้งหมดนี้บนเครื่องคอมพิวเตอรระดับตั้งแต 300 MHz Pentium II, Celeron หรือ K6-3 ซึ่งมีหนวยความจํา RAM 128 MB ขึ้นไปแลว ก็คงใหผลที่ไมแตกตางกันสักเทาใดนัก ปญหาจึงอยู ที่วาผูใชโปรแกรมตองการอะไร หากจะเลือกของถูกก็ตอง FreeSpeech 2000 แตก็ตองเผื่อใจไวดวยวาโปรแกรมตัวนี้ใช ระบบภาษาเฉพาะตัว ไมคอยอางอิงกับมาตรฐานของคนอื่น สวนถาหากตองการความถูกตองแมนยําของคําสะกด ก็มีสาม ตัวเลือก คือ NaturallySpeaking Prefered 4.0 , VoiceXpress Professional 4.0 และ ViaVoice Millenium หรือ ถาหากตองการรูปแบบคําสั่งที่หลากหลายมากๆ ก็คงตองหันไปพิจาณาผลิตภัณฑ VoiceXpress Professional 4.0 แทน อะไรทํานองนั้น อยางไรก็ตาม ทางนิตยสารเพอรซันนัล คอมพิวเตอร เวิลด ยังอุตสาหแยกแยะระดับคุณภาพของ ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอนี้ออกมาเปน 5 ดาว 4 ดาว และ 3 ดาว ตามลําดับ ดังตอไปนี้  Dragon Systems NaturallySpeaking Prefered 4.0 ราคา : 130 ปอนด ผูผลิตจําหนาย : Dragon Systems (www.dragonsys.com)  IBM ViaVoice Millenium Standard ราคา : 40 ปอนด ผูผลิตจําหนาย : IBM Speech Systems (www-4.ibm.com/software/speech/)  L&H VoiceXpress Professional 4.0 ราคา : 120 ปอนด ผูผลิตจําหนาย : Learnout & Hauspie (www.lhsl.com/)
  • 9. File : voice.doc page : 9 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol  Philips FreeSpeech 2000 ราคา : 79.95 ปอนด ผูผลิตจําหนาย : Phillips Speech Processing (www.speech.philips.com) อุปกรณรับเสียงก็สําคัญ อนึ่ง โรเจอร แกนน ยังตั้งขอสังเกตไวดวยวาคุณภาพของการจดจําเสียงพูดของมนุษยนั้น จะมองแคตัว โปรแกรมอยางเดียวคงไมได ตองพิจารณาถึงประดาชิ้นสวนฮารดแวรอยางพวก ไมโครโฟน หูฟง หรือลําโพงควบคูกันไป ดวย และไมโครโฟนพื้นๆ อยางที่มีใชกับเครื่องคอมพิวเตอรตั้งโตะทั่วไปก็นาจะมีสมรรถนะไมเพียงพอที่จะจับเสียงพูดให ออกมาเปนตัวสะกดที่ถูกตอง ดังจะเห็นไดจากการที่ผลิตภัณฑโปรแกรมจดจําเสียงพูดทั้ง 4 ยี่หอ ตางลวนมีการแถมหูฟง พรอมไมโครโฟน (Microphone headset) ใหมาเปนอุปกรณประกอบดวยกันทั้งนั้น แถมบางรายยังพัฒนาไปไกลกวานั้น ดวยการผลิตอุปกรณเสียงรุนพิเศษออกมาเปนการเฉพาะ ไดแกอุปกรณบอกจดตัวจิ๋วชื่อ SpeechMike ของบริษัทฟลลิปส ซึ่งรวมเอาการทํางานของแทร็กบอลล ลําโพง และไมโครโฟนเขามาไวดวยกันในราคา 70 ปอนด แตถาผูใชผลิตภัณฑโปรแกรมจดจําเสียงพูดรายใดไมอยากจํากัดตนเองไวแคไมโครโฟนสวมหัวแบบพื้นๆ ที่มีแถมมากับโปรแกรม ก็อาจจะพิจารณาไมโครโฟนจากบริษัทแพลนโทรนิคส (www.plantronics.com) ที่มีใหเลือกใช ไดอยางหลากหลายทั้งรูปแบและดีไซน เชนถาใครรําคาญวาจะตองผูกโยงศีรษะตัวเองไวกับเครื่องคอมพิวเตอรดวย สายสัญญาณไมโครโฟน ก็อาจจะเปลี่ยนไปใชไมโครโฟนแบบไรสายของแพลนโทรนิคสแทน เพียงแตอาจจะตองลงทุนสูง หนอย ซึ่งอันที่จริงแลว ถาหากจําเปนตองสั่งงานโปรแกรมจากตําแหนงที่อยูหางไกลจากเครื่องคอมพิวเตอรจริงๆ ผูใช โปรแกรมก็นาจะเปลี่ยนไปใชอุปกรณบันทึกเสียง (Digital voice recorder) ที่ออกแบบมาสําหรับการใชงานกับโปรแกรม จดจําเสียงพูดโดยตรงเสียเลยจะดีกวา ตัวอยางของอุปกรณบันทึกเสียงสําหรับโปรแกรมจดจําเสียงพูดนั้นไดแก ผลิตภัณฑ VoiceXpress Professional 4.0 ของบริษัทเลินเอาทแอนดฮอสพาย ซึ่งมีตัวเลือกใหกับลูกคาของตนไวสองแบบ แบบแรกเปนตัว โปรแกรมบวกไมโครโฟนแบบสวมหัวธรรมดาราคา 130 ปอนด และรุน VoiceXpress Mobile Professional ราคา 180 ปอนด ที่รวมเอาอุปกรณบันทึกเสียงแบบดิจิตัล Olympus DS-150 เขามาไวดวย หรืออยางบริษัทดรากอนซิสเต็มสก็จะมีเครื่องบันทึกเสียง ลักษณะเดียวกันนี้เปนอุปกรณเสริมใหกับโปรแกรมจดจําเสียงพูดรุน NaturallyMobile ซึ่งจําหนายมาแบบครบชุดในราคา 200 ปอนด (โร เจอร แกนน ระบุวาเครื่องบันทึกเสียงของ NaturallyMobile มี คุณลักษณะตามเอกสารต่ํากวาเครื่อง Olympus DS-150 เล็กนอย) นอกจากนั้น บริษัทดรากอนซิสเต็มสยังมีอุปกรณตอพวง NaturallyClear USB System H100 ราคา 69 ปอนด ไวสําหรับตอพวงกับแผงวงจรเสียง เพื่อปอนสัญญาณใหเครื่องคอมพิวเตอรซึ่งมีการรองรับพอรต USB อีก ตางหาก โดยทางบริษัทกลาวอางวาการตอพวงสัญญาณเสียงผาน USB port นี้จะใหคุณภาพและความคมชัดของสัญญาณ ที่จะปอนเขาสูโปรแกรมสูงที่สุด
  • 10. File : voice.doc page : 10 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol อยางไรก็ตาม บริษัทดรากอนซิสเต็มสไมใชบริษัทเดียวเทานั้นที่อุปกรณตอพวงพอรต USB บริษัทผูผลิต อุปกรณคอมพิวเตอรชั้นนําอยาง "เทเล็กซ" ก็ไดออกแบบไมโครโฟนของตนใหสามารถสงผานสัญญาณเสียงปอนเขาสูเครื่อง คอมพิวเตอรผานพอรต USB โดยตรง ไมตองผานแผงวงจรเสียงเหมือนอุปกรณไมโครโฟนธรรมดาทั่วๆ ไป ซึ่งทางบริษัท กลาวอางวาการกระทําดังกลาวนั้นจะทําใหเสียงทที่โปรแกรมจดจําเสียงพูดไดรับมีความคมชัดมากขึ้น และยอมจะสงผล ใหการรับคําสั่งดวยเสียงเปนไปอยางถูกตองมากขึ้นตามไปดวย จากรับเสียงสูสรางเสียง ? หากเรามองวาโปรแกรมจดจําเสียงพูดไดสรางคุณประโยชนอันมหาศาลแกผูดอยโอกาสทางสังคม ไมวา จะเปนผูดอยการศึกษาที่รูแตภาษาพูดไมรูจักภาษาเขียน หรือผูพิการทางมือไม (แมผูพัฒนาโปรแกรมเหลานี้อาจจะมี เจตนาอยูที่การอํานวยความสะดวกใหกับผูใชคอมพิวเตอรทั่ว ๆไป ไมใชผูดอยโอกาสเหลานี้เพราะไมมีความคุมคาในเชิง ธุรกิจ แตผลพลอยไดที่พวกเขาก็ไดรับก็นาจะเปนบุญกุศลอันยิ่งใหญ) คําถามที่ตามมาก็คือ จะมีผลิตภัณฑคอมพิวเตอร ประเภทไหนอีกที่จะชวยเพิ่มโอกาสใหกับผูดอยโอกาสในการสื่อสารดวยเสียง อยางคนใบ หรือผูมีปญหาในระบบการออก เสียง คําตอบ คือ มี อยางการพัฒนาระบบแปลงตัวอักษรไปเปนเสียงพูด (Text-to-speech) นั้น เผลอๆ จะมีวิวัฒนาการมาเนิ่นนานกวาระบบโปรแกรมจดจําเสียงพูดที่เปลี่ยนเสียงพูดไปเปนอักษรเสียอีก เพราะนับๆ ดูแลว ระบบการสรางเสียงพูดจากตัวอักษรนี้ก็ไดกอกําเนิดมานานกวา 15 ปไปแลว เพียงแตวาพัฒนาการของระบบที่วานี้ ดําเนินไปคอนขางชา เนื่องจากความสลับซับซอนของวิธีการสรางเสียง อยางในระยะแรกๆ นั้น นักวิจัยมักจะมุงเนนไปที่ การสรางเสียงจากอุปกรณอิเล็กทรอนิกสลวนๆ มีการสรางอุปกรณสรางเสียงที่เรียกวา formant TTS engine มาเพื่อ ประมวลคําสั่งคอมพิวเตอรใหเกิดเปนเสียง ผลปรากฏวาเสียงที่ไดนั้นมีคุณภาพต่ํามาก ไมเปนธรรมชาติ ฟงยาก หากไม คุนเคยกับเสียงดังกลาวมากอน (เสียง แบบเดียวกับที่เราไดยินเวลาดูหนัง หุนยนตรุนเกาๆ ) ในระยะหลัง นักวิจัย จึงเปลี่ยนไปใชวิธีการเก็บขอมูลเสียงพูด ของมนุษยจริงๆ เขาไปไวในฐานขอมูล เพื่อจะนํามาประมวลผลเปนคํา และผูก ประโยคใหมแทน แตก็อีกนั่นแหละ หลักการสรางเสียงพูดนั้นมีความ สลับซับซอนมากจนไมอาจจะเห็น ผลสําเร็จไดในชวงระยะเวลาสั้นๆ เพราะนักวิจัยจะตองผนวกความรูความ เชี่ยวชาญหลายๆ อยางเขามาไวดวยกัน คือ จะตองมีพื้นฐานความรูในดานระบบ คอมพิวเตอร ระบบเสียง และหลักการ ดานภาษาที่เรียกวาสัตถศาสตร ดวยจะตองมีการวิเคราะหจําแนกประโยคคําพูดออกไปเปนหนวยยอยที่เรียกวา "โฟนีม"
  • 11. File : voice.doc page : 11 Roger Gann “His Master’s Voice” Personal Computer World , Jan 2000 106 –112 Surapol เสียกอน (Phoneme คือหนวยยอยที่สุดของคําที่มีความหมาย เชนคําวา disintegrated นั้นก็จะประกอบไปดวย 3 โฟนีม ไดแก dis- , integrate และ -ed) จากนั้นยังตองแยกแยะการออกเสียงของแตละพยางคภายในหนึ่งโฟนีมอีกดวย หลังจากไดเสียงที่เหมาะสมของแตละโฟนีมแลว ผูวิจัยยังตองมาศึกษาถึงความสัมพันธระหวางโฟนีมอีก ตางหาก เพราะในการพูดภาษาอังกฤษนั้นจะมีการผันเสียงคํา และโฟนีมไปตามรูปประโยค คําขางเคียง และอารมณของ ประโยค ฯลฯ (เสียงพูดภาษาไทยนาจะถูกสรางขึ้นดวยคอมพิวเตอรงายกวาภาษาอังกฤษ เพราะคําไทยจะมีระดับเสียง คงที่ตลอดตามรูปแบบของตัวอักษรสูงกลางต่ํา และวรรณยุกต ไมมีการผันเสียงตามกาล คําขางเคียง หรืออารมณ แต อาจจะยากในขั้นตอนการแยกคําพูดภายในประโยค เนื่องจากคําในภาษาไทยถูกเขียนติดกันเปนพืดไปตลอดทั้งยอหนา ไม มีการแบงคําแบงประโยค) ผลจากพัฒนาการดังกลาว ทําใหผลิตภัณฑสรางเสียงรุนใหมๆ ใหเสียงพูดที่มีคุณภาพและความรูสึกที่ ใกลเคียงภาษามนุษยมากขึ้น ยกตัวอยางเชน อุปกรณ RealSpeak engine ของบริษัทเลินเอาทแอนดฮอสพายซึ่งใหเสียง ที่มีคุณภาพใกลเสียงพูดจริงๆ มาก ถึงกระนั้น ก็ออกจะนาเสียดายวาทางบริษัทไมไดผลิตอุปกรณชิ้นนี้ออกมาจําหนาย แบบเดี่ยวๆ (standalone product) แตใชวิธีผนวกเอาไปเปนสวนหนึ่งของอุปกรณอัตโนมัตประเภทอื่นๆ เชน อาจจะใช ในเครื่องตอบรับโทรศัพท หรือระบบชุมสายโทรศัพทอัตโนมัต ทั้งนี้ เปนไปไดวาตัวอุปกรณ ReakSpeak นั้นยังมีขอจํากัด ในเรื่องระบบประมวลผล human voice segment และหนวยความจําที่จํากัดไวแค 2 MB เทานั้น (ขนาดนี้ลูกคายังบน กันแลววาแพง)