Your SlideShare is downloading. ×
NECTEC E-magazine Vol.4
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

NECTEC E-magazine Vol.4

728
views

Published on

Vaja is a Thai text-to-speech software developed by Human Language Technology Laboratory (HLT). Vaja has been extensively researched and developed since 1997. The most recent version Vaja 6.0 utilizes …

Vaja is a Thai text-to-speech software developed by Human Language Technology Laboratory (HLT). Vaja has been extensively researched and developed since 1997. The most recent version Vaja 6.0 utilizes the latest speech synthesis technique HTS which uses a statistical model called Hidden Markov to produce synthesized sound. This technique helps eliminate the problem of uneven sound that occurred in the previous versions. The new synthesis technique together with a prosody prediction module which predicts phrase boundaries and the duration of each phone make the synthesized speech sounds more natural and increase users’ satisfaction. Furthermore, Vaja 6.0 is able to synthesize all Thai words since it has a text analysis module which can generate the pronunciation of every word even the one not found in a dictionary.

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
728
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
16
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. »ÃШÓà´×͹ àÁÉÒ¹ 2554
  • 2. Editor‘s Talk ธุรกิจบริการ Services Sector นับว่ามีบทบาทสำคัญต่อเศรษฐกิจของประเทศไทยเป็น อย่างมาก (จากข้อมูลธุรกิจบริการhttp://service.thaitrade.com) มีสัดส่วนร้อยละ 47.74 ของ ผลิตภัณฑ์มวลรวมในประเทศไทย (Gross Domestic Product-GDP) คิดเป็นมูลค่า 3.73 ล้านบาท สาขาบริการที่มีบทบาทมากที่สุด ได้แก่ สาขาค้าส่งค้าปลีก สาขาโรงแรมและภัตตาคาร สาขาการศึกษา สาขาการเงินการธนาคาร สาขาก่อสร้าง การค้าสังหาริมทรัพย์ สาขาบริการสุขภาพ เป็นต้น ศูนย์เทคโน โลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือเนคเทค องค์กรหลักของประเทศด้านการวิจัยและ พัฒนาเทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์ มีเป้าหมายที่จะนำผลงานวิจัยพัฒนาของศูนย์ฯ มา ตอบสนองการพัฒนาธุรกิจบริการในรูปแบบ Smart Service โดยตัวอย่างของผลงานที่เห็นเป็น รูปธรรมในการนำเทคโนโลยีของเนคเทคไปต่อยอดในรูปแบบต่างๆ อาทิ วาจา เวอร์ชั่น 6.0 ได้เริ่ม ปรากฏให้สาธารณชนได้นำไปประโยชน์แล้ว ที่ผ่านมามีหน่วยงานภาครัฐและภาคเอกชนนำ “วาจา เวอร์ชั่น 6.0” ไปให้บริการใน องค์กรของตนในรูปแบบที่หลากหลาย อาทิ คณะแพทยศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยใช้ระบบ ติดตามดูแลผู้ป่วยเบาหวานผ่านโทรศัพท์มือถือ โดยผู้ป่วยและแพทย์สามารถกำหนดเวลาในการติดตาม ผลการรักษาและการดูแลสุขภาพตนเอง, โรงพยาบาลเทศบาลเชียงใหม่นำไปประกอบใช้ในระบบเรียก คิวผู้ป่วยในโรงพยาบาลด้วยการขานชื่อนามสกุล, มหาวิทยาลัยรามคำแหง นำไปใช้ในการสร้าง e-Learning content สำหรับการเรียนการสอน, โรงพยาบาลศิริราช นำไปใช้ในการช่วยให้ผู้ป่วย ที่มีปัญหาในการออกเสียง สามารถสื่อสารกับผู้คนได้ด้วยการใช้เสียงสังเคราะห์ที่เรียก ชื่อว่า ICU Talk, สถาบันเทคโนโลยีนานาชาติสิรินธร ใช้เป็นซอฟต์แวร์ที่ทำงานบนเครื่องโทรศัพท์มือถือแบบ Windows Mobile เพื่อใช้สร้างเสียงสังเคราะห์จากข้อความต่างๆ บนเครื่อง เช่น อ่านอีเมล์ แสดงเสียงตัวเลขปุ่มกด เรียกชื่อว่า pTalk ปัจจุบันถูกบรรจุอยู่ในเครื่องโทรศัพ์มือถือที่มหาวิทยาลัย ธรรมศาสตร์ จัดสรรไว้สำหรับอำนวยความสะดวกในการใช้ชีวิตของนักศึกษาที่บกพร่องทางสายตา เป็นต้น วาจา เวอร์ชั่น 6.0 มีคุณสมบัติอย่างไร การออกแบบให้มีสถาปัตยซอฟต์แวร์ที่มี API ที่นำไปต่อยอดในการประยุกต์ใช้งานได้อย่างหลากหลาย ตอบสนองกับ Technology Trend และ Business Trend ที่จะเกิดในอนาคตทั้ง Cloud Computing, Web Service และ X-as-a-Services ทุกคำถามที่เกิดขึ้นท่านสามารถติดตามคำตอบเหล่านี้ได้ในสารเนคเทคฉบับนี้ บรรณาธิการ
  • 3. Contents Interview ดร. ชัย วุฒิวิวัฒน์ชัย ระบบสังเคราะห์เสีียงพูดภาษาไทย วาจา 6.0 3 Showcase วาจา ระบบสังเคราะห์เสียงพูดภาษาไทยคุณภาพสูง 6 Tech Trend เทคโนโลยีสังเคราะห์เสียงพูด Text - to - speech systhesis สำหรับ VAJATM 6.0 122 ประจำเดือน เมษายน 2554
  • 4. I nterviewบทสัมภาษณ์ดร.ชัย วุฒิวิวัฒน์ชัยหัวหน้าห้องปฏิบัติการวิจัยเทคโนโลยีเสียงระบบสังเคราะห์เสียงพูดภาษาไทย วาจา เวอร์ชั่น 6.0 วาจา เป็นระบบสังเคราะห์เสียงพูดภาษาไทยพัฒนาโดย ห้องปฏิบัติการวิจัยเทคโนโลยเสียง (Language and Semantic Technology Laboratory) หรือเรียกย่อๆ ว่า LST ซึ่งมีผลงานวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาของมนุษย์ในรูปแบบเสียงและภาษาเขียนที่เราใช้ใน การติดต่อสื่อสารของมนุษย์ทำให้การประมวลผลภาษา มีความน่าสนใจ และผลลัพธ์จาการวิจัยนี้สามารถนำไป ประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวางอย่างเช่น ลด ช่องว่างในการสื่อสารต่างภาษาและเพิ่มประสิทธิภาพใน การเข้าถึงข้อมูลข่าวสารได้อย่างทั่วถึง กว่าจะมาเป็นผลงานวิจัยในเวอร์ชันล่าสุด 6.0 ที่มีการเปิด ตัวไปอย่างเป็นทางการแล้วนั้น เส้นทางการพัฒนาของวาจา เริ่มต้นจาก เรามีความเก่งทางด้านเทคโนโลยีที่เกี่ยวข้องกับภาษา เราจึงพัฒนา ซอฟต์แวร์สังเคราะห์เสียงพูดภาษาไทยขึ้นมา วาจาเวอร์ชั่น 2.0 เป็น รุ่นแรกที่เปิดตัวเมื่อปี 2543 ประสบความสำเร็จในระดับหนึ่ง ซึ่ง พิสูจน์ให้เห็นความเป็นไปได้ในการใช้คอมพิวเตอร์อ่านข้อความใดๆ ใน ภาษาไทยได้ แต่เสียงยังคล้ายหุ่นยนต์ ไม่เป็นที่นิยมเท่าใดนัก จึงได้ มีการพัฒนาต่ออีก 4 ปีต่อมา จึงเปิดตัววาจา เวอร์ชั่น 3.0 ผลการวิจัย ให้เสียงสังเคราะห์เป็นธรรมชาติเป็นมากขึ้น แต่ก็ยังพบปัญหาความ ผิดพลาดของการวิเคราะห์คำอ่าน แม้จะพยายามปรับปรุงระบบเป็น เวอร์ชั่น 5.0 ในปี 2551 แล้วก็ตาม แต่ก็ยังคงไม่ได้รับความสนใจ การสังเคราะห์เสียงพูดด้วย VAJA 6.0 3
  • 5. เท่าที่ควร จนกระทั่งล่าสุดในปี 2553 เนคเทคประสบความสำเร็จในการพัฒนา “วาจา เวอร์ชั่น 6.0” อย่างมาก“เราทำมันได้แล้ว” ความสำเร็จของเวอร์ชั่นล่าสุดนี้ ที่บอกกับตัวเองว่า “เราทำมันได้แล้ว” ก็คือ ทีมเราทุ่มเท พัฒนาการทำงานกันอย่างหนัก วิเคราะห์ สังเคราะห์ แก้ข้อผิดพลาด ก็คือ ทีมเราทุ่มเท ที่เกิดขึ้น และพัฒนาให้ดีกว่าเดิม จากการออกเสียงแข็งกระด้างคล้ายหุ่นยนต์ เสียง กระตุกบริเวณรอยต่อของหน่วยเสียงใน “วาจา เวอร์ชั่น 6.0” เราใช้เทคโนโลยีใหม่ที่บีบ อัดฐานข้อมูลเสียงขนาดใหญ่เป็นแบบจำลองทางสถิติในการสังเคราะห์เสียง แบบจำลองพัฒนาการทำงาน นี้จะสามารถผลิตเสียงได้ราบเรียบไม่เกิดการสะดุดเหมือนเวอร์ชั่นก่อนๆ อีกทั้งสามารถ ปรับค่าต่างๆ ในเนื้อเสียง เช่น เสียงสูงต่ำ เสียงสั้นยาว ได้สะดวกขึ้นมากด้วย ทำให้คุณภาพ กันอย่างหนัก เสียงที่ได้มีความเป็นธรรมชาติ ใกล้เคียงกับเสียงพูดของมนุษย์ มีการทดสอบหรือนำไปใช้งานจากหน่วยงานทั้งรัฐและเอกชน ในหลายรูปแบบ วิเคราะห์ ทั้งที่ติดต่อเข้ามาขอใช้จากสื่อที่เผยแพร่ออกไป และเป็นความร่วมมือในหน่วยงานรัฐฯ ด้วยกัน ปัจจุบันยังเป็นการบริการฟรีในทุกรูปแบบ สังเคราะห์ ดร.ชัย วุฒิวิวัฒน์ชัย กล่าวว่า ขณะนี้พร้อมแล้วที่จะเปิดตลาดบริการแก่ผู้ที่สนใจ เต็มตัว ผมต้องบอกก่อนว่า สมัยก่อนมีทีมด้านนี้น้อย ปัจจุบันเรามีนักวิจัยที่มีความรู้ แก้ข้อผิดพลาด ความเชี่ยวชาญ กลับมาจากต่างประเทศ กลับมาช่วยกันสร้างงานวิจยและพัฒนามากขึน ั ตอนนีพร้อมเปิดเต็มรูปแบบ เพราะมีพนธมิตรทางการวิจัยช่วยสนับสนุนและเดินไปพร้อมๆ ้ ั ้ ให้ดีกว่าเดิม กับเรา โจทย์จากการวิจัยมาจากท่านที่นำไปใช้งานการต่อยอดงานวิจัยในอนาคต เราจะ พัฒนาให้มีการใส่ expressiveness ที่จะทำให้เวลาอ่านแสดงอารมณ์ ความรู้สึกจะ มีการอ่านแบบ bilingual ส่วนนี้ทำเสร็จแล้ว และ 13 ปีของวาจา เราพบว่า สวทช. ยุค ใหม่กำลังถ่ายทอดเทคโนโลยีออกสู่ตลาด ซึ่งจะมีผลงานหลายชิ้นออกตามมา“ดีใจที่งาน วิจัยเป็นประโยชน์ต่อ สังคม” ครับ 4 ประจำเดือน เมษายน 2554
  • 6. ทัศนะจากผู้ใช้ Vaja 6.0“ ผศ.ดร.นายแพทย์ วิโรจน์ เจียมจรัสรังษี ผู้ช่วยคณะบดีฝ่ายสร้างเสริมสุขภาพ โรงพยาบาลจุฬา เล่าว่า “ปัจจุบันมีโรคเรื้อรังที่เกิดมากขึ้น ผู้ที่ได้รับการ รักษาต้องได้รับการดูแลอย่างต่อเนื่อง ทุก 3 เดือน ต้องมีการนัดหมาย วาจาถูกนำมาช่วยในเรื่องการติดตาม “ “ ในการดูแลผู้ป่วยผ่านโทรศัพท์อัตโนมัติ ปัจจุบันมีผู้ใช้ ประมาณร้อยกว่าคน ภายในระยะเวลาไม่กี่เดือน” “ ม.ราม เป็นตลาดวิชา มีผู้เรียน หลากหลาย ตั้งแต่ pre-degree ต่ำกว่า อุดมศึกษา จนถึงอาวุโส มีผู้เรียนจาก หลายแห่งทั่วโลก มีให้ดาวน์โหลดฟรี ที่ ได้ เข้ า มาใช้ ง านวาจาก็ เ พราะเราเห็ น จากการแถลงข่าว จึงได้ติดต่อมาขอใช้ ซึ่ง เนคเทคก็ยินดีให้เราใช้ ปัจจุบันทำหนังสือ “ เสียงไปได้แล้วกว่า 30 เล่ม” คุณณัฐกิจ สินธุยี่ ตัวแทนศูนย์บริการเทคโนโลยีสาร สนเทศ มหาวิทยาลัยรามคำแหง กล่าว“คุณมรกต กุลธรรมโยธิน กรรมการบริษัทอินเทอร์เน็ตประเทศไทย จำกัด (มหาชน) ผู้ให้บริการ internet providerได้นำไปใช้เสริมสร้างความแข็งแกร่ง สร้างความมั่นใจในธุรกิจบริการ หรือนำไปสร้างมูลค่าอื่นๆ เช่น ระบบการอ่านข่าวจากสื่อ “สิ่งพิมพ์ทั้งออฟไลน์และออนไลน์ เป็นควาามสามารถที่มีอยู่หลากหลายซึ่งนับเป็นนวัตกรรมที่สร้างผลกระทบในเชิงธุรกิจ การสังเคราะห์เสียงพูดด้วย VAJA 6.0 5
  • 7. Showcase “ว าจ า” ระบบสังเคราะห์เสียงพูดภาษาไทย คุณภาพ สูง วาจา (VAJATM) เป็นระบบสังเคราะห์เสียงพูดภาษาไทย ของเนคเทค ซึ่งใช้ระยะเวลา บนเส้นทางการพัฒนาที่ยาวนานกว่า 10 ปี จนมาถึงเวอร์ชั่นล่าสุด 6.0 ถือเป็นความสำเร็จ สำหรับวงการวิจัยและพัฒนาทางด้านภาษาที่มีผู้นำไปใช้งานแล้วสร้างมูลค่าและโอกาสให้ เชิงธุรกิจ “วาจา เวอร์ชั่น 6.0” ประกอบด้วยส่วนวิเคราะห์ข้อความ (Text analyzer) มีระบบแบ่งคำอัตโนมัติที่ ได้รับการพัฒนาล่าสุด สามารถสร้างเสียงพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถ วิเคราะห์ได้แม้แต่คำที่ไม่ปรากฏในพจนานุกรม ส่วนทำนายสัทสัมพันธ์ (Prosody prediction) ที่ช่วยในการวิเคราะห์ ขอบเขตของวลี และการทำนายความยาวของหน่วยเสียง ทำให้เสียงสังเคราะห์มีความเป็นธรรมชาติดังเช่นเสียง พูดของคน คุณสมบัติเด่นของวาจา เวอร์ชั่น 6.0 1. สร้างเสียงได้ราบเรียบไม่เกิดการสะดุดด้วย การใช้แบบจำลองเสียงทางสถิติ 2. คุณภาพเสียงได้คะแนน 3.7 จากคะแนนเต็ม 5 จากผู้ฟังกลุ่มตัวอย่าง 3. วิเคราะห์คำอ่านของข้อความภาษาไทยได้ ถูกต้องเกิน 90% 4. มีพจนานุกรมสำหรับวิเคราะห์คำอ่านภาษา อังกฤษจำนวน 10,000 คำ 5. สามารถเพิ่มคำและคำอ่านที่ต้องการได้6 ประจำเดือน เมษายน 2554
  • 8. ด้วยคุณสมบัติของวาจาเวอร์ชั่นนี้ จึงมีการเปิด นอกจากนี้ วาจา ยังมีแอปพลิเคชั่นที่เปิดเป็นบริการบริการให้ทดลองใช้ในสองรูปแบบ คือ ผ่านเว็บเซอร์วิส และ สาธารณะด้วย คือ VIS ระบบบริการข้อมูลข่าวสารด้วยการนำซอฟต์แวร์ไปติดตั้งเอง เป็น stand alone หรือ เสียงพูด ซึ่งได้แก่ บริการตอบรับโทรศัพท์อัตโนมัติสำหรับเรียกว่า วาจา 6.0 Home Edition ภายใต้ชื่อ “เจรจา” รายงานข้อมูลจราจร หรือ TVIS ระบบบริการอ่านข่าวอัตโนมัติ(jRaja) เปิดให้ทดลองใช้ได้ฟรีสำหรับการใช้งานส่วนตัว สำหรับ ผ่านเว็บไซต์และโทรศัพท์ หรือ NVIS, PostVoice บริการผู้ที่ต้องการฟังก์ชั่นการทำงานขั้นสูง เช่น การเรียกใช้งานผ่าน โพสต์เสียงพูดบน social network เช่น facebook, twitterAPI การใช้งานผ่านเว็บบริการ การเพิ่มคำเฉพาะ เช่น ชื่อ เป็นต้นบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์ สามารถแปลงข้ อ ความเป็ น เสี ย งพู ด ได้ ต รงกั บ ความต้ อ งการของผู้ใช้ บริการสาธารณะ บริการที่มาจากระบบสังเคราะห์เสียงพูด (vaja 6.0) เป็นระบบประยุกต์ที่สร้างขึ้นเป็นบริการ สาธารณะให้ผู้ใช้ภายนอกได้ทดสอบใช้งาน ได้แก่ 1) TVIS: Traffic Voice Information Service เป็นบริการตอบรับโทรศัพท์อตโนมัตสำหรับรายงาน ั ิ ช่วงการชุมนุมทางการเมืองเมื่อเดือนเมษายน 2553 และใช้ ข้อมูลสภาพจราจร โดยให้ผู้ใช้โทรหมายเลข 02-565-7007 ในการให้ข้อมูลข่าวสารต่างๆ ที่เกี่ยวข้องกับสถานการณ์ และพูดชื่อถนนที่ต้องการทราบข้อมูล ระบบจะแปลงเสียง น้ำท่วมใหญ่ในเดือนตุลาคม 2553 พูดเป็นข้อความอัตโนมัติและไปดึงข้อมูลมาจาก http:// traffic.thai.net ซึ่งเป็นบริการข้อมูลสภาพจราจรภายใต้ การดูแลของ Intelligent Transporta- tion Association Thailand (ITS Thai- land) นำข้อมูลสภาพจราจรมาสรุปความ ตอบกลับให้ผู้ใช้ฟังด้วยเสียงสังเคราะห์ TVIS ได้รับความสนใจจาก ภาครัฐและเอกชนหลังจากให้บริการมา ระยะหนึ่ง โดยเฉพาะอย่างยิ่งได้มีการ พัฒนาตามคำร้องขอเพื่อใช้เป็นช่องทาง หนึ่ ง ที่ ป ระชาชนจะเข้ า ถึ ง ข่ า วสารใน สถานการณ์ฉุกเฉิน เช่น ใช้ในการให้ ข้อมูลสภาพจราจรย่านราชประสงค์ใน ระบบตอบรับอัตโนมัติสำหรับการรายงานสภาพจราจร (TVIS) การสังเคราะห์เสียงพูดด้วย VAJA 6.0 7
  • 9. 2) NVIS: News Voice Information Service เป็นระบบอ่านข่าวอัตโนมัติ ที่ใช้ระบบสังเคราะห์เสียงพูด นอกเหนือจากการให้บริการผ่านทาง IVR แล้ว NVIS วาจา เวอร์ชั่น 6.0 มีคุณภาพเสียงดีเพียงพอสำหรับการอ่าน ยังถูกพัฒนาให้ทำงานได้ในอีกหลายรูปแบบ เช่น เป็นซอฟต์แวร์ ข้อมูลข่าวสารใดๆ NVIS จึงเป็นนวัตกรรมที่เนคเทคสร้างขึ้น สำเร็จรูปที่ติดตั้งบนเครื่องคอมพิวเตอร์พีซี ซึ่งจะรับข้อมูลเสียง เพื่อเพิ่มช่องทางในการรับข่าวสารแบบ Real-time นอกเหนือ จากเครื่องแม่ข่ายอ่านข่าวให้ผู้ใช้คอมพิวเตอร์ฟังได้ตลอดเวลา ไปจากการอ่านข่าวผ่านอินเทอร์เน็ต หรือรับข่าวผ่าน SMS และ Real-time ระบบ NVIS ยังให้บริการผ่าน Web client บนโทรศัพท์มือถือ NVIS เป็นระบบอัตโนมัติที่รับ RSS feed ที่สามารถทำงานได้บน Browser ที่สนับสนุน Flash ดังนั้น ข้อความข่าวสั้น จากแหล่งข่าวต่างๆ เช่น MCOT ASTV การเรียกใช้งานบนโทรศัพท์มือถือประเภท Android ที่มี TPBS และ CH7 มาแปลงเป็นเสียงพูดให้บริการผูใช้ทโทรศัพท์ ้ ่ี Browser ดังกล่าวก็สามารถทำได้ นอกจากนีเ้ นคเทคยังอยูระหว่าง ่ เข้ามาทางหมายเลข 02-565-7008 ผู้ใช้สามารถเลือกแหล่ง การพัฒนา NVIS เป็น Mobile Application บน iPhone ซึ่ง ข่าวที่ต้องการ เลือกหมวดข่าวที่แบ่งไว้แล้วตามชนิดของ จะเพิ่มความสะดวกสบายในการรับฟังข่าวสารผ่านเครือข่าย Feed ข่าวที่ได้รับมา และรับฟังเสียงอ่านข่าวสั้นนั้นๆ ได้ อินเทอร์เน็ตบนโทรศัพท์มือถือ 3) POSTVOICE: Social Network Voice Posting Service เป็นบริการสำหรับผู้ใช้ในกลุ่ม Social Network ประเภท Facebook และ Twitter ส่งเสียงได้ รับฟังข้อความที่เข้ามาแทนการอ่านข้อความ จะเป็นประโยชน์ ในการติดตามข้อมูลในบางสถานการณ์อ่านได้ไม่สะดวกนัก นอกจากนี้ในการโพสต์ ข้อความด้วยการพิมพ์ในหลายสถานการณ์ก็ทำได้ยาก เช่น ในระหว่างขับรถ ระบบ ประยุกต์ใหม่ล่าสุดที่เนคเทคได้ทดสอบพัฒนาขึ้นชื่อว่า POSTVOICE เป็นบริการ โพสต์เสียงพูดบน Facebook หรือ Twitter ของผู้ใช้ ซึ่งวิธีการโพสต์เสียงทำได้ 2 แบบ คือ ก. พิมพ์ข้อความบนเว็บไซต์ของ POSTVOICE และระบบจะแปลงข้อความ เป็นเสียงพูดด้วยวาจา เวอร์ชั่น 6.0 นำลิงก์ของไฟล์เสียงที่ได้ไปโพสต์บน Facebook หรือ Twitter อัตโนมัติ8 ประจำเดือน เมษายน 2554
  • 10. ข. โทรเข้ามาทีหมายเลข 02-524-9222 และพูดข้อความ ่ ที่ ต้ อ งการโพสต์ ร ะบบจะนำไฟล์ เ สี ย งที่ บั น ทึ ก ได้ ไ ปโพสต์ บ น Facebook หรือ Twitter ของผู้ใช้โดยอัตโนมัติการโพสต์ข้อความ เสียงผ่าน IVR ในรูปแบบที่สองนี้ สามารถประยุกต์ใช้ในสถาน- การณ์ฉุกเฉินที่ผู้ใช้อาจไม่สามารถเชื่อมต่ออินเทอร์เน็ตแต่ยัง สามารถใช้เครือข่ายโทรศัพท์ได้ ระบบ POSTVOICE เปิดให้ ทดสอบใช้งานเป็นบริการสาธารณะ4) ISAY: Text-to-Thai Speech Translation Service ISAY เป็นบริการพื้นฐานสำหรับการสังเคราะห์เสียงพูดภาษาไทยด้วยวาจา เวอร์ชั่น 6.0 โดยผู้ใช้สามารถพิมพ์ข้อความใดๆ และกดปุ่มเพื่อแปลงข้อความเป็นเสียงพูด สิ่งที่เพิ่มเติมพิเศษคือ ในกรณีที่ผู้ใช้พิมพ์ข้อความเป็นภาษาอื่นๆ ที่ไม่ใช่ภาษาไทย ระบบจะสามารถตรวจสอบได้ว่าเป็นภาษาใดและนำไปแปลเป็นข้อความภาษาไทย ด้วย Google Translate แล้วสังเคราะห์เสียงพูดภาษาไทยของข้อความที่แปลมาได้ ช่วยให้ผู้ใช้ที่เป็นชาวต่างชาติสามารถสื่อสารกับคนไทยได้ ในกรณีที่ระบบไม่สามารถตรวจสอบได้ว่าเป็นภาษาใด หรือ Google Translate ไม่รองรับภาษานั้นๆ จะไม่สามารถแปลและไม่มีเอาต์พุตเสียงภาษาไทยเกิดขึ้น นอกจากนี้ ยังมีผลิตภัณฑ์ข้างเคียงที่ตอบสนอง การใช้งานจริงอีก เป็นซอฟต์แวร์สำหรับแปลงเสียงพูดเป็น เป็นข้อความ หรือที่เรียกว่า “iSpeech” และ ระบบ ตอบรับโทรศัพท์ หรือ “IAGENT” หรือที่เรียกว่า Call center ระบบนี้เป็นนวัตกรรมที่มีมูลค่า ตอบสนองความ ต้องการของผู้ใช้ได้หลากหลาย ภาพการทำงานของ ISAY การสังเคราะห์เสียงพูดด้วย VAJA 6.0 9
  • 11. การนำไปใช้งาน ในระยะ 1 ปีที่ผ่านมา มีผู้สนใจทั้งจากภาครัฐและ นี้กำลังได้รับความสนใจจากสำนักงานสาธาณสุขเชียงใหม่ เพื่อ เอกชน เข้ามาติดต่อเพื่อนำระบบไปทดสอบใช้งาน ตลอดจน นำไปขยายใช้งานในอีกหลายโรงพยาบาลในภาคเหนือ นำไปพัฒนาต่อยอด เป็นระบบบริการในหลายด้านตัวอย่าง การนำไปใช้งาน ได้แก่ ด้านการศึกษา มหาวิทยาลัยรามคำแหงนำ วาจา เวอร์ชั่น 6.0 ไป ด้านการแพทย์และสาธารณสุข ใช้ในการสร้างเนื้อหา e-Learning สำหรับการเรียนการสอน โรงพยาบาลจุฬาลงกรณ์ สภากาชาดไทย ร่วมกับเนคเทค พัฒนาระบบติดตามดูแลผู้ป่วยเบาหวานผ่านโทรศัพท์มือถือ เป็น ด้านคนพิการ ลักษณะการนำไปใช้เป็นระบบติดตามดูแลผูปวย โดยผูปวยและแพทย์ ้ ่ ้ ่ เป็ น เครื่ อ งมื อ ที่ ช่ ว ยอำนวยความสะดวกสำหรั บ สามารถกำหนดเวลาในการติดตามผลการรักษาและการดูแลสุขภาพ ผู้ด้อยโอกาส โดยเฉพาะผู้พิการทางสายตารวมถึงผู้บกพร่อง ตนเอง เมื่อถึงเวลาที่กำหนด ระบบจะโทรออกไปยังผู้ป่วยเพื่อให้ ทางการเรียนรู้ (Learning Disability, LD) ซึ่งมีความจำเป็น ผู้ป่วยตอบแบบสอบถามด้วยการกดปุ่ม พร้อมทั้งแนะนำการดูแล ต้องใช้เสียงช่วยในการติดต่อสื่อสาร วาจา เวอร์ชั่น 6.0 ตนเองที่เหมาะสม เนื้อหาคำถามและคำตอบจะออกแบบไว้โดยคณะ ถูกนำไปใช้ประกอบในซอฟต์แวร์ประยุกต์จำนวนหนึ่ง ได้แก่ แพทย์ เมื่อได้ผลการตอบแบบสอบถาม ระบบจะสรุปผลแสดงต่อ โปรแกรมค้นหาคำศัพท์ไทย โปรแกรมช่วยสะกดคำไทย ซึ่ง แพทย์ประจำผู้ป่วยนั้น รวมทั้งแจ้งเตือนโดยทันทีหากพบปัญหารุนแรง นอกจากจะแสดงรายการคำบนหน้าจอแล้วยังแสดงเสียงอ่าน ในขณะที่ชุดคำถามอาจมีการเปลี่ยนแปลงได้ตามลักษณะผู้ป่วยและ คำศัพท์ด้วย ช่วยให้ผู้บกพร่องทางการเรียนรู้สามารถเข้าใจคำ ศัพท์ได้ดีขึ้น รายละเอียดเพิ่มเติม ดูได้ที่ http://www.ldtha- ตามระยะเวลาที่แตกต่างกัน การใช้ระบบสังเคราะห์เสียงพูด วาจา icommunity.com เวอร์ชั่น 6.0 จะช่วยลดภาระในการสร้างระบบอัตโนมัติได้ ปัจจุบัน ระบบนี้อยู่ระหว่างการทดสอบกับผู้ป่วยอาสาสมัคร ICU Talk เป็นโปรแกรมคอมพิวเตอร์ทชวยให้ผปวย ี่ ่ ู้ ่ ที่มีปัญหาในการออกเสียง สามารถสื่อสารกับผู้คนได้ด้วยการ ใช้เสียงสังเคราะห์ที่ได้จากวาจาที่ประกอบอยู่ในโปรแกรม ปัจจุบันได้ทดสอบใช้งานอยู่ที่โรงพยาบาลศิริราช pTalk ซอฟต์แวร์ที่ทำงานบนเครื่องโทรศัพท์มือถือ แบบ Windows Mobile ใช้สร้างเสียงสังเคราะห์จาก ข้อความต่างๆ บนเครื่อง เช่น อ่านอีเมล์ แสดงเสียงตัวเลขปุ่มกด เป็นต้น pTalk เป็นความร่วมมือระหว่างเนคเทคกับสถาบัน เทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์ โดยใช้ องค์ความรู้และทรัพยากรบางส่วนจากระบบสังเคราะห์เสียง พูดวาจา เวอร์ชั่น 6.0 ปัจจุบัน ซอฟต์แวร์ pTalk ถูกบรรจุ ผังการทำงานของระบบติดตามดูแลผู้ป่วยเบาหวาน อยู่ ใ นเครื่ อ งโทรศั พ ท์ มื อ ถื อ ผ่านโทรศัพท์มือถือ ที่มหาวิทยาลัยธรรมศาสตร์ จัดสรรไว้สำหรับอำนวยความ นอกจากนี้โรงพยาบาลเทศบาลเชียงใหม่ ได้นำระบบ สะดวกในการใช้ ชี วิ ต ของ สังเคราะห์เสียงพูด วาจา เวอร์ชั่น 6.0 ไปประกอบใช้ในระบบเรียก นักศึกษาทีบกพร่องทางสายตา ่ คิวผู้ป่วยในโรงพยาบาล ช่วยให้สามารถเรียกคิวด้วยการขานชื่อ- นามสกุล เพิมเติมจากเพียงประกาศหมายเลขคิวเท่านัน ระบบประยุกต์ ่ ้10 ประจำเดือน เมษายน 2554
  • 12. ด้านโทรคมนาคม ตลาดทางด้ า นโทรคมนาคมเป็ น ตลาดใหญ่ ที่ สุ ด ของการใช้งานระบบสังเคราะห์เสียงพูด คือใช้ในระบบ IVR หรือCall center เพื่อให้ข้อมูลที่มีเปลี่ยนแปลง Real-time อยู่เสมอศูนย์ประชุมแห่งชาติสิริกิติ์ ได้นำซอฟต์แวร์ไปใช้ในการรายงานสภาพจราจร รวมทั้งให้ข้อมูลการแสดงที่มีในศูนย์ฯ นอกจากนี้เนคเทคได้นำมาใช้ในระบบตอบรับโทรศัพท์อัตโนมัติ (NECTECCall Center) ที่หมายเลข 02-524-9200 เพื่อให้ข้อมูลงานวิจัยและพัฒนา ตลอดจนข้อมูลองค์กรด้านสื่อสารมวลชนและด้านบริการข้อมูลข่าวสารสาธารณะ ประโยชน์อีกประการหนึ่งของระบบสังเคราะห์ เสียงพูดคือ การให้ข้อมูลข่าวสารด้วยเสียงพูด ตัวอย่างการนำไปใช้งานได้แก่ หนังสือพิมพ์ผู้จัดการออนไลน์ และเดอะเนชั่น ได้เคยทดสอบเชื่อมต่อ Web service เพื่อเรียกใช้บริการวาจา 6.0 โดยส่งเนื้อหาข่าวที่แสดงบนเว็บไซต์มาแปลงเป็นเสียงพูดให้ผู้ใช้สามารถคลิกเพื่อรับฟังข่าวได้ นอกจากนี้ กรมสรรพากรได้ประยุกต์ใช้ใน ติดต่อ/ปรึกษาลักษณะเดียวกัน คือนอกจากให้ข้อมูลข่าวต่างๆ ของกรมด้วย ข้อความแล้ว ยังมีคลิปเสียงให้ผู้ใช้สามารถกดเพื่อฟังแทนการอ่านได้ ฝ่ายพัฒนาธุรกิจและทอดเทคโนโลยี ศูนย์เทคโนโลยี อิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) NECTEC CallCenter 02-524-9200 ติดต่อ โดยตรงได้ที่ คุณสุธาทิพย์ เกรียงโรจน์กุล โทร : 02-564-6900 ต่อ 2348 คุณจิราภา ศรีไสย์ ต่อ 2334 หรือรายละเอียดงานวิจัยได้ที่ : http:// www.hlt.nectec.or.th, http://vaja.nectec. or.th การสังเคราะห์เสียงพูดด้วย VAJA 6.0 11
  • 13. TechTrend เทคโนโลยีสังเคราะห์เสียงพูด Text-to-speech synthesis สำหรับ VAJA 6.0 TM as d saw ee เทคโนโลยีสังเคราะห์เสียงพูด เป็นเทคโนโลยีที่สามารถ สร้างเสียงคำพูดใดๆ ได้ตามความต้องการ ซึงในการใช้งานส่วนใหญ่ ่ จะต้องใช้งานร่วมกับเทคโนโลยีด้านการประมวลผลภาษา (Lan- guage Processing Technology) ทำให้ได้เทคโนโลยีสังเคราะห์ เสียงจากข้อความ (Text-to-Speech Synthesis: TTS) ซึ่งเป็น เทคโนโลยีประเภทปัญญาประดิษฐ์ ที่ช่วยแปลงข้อความอินพุตเป็น เสียงพูดหรือเสียงอ่านได้โดยอัตโนมัติ สามารถนำไปประยุกต์ใช้กับ ข้อความภาษาไทย เพื่อหาวิธีอ่านข้อความแล้วแปลงข้อความจาก ตัวหนังสือภาษาไทยให้เป็นเสียงพูดภาษาไทย ซอฟต์แวร์สังเคราะห์ เสียงพูดภาษาไทยคุณภาพสูงสามารถสังเคราะห์เสียงพูดภาษาไทย ได้ทุกคำ เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้ แม้แต่คำที่ไม่เคยปรากฏในพจนานุกรม นอกจากนี้ผู้ใช้สามารถเพิ่ม คำเฉพาะเช่นชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อ ให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความ ต้องการของผู้ใช้ นอกจากนี้ยังสามารถสร้างเป็นซอฟต์แวร์ไลบรารี่ ที่สะดวกสำหรับผู้นำไปพัฒนาต่อ12 ประจำเดือน เมษายน 2554
  • 14. Vaja จึงเป็นการนำเทคโนโลยีใหม่ของ TTS ที่สามารถสังเคราห์เสียง เทคโนโลยีโครงสร้างพื้นฐานสารสนเทศได้คล้ายมนุษย์ยิ่งขึ้นกว่าเวอร์ชั่นเดิมอย่างชัดเจน ทำให้การค้นคว้าวิจัยและ อัจฉริยะ (Intelligent Informationพัฒนาเทคโนโลยีที่เกี่ยวข้องกับภาษาของมนุษย์ในรูปแบบเสียงและภาษาเขียน Infrastructure Technology)มีความสำคัญสำหรับการติดต่อสื่อสารของมนุษย์ การประมวลผลภาษาจึงมี เป็ น เทคโนโลยี ด้ า นการวิ จั ย และพั ฒ นาความน่าสนใจอย่างยิ่งและผลลัพธ์ของการวิจัยและพัฒนานี้จะสามารถประยุก เทคนิครวมถึงระบบต่างๆ ที่เกี่ยวข้องกับเทคโนโลยีต์ใช้ในงานต่างๆ ได้อย่างกว้างขวางช่วยลดช่องว่างในการสื่อสารต่างภาษาและ สารสนเทศ ตั้งแต่ระบบการจัดการฐานข้อมูล (Data-เพมประสทธภาพในการเขาถงขอมลขาวสารไดอยางทวถงและเทาเทยมการวจย ่ิ ิ ิ ้ ึ ้ ู ่ ้ ่ ่ั ึ ่ ี ิั base Management System) ระบบสืบค้นข้อมูลและพัฒนาวิทยาการสำหรับการประมวลผลเฉพาะสำหรับภาษาไทย (Information Retrieval System) ไปจนถึงการเทคโนโลยีสำหรับ VAJATM 6.0 วิเคราะห์ฐานข้อมูลขนาดใหญ่ (Data Mining) รวมทั้งการวิจัยเพื่อหาเทคนิคต่างๆ ที่จะทำให้ระบบ สารสนเทศมีความอัจฉริยะมากยิ่งขึ้น เช่น โครงสร้าง สารสนเทศเชิงความหมาย (Ontology) และ การประมวลผลสารสนเทศเชิงกราฟิก (Information Visualization) ทรัพยากรภาษาและเครื่องมือ (Language Resources and Tools) เปนเทคโนโลยเี พอวจยและพฒนาทรพยากร ็ ่ื ิ ั ั ั ภาษาที่จำเป็นสำหรับการวิจัยและพัฒนาเครื่องมือ พืนฐาน ตลอดจนเครืองมือประยุกต์ทางการประมวล ้ ่เทคโนโลยีประมวลผลเสียงพูด (Speech Processing Technology) ผลภาษาและเสียงพูด ผลการวิจัยได้แก่ คลังข้อมูล เป็นเทคโนโลยีซึ่งเกี่ยวกับภาษาในรูป เสียงพูด คลังข้อความที่ได้รับการกำกับอย่างเป็นแบบของเสียง ได้แก่ การรู้จำเสียงพูดภาษาไทย ระบบ และเครื่องมือพื้นฐาน เช่น ระบบแบ่งคำการสังเคราะห์เสียงพูดภาษาไทย ซึ่งมีจุด ภาษาไทยมุ่ ง หมายเน้ น การทำวิ จั ย พื้ น ฐานเพื่ อ นำไปต่ อ นอกจากเทคโนโลยี ที่ ใช้ กั บ วาจาแล้ วยอดในการพัฒนานวัตกรรมต่างๆ ในเชิงพาณิชย์ ยังจำเป็นต้องมีเทคโนโลยีอื่นๆ ร่วมในการพัฒนาเช่น โปรแกรมอ่านอีเมล์ (MailTalk) เว็บบริการ ด้วย ได้แก่ข้อมูลสื่อสารโดยใช้เสียงพูด (VIEW)เทคโนโลยีประมวลผลข้อความ (Text ProcessingTechnology) เป็นเทคโนโลยีเพื่อวิจัยและพัฒนาการแปลภาษาเขียนอัตโนมัติในระดับคำและข้อความให้มีความถูกต้องสูงสามารถใช้งานได้กับการแปลหลายภาษา ซึ่งเป็นการผสมผสานวิธีการแปลในรูปแบบต่างๆ กันทั้งการใช้กฎไวยากรณ์ตัวอย่าง และสถิติ นอกจากนี้ยังรวมถึงวิธีการวัดประสิทธิ-ภาพของระบบแปลภาษา การสังเคราะห์เสียงพูดด้วย VAJA 6.0 13
  • 15. 1) ระบบรู้จำเสียงพูด “ไอสปีช” (ISPEECH) ไอสปีช เป็นซอฟต์แวร์สำหรับแปลงเสียงพูดเป็น ข้อความ ปัจจุบันมี 2 เวอร์ชั่นคือ เวอร์ชั่น W 1.5 รองรับเสียงพูดคำโดด โดยผู้ใช้สามารถสร้างชุดคำศัพท์ที่ ต้องการให้ระบบรู้จำได้ง่าย มีความถูกต้องของการรู้จำเกิน กว่า 90% ภายใต้สภาวะแวดล้อมการใช้งานแบบสำนักงาน และจำนวนคำศัพท์ประมาณ 100 คำ เวอร์ชั่น R1.0 รองรับเสียงพูดต่อเนื่องเป็นประโยค โดยผู้ใช้ต้องกำหนด ไวยากรณ์ของประโยคทีผใช้สามารถพูดได้เพือความสะดวก ่ ู้ ่ ในการสร้างระบบรู้จำเสียงพูด ไอสปีช ถูกพัฒนาให้บริการ ทั้งในเวอร์ชั่น Stand-alone และ Web service เช่น เดียวกับระบบ วาจา เวอร์ชั่น 6.0 2) ระบบตอบรับโทรศัพท์ “ไอเอเจนต์” (IAGENT) ใช้เทคโนโลยีสังเคราะห์เสียงพูด และเทคโน- โลยีรู้จำเสียงพูด คือระบบตอบรับโทรศัพท์ (Inter- active Voice Response, IVR) หรือที่เรียกว่า คอลล์เซ็นเตอร์ (Call center) มีการพัฒนาระบบ IVR พื้นฐาน ต่อยอดมาจาก Open-source Asterisk โดย เพิ่มเติมคุณสมบัติในการเชื่อมต่อกับวาจา เวอร์ชั่น 6.0 และ ไอสปีช การใช้งานในหลายสถานการณ์มี ความต้องการตั้งระบบอย่างเร่งด่วน เช่น ตั้งระบบตอบ รับโทรศัพท์ในการบริหารจัดการภัยพิบัติ ไอเอเจนต์ จึงถูกพัฒนาในรูปแบบเว็บ และมี User interface ที่สะดวกอย่างยิ่งในการสร้าง และแก้ไขเนื้อหาคำถาม ตัวอย่างหน้าจอการทำงานของ IVR Agent 1.0 คำตอบที่จะแสดงในระบบ ประโยชน์ของการประยุกต์ใช้เทคโนโลยีสังเคราะห์เสียงพูด ได้แก่ สามารถนำเทคโนโลยีสังเคราะห์เสียงพูดมาแปลงข่าวสารอิเล็กทรอนิกส์ที่มีปริมาณมากและมีการปรับเปลี่ยนตลอดเวลา เช่น การส่งข่าวสารผ่านข้อความเสียง (voice message) การรายงานข่าว การวิเคราะห์หุ้น มาเป็นเสียงพูด เพื่อให้ผู้รับ ข่าวสารได้รับข่าวทันทีโดยสะดวก สามารถเผยแพร่ข่าวสารผ่านเครือข่ายพื้นฐานที่มีอยู่แล้ว เช่น เครือข่ายโทรศัพท์บ้าน โทรศัพท์มือถือ และอินเทอร์เน็ต ซึ่ง การเผยแพร่ทางเสียงเป็นวิธีการพื้นฐานที่เข้าถึงได้ทุกเครือข่ายโดยไม่ต้องการอุปกรณ์เพิ่มเติม ผู้รับข่าวสารสามารถรับข่าวสารโดยไม่ต้องละจากกิจกรรมที่ทำอยู่ โดยเฉพาะอย่างยิ่งในกรณีที่ผู้รับอยู่ในภาวะที่ก่อให้เกิด อันตรายได้ เช่น ขณะขับขี่รถยนต์ สามารถประยุกต์ใช้กับอุปกรณ์สื่อสารอื่นๆ เช่น ผู้ใช้บริการสามารถส่งข้อมูลโดยโทรสาร ในขณะที่ผู้รับปลายทางสามารถ รับฟังข้อความบนเอกสารโดยโทรศัพท์ทั่วไป การเพิ่มโอกาสให้คนพิการ เช่น โปรแกรมอ่านข้อมูลเพื่อคนตาบอด หรืออุปกรณ์ช่วยพูดแทนคนใบ้14 ประจำเดือน เมษายน 2554
  • 16. e-MagazineContact Email : pbrs@nnet.nectec.or.th