More Related Content More from Tee Plerngpiz (8) 653 11. รหัสโครงการ 11p13c391
โปรแกรมไบรท์ไซต์ (Bright Sight)
โปรแกรมเพื่อช่วยคนพิการ
รายงานฉบับสมบูรณ์
เสนอต่อ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
กระทรวงวิทยาศาสตร์และเทคโนโลยี
ได้รับทุนอุดหนุนโครงการวิจัย พัฒนาและวิศวกรรม
โครงการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย ครั้งที่11
ประจำปีงบประมาณ 2551
โดย
นางสาวรพีพร พิมพ์อูบ
นางสาวภคภร ทิสยากร
อาจารย์ที่ปรึกษาโครงการ ศ.ดร.บุญเสริม กิจศิริกุล
สถาบันการศึกษา จุฬาลงกรณ์มหาวิทยาลัย
2. 2
กิตติกรรมประกาศ
ขอขอบพระคุณโครงการการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย ครั้งที่ 11
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยี
แห่งชาติที่มอบทุนอุดหนุนในการพัฒนาโปรแกรมไบรท์ไซต์
ขอขอบพระคุณ ศ.ดร.บุญเสริม กิจศิริกุล ที่ปรึกษาโครงงาน ซึ่งกรุณาสละเวลาให้ความรู้
คำแนะนำ และไลบรารีรู้จำอักขระจากภาพ (OCR) ที่เป็นประโยชน์ยิ่งต่อการทำโครงงาน
ขอขอบพระคุณ ผศ.ดร. โปรดปราน บุณยพุกกณะ อาจารย์ประจำภาควิชาวิศวกรรม
คอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ในการให้คำปรึกษาอันมีค่ามาโดยตลอด
ขอขอบพระคุณ คุณนิพนธ์ ชินะธิมาตร์มงคล นิสิตปริญญาเอก ภาควิชาวิศวกรรมคอมพิวเตอร์
คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย สำหรับคำแนะนำ และไลบรารีสังเคราะห์เสียงพูด (Text to
Speech) ที่เป็นประโยชน์ต่อการทำโครงงาน
ท้ายที่สุดขอกราบขอบพระคุณคุณพ่อ คุณแม่ผู้เป็นที่รัก และจุฬาลงกรณ์มหาวิทยาลัยที่ให้
โอกาสและการสนับสนุนในการทำโครงงานเสมอมา
ผู้จัดทำ
3 มกราคม 2552
3. 3
บทคัดย่อ
โครงงานไบรท์ไซต์ได้นำเทคโนโลยี 2 อย่างคือ เทคโนโลยีการรู้จำอักขระจากภาพ และเทคโนโลยี
การสังเคราะห์เสียงพูดภาษาไทย มารวมกัน เพื่อพัฒนาโปรแกรมที่สามารถอ่านอักขระในภาพสแกนจาก
หน้าหนังสือหรือเอกสารต่างๆ ออกมาเป็นเสียงพูดภาษาไทยได้ เพื่ออำนวยความสะดวกในการค้นคว้า
ข้อมูลด้วยตนเองแก่ผู้ที่มีความบกพร่องทางการมองเห็น ให้สามารถรับรู้ข้อมูลจากหนังสือที่ต้องการได้
นอกจากนี้ โครงงานนี้ยังได้นำเทคโนโลยีการสร้างหนังสือเสียงระบบเดซีมาใช้ เพื่อให้โปรแกรมที่
พัฒนาขึ้น สามารถสร้างหนังสือเสียงระบบเดซีที่สามารถอ่านได้โดยโปรแกรมอ่านหนังสือเดซีทั่วไปได้
อัตโนมัติ โดยเน้นที่การใช้งานบนโปรแกรมอ่านหนังสือเสียงระบบเดซีภาษาไทย ที่ปัจจุบันใช้ในสถาบัน
เพื่อผู้บกพร่องทางการมองเห็นในประเทศไทยหลายสถาบัน ซึ่งหนังสือเสียงระบบเดซีนี้มีจุดเด่นเหนือ
เสียงพูดที่อัดในเทปคาสเซ็ตทั่วไปคือ ผู้ใช้สามารถเลือกข้ามการอ่านไปยังหน้า หรือประโยคที่ต้องการได้
สามารถค้นหาข้อความที่ต้องการในหนังสือเสียง และข้ามไปฟังยังจุดนั้นได้ทันที นอกจากนี้ยังสามารถ
สร้างที่คั่นหน้า เพื่อกลับมาอ่านเริ่มอ่านจากตำแหน่งเดิมได้
โปรแกรมที่พัฒนาขึ้น เมื่อทดสอบแล้วสามารถทำงานได้รวดเร็ว และคุณภาพอยู่ในระดับดีเมื่อภาพ
สแกนที่ได้รับมีความชัดเจนและมีขนาดใหญ่เพียงพอ และหนังสือเสียงระบบเดซีที่ได้จากโปรแกรมสามารถ
ใช้งานในโปรแกรมอ่านหนังสือเดซีภาษาไทยได้อย่างถูกต้อง
4. 4
Abstract
The Bright Sight Project develops a program which combines 2 technologies: Optical Character
Recognition (OCR) and Thai Text-to-Speech Synthesis. The aim of this program is to convert Thai
characters in scanned images from books or other paper documents to Thai Speech in order to facilitate
self-studying of visually impaired person.
In addition, this project follows DAISY standard and makes the program to able to generate
DAISY digital talking book that can be read by DAISY playback programs especially the Thai one which
is now widely used in Thai institutes for visually impaired person. The DAISY digital talking books have
advantages over tape cassette talking books because DAISY books provide special functions which make
the user be able to jump forward or back by page or sentence, do keyword search, and set bookmark for
the next reading.
The finished program has a satisfactory speed and good-quality output when the input image is
complete and big enough. Moreover, the generated DAISY books are perfectly compatible with the Thai
DAISY playback program.
5. 5
บทนำ
ผู้ที่มีความบกพร่องทางการมองเห็นที่ต้องการอ่านหนังสือนั้น จะต้องให้ผู้อื่นอ่านหนังสือให้ฟัง
หรือต้องฟังจากหนังสือเสียง ที่ในปัจจุบันมีจัดไว้ในสถาบันสำหรับผู้พิการทางสายตาทั่วไป ซึ่งก็คือเทป
หรือซีดีที่มีอาสาสมัครมาอ่านอัดเสียงไว้ การที่ผู้พิการทางสายตาจะต้องให้ผู้อื่นอ่านหนังสือให้ฟังเสมอนั้น
ทำให้การอ่านไม่ต่อเนื่องและไม่สามารถอ่านได้ในทุกเวลาที่ต้องการ แม้จะมีหนังสือเสียงที่เป็นเทปและซีดี
แต่ผู้อ่านก็ยังไม่สามารถค้นหาข้อมูลจากในหนังสือได้ และต้องรอให้มีคนมาอ่านอัดเสียงจนจบเล่มไว้ก่อน
ผู้อ่านจึงจะมีโอกาสได้อ่าน
ปัจจุบันเริ่มมีการใช้เทคโนโลยีหนังสือเสียงระบบเดซี ซึ่งเป็นหนังสือเสียงที่มีรูปแบบตาม
มาตรฐานสากลที่เพิ่มความสามารถของหนังสือเสียงให้อำนวยความสะดวกแก่ผู้พิการทางสายตาได้มาก
ยิ่งขึ้น คือผู้ใช้สามารถเลือกประโยคที่ต้องการฟัง ย้อนกลับไปฟังซ้ำ และค้นหาข้อมูลที่ต้องการได้ แต่
หนังสือเสียงระบบเดซีแต่ละชุดนั้น ยังคงสร้างโดยการให้คนอ่านหนังสืออัดเสียงเก็บไว้ในระบบสร้าง
หนังสือเสียงระบบเดซีโดยเฉพาะ
โปรแกรมไบรท์ไซต์ได้ถูกพัฒนา มาจากระบบสร้างหนังสือเสียงระบบเดซี โดยพัฒนาให้โปรแกรม
สามารถสร้างหนังสือเสียง และอ่านออกเสียงจากภาพสแกนจากหน้าหนังสือได้ แทนการใช้คนอ่าน ซึ่งจะ
ช่วยอำนวยความสะดวกให้แก่ผู้พกิารทางสายตา ให้ได้อ่านหนังสือที่ต้องการอ่านได้ง่ายยิ่งขึ้น นอกจากนี้ยัง
เปิดโอกาสให้ผู้พกิารทางสายตาสามารถค้นคว้าข้อมูลจากหนังสือด้วยตนเอง ทุกเวลาที่ต้องการได้อีกด้วย
6. 6
สารบัญ
หน้า
กิตติกรรมประกาศ 2
บทคัดย่อ
• บทคัดย่อภาษาไทย 3
• บทคัดย่อภาษาอังกฤษ 4
บทนำ 5
สารบัญ 6
สารบัญรูปภาพ 8
สารบัญตาราง 9
วัตถุประสงค์และเป้าหมาย 10
รายละเอียดของการพัฒนา 11
• ตัวอย่างโปรแกรม 11
• ทฤษฎีหลักการและเทคนิคหรือเทคโนโลยีที่ใช้ 17
- การรู้จำภาพตัวอักษร (Optical Character Recognition: OCR) 17
- การสังเคราะห์เสียงพูด (Text-to-Speech Synthesis: TTS) 18
- หนังสือเสียงอิเล็กทรอนิกส์ระบบเดซี (DAISY Digital Talking Book) 19
- ภาษาสไมล์ (Synchronized Multimedia Integration Language) 20
- รูปแบบไฟล์เสียง Wave File Format 20
• เครื่องมือที่ใช้ในการพัฒนา 22
− ภาษาที่ใช้ในการพัฒนา 22
− ไลบรารีที่ใช้ 22
− ซอฟแวร์ที่ใช้ในการพัฒนา 22
• รายละเอียดโปรแกรมที่ได้พัฒนาในเชิงเทคนิค 22
− Input/Output Specification 22
− Function Specification 23
− โครงสร้างของซอฟต์แวร์ (Design) 24
− ส่วนรับและแสดงผลภาพ 24
− ส่วนแปลงภาพเป็นข้อความ 24
− ส่วนแปลงข้อความเป็นเสียง 24
7. 7
− ส่วนเล่นเสียง 25
− ส่วนสร้างหนังสือระบบเดซี 25
• ขอบเขตและข้อจำกัดของโปรแกรมที่พัฒนา 25
กลุ่มผู้ใช้โปรแกรม 26
ผลของการทดสอบโปรแกรม 26
• ผลการทดสอบโปรแกรมส่วนการแสดงภาพ 26
• ผลการทดสอบโปรแกรมส่วนการเปลี่ยนภาพเป็นข้อความ 26
• ผลการทดสอบโปรแกรมส่วนการเปลี่ยนข้อความเป็นเสียง 29
• ผลการทดสอบโปรแกรมส่วนการเล่นเสียง 29
• ผลการทดสอบโปรแกรมส่วนการเปลี่ยนเป็นหนังสือเสียงระบบเดซี่ 29
ปัญหาและอุปสรรค 29
แนวทางในการพัฒนาและประยุกต์ใช้ร่วมกับงานอื่น ๆ ในขั้นต่อไป 29
ข้อสรุปและข้อเสนอแนะ 26
• ข้อสรุป 30
• ข้อเสนอแนะ 30
เอกสารอ้างอิง 30
ภาคผนวก
• คู่มือการติดตั้งอย่างละเอียด 31
• คู่มือการใช้งานอย่างละเอียด 35
8. 8
สารบัญรูปภาพ
หน้า
รูปที่ 1 โปรแกรมเมื่อเริ่มทำงาน 11
รูปที่ 2 โปรแกรมเมื่อเปิดแฟ้มข้อมูลภาพ 12
รูปที่ 3 โปรแกรมเมื่อแสดงแฟ้มข้อมูลภาพ 12
รูปที่ 4 โปรแกรมเมื่อลบข้อมูลภาพ 13
รูปที่ 5 โปรแกรมเมื่อเปลี่ยนภาพให้เป็นข้อความเมื่อเลือกแฟ้มข้อมูล 1 แฟ้ม 14
รูปที่ 6 โปรแกรมเมื่อเปลี่ยนภาพให้เป็นข้อความเมื่อเลือกแฟ้มข้อมูลมากกว่า 1 แฟ้ม 14
รูปที่ 7 โปรแกรมเมื่อเปลี่ยนเล่นเสียง 15
รูปที่ 8 โปรแกรมเมื่อเข้าสู่กระบวนการทำหนังสือเสียงขั้นกรอกข้อมูล 15
รูปที่ 9 โปรแกรมเมื่อเข้าสู่กระบวนการทำหนังสือเสียงขั้นเลือกไดเรคทรอรี่ 16
รูปที่ 10 แฟ้มข้อมูลหนังสือเสียง 16
รูปที่ 11 แผนภาพการทำงานของระบบสังเคราะห์เสียงพูด 19
รูปที่ 12 โครงสร้างพื้นฐานของภาษาสไมล์ 20
รูปที่ 13 โครงสร้างซอฟแวร์ 23
รูปที่ 14 หน้าต่างโปรแกรม 24
รูปที่ 15 ผลการทดสอบส่วนแสดงภาพ 27
รูปที่ 16 ตัวอย่างแฟ้มข้อมูลภาพที่ใช้ในการทดสอบ 28
9. 9
สารบัญตาราง
หน้า
ตารางที่ 1 แท็กในภาษาสไมล์ที่ใช้กับหนังสือเสียงระบบเดซี 21
ตารางที่ 2 ส่วนประกอบของ RIFF chunk ใน wave file 22
ตารางที่ 3 ส่วนประกอบของ FORMAT chunk ใน wave file 22
ตารางที่ 4 ส่วนประกอบของ DATA chunk ใน wave file 22
10. 10
วัตถุประสงค์และเป้าหมาย
1. เพื่อพัฒนาโปรแกรมที่สามารถอ่านและสร้างหนังสือเสียงสำหรับผู้พิการทางสายตา ที่สามารถ
ฟังซ้ำ และค้นหาส่วนที่ต้องการฟังได้
2. เพื่ออำนวยความสะดวกแก่ผู้พิการทางสายตาที่ต้องการจะอ่านหนังสือ และแก่อาสาสมัครหรือ
บุคคลที่ต้องการช่วยอ่านหนังสือให้ผู้พิการทางสายตา
3. เพื่ออำนวยความสะดวกเพิ่มเติมแก่ผู้ที่มีสายตาเลือนราง ให้สามารถขยายภาพจากหนังสือเพื่อให้
อ่านสะดวกขึ้นได้
11. รายละ
ะเอียดของ
การพัฒน
1. ตัวอย่างโ
ขั้นตอนการท
1. เปิดโปรแ
พิเศษเนื่อ
นา
โปรแกรม
ทำงานของโป
แกรม ในการเ
งจากโปรแก
2. เปิดเพิ่มข
จะต้องมี
พร้อมๆ
ปรแกรมสามา
เปิดโปรแกรม
กรมจะทำการ
ข้อมูลภาพ ผู้ใ
ชนิดเป็นแฟ้ม
กัน
รถทำงานได้ด
ครั้งแรกนั้น
เรียกพจนานุก
รูปที
ดังนี้
จะต้องรอการ
รมที่ต้องใช้
ที่ 1 โปรแกรมเมื
ใช้สามารถเพิ่
ข้อมูล Bitm
มื่อเริ่มทำงาน
พิมภาพได้โดย
ap หรือ .bmp
ตอบสนองข
้ซึ่งเป็นแฟ้มข้
กดปุ่ม Open
p และสามารถ
องโปรแกรม
อมูลที่มีขนา
n Image ซึ่งแฟ้
เปิดแฟ้มข้อม
ฟ้มข้อมูลภาพ
มูลหลายๆ แฟ้
11
นานเป็น
ดใหญ่
นั้น
ฟ้มได้
12. พข้อมูล เมื่อเ
ต่างด้านบน ซึ่
ยหากต้องการ
ภาพอีกระดับ
ยการใช้เมาส์
3. แสดงภา
ในหน้าต
เมาส์ โด
ลดขนาด
อิสระโด
รูปที่ 2 โป
เพิ่มแฟ้มข้อมู
ซงโปรแกรมมี
ขยายภาพขึ้น
ก็สามารถทำ
กดและลากภ
ปรแกรมเมื่อเปิด
ูลในรายการแ
ความสามารถ
อีกระดับก็ส
าได้โดยกดเม
ภาพไปยังทิศท
รูปที่ 3 โปร
แกรมเมื่อแสด
แฟ้มข้อมูลภาพ
พารถเรียกดูภา
ยาย ขนาดขอ
โดยการกดเม
ใช้สามารถเค
การ
แล้ว ผู้ใช้สาม
ในการลด-ข
สามารถทำได้โ
าส์ขวา และผู้
ทางที่ผู้ใช้ต้อง
งแฟ้มข้อมูลภา
าพ