無障礙資訊中心
- 1. 無障礙資訊中心
- 臺灣地區有 54,000 多人領有視障手冊
毛慶禎 丁國傑 編
��.1授權 - 電子檔 點字檔 語音檔
��.2取得電子檔
a. 從出版社取得(有著作財產權作品) - 難以取得, 數量少, 需要明眼人逐檔校對, 確認/
調整其屬性
b. 由網路取得(無著作財產權作品) - 稍事搜集, 至少有中文書 10,000 種, 英文書
1,000,000 種以上
c. 掃瞄(含字元辨識) - 速度慢, 品質差(軟體 - 丹青中英文文字辨識系統) 蝙蝠中英文
自動閱讀機
��.3轉檔 - 點字檔 語音檔
a. 文字 -> 點字軟體 (淡江大學開發, 不公開?)
i. 說文點字 2 - 文字轉換成國語點字, http://digbig.com/4qfqg
說文點字(標準版) http://digbig.com/4qfqj
ii. 盲用點字列表機 http://digbig.com/4qfqk
iii. 內容校對 - 最費事的部份, 必須以盲胞(懂點字者)人工處理, 電腦及觸讀機
(50,000)為工具, 40 元/300 字
b. 文字 -> 語音軟體 (待處理)
i. 智慧型電腦中文語音合成器, http://www.batol.net/computer/computer-4-1.asp
��.4進度 - 每月 36 本
a. 應該與誠品書店的館藏量及新增量同步;
b. 盲胞在誠品書店_看_到沒有著作財產權限制的書, 應該在三天之內, 將點字書/語音
檔送到盲胞手邊
結合自由軟體及本土化介面與資訊的技術與執行方向
丁國傑
臺灣地區有 54,000 多人領有視障手冊,換言之,不論性別種族政治傾向,五百個人裡至少就有
一人無法用一般的方式接觸資訊。老花等輕微視障的更不計其數。
重點是,今天要是用開放軟體模式去投注支援在開殘障同胞學習障礙的研究開發上,並不是有
去就無回,這些基礎研究是可以可累積的運用在其他非關殘障同胞的無障礙資訊環境上,對整
個台灣社會是雙贏的局面。
- 2. 政府機構法案層面
由於政府對無關政黨選票的政策長期漠視,需要由下而上的民意支持來推動,參見
http://freesf.tw/modules/newbb/viewtopic.php?topic_id=5375&forum=12
結合自由軟體與自由文件社群
目前正在 http://l10n.fsftw.org/ 籌備利用自由軟體翻譯 PO 檔做為機器學習的資料,生成自動翻
譯字典,加速開放軟體對中文使用者的介面親和力
有一件事是不在自由軟體社群的人不能瞭解的:
能夠結合自由軟體社群的人幫忙開發軟體,等於是接收天上掉下來的資源。 但是有一個先決
條件: 計劃要能夠符合自由軟體開發者對推展自由的期待,不然他 們會情願把精力投在別的
地方。 同樣是開發自由軟體,在 Linux 上比 MS-windows 上容易多了。 十個自由軟體社
群的開發者有 9 個半是用 Unix 開發,剩下那半個其實是他在 Unix ,MS-windows 上都
有在作 (以 Unix 平台來說, 十個有 9 個人會選 Linux ,剩下那一個選 BSD, Solaris,
或 Mac OSX...,並非 Linux 的核心樣樣都比人強,而只是整個 Linux 環境比較"自由")
自由軟體
打破視障者使用電腦的障礙
台灣要打造無障礙資訊社會要作的基礎建設,從兩個部分來說
基礎中文資訊輸出研究建設
輸出部分是比較近期就能做出結果的。
需要作的是先建標準國語的聲音資料庫。最近看到這個
http://www.voxforge.org/
應該是一個可以使力的地方,部份中文介紹在
http://freesf.tw/modules/news/article.php?storyid=2871
我上次在 gcin 計劃的 proposal 成果(見 http://shelandy.blogspot.com/2007/05/
blog-post.html),促使 gcin 計劃劉德華先生慷慨的開放一些語音資料供部分開放軟體使
用
在非學術界的實際應用上,根本不需要語音合成,直接一字對應一音輸出就可以(銜接會不自
然,不過不礙事)
實際不到 1200 個音全部預錄就搞定(用空間換時間),需要的是實際針對文句作的語音合成調
整,見"基礎中文資訊處理研究建設"相關討論
Gnome 的殘障介面發展計劃在
http://developer.gnome.org/projects/gap/
- 3. Gnopernicus 是 gnome 桌面的視障輔助界面,支援語音,螢幕放大,Brltty 點字
http://www.baum.ro/eng/products/gnopernicus/gnopernicus.html
語音需要用 Festival 或 FreeTTS
gnome 新版(2.16)起預設的螢幕閱讀器是 ORCA
http://www.gnome.org/projects/orca/
Linux Screen Reader
http://live.gnome.org/LSR
這裡有一個很好的示範簡報,
http://www.gnome.org/~parente/lsr/screencast/lsr-gsummit06.html
Festival 是由蘇格蘭愛丁堡大學開發,中文簡介可參閱
http://irw.ncit.edu.tw/peterju/festival.html
FreeTTS
http://sourceforge.net/projects/freetts/
是基於 CMU's Flite (Festival lite) engine 用 java 寫成的
Emacspeak
http://emacspeak.sourceforge.net/
破音字自動選擇
以現在開放的技術(見我上次在 gcin 計劃的 proposal 成果),中文文字檔直接轉語音輸出
不成問題,語調轉折會有些不自然,但可以慢慢改。
提高破音的準確度要花一點功夫。這是要投資源下去作研究生層面的學術研究。一般人 hack
不出來的。
除了人力之外,有一些需要的中文自然語言資料是不免費公開的,要嘛有人出錢跟中研院買,
要嘛要透過高層想辦法要到免費的,
而且限於中研院著作權,最終可能有部分無法納入自由軟體,開放軟體是有可能。
要繞過中研院也行,要投更多資源下去作研究,比如跟國語日報要資料來作,端視有沒有人有
魄力。
基礎中文資訊輸入研究建設
輸入部分,如開放式手寫中文辨認,可以為以後新的輸入裝置作打字及語音以外的輸入做研究
基礎
https://developer.berlios.de/projects/chrasis/
,可以給不能打字又不能說話的人士用特殊的裝置輸入
jserv 寫了這一篇從 Chrasis 談手寫辨識引擎在移動裝置的機會,有提到一些相關的問題
歪林 (superylam@netcape.net)為了掌心雷跟百變小蒙恬寫了 X Windows 手寫板驅程程序及輸入
法
Michael Levin 的 CellWriter http://risujin.org/cellwriter/ 是不特定語言的手寫輸入,也可以用來輸
入中文
- 4. 基礎中文資訊處理研究建設: 移除不必要的絆腳石
要充份發揮結合自由軟體及本土化介面與資訊的技術,有一點很重要是資訊要透明化。這一點
台灣作的很差,比如說這一點:
工研院資通所前瞻技術中心(ATC: Advanced Technology Center)的中文斷詞與名詞辨識
http://www.atc.itri.org.tw/content/menu-sql.asp?pid=38
號稱系統準確度上,達到 Precision: 93.05%,Recall: 93.16%。
論文:Probabilistic named entity verification, COMPUTERM2002, 林一中、洪鵬翔
http://portal.acm.org/citation.cfm?
id=1118771.1118777&coll=GUIDE&dl=GUIDE&type=series&idx=SERIES11176&part=series&Wan
tType=Proceedings&title=COLING
中華民國專利:使用機率導向可靠度標記的詞組確認方法(林一中),專利證號:TW
171680,專利期限:20030121~20210813
長達 18 年的專利保護,以電腦科技的發展數年就有新技術的成長速度而言,對於促進科技成長
是不必要的絆腳石
以國外斷詞的研究已經達到超過 95% 以上的進度,不合理的專利保護對整體社會不管是教育,
經濟,.... 都是干擾與傷害
類似的工研院資通所前瞻技術中心的文字轉語音合成技術也有同樣的問題。
理論上,工研院資通所跟資策會都是應該做基礎研究,將成果開放出來,讓政府從其他地方回
收投資成本,不過現在已變成消化預算的下水道。