Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
2017還再缺字2017還再缺字
Unicode不是年年更新嗎?
張正⼀(MGdesigner)
維基媒體協會 ,CC BY-SA 4.0
Powered by COZMIXNG and Rabbit 2.1.8
最近幾年進
⾏⼀個專案
http://cozmixng.org
吳守禮國台對照活⽤辭典
吳家授權敝協會代管轉CC授權
「現代」數位化
WEB 化
維基協會 X G0V萌典
辭典
問題
電⼦檔考古:倚天中⽂BIG-5(thanks
to G0V唐鳳)
缺字200 多個
缺字
書上有這個字電腦出不來
能寫出這個字電腦出不來
資訊無法交換
缺字數量
Unicode 10標準:(2017)136,690
思源⿊體收字 65,535 (OpenType
字型極限)
glyphwiki.org(花園明朝) 28萬
漢字
再考慮異體字
Unicode說好不對字形編碼的
「剣、劍」
「⾭、青」系列:淸、清等,還有精、
靖、晴....
「請、情、蜻、靜、睛、婧」等只有⼀
碼
glyphwiki.org同字不同字形50萬
缺字範圍按時代分
古代
現代
未來
古代缺字
四庫全書(超級⼤百科)
古代廣傳書籍
政府公⽂
宗教
特定職業內部術語
宗教
佛:最OK,Cbeta 佛典組織推⼊
Unicode
動態組字
儒:還可以,教育部很在乎
道:ㄎㄎ
三教本以道為
首,焉得平坐
共⿑名?http://cozmixng.org
現實
⿁系列
神諱!(摘⾃弘道⽉刊)
豐富
動物?
我是教主?
東正教
東正教
琴譜http://cozmixng.org
古琴譜
現代http://cozmixng.org
新合⽂
日本8+9
寶⾙⾦屬
首振力
⾷物
國圖
未來
新化學元素
新概念
新科技
who
know?http://cozmixng.org
解決缺字問題
顯⽰
排序(可被搜尋到)
輸⼊
公開交換
各種解法
http://cozmixng.org
不好的解法1
空白
⽅塊
⿊點
例
資訊完全喪
失⼜看不到
http://cozmixng.org
不好的解法2-純圖⽚
⼈看得到,電
腦「看」不到
http://cozmixng.org
好⼀點的作法
造字區
提案給Unicode組織
造字區
無交換性,⼩組織內使⽤only
⾮標準
⼈⼯作業
Unicode處理的問題
⼀字⼀碼永遠處理不完
從提案到真的在電腦上可⽤曠日費
時
unicode提案法問題
提報缺字 ->找管道->被打槍:「你
證據不⾜!」->找更多資料->再被打
槍:「表情符號⽐較重要」->接受->
發布新標準->等字形廠商實做->等作
業系統廠商採納
你的⼩孩已經
從國⼩⽣變⼤
學⽣了http://cozmixng.org
你發現的⼀個
缺字終於可以
打出來了http://cozmixng.org
Unicode政治
國家⾓力搶低byte區
弱勢團體被犧牲
弱勢語⾔被犧牲
台語不需
要⽂字啦http://cozmixng.org
根本問題
漢字是開放集合
很多語⾔、⺠族共⽤
⼀字⼀碼編不完
更好的解
決⽅法http://cozmixng.org
動態組字技術
歐語系⽂字 1D compositing
漢字 2D compositing
理論基礎-找到基本單元
1000多個基本部件
末級部件=部首+⾮字部件
交⼤-中研院 朱邦復⼯作室等
林樹 謝清俊.....
unicode標準有定義IDS
Ideographic Description
Sequence組字式
IDC組字符
先序遞迴
只是缺字描述法
IDS 例
IDC
回來
⾃救http://cozmixng.org
⼯程
靜態獨⽴站-供查詢
編輯者使⽤-維基⽂庫
han3_ji7_tsoo1_kian3
《漢字組建》 作者薛丞宏
實做 IDS
可server可單機
動態⾃動算⽐例、拼接
URL
https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3
漢字組建⽣成例
IDS的好處
當缺字的交換碼
IDS幾乎有唯⼀性
少數⼀字兩式可「正規化」
⽬前的拼合基礎
康熙部首
中研院部件
基本字
靜態獨⽴
站http://cozmixng.org
簡易版
http://wikimedia-tw.github.io/koktai-scala
美觀版(測試,不⼀定有開)
http://dev.suboru.me/
獨⽴站
by
Pierre Magistry(阿石)
蘇渤孺
維基站測試
http://ids-testing.wmflabs.org/
測試站
架構
sry前⼀陣⼦處理spam
https://組字.意傳.台灣/
辭典處理現況
靜態:少部份需要校正
動態:植⼊維基⽂庫的⾏政作業
組字技術繼續要改善的
中研院部件有⼗個左右不在
Unicode(現狀:造字區)
傳意優先,美觀可繼續改善
包含組⾃動化提昇
偏旁包含組(⻎)的變形/替代
(⿁、⽀...)
Q&Ahttp://cozmixng.org
END
contact
shoichi.chou@gmail.com
Powered by COZMIXNG and Rabbit 2.1.8
Upcoming SlideShare
Loading in …5
×

2017還再缺字,Unicode不是年年更新嗎?

829 views

Published on

2017 漢字缺字最新狀況 缺字處理

Published in: Technology
  • Be the first to comment

  • Be the first to like this

2017還再缺字,Unicode不是年年更新嗎?

  1. 1. 2017還再缺字2017還再缺字 Unicode不是年年更新嗎? 張正⼀(MGdesigner) 維基媒體協會 ,CC BY-SA 4.0 Powered by COZMIXNG and Rabbit 2.1.8
  2. 2. 最近幾年進 ⾏⼀個專案 http://cozmixng.org
  3. 3. 吳守禮國台對照活⽤辭典 吳家授權敝協會代管轉CC授權 「現代」數位化 WEB 化 維基協會 X G0V萌典
  4. 4. 辭典
  5. 5. 問題 電⼦檔考古:倚天中⽂BIG-5(thanks to G0V唐鳳) 缺字200 多個
  6. 6. 缺字 書上有這個字電腦出不來 能寫出這個字電腦出不來 資訊無法交換
  7. 7. 缺字數量 Unicode 10標準:(2017)136,690 思源⿊體收字 65,535 (OpenType 字型極限) glyphwiki.org(花園明朝) 28萬 漢字
  8. 8. 再考慮異體字 Unicode說好不對字形編碼的 「剣、劍」 「⾭、青」系列:淸、清等,還有精、 靖、晴.... 「請、情、蜻、靜、睛、婧」等只有⼀ 碼 glyphwiki.org同字不同字形50萬
  9. 9. 缺字範圍按時代分 古代 現代 未來
  10. 10. 古代缺字 四庫全書(超級⼤百科) 古代廣傳書籍 政府公⽂ 宗教 特定職業內部術語
  11. 11. 宗教 佛:最OK,Cbeta 佛典組織推⼊ Unicode 動態組字 儒:還可以,教育部很在乎 道:ㄎㄎ
  12. 12. 三教本以道為 首,焉得平坐 共⿑名?http://cozmixng.org
  13. 13. 現實
  14. 14. ⿁系列
  15. 15. 神諱!(摘⾃弘道⽉刊)
  16. 16. 豐富
  17. 17. 動物?
  18. 18. 我是教主?
  19. 19. 東正教
  20. 20. 東正教
  21. 21. 琴譜http://cozmixng.org
  22. 22. 古琴譜
  23. 23. 現代http://cozmixng.org
  24. 24. 新合⽂
  25. 25. 日本8+9
  26. 26. 寶⾙⾦屬
  27. 27. 首振力
  28. 28. ⾷物
  29. 29. 國圖
  30. 30. 未來 新化學元素 新概念 新科技
  31. 31. who know?http://cozmixng.org
  32. 32. 解決缺字問題 顯⽰ 排序(可被搜尋到) 輸⼊ 公開交換
  33. 33. 各種解法 http://cozmixng.org
  34. 34. 不好的解法1 空白 ⽅塊 ⿊點
  35. 35.
  36. 36. 資訊完全喪 失⼜看不到 http://cozmixng.org
  37. 37. 不好的解法2-純圖⽚
  38. 38. ⼈看得到,電 腦「看」不到 http://cozmixng.org
  39. 39. 好⼀點的作法 造字區 提案給Unicode組織
  40. 40. 造字區 無交換性,⼩組織內使⽤only ⾮標準 ⼈⼯作業
  41. 41. Unicode處理的問題 ⼀字⼀碼永遠處理不完 從提案到真的在電腦上可⽤曠日費 時
  42. 42. unicode提案法問題 提報缺字 ->找管道->被打槍:「你 證據不⾜!」->找更多資料->再被打 槍:「表情符號⽐較重要」->接受-> 發布新標準->等字形廠商實做->等作 業系統廠商採納
  43. 43. 你的⼩孩已經 從國⼩⽣變⼤ 學⽣了http://cozmixng.org
  44. 44. 你發現的⼀個 缺字終於可以 打出來了http://cozmixng.org
  45. 45. Unicode政治 國家⾓力搶低byte區 弱勢團體被犧牲 弱勢語⾔被犧牲
  46. 46. 台語不需 要⽂字啦http://cozmixng.org
  47. 47. 根本問題 漢字是開放集合 很多語⾔、⺠族共⽤ ⼀字⼀碼編不完
  48. 48. 更好的解 決⽅法http://cozmixng.org
  49. 49. 動態組字技術 歐語系⽂字 1D compositing 漢字 2D compositing
  50. 50. 理論基礎-找到基本單元 1000多個基本部件 末級部件=部首+⾮字部件 交⼤-中研院 朱邦復⼯作室等 林樹 謝清俊.....
  51. 51. unicode標準有定義IDS Ideographic Description Sequence組字式 IDC組字符 先序遞迴 只是缺字描述法
  52. 52. IDS 例
  53. 53. IDC
  54. 54. 回來
  55. 55. ⾃救http://cozmixng.org
  56. 56. ⼯程 靜態獨⽴站-供查詢 編輯者使⽤-維基⽂庫
  57. 57. han3_ji7_tsoo1_kian3 《漢字組建》 作者薛丞宏 實做 IDS 可server可單機 動態⾃動算⽐例、拼接
  58. 58. URL https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3
  59. 59. 漢字組建⽣成例
  60. 60. IDS的好處 當缺字的交換碼 IDS幾乎有唯⼀性 少數⼀字兩式可「正規化」
  61. 61. ⽬前的拼合基礎 康熙部首 中研院部件 基本字
  62. 62. 靜態獨⽴ 站http://cozmixng.org
  63. 63. 簡易版 http://wikimedia-tw.github.io/koktai-scala
  64. 64. 美觀版(測試,不⼀定有開) http://dev.suboru.me/
  65. 65. 獨⽴站
  66. 66. by Pierre Magistry(阿石) 蘇渤孺
  67. 67. 維基站測試 http://ids-testing.wmflabs.org/
  68. 68. 測試站
  69. 69. 架構
  70. 70. sry前⼀陣⼦處理spam https://組字.意傳.台灣/
  71. 71. 辭典處理現況 靜態:少部份需要校正 動態:植⼊維基⽂庫的⾏政作業
  72. 72. 組字技術繼續要改善的 中研院部件有⼗個左右不在 Unicode(現狀:造字區) 傳意優先,美觀可繼續改善 包含組⾃動化提昇 偏旁包含組(⻎)的變形/替代 (⿁、⽀...)
  73. 73. Q&Ahttp://cozmixng.org
  74. 74. END contact shoichi.chou@gmail.com Powered by COZMIXNG and Rabbit 2.1.8

×