Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
おーぷん万葉プロジェクトの進捗
…と、Izumoのその後
2015/12/12 東海道らぐ@横浜(in JSP)
はしもとまさ
自己紹介
●
東海道らぐ元名古屋案内人です
– 現在は関東地方担当。
●
ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人
– 冬コミ原稿書きました! (12/31 東「メ」36b)
…ん? またうち売り子やるの???
●
おーぷん...
おーぷん万葉とは(過去スライドの話)
●
目的「自由な日本語入力環境を手に入れよう!」
– 現在: かな漢字変換ソフト「Izumo」を開発中。
●
現状の問題点:
– ビックデータと叫ばれる時代に、開発がアクティブで
自由にコミットメントできる...
今年のおーぷん万葉の成果…
●
特になし(ぇ
– 地道に実験ばかりに明け暮れた…
– 一応OSCにはおーぷん万葉で出展
●
メンバーが1人→3人(?)になった
– 意外にも方向性はほぼ一緒だった(…と思う(^^)
来年は…①辞書構築に専念
●
目的「自由な日本語入力環境を手に入れよう!」
→ 「中立でオープンな日本語辞書を手に入れよう」
●
来年のおーぷん万葉では…
– どんなアプリでも利用できるオープンな辞書を開発する
– mecab依存の辞書から脱却...
来年は…②Izumo開発停止!?
● これまで = かな漢字変換「Izumo」を開発
→ 「Izumo」ではなく別の名前で開発します
てか既にそれで動いてる…
理由:
– Izumofsとか出てきてしまった!(ぎゃふん)
– そもそも既にCan...
新しいかな漢字変換「Genji」
● Izumo をやめて、 Genji を開発していきます
パッケージ構成:
– Genji: 大元のソフト(全体)。下記ライブラリを含む
● Murasaki: かな漢字変換&形態素解析のライブラリ
● Fu...
ここから先は Izumo→Genji の進捗
で、結局 Genji はどうなるの!?編
従来のかな漢字変換の実装は?
● 過去: N文節最長一致法 ← Canna 等
● 現在: コスト最小法 ← mecab / Mozc 等
現在の主流は、ビタビアルゴリズム(コスト最小法)
どの解説本にも載っているし、むしろそれしか載ってない
解説① N文節最長一致法
●
例文: 「きょうはあひるやきです」
今日 歯 あ 昼 焼きで 酢
今日は あ 昼 焼きです
今日は 家鴨 焼きです
今日は あひる焼きです
6文節
4文節
3文節
2文節
一番少ないのでこれを選択!
ポイント:
文...
解説② コスト最小法
文
頭
私
の 名前
は
中野
注:ちょっと(かなり?)端折って説明します^^;
です
文
末ので す
中
綿 市 花 課
例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;)
10
30...
がしかし、コスト最小法って…
●
結局のところ、単語と単語のつながりしか
判定できてない
●
文脈解釈とか意義解釈とか全然やってないので
当たり前といえば当たり前かも
元々mecab(=形態素解析器)で用いてた手法
→ それって本当にかな漢字変...
というわけでこんな例文
手元に Mozc がある場合は
「にわにはにわにわとりがいる」
を変換してみよう!
(一発で変換できるか?)
…何度も話しているので^^;
Mozc だと
「庭には庭鶏がいる」
と変換されます
こけこっこ〜
でもこれ、そもそものお話として…
コスト最小法では変換できないのでは?
庭 庭 鶏には が いる
庭 二 鶏には が いる羽
正解の変換のほうが単語数が多いため
単語生起コストがどうしても高くなる
N文節最長一致法の場合は、恐らく実装による
「...
仮説。
コスト最小法は形態素解析には向いていても
かな漢字変換には不向きである…?
というわけで「Genji」に課せられた課題
「にわにはにわにわとりがいる」を変換できること
対策案: (まだ実験中…)
– 係り受けを利用する
– 文節単位でコストを計算する
※ただし、なるべく計算に縛られたくない
コスト最小法に変わる新しい実...
ご清聴、ありがとうございましたm(_ _)m
Upcoming SlideShare
Loading in …5
×

おーぷん万葉プロジェクトの進捗とIzumoのその後

2,745 views

Published on

おーぷん万葉プロジェクトの進捗とIzumoの進捗についてです。
2015/12/12 東海道らぐ@横浜で発表したものです。

Published in: Technology
  • Be the first to comment

おーぷん万葉プロジェクトの進捗とIzumoのその後

  1. 1. おーぷん万葉プロジェクトの進捗 …と、Izumoのその後 2015/12/12 東海道らぐ@横浜(in JSP) はしもとまさ
  2. 2. 自己紹介 ● 東海道らぐ元名古屋案内人です – 現在は関東地方担当。 ● ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人 – 冬コミ原稿書きました! (12/31 東「メ」36b) …ん? またうち売り子やるの??? ● おーぷん万葉プロジェクトやってます!
  3. 3. おーぷん万葉とは(過去スライドの話) ● 目的「自由な日本語入力環境を手に入れよう!」 – 現在: かな漢字変換ソフト「Izumo」を開発中。 ● 現状の問題点: – ビックデータと叫ばれる時代に、開発がアクティブで 自由にコミットメントできる日本語入力システムがない??? – インプットメソッド(UI側)も残念な状況orz → そんな現状を打破したい!てのが目的です。 この辺りが過去(ぇ
  4. 4. 今年のおーぷん万葉の成果… ● 特になし(ぇ – 地道に実験ばかりに明け暮れた… – 一応OSCにはおーぷん万葉で出展 ● メンバーが1人→3人(?)になった – 意外にも方向性はほぼ一緒だった(…と思う(^^)
  5. 5. 来年は…①辞書構築に専念 ● 目的「自由な日本語入力環境を手に入れよう!」 → 「中立でオープンな日本語辞書を手に入れよう」 ● 来年のおーぷん万葉では… – どんなアプリでも利用できるオープンな辞書を開発する – mecab依存の辞書から脱却 ● おーぷん万葉の対象から外れる(or 優先度が落ちる)もの – 日本語入力のUI部 ←IBusとかあの辺り M氏からツッコまれそう…^^; てことで後継プロジェクト募集中!!!
  6. 6. 来年は…②Izumo開発停止!? ● これまで = かな漢字変換「Izumo」を開発 → 「Izumo」ではなく別の名前で開発します てか既にそれで動いてる… 理由: – Izumofsとか出てきてしまった!(ぎゃふん) – そもそも既にCannaのフォークを止めている ※ 但し、従来のCannaフォーク版はIzumoの名前を継続します   開発停止中だけどね〜 Izumoって名称は元々Cannaフォーク版だった頃の名残で 「Canna → 神無月 → Izumo」というものでした
  7. 7. 新しいかな漢字変換「Genji」 ● Izumo をやめて、 Genji を開発していきます パッケージ構成: – Genji: 大元のソフト(全体)。下記ライブラリを含む ● Murasaki: かな漢字変換&形態素解析のライブラリ ● Fujitsubo: 辞書管理のライブラリ ● Aoi: 入出力部のライブラリ ←Glibを使用 Fujitsubo辺りは変動ありかも…
  8. 8. ここから先は Izumo→Genji の進捗 で、結局 Genji はどうなるの!?編
  9. 9. 従来のかな漢字変換の実装は? ● 過去: N文節最長一致法 ← Canna 等 ● 現在: コスト最小法 ← mecab / Mozc 等 現在の主流は、ビタビアルゴリズム(コスト最小法) どの解説本にも載っているし、むしろそれしか載ってない
  10. 10. 解説① N文節最長一致法 ● 例文: 「きょうはあひるやきです」 今日 歯 あ 昼 焼きで 酢 今日は あ 昼 焼きです 今日は 家鴨 焼きです 今日は あひる焼きです 6文節 4文節 3文節 2文節 一番少ないのでこれを選択! ポイント: 文節 = 自立語(名詞・動詞等) + 付属語(助詞等)
  11. 11. 解説② コスト最小法 文 頭 私 の 名前 は 中野 注:ちょっと(かなり?)端折って説明します^^; です 文 末ので す 中 綿 市 花 課 例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;) 10 30 15 30 15 10 15 40 20 50 ● 単語生起コスト: 単語の出現優先度を表したコスト ● 連接コスト: 単語と単語の結びつきやすさを表したコスト → 全て足して、合計値が最も低いルートが 候補になります 15 30 40 45 20 20 20 20 50 20 25 30 40 45 20 20 出現頻度の高い単語は 単語生起コストが低い 「名前」と「花」という単語は結びつきにくいので 連接コストは高い
  12. 12. がしかし、コスト最小法って… ● 結局のところ、単語と単語のつながりしか 判定できてない ● 文脈解釈とか意義解釈とか全然やってないので 当たり前といえば当たり前かも 元々mecab(=形態素解析器)で用いてた手法 → それって本当にかな漢字変換には向いてるの?
  13. 13. というわけでこんな例文 手元に Mozc がある場合は 「にわにはにわにわとりがいる」 を変換してみよう! (一発で変換できるか?)
  14. 14. …何度も話しているので^^; Mozc だと 「庭には庭鶏がいる」 と変換されます こけこっこ〜
  15. 15. でもこれ、そもそものお話として… コスト最小法では変換できないのでは? 庭 庭 鶏には が いる 庭 二 鶏には が いる羽 正解の変換のほうが単語数が多いため 単語生起コストがどうしても高くなる N文節最長一致法の場合は、恐らく実装による 「二羽」で1文節だが、そもそもそんな単語が辞書にあるか…
  16. 16. 仮説。 コスト最小法は形態素解析には向いていても かな漢字変換には不向きである…?
  17. 17. というわけで「Genji」に課せられた課題 「にわにはにわにわとりがいる」を変換できること 対策案: (まだ実験中…) – 係り受けを利用する – 文節単位でコストを計算する ※ただし、なるべく計算に縛られたくない コスト最小法に変わる新しい実装が必要…かも
  18. 18. ご清聴、ありがとうございましたm(_ _)m

×