Successfully reported this slideshow.
Your SlideShare is downloading. ×

おーぷん万葉プロジェクトの進捗とIzumoのその後

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 18 Ad
Advertisement

More Related Content

Slideshows for you (20)

Advertisement

Recently uploaded (20)

Advertisement

おーぷん万葉プロジェクトの進捗とIzumoのその後

  1. 1. おーぷん万葉プロジェクトの進捗 …と、Izumoのその後 2015/12/12 東海道らぐ@横浜(in JSP) はしもとまさ
  2. 2. 自己紹介 ● 東海道らぐ元名古屋案内人です – 現在は関東地方担当。 ● ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人 – 冬コミ原稿書きました! (12/31 東「メ」36b) …ん? またうち売り子やるの??? ● おーぷん万葉プロジェクトやってます!
  3. 3. おーぷん万葉とは(過去スライドの話) ● 目的「自由な日本語入力環境を手に入れよう!」 – 現在: かな漢字変換ソフト「Izumo」を開発中。 ● 現状の問題点: – ビックデータと叫ばれる時代に、開発がアクティブで 自由にコミットメントできる日本語入力システムがない??? – インプットメソッド(UI側)も残念な状況orz → そんな現状を打破したい!てのが目的です。 この辺りが過去(ぇ
  4. 4. 今年のおーぷん万葉の成果… ● 特になし(ぇ – 地道に実験ばかりに明け暮れた… – 一応OSCにはおーぷん万葉で出展 ● メンバーが1人→3人(?)になった – 意外にも方向性はほぼ一緒だった(…と思う(^^)
  5. 5. 来年は…①辞書構築に専念 ● 目的「自由な日本語入力環境を手に入れよう!」 → 「中立でオープンな日本語辞書を手に入れよう」 ● 来年のおーぷん万葉では… – どんなアプリでも利用できるオープンな辞書を開発する – mecab依存の辞書から脱却 ● おーぷん万葉の対象から外れる(or 優先度が落ちる)もの – 日本語入力のUI部 ←IBusとかあの辺り M氏からツッコまれそう…^^; てことで後継プロジェクト募集中!!!
  6. 6. 来年は…②Izumo開発停止!? ● これまで = かな漢字変換「Izumo」を開発 → 「Izumo」ではなく別の名前で開発します てか既にそれで動いてる… 理由: – Izumofsとか出てきてしまった!(ぎゃふん) – そもそも既にCannaのフォークを止めている ※ 但し、従来のCannaフォーク版はIzumoの名前を継続します   開発停止中だけどね〜 Izumoって名称は元々Cannaフォーク版だった頃の名残で 「Canna → 神無月 → Izumo」というものでした
  7. 7. 新しいかな漢字変換「Genji」 ● Izumo をやめて、 Genji を開発していきます パッケージ構成: – Genji: 大元のソフト(全体)。下記ライブラリを含む ● Murasaki: かな漢字変換&形態素解析のライブラリ ● Fujitsubo: 辞書管理のライブラリ ● Aoi: 入出力部のライブラリ ←Glibを使用 Fujitsubo辺りは変動ありかも…
  8. 8. ここから先は Izumo→Genji の進捗 で、結局 Genji はどうなるの!?編
  9. 9. 従来のかな漢字変換の実装は? ● 過去: N文節最長一致法 ← Canna 等 ● 現在: コスト最小法 ← mecab / Mozc 等 現在の主流は、ビタビアルゴリズム(コスト最小法) どの解説本にも載っているし、むしろそれしか載ってない
  10. 10. 解説① N文節最長一致法 ● 例文: 「きょうはあひるやきです」 今日 歯 あ 昼 焼きで 酢 今日は あ 昼 焼きです 今日は 家鴨 焼きです 今日は あひる焼きです 6文節 4文節 3文節 2文節 一番少ないのでこれを選択! ポイント: 文節 = 自立語(名詞・動詞等) + 付属語(助詞等)
  11. 11. 解説② コスト最小法 文 頭 私 の 名前 は 中野 注:ちょっと(かなり?)端折って説明します^^; です 文 末ので す 中 綿 市 花 課 例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;) 10 30 15 30 15 10 15 40 20 50 ● 単語生起コスト: 単語の出現優先度を表したコスト ● 連接コスト: 単語と単語の結びつきやすさを表したコスト → 全て足して、合計値が最も低いルートが 候補になります 15 30 40 45 20 20 20 20 50 20 25 30 40 45 20 20 出現頻度の高い単語は 単語生起コストが低い 「名前」と「花」という単語は結びつきにくいので 連接コストは高い
  12. 12. がしかし、コスト最小法って… ● 結局のところ、単語と単語のつながりしか 判定できてない ● 文脈解釈とか意義解釈とか全然やってないので 当たり前といえば当たり前かも 元々mecab(=形態素解析器)で用いてた手法 → それって本当にかな漢字変換には向いてるの?
  13. 13. というわけでこんな例文 手元に Mozc がある場合は 「にわにはにわにわとりがいる」 を変換してみよう! (一発で変換できるか?)
  14. 14. …何度も話しているので^^; Mozc だと 「庭には庭鶏がいる」 と変換されます こけこっこ〜
  15. 15. でもこれ、そもそものお話として… コスト最小法では変換できないのでは? 庭 庭 鶏には が いる 庭 二 鶏には が いる羽 正解の変換のほうが単語数が多いため 単語生起コストがどうしても高くなる N文節最長一致法の場合は、恐らく実装による 「二羽」で1文節だが、そもそもそんな単語が辞書にあるか…
  16. 16. 仮説。 コスト最小法は形態素解析には向いていても かな漢字変換には不向きである…?
  17. 17. というわけで「Genji」に課せられた課題 「にわにはにわにわとりがいる」を変換できること 対策案: (まだ実験中…) – 係り受けを利用する – 文節単位でコストを計算する ※ただし、なるべく計算に縛られたくない コスト最小法に変わる新しい実装が必要…かも
  18. 18. ご清聴、ありがとうございましたm(_ _)m

×