Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

おーぷん万葉プロジェクトとは

1,578 views

Published on

おーぷん万葉の説明です。後半部分は話をした場所が異なるだけで、2週間前に話したネタの使い回しとなっています。ごめんなさい^^

Published in: Technology
  • Be the first to comment

  • Be the first to like this

おーぷん万葉プロジェクトとは

  1. 1. おーぷん万葉プロジェクトとは? 2015/12/29 @IM飲み会 はしもとまさひこ 注:後半部分は以前のネタの使い回しです^^;
  2. 2. 自己紹介 ● 東海道らぐ(Tokaido Linux User Group)の案内人 ● その他、日本openSUSEユーザ会の人 ● おーぷん万葉プロジェクトを始めてます – 本日の紹介する内容 ● 実は理系ではなく元々は文系の人間です – 某大学の文学部日本文学文学科卒 – ケータイメールの研究などもしてました
  3. 3. お詫び 内容的には非常に拙い内容となっております^^ 予めご了承くださいm(_ _)m
  4. 4. おーぷん万葉プロジェクトとは ● 目的「オープンな日本語辞書を手に入れよう!」 – どんなアプリでも使用可能な(中立の)日本語辞書を作りたい 現在は… – オープンソースのかな漢字変換ソフトを開発中 – オープンソースカンファレンスや関西オープンフォーラムに出展 – メンバーは3人…? ● 強引に巻き込んでしまってる方もいらしたり…
  5. 5. 以下はおーぷん万葉始めた当初のスライドより。 ※昨年OSC京都直後に(Wnnの)吉田智子先生に 見ていただいたスライドから抜粋です
  6. 6. 「おーぷん万葉」背景 ● 現在、国立国語研究所が Unidic という電子化辞書を公開している が、以下の点で十分とは言えない。 Unidic : http://www.ninjal.ac.jp/corpus_center/unidic/ – 形態論情報を付与するための辞書であって、汎用性が皆無。 – コミュニティで作成しているわけではないため、追加したい用語 を追加できない。 ● かな漢字変換ソフト用の辞書が整備されていない。 – Googleのmozc等、ベンダー依存の開発体制になってしまっている。
  7. 7. 「おーぷん万葉」目的 ● コミュニティー主導による辞書構築を行う。 – 当面はかな漢字変換ソフトで使用できる辞書を作成する。 参考: SKKDICの辞書登録・削除希望フォーム http://openlab.ring.gr.jp/skk/registdic.cgi ● 日本語コーパスと単語の用例をまとめ、日本語研究を活発にする。 – KOTONOHA計画のオープンソース版のようなものを構築する。 KOTONOHA計画: http://www.ninjal.ac.jp/corpus_center/kotonoha.html お金のない学生だって、コーパス使いたいですよね?^^;
  8. 8. 「おーぷん万葉」が目指す辞書 ● 類語辞書(例:国立国語研究所「分類語彙表」のようなもの)を、 コーパスから解析して作成する。 – 参考「係り受け関係を利用した類語・例文辞書構築法と大規模 コーパスへの適用」(2006 相澤、中渡瀬) http://www.jaist.ac.jp/jsai2006/program/pdf/100123.pdf ● インターネット上のコーパスを利用して、従来の類語辞書を自然言語 処理の観点から検証する。
  9. 9. Mozcは結構使われている ● Google日本語入力のオープンソース版 ● 多くのLinuxディストリビューションに採用 – Ubuntu – Debian – openSUSE – Vine Linux ちなみにRedHat系はlibkkcを採用しています(二強?)
  10. 10. Mozcの変換ロジック「コスト最小法」とは ※ツッコミ大歓迎です…^^;;; 文 頭 私 の 名前 は 中野 です 文 末ので す 中 綿 市 花 課 例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;) 10 30 15 30 15 10 15 40 20 50 ● 単語生起コスト:単語の出現優先度を表したコスト ● 連接コスト: 単語と単語の結びつきやすさを表したコスト → 全て足して合計値が最も低いルートが候補 15 30 40 45 20 20 20 20 50 20 25 30 40 45 20 20 出現頻度の高い単語は 単語生起コストが低い 「名前」と「花」という単語は結びつきにくいので 連接コストは高い
  11. 11. Mozcは確かに優れたソフトではありますが… ● 単語と単語のつながりのみで判定 ● 文脈解釈とか意義解釈などはやっていない 元々mecab(=形態素解析器)で用いてた手法 → それは本当にかな漢字変換に向いてるの?
  12. 12. 例えば…誤変換の一例 「にわにはにわにわとりがいる」 ↓ 「庭には庭鶏がいる」 そういえばMacOSの変換もこうなりますよね ※ちなみにGoogle日本語入力ではちゃんと変換するらしい…?
  13. 13. これはコスト最小法で変換できるの? 庭 庭 鶏には が いる 庭 二 鶏には が いる羽 正解の変換のほうが単語数が多いため 単語生起コストが高くなる可能性が高い? N文節最長一致法の場合は恐らく実装による 「二羽」で1文節だがそもそもそんな単語が辞書にあるか…
  14. 14. おーぷん万葉で目指す辞書は… ● おーぷん万葉で目指す辞書は係り受け関係を 利用したオープンな日本語辞書 ● こんなのだって変換できるはず!…? 庭には 二羽(の) 鶏が いる
  15. 15. だがしかし、 口だけだったらなんとでも言えますよね!?^^;
  16. 16. おーぷん万葉プロジェクトからお願い ● 協力者を募集しています!!! – かな漢字変換ソフトを開発したい方 – IM(インプットメソッド)をどうにかしたい方 – 日本語辞書を開発したい方 – こんなネタがあるよ〜と提案してくださる方
  17. 17. Anthy最終版リリース & mozc初版リリース 2009年 〜それから6年〜 そろそろ新しいかな漢字変換を つくってみませんか?
  18. 18. ご清聴、ありがとうございました!

×