Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Google 日本語入力 TechTalk 2010

3,163 views

Published on

Published in: Technology
  • Be the first to comment

Google 日本語入力 TechTalk 2010

  1. 1. 真字(2004-2006) 或る漢字変換エンジンの生涯 Google 日本語入力 TechTalk 2010 山形頼之
  2. 2. 発端 はてなダイアリーを始めた。日本語を書くことに ↓ Cannaにうんざりする ↓ 自分で作ろう!名前は真字だ! ↓ 一週間くらいで変換ができるように
  3. 3. 真字の特徴 • C/OCaml/Schemeハイブリッド – Cコードは茶筅由来 • 言語モデルはIPA-DIC • コンパクト – 独自の部分は2000行くらい – 外部インターフェースは関数2つだけ
  4. 4. Emacs Mana Chasen 連接コストIPA-dic 形態素グラフ 最適解 単語候補リスト Viterbi Scheme Egg
  5. 5. OCamlで高速開発? • OCamlはそこそこ速い – 複雑なアルゴリズムもOCamlで書ける – スクリプト言語だとCで書かないといけない • ライブラリが揃っている – OCamlGraph – Schemeインタープリタ多数
  6. 6. でもはまる • Automake… – 一応OCaml対応パッチはあるけど… • GCがクラッシュ – バグの位置とクラッシュするところが違う…
  7. 7. ベンチマーク 漢字混じり文 ↓ Kakasi ↓ ひらがな文 ↓ 変換エンジン ↓ 漢字混じり文
  8. 8. 走れメロス 0.0 5.0 10.0 15.0 20.0 真字 Wnn Anthy Canna 一致率
  9. 9. Debian憲章 0 10 20 30 40 50 60 70 真字 Canna Anthy Wnn 一致率
  10. 10. 真字、再起動? • モードレス、言語の判定 こっぁちおんはきょうきせいとやくされる → Collationは共起性と訳される • 共起性のサポート 残念な変換:今年の夏は扱った(Google IME β) • Typoの認識
  11. 11. ご清聴ありがとうございました

×