Your SlideShare is downloading. ×
Social IME: サーバサイド日本語入力とログ活用サービス
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Social IME: サーバサイド日本語入力とログ活用サービス

5,225
views

Published on

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,225
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Transcript

    • 1. 未踏ソフトウェア提案説明 奥野 陽 慶應義塾大学修士 1 年
    • 2. 2006 年 10 月
    • 3. 私は気付いた
    • 4. MS-IME では
    • 5. 「みとうせい」が
    • 6. 「未統制」 になる
    • 7. 「未踏性」は 変換できない
    • 8. 私は「未踏性」を 単語登録した
    • 9. ふとひらめいた
    • 10. 単語の辞書を 共有すればいいと
    • 11. ユーザ間で単語を 共有するシステム
    • 12. いける、と思った
    • 13. しかし問題があった
    • 14. 登録された単語の 信頼性は?
    • 15. 登録された単語の 分野は?
    • 16. そこで
    • 17. サーバサイドで 日本語入力
    • 18. 入力の履歴を使って
    • 19. 単語の信頼性を 自動判別
    • 20. 単語やユーザを クラスタリング
    • 21. しかし開発に時間がかかる
    • 22. 未踏の開発期間は短い
    • 23. かな漢字変換エンジンは オープンソースを使うとして
    • 24. 期間内で既存の IME と 差別化をしなければ
    • 25. そこで考えた 独自サービス
    • 26. ライフログ
    • 27. 似た人検索
    • 28. 言語統計情報
    • 29. というわけで
    • 30. 未踏ソフトウェア提案説明 奥野 陽 慶應義塾大学修士 1 年
    • 31. プレゼン目次
      • オープニング
      • 背景・目的
      • 現状の不満点
      • 提案内容
      • 普及戦略
      • 質疑応答
    • 32.
      • Web 2.0 時代のソフトウェアとは?
        • サーバサイド
        • マルチユーザ
        • パーソナライズ
      背景 インターネット シングルユーザ マルチユーザ PC サーバ …
    • 33.
      • Web サービスの例
        • Google
        • Wikipedia
      • クライアントアプリの例
        • Google Earth
        • iTunes
      • 既存アプリを Web アプリ化した例
        • Gmail
        • 翻訳サイト
      背景
    • 34.
      • Web サービスの例
        • Google
        • Wikipedia
      • クライアントアプリの例
        • Google Earth
        • iTunes
      • 既存アプリを Web アプリ化した例
        • Gmail
        • 翻訳サイト
      背景 Web 2.0 のパラダイムは、 Web ブラウザ上だけとは 限らないのでは?
    • 35.
      • 日本語入力の場合
      日本語入力 集合知 死蔵
        • 入力のログ
        • 単語の辞書
      よくて私蔵 蓄積 …
    • 36.
      • 単語登録の手間
      単語登録 全ユーザで共有 PC PC … 従来: 同じ単語を登録 単語 A 単語 B 単語 A 単語 C 無駄
    • 37.
      • 日本語入力なら
        • データが分散しない
        • データ収集が容易
      データ収集方法として アプリケーションレベル ワープロ メール 掲示板 日本語入力 デバイスレベル データを 集積 データが分散 (扱いづらい)
    • 38. プレゼン目次
      • オープニング
      • 背景・目的
      • 現状の不満点
      • 提案内容
      • 普及戦略
      • 質疑応答
    • 39. 誤変換例
      • 未統制
      • デー玉イニング
      • プログラマぶる
      • トレーサびりティ
      • そう初
      • 口説く点
      • ぷ来橋
      • 未踏ソフトウェア 想像事業
      • 集合地
      • 情報工学か
      • 可逆と負荷逆
      • 誤差逆電波法
      • 書くフレーム
      悲惨 既存の日本語入力だと …
    • 40. 既存の辞書
      • 専門用語の辞書( ATOK 用)が販売されているが…
      面倒 分野 語数 値段 医療用語 20 万語 ¥ 12,000 機械・工学 17 万語 ¥ 8,925 電気・電子・情報 17 万語 ¥ 8,925 生命科学 12 万語 ¥ 5,250 建築・土木 12 万語 ¥ 8,500 化学・農学 11 万語 ¥ 8,925 法律用語 5 万語 ¥ 5,250 放送用語 3 万語 ¥ 3,800
    • 41. かんな
      • Canna の登録語彙の共有
      • イントラ向け ATOK の辞書共有
      ローカルネットワーク内での使用を想定 提案は”インターネット全体”での辞書共有 社内ブログとブログくらい違う 別物
    • 42. プレゼン目次
      • オープニング
      • 背景・目的
      • 現状の不満点
      • 提案内容
      • 普及戦略
      • 質疑応答
    • 43. Social IME の構成
      • 3つのモジュールから構成
      • DB を介してデータをやり取り
      かな入力 漢字変換 クライアント サーバ DB Web サイト Windows 常駐ソフト Linux Anthy ライフログ 似た人検索 各種統計
    • 44. クライアントサイド
      • 見た目は MS-IME
      • 切り替えて併用可能
      • 単語登録のインターフェース
      • 情報を暗号化してサーバサイドと通信
    • 45. サーバサイド
      • かな漢字変換には深入りしない
      • 自分 >>> 似た人 >>> 全体平均
      文節 区切り 重要度 でソート 変換候補 出力 入力 ひらがな 単語 検索 コーパス 共有辞書 コーパス Anthy を改良
    • 46. データ形式
      • データ形式は 2 種類+コンテキスト
      登録単語
      • 書き方
      • 読み方
      • 品詞
      入力ログ
      • 変換後
      • 変換前
      • 変換候補
      コンテキスト コンテキスト + +
      • ユーザ名
      • 位置情報
      • 時間情報
      • アプリ名
        • URL
        • ファイルパス
        • 送信先
      拡張性のための コンテキストを保持 コンテキスト
    • 47. ライフログ
    • 48. ライフログ 人間は溜めたがる
    • 49. 似た人検索
    • 50. 似た人検索 人間は繋がりたがる
    • 51. 言語統計情報
    • 52. 言語統計情報 人間は知りたがる
    • 53. まとめ 実用性 × 娯楽性 (便利さ) (面白さ) 機能 ニーズ ライフログ 人間は溜めたがる 似た人検索 人間は繋がりたがる 言語統計 人間は知りたがる
    • 54. プレゼン目次
      • オープニング
      • 背景・目的
      • 現状の不満点
      • 提案内容
      • 普及戦略
      • 質疑応答
    • 55. 普及戦略
      • プロジェクト期間中、普及のためにやること
      • 私の Web サイト(月 5 万 PV) で宣伝
      • mixi やはてなの認証 API に対応
      • 単語毎の自動生成ページによる SEO
      • Google AdWords に広告を掲載
      • 終了後もさらなる開発と普及を図ります。
    • 56. ユーザ層
      • 初期の想定ユーザ層は、
      • 文章を日常的に書く層のうち、
      • Web サービスのヘビーユーザ
        • mixi ユーザ
        • はてなユーザ
      • 専門用語や流行語・俗語のヘビーユーザ
        • IT 用語
        • 医療用語
        • 2ちゃんねる用語
        • 東方用語
      • 時間をかけて一般層への普及を図ります。
    • 57. 開発予定表   クライアントソフト かな漢字変換サーバ 連動 Web サイト 全体 4 月 インターフェース開発         5 月       6 月 Anthy をカスタマイズ     7 月     8 月   α 版公開 9 月      かな漢字変換を改良 Web サイトを開発 10 月     11 月     12 月 テスト・デバッグ テスト・デバッグ テスト・デバッグ β 版公開
    • 58. 自己紹介
      • 奥野 陽(おくの よう)
      • 慶應義塾大学 修士 1 年
      • ハンドルネームは「のくの」 or “nokuno”
    • 59. とびまりさ
      • プログラム・音楽・デザイン等を 1 人で制作
      • 弾幕シューティングゲーム
      • 1 個 1000 円~ 1500 円で販売
    • 60. 卒論システム
      • 感性を反映したフォント自動作成システム
      • 既存研究に Web 2.0 的な考え方を導入
    • 61. 可視化システム
      • 関係ネットワークの可視化
        • 類似度が閾値以上のユーザを線で結ぶ
        • 自分が誰と似ているか分かる
    • 62. 連絡先
      • 日記サイト
      • http://d.hatena.ne.jp/nokuno/
      • 研究サイト
      • http://www.soft.ics.keio.ac.jp/~okuno/
      • ゲーム・音楽サイト
      • http://www.nokuno.jp/
      • メールアドレス
      • nokuno アット nokuno.jp
    • 63. 結論
      • ご清聴ありがとうございました。 引き続き質疑応答をお願いします。
    • 64. スライドショーの最後です。クリックするとスライドショーを終了するぞ JOJO ォォォオオオッッ!!!
    • 65. 以下、質問用スライド
    • 66. プライバシー
      • Q. プライバシーが問題では?
      • A. たしかに問題ですが、例えば GMail の普及を
      • 考えれば楽観的に考えて良いと思います。
      • 技術的な課題というよりも、ユーザの信頼を得
      • ることが重要な課題です。
    • 67. プライバシー2
      • Q. それをユーザにどう説明する?
      • A. 個人情報を扱う方法は、 Google 検索と同じく自動的なアルゴリズムによるものです。システム提供者が内容をチェックするということはありません。
      • (見えないものは存在しないのと同じ)
    • 68. プライバシー3
      • Q.SNS におけるプライバシーは質的に違うのでは?
      • A. 不特定多数が嗜好を知ることができるとすると、
      • 個人情報が悪用される恐れがあります。
      • これは嗜好を公開する範囲を同じ嗜好をもった相手に
      • 限定することで回避できます。
      • 同じ嗜好を持った仲間同士が隠しあう必要はない
      • のではないか、と思います。
    • 69. 個人情報保護法
      • 個人情報取扱事業者の主な義務
        • 利用目的は事前にハッキリしておく(15条)
        • 利用目的を超えた利用は NG (16条)
        • 本人の同意なしに第三者に提供は NG ( 23 条)
      • 個人情報の定義
        • 特定の個人を識別できる情報
        • 他の情報と容易に照合することができることにより,特定の個人を識別することができる情報
      • つまり・・・
        • 個人を特定できない範囲で公開は OK
        • 入力履歴の生データの公開は NG
        • 辞書は個人情報に当たらないとするので OK
    • 70. 不満
      • Q. 既存の IME に不満があるか?
      • A. 既存の IME はスタンドアロンです。
      • アルゴリズムはかなりのものですが、
      • 単語の辞書は充実しているとはいえません。
      • また、 IME の入力ログを用いたライフログ、
      • 似た人検索はまったく新しいサービスです。
    • 71.
      • Q. 誰が使うのか?
      • A. 最初は主に次のようなユーザを想定しています。
      • Web サービスのヘビーユーザ
        • mixi ユーザ
        • はてなユーザ
      • 専門用語のヘビーユーザ
        • IT 関連
        • 医療用語
        • 法律用語
      • 時間をかけて一般層への浸透を図ります。
      ターゲットユーザ
    • 72. パフォーマンス
      • Q. 通信がボトルネックにならないか?
      • A. テキストデータなので、大して速度は必要ないはずです。
      • Ajax IME の速度は超えたいです。
    • 73. サーバの負荷
      • Q. サーバの運営は大丈夫? 落ちない?
      • A. 回線負荷は大丈夫だと思います。
      • 問題はサーバの計算負荷です。
      • 必要に応じて負荷分散しますが、
      • あまりに重いようならクライアントの CPU を
      • 使わせてもらうことになるでしょう。
    • 74. MS-IME と併用
      • Q.MS-IME と併用は?
      • A. 次のようにして併用できるようにします。
      • 単語の辞書をインポートできる
      • 切り替えて使用できる
    • 75. オフライン
      • Q. マシンがオフラインのときは?
      • A. 当面は MS-IME と併用してもらいます。
      • オフライン用のモードも考えていますが、
      • Anthy の Windows での実装がなく、
      • データの同期も面倒なので後回し。
      • プロジェクト期間終了後に実装します。
    • 76. 単語登録だけ
      • Q. 単語登録だけではだめか?
      • A. 「辞書のオンラインアップデート」だけなら、
      • ATOK 等が既にやっています。
      • 登録された単語の信頼性が
      • 分からないという問題もあります。
    • 77. プラグイン
      • Q.MS-IME のプラグインとして実装は?
      • A. 次の理由から、できません。
      • MS-IME がプラグインを用意していない
      • 個人辞書では優先度が最大になってしまう
      • 登録された単語の信頼性が不明
      • ATOK は調べていませんが、有料なので
      • 十分なデータが集まらないと思われます。
    • 78. 既存システム
      • MS-IME,ATOK スタンドアロンの日本語入力。
      • Canna,Wnn LAN 内での辞書の共有が可能。 インターネット全体では不可能。
      • Ajax IME ブラウザ上でのみ動作。 パーソナライズや単語登録がない。
      • SKK 入力方式が特殊で使いづらい
      • 結論 Social IME のようなシステムは存在しない。
    • 79. MS-IME
      • Q.MS-IME とはどう違うか?
      • A.MS-IME はスタンドアロンのシステムです。
      • アルゴリズムはかなりのものですが、
      • 単語の辞書は十分とはいえません。
    • 80. Canna
      • Q.Canna とはどう違うか?
      • A. Canna は LAN 内でのみ使用可能なサーバです。イントラ向け ATOK などのグループウェアなどもあります。
      • Social IME はインターネットで公開するため、
      • ユーザが多く、ロングテール型をしており、
      • 集合知を集めやすいことが重要です。
    • 81. Ajax IME
      • Q.Ajax IME とはどう違うか?
      • A.Ajax を使った IME では、ブラウザでしか使えません。ブラウザのみでは IME として不便であり、十分とはいえません。また Ajax IME にはパーソナライズや単語登録がありません。
    • 82. SKK
      • Q.SKK とはどう違うか?
      • A.SKK は CGI で単語を登録できるが、
      • 辞書は DL して使用するので不便です。
      • 変換サーバの公開はありません。
      • 何よりも、入力方式が特殊で使いづらい。
    • 83. 異分野
      • Wikipedia そもそも百科辞典と辞書は異なります。 読み仮名や品詞の取得が困難です。
      • テキストマイニング ブログやニュースサイトの解析はあります。 テキストマイニングとの連携は考えています。
      • mixi “ 似た人検索”における連携は考えています。 非公開日記のマイニングができればよいのですが。
      • 結論 Web アプリなどの分野が異なるところで、 似たようなことをやっている例は多い。 しかし、 IME を目的とした例は無い。
    • 84. Wikipedia
      • Q.Wikipedia と提案の辞書共有機能はどう違うか?
      • A. コンセプトは非常に似ています。 ただし Wikipedia は百科事典、 提案の辞書共有は日本語入力の辞書、 この両者は分野が異なります。 実際に Wikipedia から正確な単語の読み方や品詞を取得することは困難です。
    • 85. ブログ
      • Q. ブログと提案のライフログ機能はどう違うか?
      • A. ライフログ機能は、普段からブログを書いている人には重複するかもしれません。しかしそうでない人や、ブログ以外の場所で入力した文章も参照できる点が異なります。
    • 86. テキストマイニング
      • Web 上のテキストマイニングと連携することを
      • 考えています。
      • 具体的には、
      • その日のニュースに関連する単語を変換可能
      • 登録した人のブログをマイニングして利用
      • Wikipedia をマイニングして利用
      • はてなのキーワードを辞書に利用
    • 87. ニッチ市場
      • “ Social IME” という直球のアイデア
      • なんで今まで無かったのか不思議
      • Google が日本企業だったならとっくに作っていたであろうソフト
      • ターゲットは日本という国の巨大なニッチ市場
      • 及び中国語圏のもっと巨大なニッチ市場
    • 88. データ重要
      • データを集め、自分で保有することが重要と
      • “ Data is Next Intel Inside.”
      • ソフトウェアよりもデータが重要
      • ある意味、未踏ソフトウェアにあるまじき考え
    • 89. Anthy
      • オープンソースのかな漢字変換エンジン
      • 京都大学を中心に 2000 年より開発
      • 2001 年度未踏ソフトウェア創造事業に採択
      • Fedore Core, Vine Linux に標準採用
      • Windows の実装はない
    • 90. SEO
      • 単語ごとのページを自動生成
      • 「未踏性」が変換できない!
        • -> Social IME なら変換できます
      • 「プログラマブル」が変換できない!
        • -> Social IME なら変換できます
      • 「集合知」が変換できない!
        • -> Social IME なら変換できます
      • 「データマイニング」が変換できない!
        • -> Social IME なら変換できます
      • 類似語同士をリンクして PageRank 上昇
    • 91. ネットワーク外部性
      • 指数関数的にユーザ数が増加
      プロジェクト期間 2008 2007 2009 ユーザ数 α 版公開 β 版公開 正式公開 デファクト・スタンダード 目標
    • 92.
      • 開発予定
        • オフラインモード開発
        • クライアント CPU を用いた負荷分散
        • 予測変換を実装
        • 「もしかして~」を実装
      • その他
        • API 提供や連動広告によるビジネス化
        • メーカー PC へのプリインストール
      プロジェクト終了後の予定