未踏ソフト最終報告会 奥野 陽 慶應義塾大学修士 1 年 http ://www.social-ime.com/
Web 公開
目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
自己紹介 <ul><li>奥野 陽(おくの よう) </li></ul><ul><li>慶應義塾大学院修士 1 年 </li></ul><ul><li>ブログ: http :// d.hatena.ne.jp/nokuno/ </li></ul...
<ul><li>Web 2.0 時代の日本語入力とは? </li></ul>背景 インターネット シングルユーザ マルチユーザ PC サーバ 従来の IME Social IME 集合知 <ul><ul><li>変換のログ </li></ul>...
<ul><li>データ が価値を生み出す </li></ul><ul><li>日本語入力なら データ が分散しない </li></ul>目的 アプリケーション ワープロ メール ブラウザ 日本語入力 デバイス データ 収集
応用 <ul><li>サーバ上の データ を使った機能 </li></ul>予測入力 ライフログ 辞書共有 データ <ul><li>専門用語 </li></ul><ul><li>流行語 </li></ul><ul><li>省入力 </li></...
目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
Social IME の構成 <ul><li>専用クライアントと変換サーバが通信 </li></ul>通信 クライアント サーバ Windows TSF Linux Anthy Web サイト Twitter ふれっく 自動投稿 (公共モード)
クライアントサイド <ul><li>見た目は普通の IME </li></ul><ul><li>切り替えて併用可能 </li></ul><ul><li>変換 (Space キー ) の瞬間にサーバと通信 </li></ul><ul><li>TS...
予測入力 <ul><li>最初の数文字+ TAB キー で予測入力 </li></ul><ul><li>省入力や発想支援に利用 </li></ul>例 おね->お願いします あぷり->アプリケーション にほ->日本語 みと->未踏 そふ->ソフ...
辞書共有 <ul><li>変換できない単語を登録できる </li></ul><ul><li>みんなで 専門用語 や 流行語 の辞書を共有 </li></ul>例 未踏性(みとうせい) 集合知(しゅうごうち) 創発(そうはつ) 亀田 和毅(ともき...
言語バー 入力切替 半角・全角 公共モード 単語登録 CAPS 切替 (後述)
TSF  ( Text Services Framework ) <ul><li>Windows 上でのテキスト入力のしくみ </li></ul><ul><li>アプリケーションと IME をつなぐ役割 </li></ul>Social IME...
変換プロトコル <ul><li>変換->伸縮->確定の3操作に通信が必要 </li></ul><ul><li>独自プロトコルを使用 ( HTTP 上に移行予定) </li></ul>コネクション 変換  (Space) 伸縮  (Shift+←...
サーバサイド <ul><li>簡易サーバー </li></ul>inetd social-ime libanthy TCP/IP Client nkf Server syslog 文字コード変換 Anthy の API ログ Linux のツー...
ベンチマーク結果 <ul><li>レスポンスタイム </li></ul>(1台のサーバで処理できる回数) <ul><li>スループット </li></ul>(変換にかかる時間) 0.2 秒/回 レスポンスタイム 33 回/秒 スループット 多人...
公共モード <ul><li>公共モード時、外部サイトに自動投稿 </li></ul>Twitter ふれっく クリック 公共モード 私的モード 投稿 ライフログ
Twitter に自動投稿 <ul><li>シンプルなライフログを蓄積 </li></ul>http://twitter.com/socialime
Twitter からアクセス禁止 <ul><li>アクセス禁止までの経緯 </li></ul><ul><ul><li>自動投稿期間: 11/17  ~  11/18 </li></ul></ul><ul><ul><li>18 時間に約 800 ...
「ふれっく」とは? <ul><li>2006 年下期・高木さんのプロジェクト </li></ul><ul><li>ライフログを蓄積してタグクラウド表示 </li></ul>リンク http:// frec.hbbox.net/LimeServe...
デモ <ul><li>創聖のアクエリオン </li></ul><ul><li>灼眼のシャナ </li></ul><ul><li>旋光の輪舞 </li></ul><ul><li>幽遊白書 </li></ul><ul><li>銀塊 </li></u...
目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
今回の評価 <ul><li>通常の IME の動作の再現 </li></ul><ul><li>単語登録・辞書共有 </li></ul><ul><li>Web 上のサービス </li></ul><ul><li>予測入力機能 </li></ul>公...
現在の課題 <ul><li>12 月中(冬コミまで)に解決したい課題 </li></ul><ul><li>無変換キーの実装 </li></ul><ul><li>デフォルト IME の設定 </li></ul><ul><li>公共モードの設定を保...
長期計画 <ul><li>修士在籍中の 2 年間(以上)の計画 </li></ul>データの「入れ物」を作る 実際に入れる データを増やす 目標:  集合知の実現 今回やったこと 来年やること IME として使える データの共有 ユーザを増やす...
Google コーパス <ul><li>Web 全体から 200 億文 </li></ul><ul><li>日本語 N-gram 形式 ( N:1 ~ 7 ) </li></ul><ul><li>DVD6 枚組、 26GB </li></ul>...
Social IME Version 2.0 (仮) <ul><li>大規模コーパスに基づく予測変換 </li></ul>予測エンジン スケーラビリティ コーパス 辞書データ オフライン対応 カスタマイズ版 クライアント サーバ 検索 <ul>...
質疑応答 <ul><li>ご清聴ありがとうございました。 引き続き質疑応答をお願いします。 </li></ul>http ://www.social-ime.com/
Upcoming SlideShare
Loading in …5
×

Social IME

2,446
-1

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,446
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Social IME

    1. 1. 未踏ソフト最終報告会 奥野 陽 慶應義塾大学修士 1 年 http ://www.social-ime.com/
    2. 2. Web 公開
    3. 3. 目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
    4. 4. 自己紹介 <ul><li>奥野 陽(おくの よう) </li></ul><ul><li>慶應義塾大学院修士 1 年 </li></ul><ul><li>ブログ: http :// d.hatena.ne.jp/nokuno/ </li></ul>2002 ~ 2005 :サークルでゲーム制作 2006 :卒業研究で Web アプリを研究 2007 : 未踏ソフトで IME 開発 (←今ここ)
    5. 5. <ul><li>Web 2.0 時代の日本語入力とは? </li></ul>背景 インターネット シングルユーザ マルチユーザ PC サーバ 従来の IME Social IME 集合知 <ul><ul><li>変換のログ </li></ul></ul><ul><ul><li>単語の辞書 </li></ul></ul>収集
    6. 6. <ul><li>データ が価値を生み出す </li></ul><ul><li>日本語入力なら データ が分散しない </li></ul>目的 アプリケーション ワープロ メール ブラウザ 日本語入力 デバイス データ 収集
    7. 7. 応用 <ul><li>サーバ上の データ を使った機能 </li></ul>予測入力 ライフログ 辞書共有 データ <ul><li>専門用語 </li></ul><ul><li>流行語 </li></ul><ul><li>省入力 </li></ul><ul><li>発想支援 </li></ul><ul><li>備忘録 </li></ul><ul><li>娯楽性 </li></ul>を変換
    8. 8. 目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
    9. 9. Social IME の構成 <ul><li>専用クライアントと変換サーバが通信 </li></ul>通信 クライアント サーバ Windows TSF Linux Anthy Web サイト Twitter ふれっく 自動投稿 (公共モード)
    10. 10. クライアントサイド <ul><li>見た目は普通の IME </li></ul><ul><li>切り替えて併用可能 </li></ul><ul><li>変換 (Space キー ) の瞬間にサーバと通信 </li></ul><ul><li>TSF ( Text Services Framework ) を使って実装 </li></ul>
    11. 11. 予測入力 <ul><li>最初の数文字+ TAB キー で予測入力 </li></ul><ul><li>省入力や発想支援に利用 </li></ul>例 おね->お願いします あぷり->アプリケーション にほ->日本語 みと->未踏 そふ->ソフトウェア 「て」 +TAB
    12. 12. 辞書共有 <ul><li>変換できない単語を登録できる </li></ul><ul><li>みんなで 専門用語 や 流行語 の辞書を共有 </li></ul>例 未踏性(みとうせい) 集合知(しゅうごうち) 創発(そうはつ) 亀田 和毅(ともき) 初音ミク(はつねみく) 東方 永夜抄(えいやしょう)
    13. 13. 言語バー 入力切替 半角・全角 公共モード 単語登録 CAPS 切替 (後述)
    14. 14. TSF ( Text Services Framework ) <ul><li>Windows 上でのテキスト入力のしくみ </li></ul><ul><li>アプリケーションと IME をつなぐ役割 </li></ul>Social IME MS IME TSF Manager 音声入力 Application Application
    15. 15. 変換プロトコル <ul><li>変換->伸縮->確定の3操作に通信が必要 </li></ul><ul><li>独自プロトコルを使用 ( HTTP 上に移行予定) </li></ul>コネクション 変換 (Space) 伸縮 (Shift+←) 確定 (Enter) サーバ
    16. 16. サーバサイド <ul><li>簡易サーバー </li></ul>inetd social-ime libanthy TCP/IP Client nkf Server syslog 文字コード変換 Anthy の API ログ Linux のツールのお世話に Anthy の田畑氏と協力
    17. 17. ベンチマーク結果 <ul><li>レスポンスタイム </li></ul>(1台のサーバで処理できる回数) <ul><li>スループット </li></ul>(変換にかかる時間) 0.2 秒/回 レスポンスタイム 33 回/秒 スループット 多人数の使用にはサーバ増設が必要 意外と気にならない程度
    18. 18. 公共モード <ul><li>公共モード時、外部サイトに自動投稿 </li></ul>Twitter ふれっく クリック 公共モード 私的モード 投稿 ライフログ
    19. 19. Twitter に自動投稿 <ul><li>シンプルなライフログを蓄積 </li></ul>http://twitter.com/socialime
    20. 20. Twitter からアクセス禁止 <ul><li>アクセス禁止までの経緯 </li></ul><ul><ul><li>自動投稿期間: 11/17 ~ 11/18 </li></ul></ul><ul><ul><li>18 時間に約 800 回 の投稿 </li></ul></ul><ul><li>単語のみの投稿が多かった </li></ul><ul><li>スパムに間違えられた? </li></ul>原因 対策: 変換後の長さが 10 文字以上の場合 のみ投稿
    21. 21. 「ふれっく」とは? <ul><li>2006 年下期・高木さんのプロジェクト </li></ul><ul><li>ライフログを蓄積してタグクラウド表示 </li></ul>リンク http:// frec.hbbox.net/LimeServer/ 他 対応サイト
    22. 22. デモ <ul><li>創聖のアクエリオン </li></ul><ul><li>灼眼のシャナ </li></ul><ul><li>旋光の輪舞 </li></ul><ul><li>幽遊白書 </li></ul><ul><li>銀塊 </li></ul><ul><li>犬夜叉 </li></ul><ul><li>東方紅魔郷・妖々夢・永夜抄 </li></ul>
    23. 23. 目次 <ul><li>背景・目的 </li></ul><ul><li>成果報告 </li></ul><ul><li>今後の予定 </li></ul>
    24. 24. 今回の評価 <ul><li>通常の IME の動作の再現 </li></ul><ul><li>単語登録・辞書共有 </li></ul><ul><li>Web 上のサービス </li></ul><ul><li>予測入力機能 </li></ul>公共モード 実現 実現 追加 <ul><li>計画していたこと 結果 </li></ul><ul><li>方針転換: </li></ul><ul><li>外部サイトに任せられる部分は任せる </li></ul><ul><li>自分は IME としての機能に専念 </li></ul><ul><li>サーバサイドの開発者を募集中 </li></ul>
    25. 25. 現在の課題 <ul><li>12 月中(冬コミまで)に解決したい課題 </li></ul><ul><li>無変換キーの実装 </li></ul><ul><li>デフォルト IME の設定 </li></ul><ul><li>公共モードの設定を保存 </li></ul><ul><li>全角スペースの入力 </li></ul><ul><li>SHIFT による伸縮を軽くする </li></ul><ul><li>辞書をユーザ別・カテゴリ別にわける </li></ul>
    26. 26. 長期計画 <ul><li>修士在籍中の 2 年間(以上)の計画 </li></ul>データの「入れ物」を作る 実際に入れる データを増やす 目標: 集合知の実現 今回やったこと 来年やること IME として使える データの共有 ユーザを増やす 外部データの入力 Google コーパス?
    27. 27. Google コーパス <ul><li>Web 全体から 200 億文 </li></ul><ul><li>日本語 N-gram 形式 ( N:1 ~ 7 ) </li></ul><ul><li>DVD6 枚組、 26GB </li></ul><ul><ul><li>単語1 単語2 単語 3  頻度 </li></ul></ul><ul><ul><li>グーグル で 検索 1042 </li></ul></ul><ul><ul><li>グーグル で 調べる 854 </li></ul></ul>3-gram の 例 形式:
    28. 28. Social IME Version 2.0 (仮) <ul><li>大規模コーパスに基づく予測変換 </li></ul>予測エンジン スケーラビリティ コーパス 辞書データ オフライン対応 カスタマイズ版 クライアント サーバ 検索 <ul><li>Hatena::IME </li></ul><ul><li>ニコニコ IME </li></ul><ul><li>mixi IME </li></ul><ul><li>東方変換機 </li></ul>通信 カスタマイズ版
    29. 29. 質疑応答 <ul><li>ご清聴ありがとうございました。 引き続き質疑応答をお願いします。 </li></ul>http ://www.social-ime.com/
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×