Twitterにおける即時話題推定技術                        の開発        産学間連携推進室       情報科学類1年  川上 大樹       情報科学類1年  桑原 悠太       情報科学類2年 ***...
0.説明手順1.  研究背景   6.  実装2.  研究目的   7.  ここまでの結果3.  研究概要   8.  ここまでの考察4.  研究計画   9.  今後の展望5.  理論
1.研究背景•  Twitterがとても流行っている•  follow数が多いアクティブなユーザも多数いる•  目視だけでは雑多で大量の情報を理解するには限界があ   るため、follow数に能力的上限がある   →もっとfollowしたい、多...
2.研究目的社会に対して:•  タイムラインに溢れかえる雑多なつぶやきの話題を自動   推定して分類することで、follow数の多いTwitterユーザ   の理解の助けとなる。•  話題の発生と遷移などの研究に貢献する。•  移り変わる話題を...
2.研究目的自分たちのために:•  自然言語処理の入門•  複数人開発の練習•  専門基礎における既習事項の応用•  効率的なアルゴリズム・データ構造の勉強
3.研究概要•  それぞれのつぶやきの話題を自動で推定する技術•  そのつぶやきが何に言及しているのか、何と関連するのか•  例えば、「Excel」を含むつぶやきを自分がしたとして、だ   れかが「Powepoint」を含むつぶやきをしたとき、...
4.研究計画大きく分けて7つの研究項目がある・特徴語抽出    ・精度向上・データベース   ・システム補助・アルゴリズム   ・future work・出力方法
4.研究計画大きく分けて7つの研究項目がある     ・各企業にデータ提供の交渉        ・表記ゆれ/関連概念データベースの用意・特徴語抽出       ・精度向上・データベース      ・システム補助・アルゴリズム      ・fut...
4.研究計画大きく分けて7つの研究項目がある        ・データベースの速度向上        ・データベースの設計/構成検討・特徴語抽出       ・精度向上・データベース      ・システム補助・アルゴリズム      ・futur...
4.研究計画大きく分けて7つの研究項目がある・関連概念の比較による同一話題推定アルゴリズムの研究・レート計算による話題推定アルゴリズムの改良・発言内ハイパーリンクを考慮した推定アルゴリズムの研究・特徴語抽出       ・精度向上・ソーシャルグ...
4.研究計画大きく分けて7つの研究項目がある・特徴語抽出       ・精度向上・データベース    ・システム補助       ・プロトコルの検討         ・ユーザへの出力の表現の検討・アルゴリズム      ・future work...
4.研究計画・表記ゆれを吸収した特徴語の抽出大きく分けて7つの研究項目がある・MeCabのチューニング・話題キューの保持方式の改善・特徴語抽出    ・精度向上・データベース   ・システム補助・アルゴリズム   ・future work・出力方法
4.研究計画大きく分けて7つの研究項目があるタイムラインの録画・再生ツールの開発・特徴語抽出      ・精度向上・データベース     ・システム補助・アルゴリズム     ・future work・出力方法
4.研究計画大きく分けて7つの研究項目がある・特徴語抽出・新出単語の自動抽出   ・精度向上・新規概念の自動学習・データベース      ・システム補助・アルゴリズム      ・future work・出力方法
4.研究計画大きく分けて7つの研究項目がある・特徴語抽出    ・精度向上・データベース   ・システム補助・アルゴリズム   ・future work・出力方法
5.理論 なにをもって発言Aと発言Bを   「同じ話題である」     とするのか?
5.理論
5.理論
5.理論
5.理論
5.理論•  たくさんの共通の特徴語があれば同じ話題•  どちらにも同じカテゴリに属する特徴語が   含まれていたとき関連度が高くなる•  抱えている単語がすくなければすくない   カテゴリほど関連度が高くなる•  急に頻発しだした特徴語の関連...
5.理論さらに正確さを増すために:•  二人とも同じ(ユーザの)クラスタに属している   場合、同じ話題を話したり共有したり   する可能性が高い•  一連の会話がなされているとき、リプライ   チェーンは同じ話題であると推定する•  つぶやき...
6.実装 現時点でできていること  1.  MeCabコーパスの強化  2.  表記ゆれの吸収 カテゴリ情報を利用したらどれだけの 正確さになるかの実証をまだ 行なっていない。
6.実装1.MeCabコーパスの強化 Twi$erで流れる単語の多くはインターネットスラング	   →普通のNAIST辞書やIPA辞書などでは到底語彙が足りない
6.実装2.表記ゆれの吸収 S Wikipediaの「リダイレクトテーブル」と  ニコニコ大百科の「転送項目」を使用することで実現 S 「Excel」「EXCEL」はすべて  「Microsoft Excel」として登録される S 正確さ...
6.実装2.表記ゆれの吸収Before
6.実装2.表記ゆれの吸収A7er
7.ここまでの結果S  リアルタイムに特徴語が取得できたS  単語でタイムラインに反応することができたS  「引越し」「引っ越し」でも    同じ単語と見なせるようになった
7.ここまでの結果S  リアルタイムに特徴語が取得できたここでデモをしますS  単語でタイムラインに反応することができた       (๑╹◡╹๑)S  「引越し」「引っ越し」でも    同じ単語と見なせるようになった
8.ここまでの考察S  memcachedを用いることで高速に単語の変換    が可能になった。S  インターネットスラングにも柔軟に対応。S  なぜか「人」から「GReeeeN」にリダイレクト    されたりする。データ処理のミス?S...
9.今後の展望S    表記ゆれ・関連概念データベースの用意S    データベースの速度改善S    関連概念の比較による同一話題推定アルゴリズムの研究S    レート計算による話題推定アルゴリズムの改良S    発言内ハイパーリンク...
ご清聴ありがとうございました。
質疑応答(`・ω・́)
Upcoming SlideShare
Loading in …5
×

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

1,177 views

Published on

産学官連携推進室のTwitterのつぶやきの話題推定技術に関する研究成果の報告です。

Published in: Technology
  • Be the first to comment

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

  1. 1. Twitterにおける即時話題推定技術 の開発 産学間連携推進室 情報科学類1年  川上 大樹 情報科学類1年  桑原 悠太 情報科学類2年 *** **
  2. 2. 0.説明手順1.  研究背景 6.  実装2.  研究目的 7.  ここまでの結果3.  研究概要 8.  ここまでの考察4.  研究計画 9.  今後の展望5.  理論
  3. 3. 1.研究背景•  Twitterがとても流行っている•  follow数が多いアクティブなユーザも多数いる•  目視だけでは雑多で大量の情報を理解するには限界があ るため、follow数に能力的上限がある →もっとfollowしたい、多少まとまった状態の情報がリ アルタイムでしたい•  自然言語処理に興味をもっている
  4. 4. 2.研究目的社会に対して:•  タイムラインに溢れかえる雑多なつぶやきの話題を自動 推定して分類することで、follow数の多いTwitterユーザ の理解の助けとなる。•  話題の発生と遷移などの研究に貢献する。•  移り変わる話題を敏感に察知するための ツールの一つとして企業に提供する。
  5. 5. 2.研究目的自分たちのために:•  自然言語処理の入門•  複数人開発の練習•  専門基礎における既習事項の応用•  効率的なアルゴリズム・データ構造の勉強
  6. 6. 3.研究概要•  それぞれのつぶやきの話題を自動で推定する技術•  そのつぶやきが何に言及しているのか、何と関連するのか•  例えば、「Excel」を含むつぶやきを自分がしたとして、だ れかが「Powepoint」を含むつぶやきをしたとき、 「@***さんがあなたと同じ話題をつぶやきました」とユー ザに通知してくれるシステムなどが作れる•  アウトプットの形式についてはまだ検討中。どう見えるのが ユーザにとっていちばんわかりやすいか?
  7. 7. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  8. 8. 4.研究計画大きく分けて7つの研究項目がある ・各企業にデータ提供の交渉 ・表記ゆれ/関連概念データベースの用意・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  9. 9. 4.研究計画大きく分けて7つの研究項目がある ・データベースの速度向上 ・データベースの設計/構成検討・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  10. 10. 4.研究計画大きく分けて7つの研究項目がある・関連概念の比較による同一話題推定アルゴリズムの研究・レート計算による話題推定アルゴリズムの改良・発言内ハイパーリンクを考慮した推定アルゴリズムの研究・特徴語抽出 ・精度向上・ソーシャルグラフを考慮した推定アルゴリズムの研究・データベース ・システム補助・アルゴリズム ・future work・出力方法
  11. 11. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助 ・プロトコルの検討 ・ユーザへの出力の表現の検討・アルゴリズム ・future work・出力方法
  12. 12. 4.研究計画・表記ゆれを吸収した特徴語の抽出大きく分けて7つの研究項目がある・MeCabのチューニング・話題キューの保持方式の改善・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  13. 13. 4.研究計画大きく分けて7つの研究項目があるタイムラインの録画・再生ツールの開発・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  14. 14. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出・新出単語の自動抽出 ・精度向上・新規概念の自動学習・データベース ・システム補助・アルゴリズム ・future work・出力方法
  15. 15. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  16. 16. 5.理論 なにをもって発言Aと発言Bを 「同じ話題である」 とするのか?
  17. 17. 5.理論
  18. 18. 5.理論
  19. 19. 5.理論
  20. 20. 5.理論
  21. 21. 5.理論•  たくさんの共通の特徴語があれば同じ話題•  どちらにも同じカテゴリに属する特徴語が 含まれていたとき関連度が高くなる•  抱えている単語がすくなければすくない カテゴリほど関連度が高くなる•  急に頻発しだした特徴語の関連度も高くなる
  22. 22. 5.理論さらに正確さを増すために:•  二人とも同じ(ユーザの)クラスタに属している 場合、同じ話題を話したり共有したり する可能性が高い•  一連の会話がなされているとき、リプライ チェーンは同じ話題であると推定する•  つぶやきに含まれるハイパーリンクの先も解析 対象に入れる
  23. 23. 6.実装 現時点でできていること 1.  MeCabコーパスの強化 2.  表記ゆれの吸収 カテゴリ情報を利用したらどれだけの 正確さになるかの実証をまだ 行なっていない。
  24. 24. 6.実装1.MeCabコーパスの強化 Twi$erで流れる単語の多くはインターネットスラング   →普通のNAIST辞書やIPA辞書などでは到底語彙が足りない
  25. 25. 6.実装2.表記ゆれの吸収 S Wikipediaの「リダイレクトテーブル」と  ニコニコ大百科の「転送項目」を使用することで実現 S 「Excel」「EXCEL」はすべて  「Microsoft Excel」として登録される S 正確さが増した Google グーグル Google GOOGLE
  26. 26. 6.実装2.表記ゆれの吸収Before
  27. 27. 6.実装2.表記ゆれの吸収A7er
  28. 28. 7.ここまでの結果S  リアルタイムに特徴語が取得できたS  単語でタイムラインに反応することができたS  「引越し」「引っ越し」でも 同じ単語と見なせるようになった
  29. 29. 7.ここまでの結果S  リアルタイムに特徴語が取得できたここでデモをしますS  単語でタイムラインに反応することができた (๑╹◡╹๑)S  「引越し」「引っ越し」でも 同じ単語と見なせるようになった
  30. 30. 8.ここまでの考察S  memcachedを用いることで高速に単語の変換 が可能になった。S  インターネットスラングにも柔軟に対応。S  なぜか「人」から「GReeeeN」にリダイレクト されたりする。データ処理のミス?S  一部解析に失敗することがある。形態素解析辞 書に学習させる内容をもう少し選ぶ必要があるS  新出単語を特徴語として検出できない。
  31. 31. 9.今後の展望S  表記ゆれ・関連概念データベースの用意S  データベースの速度改善S  関連概念の比較による同一話題推定アルゴリズムの研究S  レート計算による話題推定アルゴリズムの改良S  発言内ハイパーリンクを考慮した推定アルゴリズムの研究S  ソーシャルグラフを考慮した推定アルゴリズムの研究
  32. 32. ご清聴ありがとうございました。
  33. 33. 質疑応答(`・ω・́)

×