Your SlideShare is downloading. ×
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

697
views

Published on

産学官連携推進室のTwitterのつぶやきの話題推定技術に関する研究成果の報告です。

産学官連携推進室のTwitterのつぶやきの話題推定技術に関する研究成果の報告です。

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
697
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Twitterにおける即時話題推定技術 の開発 産学間連携推進室 情報科学類1年  川上 大樹 情報科学類1年  桑原 悠太 情報科学類2年 *** **
  • 2. 0.説明手順1.  研究背景 6.  実装2.  研究目的 7.  ここまでの結果3.  研究概要 8.  ここまでの考察4.  研究計画 9.  今後の展望5.  理論
  • 3. 1.研究背景•  Twitterがとても流行っている•  follow数が多いアクティブなユーザも多数いる•  目視だけでは雑多で大量の情報を理解するには限界があ るため、follow数に能力的上限がある →もっとfollowしたい、多少まとまった状態の情報がリ アルタイムでしたい•  自然言語処理に興味をもっている
  • 4. 2.研究目的社会に対して:•  タイムラインに溢れかえる雑多なつぶやきの話題を自動 推定して分類することで、follow数の多いTwitterユーザ の理解の助けとなる。•  話題の発生と遷移などの研究に貢献する。•  移り変わる話題を敏感に察知するための ツールの一つとして企業に提供する。
  • 5. 2.研究目的自分たちのために:•  自然言語処理の入門•  複数人開発の練習•  専門基礎における既習事項の応用•  効率的なアルゴリズム・データ構造の勉強
  • 6. 3.研究概要•  それぞれのつぶやきの話題を自動で推定する技術•  そのつぶやきが何に言及しているのか、何と関連するのか•  例えば、「Excel」を含むつぶやきを自分がしたとして、だ れかが「Powepoint」を含むつぶやきをしたとき、 「@***さんがあなたと同じ話題をつぶやきました」とユー ザに通知してくれるシステムなどが作れる•  アウトプットの形式についてはまだ検討中。どう見えるのが ユーザにとっていちばんわかりやすいか?
  • 7. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 8. 4.研究計画大きく分けて7つの研究項目がある ・各企業にデータ提供の交渉 ・表記ゆれ/関連概念データベースの用意・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 9. 4.研究計画大きく分けて7つの研究項目がある ・データベースの速度向上 ・データベースの設計/構成検討・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 10. 4.研究計画大きく分けて7つの研究項目がある・関連概念の比較による同一話題推定アルゴリズムの研究・レート計算による話題推定アルゴリズムの改良・発言内ハイパーリンクを考慮した推定アルゴリズムの研究・特徴語抽出 ・精度向上・ソーシャルグラフを考慮した推定アルゴリズムの研究・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 11. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助 ・プロトコルの検討 ・ユーザへの出力の表現の検討・アルゴリズム ・future work・出力方法
  • 12. 4.研究計画・表記ゆれを吸収した特徴語の抽出大きく分けて7つの研究項目がある・MeCabのチューニング・話題キューの保持方式の改善・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 13. 4.研究計画大きく分けて7つの研究項目があるタイムラインの録画・再生ツールの開発・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 14. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出・新出単語の自動抽出 ・精度向上・新規概念の自動学習・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 15. 4.研究計画大きく分けて7つの研究項目がある・特徴語抽出 ・精度向上・データベース ・システム補助・アルゴリズム ・future work・出力方法
  • 16. 5.理論 なにをもって発言Aと発言Bを 「同じ話題である」 とするのか?
  • 17. 5.理論
  • 18. 5.理論
  • 19. 5.理論
  • 20. 5.理論
  • 21. 5.理論•  たくさんの共通の特徴語があれば同じ話題•  どちらにも同じカテゴリに属する特徴語が 含まれていたとき関連度が高くなる•  抱えている単語がすくなければすくない カテゴリほど関連度が高くなる•  急に頻発しだした特徴語の関連度も高くなる
  • 22. 5.理論さらに正確さを増すために:•  二人とも同じ(ユーザの)クラスタに属している 場合、同じ話題を話したり共有したり する可能性が高い•  一連の会話がなされているとき、リプライ チェーンは同じ話題であると推定する•  つぶやきに含まれるハイパーリンクの先も解析 対象に入れる
  • 23. 6.実装 現時点でできていること 1.  MeCabコーパスの強化 2.  表記ゆれの吸収 カテゴリ情報を利用したらどれだけの 正確さになるかの実証をまだ 行なっていない。
  • 24. 6.実装1.MeCabコーパスの強化 Twi$erで流れる単語の多くはインターネットスラング   →普通のNAIST辞書やIPA辞書などでは到底語彙が足りない
  • 25. 6.実装2.表記ゆれの吸収 S Wikipediaの「リダイレクトテーブル」と  ニコニコ大百科の「転送項目」を使用することで実現 S 「Excel」「EXCEL」はすべて  「Microsoft Excel」として登録される S 正確さが増した Google グーグル Google GOOGLE
  • 26. 6.実装2.表記ゆれの吸収Before
  • 27. 6.実装2.表記ゆれの吸収A7er
  • 28. 7.ここまでの結果S  リアルタイムに特徴語が取得できたS  単語でタイムラインに反応することができたS  「引越し」「引っ越し」でも 同じ単語と見なせるようになった
  • 29. 7.ここまでの結果S  リアルタイムに特徴語が取得できたここでデモをしますS  単語でタイムラインに反応することができた (๑╹◡╹๑)S  「引越し」「引っ越し」でも 同じ単語と見なせるようになった
  • 30. 8.ここまでの考察S  memcachedを用いることで高速に単語の変換 が可能になった。S  インターネットスラングにも柔軟に対応。S  なぜか「人」から「GReeeeN」にリダイレクト されたりする。データ処理のミス?S  一部解析に失敗することがある。形態素解析辞 書に学習させる内容をもう少し選ぶ必要があるS  新出単語を特徴語として検出できない。
  • 31. 9.今後の展望S  表記ゆれ・関連概念データベースの用意S  データベースの速度改善S  関連概念の比較による同一話題推定アルゴリズムの研究S  レート計算による話題推定アルゴリズムの改良S  発言内ハイパーリンクを考慮した推定アルゴリズムの研究S  ソーシャルグラフを考慮した推定アルゴリズムの研究
  • 32. ご清聴ありがとうございました。
  • 33. 質疑応答(`・ω・́)