Your SlideShare is downloading. ×

どたばたかいぎ成果発表

1,051

Published on

Twitter即時話題推定技術「どたばたかいぎ」の2012.10時点での成果発表です。

Twitter即時話題推定技術「どたばたかいぎ」の2012.10時点での成果発表です。

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,051
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Twitterにおける即時話題推定技術 の研究 産学間連携推進室 情報科学類 川上大樹 情報科学類 桑原悠太
  • 2. Agenda1. 研究目的 5. 実装2. 研究概要 6. 結果/考察3. 研究計画 7. 今後の展望4. 理論
  • 3. 1.研究目的
  • 4. 1.研究目的 朝だーー!八時だー!健康的だーー!! 南武線空いてるなぁ ぬるぽだよ、じゃあガッするね歯を食い しばれお兄ちゃん カニのオムライスなんぞ食べた.デイリー nono 紙が更新されました! http://bit.ly/dQadam
  • 5. 1.研究目的可愛い親子に席を譲ったらちっこいのに「ありがとうっ(舌足らずな声)」って言 われて生きてる喜びかみしめてる お前それセキュリティキャンプでも同じ 事言えんの? @mtk0308: 今回の課 朝だーー!八時だー!健康的だーー!! 題でCのソースよりバイナリ読むほうが 精神的に楽な自分を見つけて嫌になっ た・・・ ☝( ◠◠ )☝ふぁぼれよ (☝ ◞‸◟ )☝ふぁぼ こい… (☝ ◞‸◟ )☝ふぁぼれ… (☝ ◞‸◟ ) お兄ちゃん、バカの一つ覚えをごまかし ☝ふぁぼれ… (☝ ◞‸◟ )☝ふぁぼが…な 南武線空いてるなぁ て特定言語や環境の原理主義を唱えるの 今の雷、かなり遠かったけど、でかいな。 い… (☝ ●‸● )☝ふぁぼがない…? (☝ はやめようよ。この間だって無理してC ☆ਊ ☆)☝そうだ!自分でふぁぼろう! で書くよりperl使った方がどう考えても (☝ ՞ਊ ՞)☝ウィイィイwwww 楽だったよ? ぬるぽだよ、じゃあガッするね歯を食い しばれお兄ちゃん うるせぇ!恋愛対象としてみるぞ!! カニのオムライスなんぞ食べた. 【コミュ障の特徴】 ・ボディタッチへの デイリー nono 紙が更新されました! 抵抗が激しい ・身内と他人で態度が急 http://bit.ly/dQadam 素晴らしいデバイスを使うのはいいんだ 変する ・声出てない ・服装がローテー けど、それ無しでは生きられないってレ ション ・画面の中でデレデレする ・親 ベルまでなるのってなんか違うんだよ に言いふらす なぁ
  • 6. 1.研究目的可愛い親子に席を譲ったらちっこいのに「ありがとうっ(舌足らずな声)」って言 われて生きてる喜びかみしめてる お前それセキュリティキャンプでも同じ 事言えんの? @mtk0308: 今回の課 朝だーー!八時だー!健康的だーー!! 題でCのソースよりバイナリ読むほうが 精神的に楽な自分を見つけて嫌になっ た・・・ •  大量のつぶやきを読むのに疲れた ☝( ◠◠ )☝ふぁぼれよ (☝ ◞‸◟ )☝ふぁぼ こい… (☝ ◞‸◟ )☝ふぁぼれ… (☝ ◞‸◟ ) お兄ちゃん、バカの一つ覚えをごまかし ☝ふぁぼれ… (☝ ◞‸◟ )☝ふぁぼが…な 南武線空いてるなぁ て特定言語や環境の原理主義を唱えるの 今の雷、かなり遠かったけど、でかいな。 •  目視で大量の情報を理解するのは困難 い… (☝ ●‸● )☝ふぁぼがない…? (☝ ☆ਊ ☆)☝そうだ!自分でふぁぼろう! はやめようよ。この間だって無理してC で書くよりperl使った方がどう考えても (☝ ՞ਊ ՞)☝ウィイィイwwww 楽だったよ? 能力的限界がある ぬるぽだよ、じゃあガッするね歯を食い しばれお兄ちゃん うるせぇ!恋愛対象としてみるぞ!! •  整理された状態でつぶやきを読みたい カニのオムライスなんぞ食べた. 【コミュ障の特徴】 ・ボディタッチへの •  自然言語処理に興味がある デイリー nono 紙が更新されました! http://bit.ly/dQadam 抵抗が激しい ・身内と他人で態度が急 素晴らしいデバイスを使うのはいいんだ 変する ・声出てない ・服装がローテー けど、それ無しでは生きられないってレ ション ・画面の中でデレデレする ・親 ベルまでなるのってなんか違うんだよ に言いふらす なぁ
  • 7. 2.研究概要大きく分けて2つ・つぶやき間の関連度の計算アルゴリズムの研究・リアルタイムに更新される可視化手法の研究 夏 夏 冬 90%関連 冬 春 胸 寒 乳 夏 胸 30%関連 驚
  • 8. 2.研究概要大きく分けて2つ・つぶやき間の関連度の計算アルゴリズムの研究・リアルタイムに更新される可視化手法の研究流れてきたら即時にそのつぶやきの話題を推定する技術の総称
  • 9. 3.研究計画•  特徴語抽出 •  精度向上•  データベース •  システム補助•  アルゴリズム •  future work•  出力方法
  • 10. 3.研究計画 済•  特徴語抽出 •  精度向上 済•  データベース 済 •  システム補助•  アルゴリズム •  future work•  出力方法
  • 11. 4.理論1.つぶやきから特徴語を抽出する それらからつぶやきベクトルを作る2.つぶやきベクトルからコサイン類似度を計算3.コサイン類似度の計算結果を多次元尺度構成法 などで可視化
  • 12. 4.理論 川上が担当1.つぶやきから特徴語を抽出する それらからつぶやきベクトルを作る 2人で2.つぶやきベクトルからコサイン類似度を計算3.コサイン類似度の計算結果を多次元尺度構成法 などで可視化 桑原が担当
  • 13. 4.理論 つぶやきから特徴語を抽出する それらからつぶやきベクトルを作る お兄ちゃんのプログラムは最初からロクに設計してないんだから、「リファクタリング」 じゃなくて「作り直し」の間違いだよね? ―プログラミングを勉強している人の毒舌な妹bot @PG_sister_botより
  • 14. 4.理論 つぶやきから特徴語を抽出する それらからつぶやきベクトルを作る お兄ちゃんのプログラムは最初からロクに設計してないんだから、「リファクタリング」 じゃなくて「作り直し」の間違いだよね? ―プログラミングを勉強している人の毒舌な妹bot @PG_sister_botより 青字のところが特徴語 形態素解析で得られる
  • 15. 4.理論 つぶやきから特徴語を抽出する それらからつぶやきベクトルを作る お兄ちゃんのプログラムは最初からロクに設計してないんだから、「リファクタリング」 じゃなくて「作り直し」の間違いだよね? ―プログラミングを勉強している人の毒舌な妹bot @PG_sister_botより1.関連概念取得 2.スコア計算 3.つぶやきベクトルにリファクタリング カテゴリ スコア 20  設計 社会 20 80  工学 30  デザイン 技術 80 ...  兄ちゃん 文化 30間違い技術 ... ...方法論
  • 16. つぶやきベクトルから4.理論 コサイン類似度を計算Q.コサイン類似度?
  • 17. つぶやきベクトルから4.理論 コサイン類似度を計算Q.コサイン類似度? ベクトル同士の角度θ(0∼180 )→q が小さいほど類似している θ → n次元でも定義出来る d
  • 18. つぶやきベクトルから4.理論 コサイン類似度を計算Q.コサイン類似度?
  • 19. コサイン類似度の計算結果を4.理論 多次元尺度構成法などで可視化多次元尺度構成法MultiDimensional Scaling; MDS・多変量解析の一種・データ間の類似度の情報可視化に用いられる・類似度の高いものは近くに、低いものは遠く 配置するような座標を求める
  • 20. 5.実装 Virtual Private Server Browser 特徴語抽出 結果の描画 類似度計算 マッピング Flash 座標情報送信 player User  streams ErlangTwitter VM socket
  • 21. 5.実装 ここまで できている Virtual Private Server Browser 特徴語抽出 結果の描画 類似度計算 マッピング Flash 座標情報送信 player User  streams ErlangTwitter VM socket
  • 22. 5.実装サーバサイドをすべてErlangで実装・MeCabへのドライバを書いた・WikipediaのDBで関連概念を取得・オフラインでも実験できるよう、 dummy streamというのを実装したクライアントサイドは未実装・ActionScript3.0でビジュアライズ・計算自体はここでは行わない・Papervision3Dとか使えたら...
  • 23. 5.実装 多次元尺度構成法 : pythonで実装済 あとでErlangシステムと統合するあーうー夏早くこないかな_(:3 」 )_ガリガリ君かき氷買ってきた゚+.(・ω・)゚+.゚ http://twitpic.com/***えっ雨降ってるの?傘持ってきてないよ今日▂▅▇█▓▒░( ω )░▒▓█▇▅▂うわああてるてる坊主首チョンパは今のとこアウトオブ眼中だが...わた菓子たこ焼き焼きそばウオォォアァァァ 祭り行きたいよぉぉ今日はスミノフウオッカをオンザロックでいただきます(^ω^)学園祭マジックとはなんだったのか状態でノイローゼなりそうリア充fu*k頭痛がだんだんひどくなってきてるので豆腐の角に頭ぶつけてくる...今晩の┗(^o^ )┓三おかずは三┏( ^o^)┛スパゲッティ♪L( ^ω^ )┘└( ^ω^ )」♪ ↑このようなつぶやきがあって
  • 24. 5.実装多次元尺度構成法 : pythonで実装済あとでErlangシステムと統合する 0 900 700 600 750 100 50 80 20 1000 0 500 1200 1000 2000 2000 500 1800 1500 500 0 100 1500 2000 1000 1000 2000 2000 1200 100 0 1000 3000 2000 2000 2000 200 1000 1500 1000 0 1000 300 800 800 2000 2000 2000 3000 1000 0 2000 800 800 1000 2000 1000 2000 300 2000 0 600 2000 2000 500 1000 2000 800 800 600 0 1500 2000 1800 2000 2000 800 800 2000 1500 0 ↑ぼくのかんがえた さいきょう の こさいんるいじど
  • 25. 5.実装これが得られた!
  • 26. 6.結果/考察できたこと•  ErlangからUserStream, MeCabを叩いた•  表記ゆれを吸収して特徴語を抽出できた•  特徴語から関連概念を高速で取得できた•  つぶやき間の関連度の定義を具体的に決められた•  多次元尺度構成法の実装ができた
  • 27. 6.結果/考察できていないこと•  特徴語,関連概念からつぶやきベクトルを作る•  コサイン類似度の実装•  ビジュアライズ部分全般•  多次元尺度構成法によるマッピングとの統合
  • 28. 6.結果/考察 現状の問題点•  新規概念をカテゴリ分類できない カテゴリ別スコアがないとつぶやきベクトルを作れない•  学習機能のあるマッピングを行えていない 多次元尺度構成法はマッピング毎に再計算の必要がある 他にもマッピングに適したアルゴリズムがあるはず•  複数の情報を考慮できていない ソーシャルグラフや時系列など判断すべき事項が他にも多くあるはず•  解釈できない発言を推定結果に反映できない カテゴリ判断できる単語がないつぶやきが結果に反映されない
  • 29. 7.今後の展望•  単語のクラスタリングを行ってスコアを求める•  多次元尺度構成法以外の可視化手法の検討•  クライアントサイドの実装
  • 30. 質疑応答(`・ω・́)
  • 31. 多次元尺度構成法計算手順の概要:・要素の値が距離の2乗と見なせる非類似度行列を 用意する・ヤング・ハウスホルダー変換をする・スペクトル分解をする(固有値、固有ベクトルを 求める)・固有値の大きい2つを選び、対応する固有ベクト ルを取り出す・各固有ベクトルの要素値をプロットする
  • 32. 研究目的社会に対して:•  タイムラインに溢れかえる雑多なつぶやき の話題を自動推定して分類することで、 follow数の多いTwitterユーザの理解の助 けとなる。•  話題の発生と遷移などの研究に貢献する。•  移り変わる話題を敏感に察知するための ツールの一つとして企業に提供する。
  • 33. 研究目的自分たちのために:•  自然言語処理の入門•  複数人開発の練習•  専門基礎における既習事項の応用•  効率的なアルゴリズム・データ構造の勉強

×