評BanにおけるJubatus活用事例

11,698 views

Published on

Published in: Engineering

評BanにおけるJubatus活用事例

  1. 1. 1 ソーシャルメディア分析サービス における Jubatusの活用事例紹介 © NTT IT 山田俊哉 yamada.toshiya@ntt-it.co.jp NTTアイティ株式会社 メディアアナリティクス事業部
  2. 2. 自己紹介 2© NTT IT 山田 俊哉 (YAMADA Toshiya) 所属 NTT IT 株式会社 / メディアアナリティクス事業部 専門 ・ Webユーザビリティ ・ 機械学習 ・ 協調フィルタリング もともと… 2012年3月まで 統計数理研究所 (総研大 統計科学専攻) にて Webユーザビリティの統計的評価を 研究 現在… 種々のデータを分析したり、機械学習と戯れたり、 ソーシャルメディア分析サービス 評Banの開発 をしています。 本音:開発よりアナリティクスがメイン。
  3. 3. 評Banについて © NTT IT 3 ソーシャルメディア分析サービス Twitterやブログ・掲示板等の SNSから キーワードを基に 情報を収集・分析し 結果を提供するサービス ・ユーザの生の声が聴きたい ・炎上をいち早く検知したい ・ネットでの反響を知りたい http://www.hyohban.jp/ 評Ban
  4. 4. 炎上時の評Ban © NTT IT 4 炎上が起きると SNSの内容は一つの話題に集中する。特にTwitter… 公式リツイートなら、まとめる機能はありましたが… ・非公式RT ・引用 ・異なるソースだが同一の内容のRT ・同じ現象に対する一言ツイート 例 「バルス」 同じ内容だが 公式RTはごく少数だけ 文章の内容ベースで 類似性を発見・まとめる必要がある
  5. 5. 評Ban と Jubatus の出会い 類似している文章を 発見・クラスタリングする技術はこれまでも存在 でも 評Ban においては ① クラスタリングの中心は オリジナルの情報であってほしい ② 発見する対象が逐次的に増加する状況に対応したい ③ 各種ソーシャルメディアからの収集情報は膨大 © NTT IT 5 Jubatus Recommenderの記事まとめに を活用する 逐次的にビッグデータを処理できる Jubatus が 最適
  6. 6. 現行評Banの 収集記事画面 内容が「似ている」 記事を集約 Jubatus Recommender による 記事集約 評Banへの応用 6 クチコミをランキングとして集計 © NTT IT
  7. 7. Jubatus活用のメリット 7© NTT IT Jubatusを用いることの一番のメリットは? - 入力順に逐次処理してくれる。 - 時系列に沿って入力すれば 古いオリジナルを 自動で幹にできる。 岡崎ゴール ! 5:47 葉になる幹になる
  8. 8. 長所 類似記事と幹葉構造 オリジナルの文章と類似文章って 幹葉構造 に似ていませんか 原文章 時刻 00:00 “ ああああああああ” 類似文章 A 時刻 00:01 “ あああああああい” 類似文章 B 時刻 00:02 “ ああああああああ” 類似文章 C 時刻 00:03 “ あああああああい” 類似文章 D 時刻 00:05 “ ああああああいう” 逐次的なデータ処理にも対応可能 ※到着データが過去の結果に 影響を及ぼさない 類似グループの中心(幹)は時刻の 古いものになる “オリジナル文章”と“コピー文 章”の関係性を保存 短所 ゆっくりと少しずつ変化する文章には 向かない。 SNSでの話題変遷が速いため 影響が少ない 8© NTT IT 時刻 文章の類似 到着データは「葉」になるか 新規の「幹」になるかの2択
  9. 9. 幹葉構造で説明する類似まとめの仕組み E Jubatus BE 最も近い文 類似度 0.8 A B 新規の文章 過去の 文章特徴 い 1 Jubatusが近傍探索 A B C D Stem Leaf E Leaf A B C D Stem Leaf E LeafのLeafに なっている StemのLeafとして 登録する Jubatusによる 最近隣探索 1次判定 2次判定 9© NTT IT
  10. 10. LeafのLeafはダメなの? © NTT IT 10 特にTwitterではリツイートを中心に 「完全に同一文章」 が大量に集まる場合がある A B C D Stem Leaf E Leaf 多くのLeaf と同じ類似度となる = Leafの どれを最近傍としても同じ A B C D Stem Leaf E Leaf Leafに共通な 幹に直接紐つける 最短距離法のクラスター形成と 似た手順 なのでゆっくり内容が変化する文章には… ちょっとした工夫が必要
  11. 11. ちょっとした工夫って? © NTT IT 11 1.Jubatus Recommender には Update と similar_row_from *** が存在します。 全てをUpdateしないことで 歯抜けの最短距離法を作ります 2. 忘却を活用する。 忘れる際には幹葉がどうなるかまで、考慮に入れる あまり遠い過去のものと 似ていても嬉しくないじゃないですか
  12. 12. 類似記事まとめとJubatusとの相性 © NTT IT 12 本当にまとまるの? 1. オンライン処理は… - 最初は 幹が沢山出来やすい - 後半は葉が出来やすい 2.評Banでの収集時点でキーワードによるフィルター済み - 人の眼で見て「似た話題」というレベルでまとまります W杯 日本代表 話題 W杯 ゴールシーン 話題 ラグビー 日本代表 話題 マラソン ゴール 話題 収集情報だけ 話題が盛り上がった時と 同じ構造
  13. 13. 類似記事まとめとJubatusの相性 © NTT IT 13 どのくらいまとまるの? 投稿数 あるキーワードで収集した時の まとめ記事の集計 規模の大きなグループのみ着色 ※評Banの画面ではありません 08:00 09:00 10:00 11:00 12:00 13:00 14:00 14:00 15:00
  14. 14. まとめることで見えてくること © NTT IT 14 ソーシャルメディア NTT IT 社の評判を調べたい NTT IT社 ってこんなに 書き込まれてるんだ ・こんな書き込みが多いのか! ・こんな少数派の意見もあるのか! ・この手の書込みが増えたな~ ・この話題が急増しているみたいだぞ…
  15. 15. 以上です © NTT IT 15 ご清聴ありがとうございました NTT アイティ株式会社 山田俊哉 yamada.toshiya@ntt-it.co.jp

×