Hadoop/RabbitMQを利用した
 Twitter全量リアルタイム解析

                                                   原 謙治
                   NTTコミュニケーションズ株式会社
                       先端IPアーキテクチャセンタ
                             2012年12月10日




       Copyright © 2012 NTT Communications Co., Ltd. All Rights Reserved.
自己紹介

             原 謙治

             NTTコミュニケーションズの先端IPアーキテクチャセンタという
             R&D部門での大規模データ処理を主に担当。

@haracane    2010年頃からTwitterを中心としたソーシャルメディアの日本語解析
             にHadoopを利用。

             クチコミ分析サービスBuzzFinderの開発ではTwitter解析エンジンの
             アーキテクチャ設計・実装・テストを担当。



              好きなものは「面白いデータ」




                               Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   1
本日のアジェンダ
• BuzzFinderについて
• Twitterデータの特徴
• BuzzFinderでのTwitterデータ解析
   – 日本語解析処理
   – データ処理フロー
• Twitter全量リアルタイム解析システム
   – Hadoopを使ったバッチ処理
   – RabbitMQ/Hadoopを組み合わせたリアルタイム処理
• 解析例のご紹介




                          Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   2
BuzzFinderについて




                                                                      3
      Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
BuzzFinderとは
     NTTコミュニケーションズグループが提供する
「国内最大級のクチコミ数を対象としたリアルタイム分析サービス」

                                             BuzzFinderの特徴



                                              1
                                                      Twitterの日本語ツイート全量と、
                                                      国内ブログサイトの90%以上を
                                                      対象に口コミを分析




                                              2       クチコミデータを
                                                      リアルタイムに分析




                                              3
                                                      風評・炎上対策のために
                                                      クチコミ数の動向から異変を検出
                                                      して担当者にメール通知


    http://www.nttcoms.com/service/buzzfinder.html
                                                Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   4
Twitterデータの特徴




                                                                      5
      Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
ツイート量の傾向

                                                              0時がピーク



                           19時頃から上昇
             午後に増加
   8時頃まで上昇


   深夜に減少




23時〜1時頃がツイート量が多く、3時頃〜6時頃が少ない


                 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   6
Twitterデータからわかる情報

ツイート本文だけでなくユーザの情報もツイート毎に取得できる

                JSON
                       ツイート本文




         ユーザ名

                アカウント名


                自己紹介文
    場所                                    フォロワー数なども
                         Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   7
BuzzFinderでの
Twitterデータ日本語解析処理




                                                                             8
             Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
Twitterデータの日本語解析

リッチインデクシング技術*を利用して多面的に各ツイートを解析

     JSON                                                                JSON
                                           キーワード

            ツイート本文                                                              日
                                                                                本
                                                                                語
                                     キーワードの関連語


                                                                                解
                                                                                析
                                     キーワードの評判
                                   (ポジティブ/ネガティブ)

                                                                                済
            自己紹介文                                                               デ
                                         ユーザの属性                                 ー
                                        (年齢/性別/職業)
                                                                                タ
              場所
                                         ユーザの居住地

                   * リッチインデクシング技術はNTT研究所が開発した日本語解析技術
                         Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   9
ツイート本文の日本語解析

  ツイート本文からキーワード、関連語、ポジネガ語を抽出



イタリアで地震予知                  「地震」を解析対象
外すと禁錮6年かあ…   キーワード抽出
                           キーワードとして抽出


イタリアで地震予知                   「禁錮6年」を「地震」の
              関連語抽出
外すと禁錮6年かあ…                  関連語として抽出



コストコで地震は                    「怖い」を「地震」の
             ポジネガ抽出
  怖すぎ…                      ネガティブ語として抽出




                       Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   10
自己紹介文・場所の日本語解析
     自己紹介文から年齢、性別、職業を抽出
        場所からは都道府県を抽出


三⼗路の婦⼥⼦OL                  「三⼗路」から「30代」を
やってます       年齢抽出
                           年齢として抽出


三⼗路の婦⼥⼦OL                   「婦⼥⼦」から「⼥性」を
            性別抽出
やってます                       性別として抽出



三⼗路の婦⼥⼦OL                   「OL」から「会社員」を
            職業抽出
やってます                       職業として抽出


                            「歌舞伎町」から「東京」を
歌舞伎町の近く     地域抽出
                            地域として抽出


                   Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   11
BuzzFinderでの
Twitterデータ処理フロー




                                                                          12
           Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
BuzzFinderでのTwitterデータ処理フロー

                     分散処理システムを組み合わせて
                 大規模ソーシャルデータのリアルタイム解析を実現

                                                    PostgreSQLで
          Hadoop/RabbitMQで                         インデックス作成
           日本語解析&統計                                &集計結果保持


                                    RDB
           日本語全量                                                                 結果
           (Firehose)                                                            出⼒

Twitter                 Twitter解析                         Webサーバ
                         クラスタ
                                    KVS           Railsで検索&集計
                     Cassandraで
                Twitter&解析データ保持

                                          Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                               13
Twitter解析クラスタの構成

        速度優先のリアルタイム処理クラスタと
データ網羅性優先のバッチ処理クラスタの⼆重構成でTwitterデータを解析

速報性を重視

                       リアルタイム
                        データ蓄積
            リアルタイム処理
              クラスタ

                        バッチ                           RDB                  KVS
                       データ蓄積
データ網羅性を重視    バッチ処理
              クラスタ




                        Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   14
Twitter解析バッチ処理クラスタ




   データ網羅性を重視した   リアルタイム
     MapReduce処理 データ蓄積
     リアルタイム処理
       クラスタ

                 バッチ                           RDB                  KVS
                データ蓄積
      バッチ処理
       クラスタ




                 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   15
Twitter解析バッチ処理クラスタ

   日本語解析Map処理と集計MapReduce処理の2段構成で
         全Twitterデータをバッチ処理



Map処理(HadoopStreaming)   MapReduceで
    のみで日本語解析               集計処理


  日本語全量                                      データ
  (Firehose)                                  蓄積
                                                                    RDB                  KVS




                           Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   16
Twitter解析バッチ処理クラスタ




                リアルタイム
                 データ蓄積
     リアルタイム処理
       クラスタ

                バッチ                            RDB                  KVS
        速報性を重視した
               データ蓄積
        リアルタイム処理
      バッチ処理
       クラスタ




                 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   17
RabbitMQとは

     受け取ったメッセージをその順番のまま出⼒する
         Message Queueソフトウェア


          Publish   Subscribe
①メッセージA                                      ①メッセージA



②メッセージB                                          ②メッセージB



③メッセージC                                         ③メッセージC




                     Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   18
Twitterリアルタイム処理クラスタ

       Map処理をRabbitMQ経由で実⾏することで
           日本語解析をストリーム処理


  日本語解析Map処理を
   RabbitMQ経由で      MapReduceで
    ストリーム実⾏        最新データを集計


日本語全量                                   データ
(Firehose)                               蓄積
                                                               RDB                  KVS




                      Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   19
バッチ処理⇒リアルタイム処理への移⾏




                                                                          20
           Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
日本語解析&集計バッチ処理
  日本語解析Map      データ抽出Map            集計Reduce
                      キーワード
                       Keywords
                        Keywords                      キーワード
         解析済                                          集計
         データ
                       関連語
                       Topics
                        Topics                        関連語
                                                      集計
                      ポジネガ
                                                      ポジネガ
                                                      集計
日本語解析Map処理が課題
                      ユーザ属性
                       Locations
                        Locations                     ユーザ属性
                                                      集計
                        居住地
                       Locations
                        Locations                     居住地
                                                      集計
                         検索
                      Index Data
                       Index Data
                     インデックス


                       ツイート
                      Index Data
                                                                                           RDB
                       Index Data
                        データ


                                             KVS
                                      Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                           21
リアルタイム日本語解析&集計処理
  日本語解析Map       データ抽出Map            集計Reduce
                       キーワード
                        Keywords
                         Keywords                      キーワード
          解析済                                          集計
          データ
                        関連語
                        Topics
                         Topics                        関連語
                                                       集計
                       ポジネガ
                       Semtiment
                        Semtiment                      ポジネガ
                                                       集計
(Hadoop実⾏していた)
                       ユーザ属性
 Mapperプログラムを           Locations
                         Locations                     ユーザ属性
 分散ストリーム処理                                             集計
   クラスタで実⾏               居住地
                        Locations
                         Locations                     居住地
                                                       集計
                          検索
                       Index Data
                        Index Data
                      インデックス


                        ツイート
                       Index Data
                                                                                            RDB
                        Index Data
                         データ


                                              KVS
                                       Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                            22
Map処理のRabbitMQ移⾏
Hadoop Streamingで実⾏していたMapperプログラムを
       そのまま使ってストリーム処理を実⾏

                      TaskTracker
         HDFS     (Hadoop Streaming)                             HDFS
         ⼊⼒1                                                      出⼒1

         ⼊⼒2
                       Mapper                                     出⼒2
                      プログラム
         ⼊⼒3                                                      出⼒3

                    ストリーム処理化

        Message                                               Message
         Queue     Daemon Process                              Queue
         ⼊⼒1                                                      出⼒1

         ⼊⼒2
                       Mapper                                     出⼒2
                      プログラム
         ⼊⼒3                                                      出⼒3

                       Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   23
BuzzFinderでのTwitterデータ処理フロー

                    分散処理システムを組み合わせて
                大規模ソーシャルデータのリアルタイム解析を実現


           バッチ&リアルタイム
             データを出⼒



                                   RDB
          日本語全量                                                                 結果
          (Firehose)                                                            出⼒

Twitter                Twitter解析                         Webサーバ
                        クラスタ
                                   KVS



                                         Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                              24
Twitter分析結果




                                                                 25
  Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
Tweet数の推移
         10月以降の「地震」のTwitter上でのトレンド


   イタリア地震学者が                   M5.3@宮城県沖
   予知失敗で禁錮6年                  M4.9@千葉県北⻄部
   ・中越地震発生日



           M5.6@宮城県沖

                M7.7@カナダ⻄海岸




10/19   10/26   11/2   11/9      11/16                 11/23                   11/30


            首都圏の地震では大きくツイート数が伸びる

                                  Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   26
関連語分析
          「地震」の関連語上位5件

イタリア裁判・     宮城沖地震     カナダ地震                             首都圏・
中越地震発生日                                                 宮城沖地震
禁錮6年        宮城県沖      カナダ                               怖い
イタリア        怖い        日本                                多い
地震予知失敗      多い        日本時間                              震度4
新潟県中越地震     地震速報      ⻄海岸                               地震速報
伊地裁         宮城県       マグニチュード7.7                        発生時刻



                                                           「怖い」という
刑期のインパクト大    震源地に関心    地震情報が中心
                                                           感情表現が1位



            実際の地震では感情表現が増加する


                            Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.   27
評判分析
                                                                                 ポジティブ
               「地震」に関する評判                                                        ネガティブ


                                                              首都圏・
イタリア裁判      宮城沖地震       カナダ地震
                                                              宮城沖地震


    31.3%       35.2%           40.4%                                        29.6%
                        59.6%
68.7%       64.8%                                               70.4%




            首都圏地震の時が最もネガティブ




                            Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                 28
地域分析
      「地震」とつぶやいたユーザの場所上位5件

イタリア裁判・   宮城沖地震      カナダ地震                             首都圏・
中越地震発生日                                                宮城沖地震
東京        東京         東京                                東京
神奈川       宮城         神奈川                               神奈川
新潟        神奈川        愛知                                埼玉
千葉        埼玉         埼玉                                千葉
埼玉        福島         千葉                                宮城



            震源地近辺が
 新潟が上位に               全国に分布                                   ほぼ人口順
              上位に



          地震があると震源地のツイートが増加


                           Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                29
性別分析
                                                                                         ⼥性
          「地震」についてつぶやいたユーザの男⼥⽐                                                           男性


                                                                      首都圏・
イタリア裁判           宮城沖地震          カナダ地震
                                                                      宮城沖地震


                26.7%                                              35.6%
        45.3%                   42.2%
54.7%                                    57.8%                                       64.4%
                        73.2%




                実際の地震では⼥性率が上がる




                                    Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                         30
年齢分析
                                                                                                     10代
        「地震」についてつぶやいたユーザの年齢分布                                                                        20代
                                                                                                     30代
                                                                  首都圏・                               40代
イタリア裁判        宮城沖地震          カナダ地震
                                                                  宮城沖地震                              50代〜




10代が少ない      10代・20代が多い      50代以上が多い                                   10代が多い
  (19.8%)     (31.2・31.6%)      (9.9%)                                   (38.6%)


            実際の地震では若年層のつぶやきが多い
               (特に首都圏で起きた場合)


                                Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                       31
職業分析
                                                                                       公務員
      「地震」についてつぶやいたユーザの職業分布                                                            会社員
                                                                                       自営業
                                                                                       専門職
                                                           首都圏・                        アルバイト
イタリア裁判      宮城沖地震      カナダ地震                                                           学生
                                                           宮城沖地震                       その他




公務員が多い       学生が多い                                                学生が多い
                        特徴なし
 (9.2%)      (48.0%)                                              (53.8%)


          裁判の話題では公務員のつぶやきが多い
             学生は若年層と同様の傾向


                         Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                              32
まとめ




                                                              33
Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
本日ご紹介した内容
• BuzzFinderのTwitter全量日本語解析の⼆つの仕組みの紹介
   – バッチ処理
   – リアルタイム処理

• Map処理のRabbitMQ移⾏によるストリーム処理化

• BuzzFinderでの「地震」解析例のご紹介




                            Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                 34
Contacts
• BuzzFinderについて
   – サービス紹介:http://www.nttcoms.com/service/buzzfinder.html

• Hadoop等について
   – 原謙治
      • kenji.hara@ntt.com
      • Twitter @haracane
      • ブログ       http://hatacomp.hateblo.jp/




                                          Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
                                                                                                               35
Q&A




Copyright © 2012 2011Communications Co., Ltd. All Rights Reserved. 36
     Copyright © NTT NTT Communications Co., Ltd. All Rights Reserved.

Hadoopエンタープライズソリューションセミナー2012: Hadoop&RabbitMQを利用したTwitter全量リアルタイム解析

  • 1.
    Hadoop/RabbitMQを利用した Twitter全量リアルタイム解析 原 謙治 NTTコミュニケーションズ株式会社 先端IPアーキテクチャセンタ 2012年12月10日 Copyright © 2012 NTT Communications Co., Ltd. All Rights Reserved.
  • 2.
    自己紹介 原 謙治 NTTコミュニケーションズの先端IPアーキテクチャセンタという R&D部門での大規模データ処理を主に担当。 @haracane 2010年頃からTwitterを中心としたソーシャルメディアの日本語解析 にHadoopを利用。 クチコミ分析サービスBuzzFinderの開発ではTwitter解析エンジンの アーキテクチャ設計・実装・テストを担当。 好きなものは「面白いデータ」 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 1
  • 3.
    本日のアジェンダ • BuzzFinderについて • Twitterデータの特徴 •BuzzFinderでのTwitterデータ解析 – 日本語解析処理 – データ処理フロー • Twitter全量リアルタイム解析システム – Hadoopを使ったバッチ処理 – RabbitMQ/Hadoopを組み合わせたリアルタイム処理 • 解析例のご紹介 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 2
  • 4.
    BuzzFinderについて 3 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 5.
    BuzzFinderとは NTTコミュニケーションズグループが提供する 「国内最大級のクチコミ数を対象としたリアルタイム分析サービス」 BuzzFinderの特徴 1 Twitterの日本語ツイート全量と、 国内ブログサイトの90%以上を 対象に口コミを分析 2 クチコミデータを リアルタイムに分析 3 風評・炎上対策のために クチコミ数の動向から異変を検出 して担当者にメール通知 http://www.nttcoms.com/service/buzzfinder.html Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 4
  • 6.
    Twitterデータの特徴 5 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 7.
    ツイート量の傾向 0時がピーク 19時頃から上昇 午後に増加 8時頃まで上昇 深夜に減少 23時〜1時頃がツイート量が多く、3時頃〜6時頃が少ない Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 6
  • 8.
    Twitterデータからわかる情報 ツイート本文だけでなくユーザの情報もツイート毎に取得できる JSON ツイート本文 ユーザ名 アカウント名 自己紹介文 場所 フォロワー数なども Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 7
  • 9.
    BuzzFinderでの Twitterデータ日本語解析処理 8 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 10.
    Twitterデータの日本語解析 リッチインデクシング技術*を利用して多面的に各ツイートを解析 JSON JSON キーワード ツイート本文 日 本 語 キーワードの関連語 解 析 キーワードの評判 (ポジティブ/ネガティブ) 済 自己紹介文 デ ユーザの属性 ー (年齢/性別/職業) タ 場所 ユーザの居住地 * リッチインデクシング技術はNTT研究所が開発した日本語解析技術 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 9
  • 11.
    ツイート本文の日本語解析 ツイート本文からキーワード、関連語、ポジネガ語を抽出 イタリアで地震予知 「地震」を解析対象 外すと禁錮6年かあ… キーワード抽出 キーワードとして抽出 イタリアで地震予知 「禁錮6年」を「地震」の 関連語抽出 外すと禁錮6年かあ… 関連語として抽出 コストコで地震は 「怖い」を「地震」の ポジネガ抽出 怖すぎ… ネガティブ語として抽出 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 10
  • 12.
    自己紹介文・場所の日本語解析 自己紹介文から年齢、性別、職業を抽出 場所からは都道府県を抽出 三⼗路の婦⼥⼦OL 「三⼗路」から「30代」を やってます 年齢抽出 年齢として抽出 三⼗路の婦⼥⼦OL 「婦⼥⼦」から「⼥性」を 性別抽出 やってます 性別として抽出 三⼗路の婦⼥⼦OL 「OL」から「会社員」を 職業抽出 やってます 職業として抽出 「歌舞伎町」から「東京」を 歌舞伎町の近く 地域抽出 地域として抽出 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 11
  • 13.
    BuzzFinderでの Twitterデータ処理フロー 12 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 14.
    BuzzFinderでのTwitterデータ処理フロー 分散処理システムを組み合わせて 大規模ソーシャルデータのリアルタイム解析を実現 PostgreSQLで Hadoop/RabbitMQで インデックス作成 日本語解析&統計 &集計結果保持 RDB 日本語全量 結果 (Firehose) 出⼒ Twitter Twitter解析 Webサーバ クラスタ KVS Railsで検索&集計 Cassandraで Twitter&解析データ保持 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 13
  • 15.
    Twitter解析クラスタの構成 速度優先のリアルタイム処理クラスタと データ網羅性優先のバッチ処理クラスタの⼆重構成でTwitterデータを解析 速報性を重視 リアルタイム データ蓄積 リアルタイム処理 クラスタ バッチ RDB KVS データ蓄積 データ網羅性を重視 バッチ処理 クラスタ Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 14
  • 16.
    Twitter解析バッチ処理クラスタ データ網羅性を重視した リアルタイム MapReduce処理 データ蓄積 リアルタイム処理 クラスタ バッチ RDB KVS データ蓄積 バッチ処理 クラスタ Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 15
  • 17.
    Twitter解析バッチ処理クラスタ 日本語解析Map処理と集計MapReduce処理の2段構成で 全Twitterデータをバッチ処理 Map処理(HadoopStreaming) MapReduceで のみで日本語解析 集計処理 日本語全量 データ (Firehose) 蓄積 RDB KVS Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 16
  • 18.
    Twitter解析バッチ処理クラスタ リアルタイム データ蓄積 リアルタイム処理 クラスタ バッチ RDB KVS 速報性を重視した データ蓄積 リアルタイム処理 バッチ処理 クラスタ Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 17
  • 19.
    RabbitMQとは 受け取ったメッセージをその順番のまま出⼒する Message Queueソフトウェア Publish Subscribe ①メッセージA ①メッセージA ②メッセージB ②メッセージB ③メッセージC ③メッセージC Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 18
  • 20.
    Twitterリアルタイム処理クラスタ Map処理をRabbitMQ経由で実⾏することで 日本語解析をストリーム処理 日本語解析Map処理を RabbitMQ経由で MapReduceで ストリーム実⾏ 最新データを集計 日本語全量 データ (Firehose) 蓄積 RDB KVS Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 19
  • 21.
    バッチ処理⇒リアルタイム処理への移⾏ 20 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 22.
    日本語解析&集計バッチ処理 日本語解析Map データ抽出Map 集計Reduce キーワード Keywords Keywords キーワード 解析済 集計 データ 関連語 Topics Topics 関連語 集計 ポジネガ ポジネガ 集計 日本語解析Map処理が課題 ユーザ属性 Locations Locations ユーザ属性 集計 居住地 Locations Locations 居住地 集計 検索 Index Data Index Data インデックス ツイート Index Data RDB Index Data データ KVS Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 21
  • 23.
    リアルタイム日本語解析&集計処理 日本語解析Map データ抽出Map 集計Reduce キーワード Keywords Keywords キーワード 解析済 集計 データ 関連語 Topics Topics 関連語 集計 ポジネガ Semtiment Semtiment ポジネガ 集計 (Hadoop実⾏していた) ユーザ属性 Mapperプログラムを Locations Locations ユーザ属性 分散ストリーム処理 集計 クラスタで実⾏ 居住地 Locations Locations 居住地 集計 検索 Index Data Index Data インデックス ツイート Index Data RDB Index Data データ KVS Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 22
  • 24.
    Map処理のRabbitMQ移⾏ Hadoop Streamingで実⾏していたMapperプログラムを そのまま使ってストリーム処理を実⾏ TaskTracker HDFS (Hadoop Streaming) HDFS ⼊⼒1 出⼒1 ⼊⼒2 Mapper 出⼒2 プログラム ⼊⼒3 出⼒3 ストリーム処理化 Message Message Queue Daemon Process Queue ⼊⼒1 出⼒1 ⼊⼒2 Mapper 出⼒2 プログラム ⼊⼒3 出⼒3 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 23
  • 25.
    BuzzFinderでのTwitterデータ処理フロー 分散処理システムを組み合わせて 大規模ソーシャルデータのリアルタイム解析を実現 バッチ&リアルタイム データを出⼒ RDB 日本語全量 結果 (Firehose) 出⼒ Twitter Twitter解析 Webサーバ クラスタ KVS Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 24
  • 26.
    Twitter分析結果 25 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 27.
    Tweet数の推移 10月以降の「地震」のTwitter上でのトレンド イタリア地震学者が M5.3@宮城県沖 予知失敗で禁錮6年 M4.9@千葉県北⻄部 ・中越地震発生日 M5.6@宮城県沖 M7.7@カナダ⻄海岸 10/19 10/26 11/2 11/9 11/16 11/23 11/30 首都圏の地震では大きくツイート数が伸びる Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 26
  • 28.
    関連語分析 「地震」の関連語上位5件 イタリア裁判・ 宮城沖地震 カナダ地震 首都圏・ 中越地震発生日 宮城沖地震 禁錮6年 宮城県沖 カナダ 怖い イタリア 怖い 日本 多い 地震予知失敗 多い 日本時間 震度4 新潟県中越地震 地震速報 ⻄海岸 地震速報 伊地裁 宮城県 マグニチュード7.7 発生時刻 「怖い」という 刑期のインパクト大 震源地に関心 地震情報が中心 感情表現が1位 実際の地震では感情表現が増加する Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 27
  • 29.
    評判分析 ポジティブ 「地震」に関する評判 ネガティブ 首都圏・ イタリア裁判 宮城沖地震 カナダ地震 宮城沖地震 31.3% 35.2% 40.4% 29.6% 59.6% 68.7% 64.8% 70.4% 首都圏地震の時が最もネガティブ Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 28
  • 30.
    地域分析 「地震」とつぶやいたユーザの場所上位5件 イタリア裁判・ 宮城沖地震 カナダ地震 首都圏・ 中越地震発生日 宮城沖地震 東京 東京 東京 東京 神奈川 宮城 神奈川 神奈川 新潟 神奈川 愛知 埼玉 千葉 埼玉 埼玉 千葉 埼玉 福島 千葉 宮城 震源地近辺が 新潟が上位に 全国に分布 ほぼ人口順 上位に 地震があると震源地のツイートが増加 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 29
  • 31.
    性別分析 ⼥性 「地震」についてつぶやいたユーザの男⼥⽐ 男性 首都圏・ イタリア裁判 宮城沖地震 カナダ地震 宮城沖地震 26.7% 35.6% 45.3% 42.2% 54.7% 57.8% 64.4% 73.2% 実際の地震では⼥性率が上がる Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 30
  • 32.
    年齢分析 10代 「地震」についてつぶやいたユーザの年齢分布 20代 30代 首都圏・ 40代 イタリア裁判 宮城沖地震 カナダ地震 宮城沖地震 50代〜 10代が少ない 10代・20代が多い 50代以上が多い 10代が多い (19.8%) (31.2・31.6%) (9.9%) (38.6%) 実際の地震では若年層のつぶやきが多い (特に首都圏で起きた場合) Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 31
  • 33.
    職業分析 公務員 「地震」についてつぶやいたユーザの職業分布 会社員 自営業 専門職 首都圏・ アルバイト イタリア裁判 宮城沖地震 カナダ地震 学生 宮城沖地震 その他 公務員が多い 学生が多い 学生が多い 特徴なし (9.2%) (48.0%) (53.8%) 裁判の話題では公務員のつぶやきが多い 学生は若年層と同様の傾向 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 32
  • 34.
    まとめ 33 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved.
  • 35.
    本日ご紹介した内容 • BuzzFinderのTwitter全量日本語解析の⼆つの仕組みの紹介 – バッチ処理 – リアルタイム処理 • Map処理のRabbitMQ移⾏によるストリーム処理化 • BuzzFinderでの「地震」解析例のご紹介 Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 34
  • 36.
    Contacts • BuzzFinderについて – サービス紹介:http://www.nttcoms.com/service/buzzfinder.html • Hadoop等について – 原謙治 • kenji.hara@ntt.com • Twitter @haracane • ブログ http://hatacomp.hateblo.jp/ Copyright © 2011 NTT Communications Co., Ltd. All Rights Reserved. 35
  • 37.
    Q&A Copyright © 20122011Communications Co., Ltd. All Rights Reserved. 36 Copyright © NTT NTT Communications Co., Ltd. All Rights Reserved.