マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing   NTT コミュニケーションズ株式会社 先端 IP アーキテクチャセンタ 原 謙治 2011 年 9 月 26 日
Who am I? 先端 IP アーキテクチャセンタは 技術 / サービス開発を担当 技術開発 クラウドサービス 開発の事例を紹介 NTT コミュニケーションズ 先端 IP アーキテクチャセンタ Net Marketing Analysis &...
BizCITY: Cloud Service provided by NTT Communications データセンタ間高速バックボーン Global NW セキュアコネクティビティ Internet / IP 電話網 VPN サービス   ...
Big Datas in BizCITY Biz ストレージに保存した データの分散処理 各種ログデータ、 CGM データの 大規模分散処理 高セキュリティ・大容量の ストレージを提供することで 運用コストを削減 ユーザ行動ログからマーケティン...
Hadoop in Biz Marketing “ Web access Analysis ”  visualizes internet-users ’  behaviors. “ Buzz Finder ”  supports marketi...
Hadoop in BuzzFinder 1 レコードあたりのデータが大きい CGM DB (Twitter, Blog など ) PostgreSQL レコード数が少ない ( 数百万 / 日 ) Map 処理が中心←大部分が日本語解析 Imp...
Results of BuzzFinder(1/3) 福島第一原発から 大量の白煙が噴出 95,271 ツイート 毎月 11 日は震災についての話題が増える キーワード「震災」「原発」のトレンド分析結果 (6 月~ 8 月の Tweet) ここ...
Results of BuzzFinder(2/3) 「原発」に関する地域特性 (1 週間 ) 基本的には人口分布に比例する。 被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)
Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011 年 4 月末 2011 年 8 月末 原発に関する評判は震災直後よりもわずかであるが悪化している。 ポジネガは一般的にはポジが多い( 7 割から 8...
Hadoop in Biz Marketing “ Web access Analysis ”  visualizes internet-users ’  behaviors. “ Buzz Finder ”  supports marketi...
Hadoop in Web Access Analysis アクセスログ サイト情報 HDFS 1 レコードあたりのデータが小さい クリックログ export レコード数が多い ( 数千万 / 日 ) Reduce 処理が頻発← Shuffle...
Fast Map-Reduce for PaaS Services 典型的な Map/Reduce 処理として マーケティングの集計処理 と アクセス解析の OLAP 処理 ( 多数の join がある処理 ) の高速化を実施 アクセス解析やマ...
Strategies for Shuffle Cost Reduction “ PJoin ” **  reduces the shuffle costs in join processing Join with Semi-Join View ...
Map Multi-Reduce/Record Reduce 入力データ Map  関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ 通常の MapReduce Record ...
Map Multi-Reduce/Local Reduce User Program worker worker worker Input Data fork fork fork Master worker worker assign map ...
PJoin/Join with Semi-Join View Query execution siteinfo  a siteinfo _  accesses  1 accesses  processing +  準結合 mapper … si...
Results of PJoin 1TB のアクセスログ処理で Pjoin の速度性能を検証 Hive で処理した 50 台と本技術を適用した 20 台が 同等の性能であることを確認 実行した HiveQL insert overwrite t...
Our Hadoop Cluster <ul><li>各種検証が出来る設備を整備 </li></ul><ul><ul><li>40 台 250 コア程度の分散処理環境を整備 </li></ul></ul><ul><ul><li>広域 WAN を...
Summary <ul><li>NTT コミュニケーションズが提供するクラウドサービス BizCITY </li></ul><ul><li>BizCITY で提供する Biz マーケティングにおける Hadoop 利用 </li></ul><u...
Contacts <ul><li>発表者 :  原 謙治  @harakenji,  [email_address] </li></ul><ul><li>BizCITY:  http:// www.ntt.com/bizcity /   </l...
参考 :  リッチインデクシング技術参考 URL <ul><li>NTT 技術ジャーナル  2008 Vol.20 No.6 </li></ul><ul><ul><li>ポータルサービスを支える自然言語処理技術 http://www.ntt.c...
Upcoming SlideShare
Loading in …5
×

マーケティング向け大規模ログ解析事例紹介

5,330 views

Published on

NTTコミュニケーションズは、Hadoopを利用してマーケッティング向けログ解析システムを開発しました。本解析システムはアクセスログ、クエリログ、クリックログ、CGMデータを解析して特定の商品・サービスに対するインターネットユーザの興味やフィードバックを抽出でき、(1)評判分析、(2)関連語分析、(3)ユーザ興味推定、の3種の解析を行うことができます。本発表では、上記ログ解析システムの機能の他に、Map処理の強化によるシャッフルサイズの削減方法、我々のHadoopクラスタの特徴についても紹介します。

NTT communication developed the Hadoop-based log analysis system for the marketing purpose. This system extract the interest or feedbacks of the specific goods/products, by analyzing the access logs, query logs, click logs and CGM data. The three types of the analysis are supported: 1) reputation analysis, 2) related-word analysis 3) user interest estimation. This session also describes how to reduce the shuffle size, and the specifications of our Hadoop clusters.

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,330
On SlideShare
0
From Embeds
0
Number of Embeds
973
Actions
Shares
0
Downloads
59
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

マーケティング向け大規模ログ解析事例紹介

  1. 1. マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing NTT コミュニケーションズ株式会社 先端 IP アーキテクチャセンタ 原 謙治 2011 年 9 月 26 日
  2. 2. Who am I? 先端 IP アーキテクチャセンタは 技術 / サービス開発を担当 技術開発 クラウドサービス 開発の事例を紹介 NTT コミュニケーションズ 先端 IP アーキテクチャセンタ Net Marketing Analysis & DB Technology 担当 原 謙治 運用・保守 設計・構築 営業 事業企画・推進 スタッフ サービス開発 CUSTOMER RETENTION [ 顧客との 信頼関係の維持 ] DELIVERY [ 宣伝 / 営業 / デリバリ ] SUPPORT [ 現場をサポート ] CREATION [ 技術 / サービス開発 ]
  3. 3. BizCITY: Cloud Service provided by NTT Communications データセンタ間高速バックボーン Global NW セキュアコネクティビティ Internet / IP 電話網 VPN サービス           ICT アウトソーシング Fire Wall ギャランティ バースト ベストエフォート 国内拠点 海外拠点 Biz ホスティング 仮想サーバ ホスティングサービス Biz メール 大容量 Web メール スケジューラ等 SaaS アプリケーション CRM / SFA 等 Internet Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング 高速モバイル アクセス モバイルシンクライアント セキュアリモートアクセス         ユビキタスオフィス PC リモートアクセス 携帯リモートアクセス ユビキタス IP 電話 大規模データストア 大規模データ解析 Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング
  4. 4. Big Datas in BizCITY Biz ストレージに保存した データの分散処理 各種ログデータ、 CGM データの 大規模分散処理 高セキュリティ・大容量の ストレージを提供することで 運用コストを削減 ユーザ行動ログからマーケティング 情報を抽出して企業活動を支援 解析用大規模データ ストア用大規模データ Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング Hadoop クラスタを利用して 各種大規模データの分散処理を実現 大規模分散処理 対象領域 データの用途 サービスの特長 連携も視野
  5. 5. Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Blog データ規模増大への対応 Hadoop を利用 Hadoop を利用
  6. 6. Hadoop in BuzzFinder 1 レコードあたりのデータが大きい CGM DB (Twitter, Blog など ) PostgreSQL レコード数が少ない ( 数百万 / 日 ) Map 処理が中心←大部分が日本語解析 Import CGM データ HDFS ワード抽出 関連語抽出 ポジネガ語抽出 位置情報抽出 検索 Index 作成 Map 抽出 Word 関連語 ポジネガ語 位置情報 検索 Index HDFS キーワード辞書 PostgreSQL export 集計 DB PostgreSQL 処理の特徴 export 抽出 DB PostgreSQL 抽出ワード集計 関連語集計 HDFS ポジネガ分布集計 位置分布集計 集計 Reduce 日本語 解析 Map CGM 解析 データ HDFS リッチインデクシング技術 * を利用して日本語解析 * リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術 資料末尾に参考 URL
  7. 7. Results of BuzzFinder(1/3) 福島第一原発から 大量の白煙が噴出 95,271 ツイート 毎月 11 日は震災についての話題が増える キーワード「震災」「原発」のトレンド分析結果 (6 月~ 8 月の Tweet) ここ 3 ヶ月でも減少の傾向は見られない。(まだまだホットなキーワード) トピック毎のソーシャルメディア上での反応のリニアな変化を確認
  8. 8. Results of BuzzFinder(2/3) 「原発」に関する地域特性 (1 週間 ) 基本的には人口分布に比例する。 被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)
  9. 9. Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011 年 4 月末 2011 年 8 月末 原発に関する評判は震災直後よりもわずかであるが悪化している。 ポジネガは一般的にはポジが多い( 7 割から 8 割) ネガ発言が 5 割超の危険領域。
  10. 10. Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Hadoop を利用 Hadoop を利用 データ規模増大への対応
  11. 11. Hadoop in Web Access Analysis アクセスログ サイト情報 HDFS 1 レコードあたりのデータが小さい クリックログ export レコード数が多い ( 数千万 / 日 ) Reduce 処理が頻発← Shuffle コストが高い HDFS 関連 サイト 抽出 Map 処理の特徴 集計 DB export PostgreSQL セッション 分類 セッション データ HDFS Map&Reduce サイト分類 Map サイト毎 ランディング クエリ集計 ランディング クエリ集計 Reduce ランディングクエリの頻度集計データ 集計 Reduce HDFS 関連 サイト 集計 サイト間のアクセス相関集計データ JOIN Map&Reduce
  12. 12. Fast Map-Reduce for PaaS Services 典型的な Map/Reduce 処理として マーケティングの集計処理 と アクセス解析の OLAP 処理 ( 多数の join がある処理 ) の高速化を実施 アクセス解析やマーケティング解析を行う上で Shuffle コストが大きくなるため大量のマシンが必要 速度が同等 通常の Hadoop Cluster 高速な Hadoop Cluster マシン数 を削減 Shuffle コストを下げてマシン数を削減するために Map/Reduce の典型的な処理を高速化
  13. 13. Strategies for Shuffle Cost Reduction “ PJoin ” ** reduces the shuffle costs in join processing Join with Semi-Join View 複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減 *, ** “ Map Multi-Reduce ” および “ PJoin ” は NTT 研究所が開発した MapReduce 高速化技術 “ Map Multi-Reduce ” * reduces shuffle costs of map-reduce operations. Record Reduce Map タスクにおいて Reduce を事前実行し中間データを削減 Local Reduce 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減
  14. 14. Map Multi-Reduce/Record Reduce 入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ 通常の MapReduce Record reduce 利用 入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ Record reduce record reduce を事前実行 Map タスクにおいて Reduce を事前実行し中間データを削減
  15. 15. Map Multi-Reduce/Local Reduce User Program worker worker worker Input Data fork fork fork Master worker worker assign map assign reduce local write remote read, sort Output File 0 Output File 1 Split 1 Split 0 Split 2 Split 3 Split 4 read worker worker worker worker worker assign local reduce マシン プロセス ファイル 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減 Local Reduce タスク Local Reduce タスク Local Reduce タスク Web アクセスログ解析のクリックログ集計処理で Record Reduce と Local Reduce により 2.2 倍の速度向上を確認
  16. 16. PJoin/Join with Semi-Join View Query execution siteinfo a siteinfo _ accesses 1 accesses processing + 準結合 mapper … siteinfo _ accesses n accesses n … accesses 1 accesses processing + 準結合 Joining with siteinfo reducer … Joining with siteinfo siteinfo z Pre-computation siteinfo accesses hash(x) hash(y) … siteinfo b siteinfo a siteinfo z accesses 1 accesses n siteinfo _ accesses n siteinfo _ accesses 1 … hash(y) siteinfo primary key & foreign key (accesses primary key) アクセスログ サイト毎の 詳細情報 テーブルの事前シャッフル実行,準結合中間データの事前生成 mapper で準結合処理後に, reducer で残処理を実行 DFS read shuffle
  17. 17. Results of PJoin 1TB のアクセスログ処理で Pjoin の速度性能を検証 Hive で処理した 50 台と本技術を適用した 20 台が 同等の性能であることを確認 実行した HiveQL insert overwrite table q1_result select count(distinct s_sessionseqid) from clckstrm c join page p on c.c_pageseqid = p.p_pageseqid and p.p_url like '%blog.goo.ne.jp%' join session_info s on s.s_clckstrmseqid = c.c_clckstrmseqid and s.s_referer like ‘%*%';
  18. 18. Our Hadoop Cluster <ul><li>各種検証が出来る設備を整備 </li></ul><ul><ul><li>40 台 250 コア程度の分散処理環境を整備 </li></ul></ul><ul><ul><li>広域 WAN を越えた環境 </li></ul></ul><ul><ul><li>ラック間は LACP を利用してスループットを確保 </li></ul></ul>Hadoop Cluster(250 コア程度 ) 設備や効果測定の観点で下記のような環境を整備 Namenode ・・・ ・・・ ラック 1( LOC1 ) ラック 2( LOC1 ) ラック 3 ( LOC2 ) 広域 WAN(50km) LACP により 4GB の帯域を確保 処理時間 マシン台数 10 台目で WAN 越え
  19. 19. Summary <ul><li>NTT コミュニケーションズが提供するクラウドサービス BizCITY </li></ul><ul><li>BizCITY で提供する Biz マーケティングにおける Hadoop 利用 </li></ul><ul><ul><li>BuzzFinder でのクチコミ解析 </li></ul></ul><ul><ul><li>Web アクセスログ解析 </li></ul></ul><ul><li>集計・ JOIN 処理の高速化による運用コスト削減 </li></ul><ul><li>リモート構成の Hadoop クラスタ検証結果 </li></ul>
  20. 20. Contacts <ul><li>発表者 : 原 謙治 @harakenji, [email_address] </li></ul><ul><li>BizCITY: http:// www.ntt.com/bizcity / </li></ul><ul><ul><li>Biz ストレージ : http:// www.ntt.com/bizstorage / </li></ul></ul><ul><ul><li>Biz マーケティング http:// www.ntt.com /marketing/ </li></ul></ul>
  21. 21. 参考 : リッチインデクシング技術参考 URL <ul><li>NTT 技術ジャーナル 2008 Vol.20 No.6 </li></ul><ul><ul><li>ポータルサービスを支える自然言語処理技術 http://www.ntt.co.jp/journal/0806/special.html </li></ul></ul><ul><ul><li>「テキストからの知識抽出の基盤となる日本語基本解析技術」 http://www.ntt.co.jp/journal/0806/files/jn200806020.pdf </li></ul></ul><ul><ul><li>「テキストからの知識抽出による新しい Web 情報アクセスに向けて」 http://www.ntt.co.jp/journal/0806/files/jn200806008.pdf </li></ul></ul><ul><ul><li>「 Web 上の口コミを分析する評判情報インデクシング技術」 http://www.ntt.co.jp/journal/0806/files/jn200806012.pdf </li></ul></ul>

×