Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1
アクセスデータ収集と解析アクセスデータ収集と解析
データマイニング+Web勉強会@東京#データマイニング+Web勉強会@東京#88
2010/11/142010/11/14
冨 洋一冨 洋一/Tomi Yoichi/Tomi Yoichi
...
2
  レポーティング
本日の話題
自己紹介
Webでの行動分析に用いるデータの取得方法
 一般的な手法の紹介
 計測上の課題点
 その他、雑多なトピック
  集計処理データ計測
ここ!
分析に利用するデータの取得方法のヒントや、データの...
3
自己紹介
現職
 デジタルフォレスト社でアクセス解析ツールの製品企画
 特に行動計測とバックエンド処理系の担当。最近はモバイルも。
学生時代
 素粒子物理、宇宙線の強度分析、ウェーブレット解析、フラクタル分析
これまでの主な仕事
 専門学校...
4
2
43
1 - 4 -
顧客はどのような興味・
関心をもって行動してい
るのか?
顧客はどのような経路で、
競合や自社に誘導
されているか?
Webマーケティングの課題
競合と比較して、
効果的に顧客獲得を
おこなうためには?
どんなチャ...
5
アクセス解析に求められるもの
1.基本集計
2.アクセス環境
4.行動分析
3.進入経路
5.広告分析
7.詳細分析
6.コンバージョン
9.EC
8.マルチサイト
各ページのPV(ページビュー)数や訪問回数、
ユニークユーザ数など基本的な...
6
行動計測手法の分類
ログの出力元
1. アプリケーションから直接出力

access_log, SystemOut, error_logなども含む
2. 通信の中間でパケットスニファー、リバースプロキシなど利用
3. Webビーコンをブラ...
7
直接出力の場合
Webサーバーやアプリケーションから
              ファイル等に出力
syslogやlog4jなどを利用
Webサーバーでは、Apache httpdのLogFormatを調整すると比較的多く
の情報が得られる...
8
パケットスニファー方式の場合
Webサーバーとゲートウェイの間に入れる。
HTTPヘッダーなどより情報を抽出~記録
アプリ運用後から導入可能。
SSL通信には弱い。(ヘッダーに限定される。)
個別パラメータを取得しようとすると設定が面倒&負...
9
Webビーコンをブラウザ送信する場合
Web ” ”ページに ビーコン と呼ばれる画像ファイルを配置
ビーコンのURLの引数に計測パラメータを記載して転送。
Google Analyticsをはじめ、現在の主流
ブラウザ環境も取得可能。
C...
10
1分で分かるビーコン型アクセス解析ツール
Webページ側
以下のような画像ビーコンをページ中に書く。
– 実際はJavaScriptなどで動的に作成します。
– 送りたい変数をURLの引数として記載します。
<img src= http“...
11
特殊なビーコン計測
Flashで画像ビーコンを実装
 SharedObjectを利用
 Cookieの制限が無い。保存可能量も大きい。
 かなり「何でもアリ」な環境
コードの例
var track_so = SharedObject...
12
特殊なビーコン計測の応用例
ad4u方式

Flashオブジェクトに数千個のリンクURL

CSS仕様の欠陥を利用し、訪問済み/未訪問の識別
• 「訪問サイト」による興味属性の分類
• BTA等に利用

2010年4月以降にIE以外...
13
外部ツール利用する場合
・ツールバーやガジェットなど
・主にパネルユーザーの行動調査で利用
   ネットユーザーのサンプリングと等価
・計測対象が特定のサイトに限定されない。
 競合サイトの分析が可能!
・取得できるデータ量が多い。
 反...
14
計測精度を落とす原因の例
計測スクリプトが完了前にページ遷移。

普通、画面の最下部にビーコン

特に「ケータイ」ページ(ロードに時間かかる)
ブラウザの仕様(またはバグ)

単純にJavaScriptなどの仕様差やバグ

URL...
15
「ケータイ」計測 固有の注意事項
• キャリアGWサーバの存在→IPアドレスが取得できない
• 多くの場合、cookieやJavaScriptも利用不可。
– 動的なWebビーコンの作成が難しい。
• ドコモはURLにパラメータをつけない...
16
スマートフォン計測 固有の注意事項
• iPhoneはデフォルトでファーストパーティークッキーのみ
が利用可能。
• さらにApple社による行動・広告履歴データ分析には、ライ
センスによる制約あり。
• サードパーティーのブラウザを利用...
17
プライバシーにまつわる話題
「個人情報」の取扱は法規制あり。

「個人情報取扱事業者」に対する義務規定の定義

通常のWeb計測の手法では、サイトに渡した以上の個人情報を、サイ
ト側が取得する事は出来ない。
DSP(Deep Pack...
18
計測で分かる範囲
日本の「ケータイ」では固体識別番号の取得が可能
 単独では個人の特定は(キャリア以外は)困難
 ログの名寄せ作業が、PCと比較して、はるかに容易。
 番号より、大まかな居住地域の推定が可能
• IPアドレスからアク...
19
まとめ
データの取扱の際には、取得過程の理解が必要。
行動記録には幾つかの方法があり、サードパーティーの
事業者が提供するのは、主にWebビーコン方式
特に「ケータイ」での計測は、制約事項が多々あり、計
測および分析の際には注意が必要。
...
Upcoming SlideShare
Loading in …5
×

アクセスデータ収集と解析

3,992 views

Published on

TokyoWebmining #8での発表資料です。
当日に見せたデータの部分に関しては割愛しています。

Published in: Technology

アクセスデータ収集と解析

  1. 1. 1 アクセスデータ収集と解析アクセスデータ収集と解析 データマイニング+Web勉強会@東京#データマイニング+Web勉強会@東京#88 2010/11/142010/11/14 冨 洋一冨 洋一/Tomi Yoichi/Tomi Yoichi   @tomiyoichi@tomiyoichi
  2. 2. 2   レポーティング 本日の話題 自己紹介 Webでの行動分析に用いるデータの取得方法  一般的な手法の紹介  計測上の課題点  その他、雑多なトピック   集計処理データ計測 ここ! 分析に利用するデータの取得方法のヒントや、データの利用上の 制約・限界に関して、何かのヒントになれば。
  3. 3. 3 自己紹介 現職  デジタルフォレスト社でアクセス解析ツールの製品企画  特に行動計測とバックエンド処理系の担当。最近はモバイルも。 学生時代  素粒子物理、宇宙線の強度分析、ウェーブレット解析、フラクタル分析 これまでの主な仕事  専門学校でプログラミングの講師  民間気象会社で情報提供システム開発、数値シミュレーション  衛星画像(EOS/AM-1 ASTER)でのリモートセンシング  Web会計ソフト開発 その他  3児の父の草食系です。自動車国際C級ライセンス持ってます。
  4. 4. 4 2 43 1 - 4 - 顧客はどのような興味・ 関心をもって行動してい るのか? 顧客はどのような経路で、 競合や自社に誘導 されているか? Webマーケティングの課題 競合と比較して、 効果的に顧客獲得を おこなうためには? どんなチャネルで 顧客と コミュニケーションを していくか。
  5. 5. 5 アクセス解析に求められるもの 1.基本集計 2.アクセス環境 4.行動分析 3.進入経路 5.広告分析 7.詳細分析 6.コンバージョン 9.EC 8.マルチサイト 各ページのPV(ページビュー)数や訪問回数、 ユニークユーザ数など基本的な統計データ アクセスユーザーのドメインや閲覧環境、 地域などのデータ  アクセスユーザーがサイトに進入してから退 出するまでのページ遷移や滞在時間などの データ アクセスユーザがどのような検索ワードやサ イトから流入してきたかの進入データ インターネット広告の効果測定。間接広告効果や リピーター化など、広告に関するデータ 進入経路別やゴールページごとのコンバージョン 数、コンバージョン率、離脱率などのデータ データの絞込みやクロス集計など詳細に分析する 機能 複数サイトの状況やサイト間の行動パターンなど のデータ 商品ごとの売上金額や個数などのデータ
  6. 6. 6 行動計測手法の分類 ログの出力元 1. アプリケーションから直接出力  access_log, SystemOut, error_logなども含む 2. 通信の中間でパケットスニファー、リバースプロキシなど利用 3. Webビーコンをブラウザから計測サーバーへ送信 4. ツールバーなどの外部ツールを利用 長所 短所 直接出力 アプリ側の情報が漏れなく 取得可能 クライアント側が謎 取得から解析まで自前で。 パケットスニファー 送信コンテンツの情報が漏 れなく取得可能 ネットワーク構成上の制約 を受けやすい。 Webビーコン クライアント側の情報取得 が可能。 表示コンテンツに手を入れ る必要あり。 外部ツール利用 サイトをまたがったデータ取 得が可能 ツールの配布が限定的。
  7. 7. 7 直接出力の場合 Webサーバーやアプリケーションから               ファイル等に出力 syslogやlog4jなどを利用 Webサーバーでは、Apache httpdのLogFormatを調整すると比較的多く の情報が得られる  デフォルトでcommonとcombined 未計測・取りこぼしが少ない。 取得パラメータが自由に決められる。 クライアント環境の情報が得られない 分析ツールは、あまり充実していない。  フォーマットが多様
  8. 8. 8 パケットスニファー方式の場合 Webサーバーとゲートウェイの間に入れる。 HTTPヘッダーなどより情報を抽出~記録 アプリ運用後から導入可能。 SSL通信には弱い。(ヘッダーに限定される。) 個別パラメータを取得しようとすると設定が面倒&負荷が高い。 リバースプロキシーを利用するやり方もある。 特に携帯計測では有効。 ただし、費用がかかる。 ISPが行うと"Deep Packet Inspection” いろいろと物議を...
  9. 9. 9 Webビーコンをブラウザ送信する場合 Web ” ”ページに ビーコン と呼ばれる画像ファイルを配置 ビーコンのURLの引数に計測パラメータを記載して転送。 Google Analyticsをはじめ、現在の主流 ブラウザ環境も取得可能。 Cookieを利用して再訪問の識別可能 「ケータイ」の場合は別の技術を用いる。 Tips どのようなアクセスソフトが使われて いるのかを知るには、WASPが便利 https://addons.mozilla.org/ja/firefox/addon/4001/
  10. 10. 10 1分で分かるビーコン型アクセス解析ツール Webページ側 以下のような画像ビーコンをページ中に書く。 – 実際はJavaScriptなどで動的に作成します。 – 送りたい変数をURLの引数として記載します。 <img src= http“ ://DATALOGGER_SERVER/img.gif?    pagename=index&url=http %3A//www.hogehoge.co.jp/&pagetitle=SAMPLE&parameter1=...&parameter2=...”></img> 計測サーバー側(上記の例ではDATALOGGER_SERVER) •上記のリクエストに対して、1x1ピクセル透過gifを返す。 •この段階で訪問者識別用のCookieを合わせて(更新して)返す。 •ログファイル中からURLより、 img.gif?parameter1=VALUE&parameter2=VALUE&...... のような、パターンマッチングで、引数を取り出し記録する。
  11. 11. 11 特殊なビーコン計測 Flashで画像ビーコンを実装  SharedObjectを利用  Cookieの制限が無い。保存可能量も大きい。  かなり「何でもアリ」な環境 コードの例 var track_so = SharedObject.getLocal("test"); if( track_so.data.count == undefined ){  track_so.data.count = 1; }else{  track_so.data.count ++; } counter_txt.text = track_so.data.count;
  12. 12. 12 特殊なビーコン計測の応用例 ad4u方式  Flashオブジェクトに数千個のリンクURL  CSS仕様の欠陥を利用し、訪問済み/未訪問の識別 • 「訪問サイト」による興味属性の分類 • BTA等に利用  2010年4月以降にIE以外の主要ブラウザで対応され る。
  13. 13. 13 外部ツール利用する場合 ・ツールバーやガジェットなど ・主にパネルユーザーの行動調査で利用    ネットユーザーのサンプリングと等価 ・計測対象が特定のサイトに限定されない。  競合サイトの分析が可能! ・取得できるデータ量が多い。  反面、プライバシー観点からのデータの取り扱いに注 意が必要
  14. 14. 14 計測精度を落とす原因の例 計測スクリプトが完了前にページ遷移。  普通、画面の最下部にビーコン  特に「ケータイ」ページ(ロードに時間かかる) ブラウザの仕様(またはバグ)  単純にJavaScriptなどの仕様差やバグ  URL長やCookie長の制限(IEで2083文字)  ブラウザの「セキュリティーモード」  Cookie使えない、消えてしまうなど  サードパーティークッキーが使えない(iPhone) サイト側の仕様  googleのSSLモード(Referer未送信)  少し前のTwitter(Referer未送信)  AJAX利用ページ(非同期通信による)  リダイレクトページの存在
  15. 15. 15 「ケータイ」計測 固有の注意事項 • キャリアGWサーバの存在→IPアドレスが取得できない • 多くの場合、cookieやJavaScriptも利用不可。 – 動的なWebビーコンの作成が難しい。 • ドコモはURLにパラメータをつけないと「個体識別番 号」「リンク元URL」の取得不可 (guid=ONなど) • 位置情報はヘッダーに付いたり、GETパラメータについ たりバラバラ。 • UAに機種名が入ってこないキャリア。 etc... WWWサーバキャリアGWサーバ IPを勝手に変換してしまう (その他もろもろの挙動) 各端末 IP IP IP キャリアGWのIP Webサーバ
  16. 16. 16 スマートフォン計測 固有の注意事項 • iPhoneはデフォルトでファーストパーティークッキーのみ が利用可能。 • さらにApple社による行動・広告履歴データ分析には、ライ センスによる制約あり。 • サードパーティーのブラウザを利用された場合、OS/ブラ ウザ識別が出来ない場合がある。(特にWindows Phoneで顕 著。) ※Cookieは使える、ブラウザはPCと同様の挙動をするなど、 計測の観点からは「ケータイ」よりは「PC」に近い。
  17. 17. 17 プライバシーにまつわる話題 「個人情報」の取扱は法規制あり。  「個人情報取扱事業者」に対する義務規定の定義  通常のWeb計測の手法では、サイトに渡した以上の個人情報を、サイ ト側が取得する事は出来ない。 DSP(Deep Packet Inspection)に関しては、総務省より条件付きOKの見解  Opt-Outが可能である事が必須など  海外では反対が多く、事実上、実施不可能。英Phorm社など 広い範囲での行動分析による訪問者プロファイリングのニーズ。  単独サイト内での情報収集では限界  どのカテゴリーのサイト・ページを見たかを記録  通常、サードパーティークッキーを利用しても集めきれない  データ交換市場などのあり方に関しては、今後の検討課題か。
  18. 18. 18 計測で分かる範囲 日本の「ケータイ」では固体識別番号の取得が可能  単独では個人の特定は(キャリア以外は)困難  ログの名寄せ作業が、PCと比較して、はるかに容易。  番号より、大まかな居住地域の推定が可能 • IPアドレスからアクセス元の地域の推定は可能 • サイト間でのCookieの共有は、基本的に不可。  もともと、そのような仕様  突合せの情報を共有している場合は別。  ブラウザの「指紋」(導入プラグインとバージョンの組み合わせ)にて、名寄せ の可能性。 • 基本的には、サイトに登録している情報以上の個人情報等の取得は困難。  嗜好性をプロファイリングされる可能性は残っている。
  19. 19. 19 まとめ データの取扱の際には、取得過程の理解が必要。 行動記録には幾つかの方法があり、サードパーティーの 事業者が提供するのは、主にWebビーコン方式 特に「ケータイ」での計測は、制約事項が多々あり、計 測および分析の際には注意が必要。 プライバシーに関する問題は、分析上、UUに着目する 事が多くなった昨今、今後とも重要な課題。

×