Your SlideShare is downloading. ×
傾向スコアでみる ソーシャルネットワーク分析
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

傾向スコアでみる ソーシャルネットワーク分析

5,939

Published on

Published in: Business
0 Comments
17 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,939
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
17
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 傾向スコアでみる ソーシャルネットワーク分析-  ⼝口コミとメディア広告ではどちらの影響⼒力力が強いのか  - おしゃれStatisticsⅥ 6th  of  June,  2012 @millionsmile
  • 2. Behavior  Correlation in  Network• ⼈人間の⾏行行動は時空間ネットワーク上ではクラスター化しやすい。 例)Christakis  &  Fowlerの有名な研究である「肥満は伝染する」• ⼈人間の⾏行行動はしばしばネットワークの構造に「相関」があると⾔言われる。 -  Peer  influence(仲間による影響など:友達が買ったから⾃自分も買う) -  Homophily(類友:似たもの同⼠士は似たような⾏行行動を起こしやすい) -  Confounding  Factors(交絡因⼦子:周辺環境など外部の影響によって起こす⾏行行動) -  Selection(選択:トライアスロンをしている者同⼠士は友達になりやすい)• 注意!「相関関係は必ずしも因果関係を意味しない」 例)朝ごはんを⾷食べると成績があがる?       朝ごはんを⾷食べたら成績があがるという因果関係はない。       朝ごはんを⾷食べている⼦子は成績の平均が⾼高いという統計的に関連があるのだよ、というお話。
  • 3. 情報が伝播する上で重要となってくる 2つのネットワークの特徴• Assortative  mixing  -  ネットワーク上の繋がっているノード(⼈人)同⼠士が似ている 傾向、あるいはその特性に何かしらの正の相関(assortative)がある。 mixingは⼈人間関係の場合であれば、話す⾔言語や⼈人種といった離散的性質のデータと、 年齢といったスカラー的性質のデータをmixして計算するということ[Newman  03]• Temporal  clustering  -  ネットワーク上の繋がっているノード(⼈人)の⾏行行動は時空間 的には独⽴立立している。例えば、幸せが伝染するといったときに、同時タイミングで幸せ になるわけではない。誰かが幸せになって、別の誰かが幸せになると時間的なタイミン グは独⽴立立している。とはいえ、ある程度時間的には固まって発⽣生するものである。
  • 4. ⾏行行動を起こしやすい情報伝播ネットワーク情報伝播というと、複雑ネットワークではSISモデルやSIRモデルといった感染の数理モデルが有名。※定義については[増⽥田  01]参照。今⽇日はちょっと味⽅方を変え、「⾏行行動を起こしやすいの情報伝播ネットワーク」をみていく。例)iPhoneを買ったのは、友達の影響なのか、メディアや広告の影響なのか。
  • 5. InfluenceとHomophilyの定義する Influence Homophilyj君がiPhoneよかったよ!と⾔言うので iさんとj君はiPhoneを買った。⼆二⼈人は友達iさんはiPhoneを買った。 ではない。年齢、⾏行行動パターンが類似。 × ∗ ai ← ∗ aj ai ← ci . ∗ ai . si . aj ← cj . ∗ aj . sj . ∗   :iやjの⾏行行動や選択(例:肥満の伝染、友達が買ったので⾃自分も買う)aa  :iやjの他の⾏行行動や選択c  :iやjの個⼈人属性(例:性別、年齢など)s  :iやjの状態(例:肥満、幸福など)
  • 6. InfluenceとHomophilyの違い• マーケティング戦略におけるInfluenceとHomophilyの違い -  ⼝口コミ戦略vsメディア広告戦略 -  インフルエンサーをターゲットにするvs顧客プロフィールから市場セグメントをする• 情報の伝播におけるInfluenceとHomophilyの違い -  influence-basedの情報伝播  -  連鎖反応、迅速、指数関数的な変化、予測が難しい -  homophily-basedの情報伝播  -  ノードの特性から予測可能であり統制しやすい
  • 7. InfluenceとHomophilyでは どちらの⽅方が影響⼒力力があるのだろうか• Yahoo!  Goという新サービスが、InfluenceとHomophilyのどちらの効果によって広 まっていったのかを観察した論⽂文がある[Sinan  Aral  et  al.(2009)] -  Homophilyは傾向スコアによるマッチングで算出 -  Influenceはランダムマッチングで算出 実際の研究論⽂文をみつつ 傾向スコアについて理解する
  • 8. DATA• データはYahoo!のメッセンジャーユーザ2700万 ⼈人のデータを利⽤用• デモグラや地理情報などの詳細データを利⽤用• 2007年7⽉月にローンチされたYahoo!  Goのアダ プト率や利⽤用率を5ヶ⽉月に渡って⽇日々計測した• サンプリングできたアダプターは53万ノード ランダムサンプルしたノードは320万ノード• 解析にはC++とComplex  Networks  Toolbox   for  Matlabを使ったらしい。共著者のLev   ※Yahoo!  GoはYahoo!  MailやYahoo!  Photなどのサービスや MuchnikさんのHPからDownloadできるみた Web上のコンテンツをPC、携帯、テレビからシームレスに利 ⽤用できるサービス。2010年にサービス停⽌止しているらしい。 い。http://www.levmuchnik.net/Content/woomplexNetworksPackage.html
  • 9. 傾向スコアとは? 実験することができない調査観察のデータなどの交絡因子の調整方法のこと。 処理変数と結果変数の両方に相関する外部変数のことで、 交絡因子を解析時に調整しないと因果関係が推定できない。 処理変数 結果変数 飲酒 癌 喫煙例えば、癌になる人は飲酒との相関が高いと出たとする。しかし、飲酒している人は喫煙との相関も考えられるし、メタボとの相関も考えられる。 メタボなので、癌の因果関係を求めるには、喫煙とメタボの交絡も含めて計算する必要がある。 交絡因子たち
  • 10. 傾向スコアとは? Treated  Group Untreated  Group Ti = 1 Ti = 0 Treated  Outcome   y1 Treated  Data Missing  Data Untreated  Outcome   Missing  Data Untreated  Data y0 Covariance Xi因果関係を求める際、Treated  Groupの間での効果を調べるため、Treated  Groupのy1とy0を使って計算したいのだが、y0の⽅方は観測されていない⽋欠測データ(Missing  Data)なので⽤用いることができない。
  • 11. 傾向スコアとは? Treated  Group Untreated  Group Ti = 1 Ti = 0 Treated  Outcome   y1 Treated  Data Missing  Data Untreated  Outcome   y0 Missing  Data = Untreated  Data Covariance Xiそこで共変量(Covariance)の値がTreated  GroupとUntreated  Groupで等しい時の割り当てはランダムと仮定をおき、また共変量(Covariance)が同じならばT=0のy0の期待を代⽤用できるとすれば因果関係を計算することができる。※数式的証明は[宮川  04,  星野09]を参照
  • 12. 傾向スコアとは? 共変量 共変量を説明変数に加える 傾向スコアよりどちらの処理に 傾向スコア 割り付けられやすいか計算する Treated  Group Untreated  Group Ti = 1 Ti = 0 Treated  Outcome   y1 Treated  Data Missing  DataUntreated  Outcome   Missing  Data Untreated  Data y0 Covariance Xi
  • 13. 傾向スコアの定義傾向スコアとは、割り付けられやすさの指標のこと。確率なので範囲は 0 ≤ ei ≤ 1. ei = p(zi = 1 | xi ) Xiの条件付きで処置1(z=1)に割り当てられる確率 ei : 対象者iがグループ1に割り当てられる確率 zi = 1 : 処置1に割り当て  ※割り当て変数は⼆二値{0,1} xi : 対象者iの共変量ベクトル
  • 14. 傾向スコアの推定傾向スコアの真値はわからないので、データから推定する。通常ロジスティック回帰モデルが使⽤用される。 1 ei = 1 + exp(−(α + βx)) ˆ ˆこの尤度を最⼤大化する最尤推定値{  ,  β }を⽤用いることで傾向スコアの推定値が求める。 α    1 ei = ˆ α ˆ 1 + exp(−(ˆ + βx)) (式1)
  • 15. ARAL論⽂文の傾向スコアAral論⽂文では傾向スコアを使ってhomophily  effect(類友効果)を計測している。 exp[αit + βit Xit + it ] pit = P (Tit = 1) | Xit ) = 1 + exp[αit + βit Xit + it ] Tit = 1 : ある時間間隔ΔtにおいてYahoo!Goをアダプトした友⼈人が⼀一⼈人以上いる Xit : 対象者iの共変量ベクトル(33個のベクトルを使ったようだ) it : 対象者iの個体差 ※Δtは、              で計算される。 ∆t = ti − tj = R a a a      -  t    は、対象者iがアダプトした時間。   i a   -  tj は、対象者jがアダプトした時間。対象者iの友達である。    ※分⺟母分⼦子に                        +      it      it  +          を掛けると(式1)となる。どちらでも同じこと。 exp[αit     β    X           it ]この傾向スコアを使い、Adopt率=Treatedの数(n+)/Untreatedの数(n-)を計算する。
  • 16. ARAL論⽂文の傾向スコアロジスティック回帰にε(個体差)を含めるかどうかの判断。 exp[αit + βit Xit + it ] pit = 1 + exp[αit + βit Xit + it ]-  ε(個体差)は観察者が観測していない興味のない量-  個体差の過分散が⼤大きい場合、計算に含めないと結果が正しく推定できない  ※  αit + βit Xit             はpの平均値を変化させている→fixed  effect   はpの平均値を変化させずばらつきだけをかえている→random  effect  ※    it  ※  fixed  effectとrandom  effectの両⽅方を含む統計モデルを混合モデルという。  ※  過分散の⾒見見つけ⽅方については[久保  07]参照。Aral論⽂文では、具体的にεにどんな値を設定しているのか記載されていないが何かしらの調整を⾏行行なっているらしい、というのが数式よりわかる。
  • 17. 類友でべき分布Adoptした友達が多いほど自分もadoptする確率が高まる人間関係でよくみられる次数分布である。→ほとんどがadpotした友達は圧倒的に少ない(1人)なので図がベキ分布する
  • 18. 時間軸でみるADOPT率時間間隔を0日から6日間(Δt∈[0,6])で区切ってみたAdopt率0日は対象者iと対象者jが同じ日にadoptしたということ
  • 19. 結果発表Influenceによるadoptが49.8%, Homophilyによるadoptが50.2%よって、微差ではあるがHomphilyの方が影響度が高い※マーケティング施策としてはバイラルマーケティングもメディア広告も両方やったほうがよさげ
  • 20. おまけ多変量解析をする際によく使われるモデル:-  Coxの⽐比例ハザードモデル-  ロジスティック回帰モデル-  傾向スコア多変量解析をする際に時々使われるモデル:-  ベイジアンモデル-  ブーストラップ-  マッチング-  混合効果モデル [Biondi-Zoccai  11]2000年のアメリカ⼤大統領選挙でブッシュとゴアでほぼ互⾓角の戦いだったが、結果を正確に予測したのは1社だけ。この1社はネット調査を傾向スコアで調整し予測した。 [星野・楠⽊木  07]
  • 21. 今やっている「複雑ネットワーク勉強会」の開催場所 Facebookページ『複雑ネットワーク』: http://www.facebook.com/pages/%E8%A4%87%E9%9B %91%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF %E3%83%BC%E3%82%AF/309875385698514References• Sinan  Aral,  Lev  Muhnik,  Arun  Sundararajan,   Distinguishing  influence-based  contagion  from  homophily-driven  diffusion  in  dynamic   networks (2009)• Aris  Anagnostopoulos,  Ravi  Kumar,  Mohammad  Mahdian,   Influence  and  Correlation  in  Social  Networks (2008)• M.  E.  J.  Newman,   Mixing  patterns  in  networks (2003)• Paul  R.  Rosenbaum,  Donald  B.  Robin,   The  central  Role  of  the  propensity  score  in  observational  studies  for  causal  effects (1983)• Giuseppe  Biondi-Zoccai,  et  al.,   Are  propensity  scores  really  superior  to  standard  multivariable  analysis? (2011)• M.  Scoledad  Cepeda,  et  al.,   Comparison  of  Logistic  Regression  versus  Propensity  Score  When  the  Number  of  Events  Is  Low  and  There   Are  Multiple  Confounders (2003)• 宮川雅⺒巳:『統計的因果推論』,朝倉書店(2009)• 星野崇宏:『調査観察データの統計科学』,岩波書店(2010)• Annette  J.  Dobson著/⽥田中豊・森川敏彦・⼭山中⽵竹春・冨⽥田誠訳:『⼀一般化線形モデル⼊入⾨門第2版』,共⽴立立出版(2011)• 増⽥田直紀・今野紀雄:『複雑ネットワーク-基礎から応⽤用まで』,近代科学社(2010)• 増⽥田直紀:『なぜ3⼈人いると噂が広まるのか』,⽇日本経済新聞出版社(2012)• ニコラス・A・クリスタキス、ジェイムズ・H・ファウラー著、⻤⿁鬼澤忍訳:『つながり-社会的ネットワークの驚くべき⼒力力』,講談社(2010)• 『⼈人の好みにクチコミは効かない』(2011).Wired  Japanese  Edition:  http://wired.jp/2011/12/26/%E3%80%8C%E4%BA%BA%E3%81%AE%E5%A5%BD%E3%81%BF%E3%81%AB %E3%82%AF%E3%83%81%E3%82%B3%E3%83%9F%E3%81%AF%E5%8A%B9%E3%81%8B%E3%81%AA%E3%81%84%E3%80%8D%E2%94%80%E2%94%80%E3%83%8F%E3%83%BC%E3%83%B4%E3%82%A1/• @yokkuns:『Rで学ぶ傾向スコア解析⼊入⾨門』(2011).  slideshare:  http://www.slideshare.net/yokkuns/r-9387843• @isseing333:『観測データでの効果推定(傾向スコア、IPW、DR)』(2011).  blog:  http://d.hatena.ne.jp/isseing333/20110511/1305124310• 林岳彦:『傾向スコア:その概念とRによる実装』(2012).  slideshare:  http://www.slideshare.net/takehikoihayashi/propensity-score- analysis-seminar-japanese• 久保拓弥:『「個体差」を階層ベイズモデルであつかう』(2007).  pdf:  http://hosho.ees.hokudai.ac.jp/~kubo/stat/2006/b/kubostat2006b.pdf• 星野崇宏・楠⽊木良⼀一対談:『ネット調査を補正する「傾向スコア」の可能性』,(2007)  article:  http://adv.yomiuri.co.jp/ojo/02number/200709/09toku2.html

×