Successfully reported this slideshow.

書籍「計算社会科学入門」第9章 統計モデリング

7

Share

Upcoming SlideShare
WWWにおける社会科学
WWWにおける社会科学
Loading in …3
×
1 of 27
1 of 27

More Related Content

More from Masanori Takano

Related Books

Free with a 14 day trial from Scribd

See all

Related Audiobooks

Free with a 14 day trial from Scribd

See all

書籍「計算社会科学入門」第9章 統計モデリング

  1. 1. 第9章 統計モデリング 2021/2/28 CCSS School on Computational Social Science『計算社会科学⼊⾨』 CyberAgent, Inc. All Rights Reserved ⾼野雅典 株式会社サイバーエージェント 秋葉原ラボ takano_masanori@cyberagent.co.jp 1
  2. 2. ⾏動ビッグデータと課題 n⾏動ビッグデータ • 多くの場合「あるシステムにおいて⼈々が⾃由に⾏動した結果の履歴」を指す • GPSデータ、検索エンジンの検索クエリ・クリック履歴、ソーシャルネット ワーキングサービスのコミュニケーション履歴、オンラインゲームのアクショ ン、ECサイトの閲覧・購⼊履歴 • 観察データの⼀種 n観察データの課題 • 「要因 → 結果」の関係性を知るのが難しい • 疫学、⽣態学、経済学、⼼理学、社会学などなどの分野で観察データを扱うために分析⼿法 が発展 2
  3. 3. 要因と結果の関係が単純な⽐較ではわからない例 n知りたいこと • ⾃社のニュースサイトが利⽤者のニュース知識に与える効果 n仮説 • ⾃社のニュースサイトの利⽤時間が⻑いほどニュースの知識が多い n単純な分析 • 利⽤者の「ニュースサイト利⽤時間」が「ニュースの知識」の相関 → 負の相関 ニュースサイトを利⽤するほど知識が減る? 3
  4. 4. 要因と結果の関係が単純な⽐較ではわからない例 nこの分析の問題点 • 「ニュースサイト利⽤時間」と「ニュースの知識」の両⽅に影響を 与える要因を考慮していなかった • 実は、ニュースサイトを利⽤しやすい⼈の特徴がニュース知識と負 に相関する • このニュースサイトはあまりニュースに関⼼がない⼈向けのブランディング をしている(エンタメ要素が強い)メディア • ニュースに関⼼が強い⼈はあまり使わない • 「ニュースへの関⼼が強さ」が同じぐらいの⼈同⼠で両者の関係性 を調べる必要がある 4 強 中 弱 ニュースサイトの利⽤時間 関⼼の強さを 考慮しない回帰直線 関⼼の強さを 考慮した回帰直線 ニュース知識
  5. 5. そこで統計モデリングですよ n「データの⽣成過程」をモデル化し、それをデータに当てはめる n本発表ではデータ y をデータ x で説明するモデルを扱う • ⽬的変数 y(データ)は確率分布 P から⽣成されるとして • データ y を説明できる Pのパラメータθをデータから決める • θは正規分布であれば平均と分散 • 説明変数 x(データ)と係数β・関数 f からθが作られる • ⼤抵はβで重み付けして⾜し上げたもの • θ平均= β1x1 + β2x2 + β3x3 + … 5
  6. 6. 確率分布1 nある事象が起こる/起こらない • 購⼊する/しない、合格する/しない、コインが表/裏 • ベルヌーイ分布 n確率 p のベルヌーイ分布に従う事象を n 回繰り返したとき • n ⼈にメールを送ったときの返信⼈数 y • ⼆項分布 6
  7. 7. 確率分布2 n 最⼤値が⼤きいカウントデータ • ⼆項分布で n が⼤きくて p が⼩さいとき • 5万⼈の会員にダイレクトメールを送ったときの成果 y • ポアソン分布 • 平均と分散が等しい • [0, ∞) の整数の分布なのでカウントデータによく使われる • ⾏動ビッグデータだと⾏動回数を数え上げることが多いのでよく 使う n ポアソン分布よりも分散が⼤きいとき • 負の⼆項分布 • ポアソン分布のパラメータλがガンマ分布に従って揺らぐときの 分布 • ポアソン分布の平均 = 分散の制約がきつくてうまく当てはまらな いことが多いのでよく使う 7
  8. 8. 確率分布3 n平均的なデータが最も多く、平均から離れると数が減る分布 • ⾝⻑、テストの点数、観測誤差など • 正規分布 n他 • 対数正規分布、カテゴリカル分布、多項分布、ベータ分布など • 現象やデータに合わせて適切に選ぶ 8
  9. 9. 分布と説明変数の関係 n 分布Pを選んだら、次にθとx, βの関係性 f を決める • といっても多くの場合、分布を選んだらほぼ決まる n 関数 f は線形予測⼦にリンク関数(の逆関数)を通した形 • 線形予測⼦: β1x1 + β2x2 + β3x3 + … • xの重み付き線形和なのは単に推定・解釈しやすいから • なんらかの知⾒がある(yはx2に⽐例するなど)場合はそれをモデルに取り込むべき • リンク関数 • 線形予測⼦の値が(-∞, ∞) なので、θが定義域に収まるように調整する関数 • θ∈(-∞, ∞): リンク関数は何もしない(線形予測⼦の値をそのまま使う) • 正規分布など • θ∈(0, 1): logit関数。ロジスティクス関数の逆関数 • ベルヌーイ分布、⼆項分布 • θ∈(0, ∞): log関数。expの逆関数 • ポアソン分布、負の⼆項分布 • 他の関数を使うこともある 9
  10. 10. 興味のある要因変数と結果以外の影響 n観察データは関⼼のある y と x 以外にも様々な変数 が存在する • 最初の例だと ニュースへの関⼼の強さ が y と x の両⽅に 影響を与える変数 z • 他にも媒介変数 m や共通の結果 j の変数がありうる • 媒介の効果を知りたいときは m を⼊れる必要があるが、 x の総合的な効果が知りたいときは⼊れない • 例えば、広告を⾒た頻度 x、商品の購⼊ y、ブランドの印象 m • 共通の結果の変数 j を⼊れると、本来とは異なった効果が x の効果 として評価されてしまう nどうしたらいいか? • 現象やデータを良く観察してパス図を書いて整理する • 先⾏研究を調査して参考にする 10
  11. 11. べき分布と⽬的変数 n⽬的変数が⼤きく偏っている場合がある • 友⼈数、リツイート数、商品の販売数、資産、コミュニケーション頻度 はべき分布になる nべき分布 • 指数分布よりも⼤きい y が発⽣しやすい • 指数分布: y ~ exp(-γx) • べき分布: y ~ x-γ • たいてい 2 ≦γ ≦ 3 になる • 両対数グラフで直線になる • 統計分析では扱いが難しい • 統計学では⾔及されていないことがほとんど 11
  12. 12. 統計分析でべき分布が扱いにくい理由 n⽣成メカニズムに起因 • 「富める者はますます富む」(The rich get richer) • 売れている書籍のほうが⼈々の⽬に触れる機会も多い(より売れる) • 友達が多いと新たに⼈と出会う機会が多い、RTが多いとより多くの⼈の⽬に触れる、資産 が多いと資産を増やしやすい など • yt+1 の発⽣確率が yt に⽐例する(Yule-Simon過程) • y を最も説明するのは y (x によってはあまり説明されない) 12 log y log p(y) y q(y) y の発⽣確率 y の分布
  13. 13. ⽬的変数がべき分布のときの対処(案) n⽬的変数 y と関係の強い変数 z を統制変数に採⽤する • 例: ECサイトの書籍の売上 y、説明変数 x は書籍の属性(分野、出版社、価格な ど) • 書籍が売れるほど、ランキングや推薦で利⽤者の⽬に触れやすくなり、より売れる → べき分布になる • 利⽤者の⽬に触れた回数 z を統制変数にする • これは利⽤者が⽬にした1回あたりに、その書籍を購⼊する確率を⾼める属性 x を分析する ことになる n増分 ⊿y = yt+1 ‒ yt を⽬的変数にする • 基本的には yt に⽐例して ⊿y が決まるが、 より⊿y が⼤きくなりやすい属性 x を分析する 13
  14. 14. 実際にやってみる nソーシャルゲームの⾏動データを使って直接互恵性を分析する • Masanori Takano, Kazuya Wada, and Ichiro Fukuda, "Reciprocal Altruism-based Cooperation in a Social Network Game", New Generation Computing, Vol. 34, No. 3, pp. 257-271, 2016. n直接互恵性 • 後で⾒返りが期待できるならば,即座に⾃分の利益とならなくても,相⼿に対 して協調的に振る舞う • ⼀⽅で⾒返りが期待できない相⼿には協調的に振る舞わない nなぜ研究対象? 協調⾏動のパラドックス • 協調し合えばお互いにハッピー • でも個⼈としては相⼿だけに協調してもらった ほうが得 • その結果、協調⾏動は成⽴しない(進化しない) • でも、⼈間も他の動物も協調する n直接互恵性は協調⾏動の成⽴を説明する メカニズムの⼀つ [Nowak2006, Rand2013] 14 ⾼利得 低利得
  15. 15. 分析対象のゲーム 15 URL: http://vcard.ameba.jp 期間: 2013/3/25〜2013/4/8 イベント: たすけて!マイヒーロー – お花見編 – (レイドタイプのイベント) 対象: 期間中、一度でもイベントに参加(攻撃)した & 5人以上のアクティブメンバーが所属するギルドに所属するプレイヤー
  16. 16. 対象ゲームの基本的な仕様 nプレイヤーの⽬的 • ポイントを獲得してランキング上位を⽬指す nグループ構造 • 1〜50⼈で構成されるギルド(グループ)に所属 • 任意のタイミングで退団・⼊団申請可 • 協⼒しあうとポイント稼ぎが効率化 nライトなコミュニケーション(メッセージング) • 個別メッセージ送信、⼀⻫メッセージ送信、 ギルド掲⽰板 ・30⽂字以下のテキストメッセージ • システム上の利益はほぼ0、コストは0(チープトーク的) 16 1位: ⽥中(12040pt) 2位: ⼭⽥(11010pt) 3位: 菊池(11005pt) 4位: 斎藤(9015pt) ・・・
  17. 17. 協調⾏動の定義 nリーダーゲーム(Snowdrift ゲームの⼀種)的状況に焦点 • ソーシャルゲームでは多様な⾏動で、すべての協調⾏動を分析する ことは困難 • 特定のリーダーゲーム状況のおける協調⾏動が、そのユーザの協調 ⾏動の全体的な傾向と相関すると仮定する 17 協調 裏切り 協調 -, - 1, 3 裏切り 3, 1 0, 0 協調者 get 1 point. 裏切り者 get 3 point.
  18. 18. 協調⾏動を定義するために焦点を当てるイベント 18 ①クエスト プレイヤー ⑤通常x1.5の ポイント獲得 ⑥ランキング競争 同じグループメンバー ②レイドボスに遭遇 → 攻撃 ③救援依頼 ④救援(攻撃) 1位: ⽥中(12040pt) 2位: ⼭⽥(11010pt) 3位: 菊池(11005pt) 4位: 斎藤(9015pt) ・ ・ ・ ボスを攻撃してポイントを稼ぎランキング上位を⽬指すイベント • 与えたダメージに⽐例してイベントポイント獲得 • 攻撃回数は限られる(or 課⾦)ので効率のよいイベントポ イント稼ぎが重要
  19. 19. 協調⾏動を定義するために焦点を当てる状況 19 攻撃する 攻撃しない 攻撃する - 1, 3 攻撃しない 3, 1 0, 0 2⼈でボスを倒している場合を考えると… 他の誰かが攻撃してくれることを待つ リーダーゲームに似たジレンマを持つ この状況で攻撃する⾏動を協調的⾏動として、プレイヤーの 協調⾏動 に ついて調査する レイドボスのHPが残り少しの場合 攻撃 HP 遭遇したユーザや 救援を依頼された ギルドメンバー 「攻撃⼒ > 残りHP」なので、 「攻撃⼒ > ダメージ」。そのため攻撃⼒より少 ないイベントポイントを獲得。
  20. 20. 調べること n知りたいこと • 直接互恵性がソーシャルゲームの中でも働いているか? • 理論的(進化ゲーム)・実験的(ゲーム理論実験)には⽰されている⼈の形質は、⾃発的に ⾏動している⼈々の相互作⽤において定量的に検証可能か? n得られるデータ(⾏動ログのデータ) • 協調⾏動の回数 • 攻撃回数 • などなど nアプローチ • プレイヤ j → プレイヤ i の協調⾏動の回数 Cji が i → j の協調⾏動回数Cij に正に 効いていれば、直接互恵性が働いていると⾔える • ※ 因果関係をより明確にするためには縦断的な分析や実験が適している 20
  21. 21. ⽬的変数(協調回数)の分布 21 n協調回数 • べき分布を⽰す nどう扱う? • 協調回数と関係の強い変数を統制変数に採⽤するこ とを考える • 協調⾏動は i と j が同じ「協調⾏動が可能な場⾯」 に居合わせなげばならない • したがってプレイヤがランダムに協調するのであれば、Cij は i と j の攻撃回数 a の積 𝑎!𝑎" に⽐例するはず • ランダムでない(直接互恵的である)のならば、 𝑎!𝑎" だ けでは説明できないので他の説明変数が必要になる • 𝑎!𝑎" を統制変数として採⽤する • Cijと同様に裾の厚い分布になっている • 両者はそれなりに相関するが、それだけでは 説明できない
  22. 22. 統計モデル 22 分散が⼤きいカウントデータなので負の⼆項分布 リンク関数が log なので統制変数も log j→i の協調⾏動 (この効果が知りたい) なんやかんや(書籍参照)
  23. 23. パス図 23 2 1 1
  24. 24. 結果 24 Cji は Cij を増やす つまり互恵的な⾏動をしている ちなみに 𝒂𝒊𝒂𝒋 を使わなかった場合 ・Cji や他の変数が過剰に評価されている ・アクティブなほど Cij も Cji も⼤きくなるため
  25. 25. その他 統計モデリング例 n 知りたいこと • チャンネルを変更しながら視聴する番組を探している(ザッピング)ときに、ニュースの画⾯が⼀瞬〜数 秒間⽬に⼊ることがある • この偶発的な接触は利⽤者のニュース知識に貢献するのではないか? n アプローチ • 利⽤ログ • 4秒以下の偶発的接触 z やニュース視聴時間 w を計測 • アンケート調査 • 他のメディア(新聞やテレビ、ソーシャルメディアなど)の利⽤頻度 m • その他諸々の利⽤者の傾向(エンタメ志向など)c n 統計モデルの課題 • ニュースに興味が全然ない⼈ほど偶発的接触の回数 z が多い • 興味がないのですぐにチャンネルを変える → 「興味の無さ」を利⽤者の傾向 c で統制する 25 ! " ⃗ M. Takano, Y. Ogawa, F. Taka, and S. Morishita, “Effects of incidental brief exposure to news on news knowledge while changing channels on Internet television”, IEEE Access (accepted!).
  26. 26. 計算社会科学における統計モデリング 26 観察: 不思議な現象・ パターンの発⾒ 理論: 現象を説明可能な 理論の構築 実験: シンプルな環境 で再現・詳細を調査
  27. 27. まとめ n データが⽣成される過程を踏まえてモデルを作ろう • データや現象を注意深く観察する • 先⾏研究の洞察は⾮常に強⼒ • 我々は「⼈が協⼒し合うこと」は知っているが、それのゲーム理論的な考察や進化メカニズムについて独⼒でたど り着くのは難しい • 直接互恵性の論⽂は 1971年 [Trivers1971] • Yule-Simon過程の論⽂は 1925年 [Yule1925] • 計算社会科学は新しい領域だが、⼈⽂・社会科学には膨⼤な蓄積がある(もちろん⾃然科学にも) • ほとんどの研究課題には先⾏研究がある n 関連トピック • モデル選択(変数選択) • 情報量基準(AICなど)、正則化 • 因果推論 • パス図を書いたり、線形予測⼦に統制変数を⼊れるのも因果推論のアプローチの1つ n 参考書籍 27

×