階層ベイズによるワンToワンマーケティング入門

階層ベイズによる
Oneマーケティング
One to Oneマーケティング
入門

@shima_x

2013/3/11

階層ベイズモデルを使って
マイクロマーケティング
を行うことが
今回の分析の目的です

まず
なぜ階層ベイズモデルが必要か
について説明します

はじめに
従来の頻度統計学と
ベイズ統計学の違いを
説明します

頻度統計とベイジアン統計の違い

ネイマン－ピアソン統計の基本的な考え方

サンプリングを繰り返していけば誤差がなくなって
真の値（母数※）をぴったり推定できる！

母集団
（母平均）

標本標本
A 標本標本 E
標本
B C D
標本平均A
標本平均A 標本平均E
標本平均E
標本平均B
標本平均B 標本平均C
標本平均C 標本平均D
標本平均D

標本平均の平均→
標本平均の平均→母平均

※平均や分散などの母集団の分布の特徴を示すもの

ベイジアン統計の基本的な考え方

リサンプリングが作り出す分布は
真の値に近づいていくに違いない！

母集団
（母平均）

標本の標本の分布→
標本の標本の分布→母数の推定値

標本標本
A 標本標本 E
標本
B C D

リサンプリングとは

リサンプリン
グされた標本
１

標本抽出リサンプリン
グされた標本
Sampling ２

・・・・
標本 Re-sampling
Sample 復元抽出と非復元抽出とがある

サンプルサイズ（N
サンプルサイズ（N）リサンプリン
グされた標本
B

ブートストラップとベイズ推定
• Bootstrap法とは「復元」抽出によって作られた標本（サンプルサイ
Bootstrap法とは「復元」抽出によって作られた標本（サンプルサイ
ズはサンプルN
ズはサンプルNに同じとする）に対して統計処理を行う方法

• ベイズ推定は更にそれを進化させ、
1. 統計的推定値を確率変数だと考え
（ある幅をもって推定する）
2. 事前情報を考慮し
（回帰分析の残差は正規分布するだろう、など）
標本分布から作られる推定値のリサンプリングにより（MCMC
3. 標本分布から作られる推定値のリサンプリングにより（MCMC
法）
4. 事後分布の代表値を母数の推定値とする
という手法である。

ベイズ推定の利点と注意点

利点
不適解への対処
• 誤差分散が負になる、といった計算上のエラーを避けられる
• 標本数が少ないことに起因する不適解を回避できる場合がある
漸近的な信頼区間
• 信頼区間＝ここ（下限）からここ（上限）までの間にこの母数がある確
率が～、という形で推定することができる
注意点
• 恣意的な仮説（事前分布）になってないか
• 計算が収束しないことがある

ベイズ推定実施時の注意点
ベイズ推定は、リサンプリングを何回も繰り返す
• 徐々に安定した値に近づいていくが、最初の数百回は不安定な
ので、その数値は使わない（バーンイン期間）
• リサンプリング回数ーバーンイン期間で、数値の変動幅がある
リサンプリング回数ーバーンイン期間で、数値の変動幅がある
程度小さくなれば「収束した」とする
程度小さくなれば「収束した」とする
そこで、論文に記載する事項として、以下のものが必要である
• 事前分布にどのような仮定を追いたか
• リサンプリングは何回に設定したか
• バーンイン期間は何回に設定したか
• 収束判定基準はどのような統計量で、どのような数値にしたか

ここで前置き（small talk）は終わりです
ここで前置き（small talk）は終わりです

マーケティング活動の高度化には個に関する情報
が必要不可欠である

異質な構造の背後に存在する共通性の構造も有
益な情報として生かされるべき

したがって
異質性と共通性に関する情報を同時にデータか
ら抽出することは重要

しかし、これらの情報は単純には抽出できない

できるんです！
そう、モデリングならね

ということでここからは2
ということでここからは2項ロジットモデルを例とし
た階層ベイズの必要性の説明

階層ベイズモデルを利用した
2項ロジットモデル

買うべきか買わないべきか
どうしたらいいんだ…
どうしたらいいんだ…？

階層ベイズモデルとは？
統計モデルのパラメータに
階層構造を持たせてベイズ推定する高性能なモデル

問題：事前分布をどう設定すべきか
古典的な
ベイズモデル

不確実性を考慮してハ
イパーパラメータを確率
変数として扱う

階層
ベイズモデル

なぜ階層ベイズか？

超パラメータを確率変数とすることで
ノンパラメトリックと同等の頑健性

パラメータ複雑さ超パラメータ頑健性
最尤推定一意に決定手動で設定不使用 ×
MAP推定
推定一意に決定手動で設定手動で設定 △
古典的なベイズ推定事後分布を推定手動で設定手動で設定 ○
ノンパラメトリックベイ事後分布を推定事後分布を推定（手動で設定） ◎
ズ
階層ベイズモデル事後分布を推定（手動で設定）事後分布を推定 ◎

ユーザの選択行動モデル
ユーザは様々な選択行動をしている

インストールするアイテムAを買う
アイテムA

アイテムB
アイテムBを買う
インストールしないアイテムC
アイテムCを買う

ユーザの選択行動モデル
選択駆動への影響を知ることで
効率的な施策を実行することが出来る

広告 β1

β2 アイテムA
アイテムA
レコメンド
・ Model アイテムB
アイテムB
・
・アイテムC
アイテムC
その他 β3

アイテムを買う・買わないのような
二択の選択行動モデル

広告 β1

β2 購入する
レコメンド
・ Model
・
・購入しない
その他 β3

ロジスティック曲線の回帰モデルで表現
各変数の回帰係数を市場反応パラメータとして解釈する

購入する
広告 β1

購入確率
レコメンド β2

・ Model
・
・購入しない
その他 β3

ユーザ毎にパラメータを知りたい
市場反応パラメータをユーザ毎に求めて
ユーザに合わせた施策を行えるようにしたい

購入する
広告 βh1

購入確率
レコメンド βh2

・ Model
・
・購入しない
その他 βh3

2項ロジットモデルの限界
ユーザによる違いは考慮されていないため
個々でみると非効率的な部分もある

ユーザ毎のパラメータが知りたい
市場反応パラメータはユーザ毎に違うはず
しかし、ユーザ毎に推定するほどのデータはない

？

？

？

？

ユーザは一人一人違うものの、共通な部分もある
共通部分を全ユーザの情報を用いて推定する

個人毎に回帰するにはデ大まかな傾向は全体で推定
ータが少ないが・・・個人毎に微調整

共通部分を全ユーザの情報を用いて推定する

独自部分

共通部分

階層ベイズ2
階層ベイズ2項ロジットモデルの構築
共通パラメータV ,Δも確率変数
共通パラメータVB,Δも確率変数
多変量正規分布と逆ウィッシャート分布を事前分布とする

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

階層ベイズ2項ロジットモデルのベイズ推定
階層ベイズ2

,Δについて適当に初期値を設定する
βh,VB,Δについて適当に初期値を設定する

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

階層ベイズ2

,Δを固定して
を固定してβ
VB,Δを固定してβhの事後分布からサンプリング

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

階層ベイズ2

サンプリングされたβ
サンプリングされたβhを目的変数とする
多変量回帰モデルからΔ
多変量回帰モデルからΔの事後分布を得る

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

階層ベイズ2

Δ とβhを固定してVBを発生させる
を固定してV

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

階層ベイズ2

M回以降（バーンイン期間）の繰り返しについて
それぞれのパラメータを保存する

Zｈ Xｈ
V0
事前分布
IW(v0,V0) VB
v0
βh yh
Σ0
事前分布
MVN(Δ0,Σ0) Δ
Δ0

実際の分析では？
ネステッドロジスティックモデルのようなモデルを使用する
来店の有無
第一階層
1
p0 = 1- p1 1 1
p1 来店意思決定
無有

カテゴリ生起
第2階層
階層
2
p0 = 1- p1 2 2
p1 カテゴリ購買意思決定
購買無購買有

ブランド選択
第3階層
階層
3
p0 = 1- p1 3
P13=1 – pa3 – pb3 – ・・・ - py3 ブランド選択意思決定
Aブランド購入
ブランド購入・・・ Zブランド購入
ブランド購入

実際にどんな使い方をされているのか？

◆ 目的
当該店舗に対するユーザ個々のロイヤリティ算出
◆ 手法
・階層ベイズモデル
・カルマンフィルタ（非線形の場合は粒子フィルタ）
・MCMC
・データ拡大（ユーザのブランドロイヤリティ算出）

時系列でユーザのロイヤリティを把握し、
ユーザ個々に対するマーケティング活動を目指す


前回来店か
らの日数 βh1
降水量 βh2
…
…
…
…

Model
チラシ掲載
購入する
ロスリーダ βhn
商品の平均

購入確率
値引き率

平均
来店間隔 αh1 購入しない
来店手段 αh2
…
…
…

Model

年齢
αhｎ


前回来店か
らの日数 βh1
降水量 βh2
…
…
…
…

Model
近い数値を持つユーザをセグメ
チラシ掲載
購入する
ロスリーダ βhn ント分けするような効果を持ち、
商品の平均

購入確率
値引き率ユーザの共通部分によるパラメ
ータ算出を行う
平均
来店間隔 αh1 購入しない
来店手段 αh2
…
…
…

Model

年齢
αhｎ

消費者異質性と消費者共通性のモデル化の概念

消費者間の関係を表す主体間行動モデル
消費者間の関係を表す主体間行動モデル
（事前分布）

集団共通のパラメータ
集団共通のパラメータ

全消費者共通のパラメータ
全消費者共通のパラメータ
・・・

（各個人の属性）

分布の形状は同じ

消費者異質性と消費者共通性のモデル化の概念

集団全体で共通の分散値
集団全体で共通の分散値
ある消費者i
ある消費者iの属性の関数で表現される平均
ある消費者i
ある消費者iの市場反応などを示すパラメータ

この分布には時間に依存しない構造（共通な関数形及び分布形）をもつ制約を課す

階層ベイズモデルでは、さらに各個人の行動データを表現する各
人の尤度関数（主体内行動）を定める

このような方法が
マーケティングにおける階層ベイズモデル利用の
典型

モデルの仮定
１．消費者の来店生起行動は個人ごとに異質だと考えるが、
部分的に消費者間共通性も存在する
２．来店生起行動に影響する疑似家庭内在庫金額（後述）の
形成メカニズムは消費者ごとに異質である（個人ごとの
パラメータをもつ）が、その背後に消費者間の共通性も
有する。消費者間の共通性は消費者の行動特性、人口動
態的特性で説明できる
３．消費者の来店意思決定は、連続的に変動する潜在効用を
導入し表現する
４．潜在効用には時系列的影響要素（トレンド、週周期、前
回来店からの日数）と回帰成分（降水量、チラシ掲載ロ
スリーダー※商品平均値引率、掲載商品数）が影響する
５．来店有無（実際には潜在効用）に対して説明変数が与え
る影響は、時間の進展に伴い滑らかに変動する
※ロスリーダー商品：チラシに掲載すると集客効果が大きい商品

モデル化
来店効用のモデル化
個人i
個人iのt時点における来店総効用

正規分布に従う確率項
来店効用の確定項 ※説明変数の数は設定
によって変わる

添え字のt
添え字のtは当該時点を、
iは人を指す

モデル化
来店効用のモデル化
前スライドの数式を以下を用いて書き直す
パラメータをまとめたベクトル
＝時系列パラメタ

観測変数
（疑似家庭内在庫金額は推定値）

時系列モデル用に変形する

モデル化
来店生起のモデル化
非集計プロビットモデルによるモデル化

来店生起確率

モデルの識別性確保のため1とする
モデルの識別性確保のためとする
識別性確保のため

モデル化
疑似家庭内在庫金額のモデル化

商品カテゴリを示す

疑似家庭内在庫金額購買金額消費金額

Cの影響を調整するパラメータ
の影響を調整するパラメータ平均消費金額
（推定値） ← 0より大きいという制約を課す
より大きいという制約を課す（ホールドアウトデータから算出）

疑似家庭内消費金額に与える疑似家庭内在庫金額の影響度（推定値）

モデル化
消費者異質性のモデル化：階層モデル
全消費者共通のパラメタ（時系列） ← セグメント化する
全消費者共通のパラメタ（not時系列）セグメント化する

商品カテゴリ数次元の誤差項

(商品カテゴリ数×消費者共通パラメタ)次元の回帰係数行列
商品カテゴリ数×消費者共通パラメタ次元の回帰係数行列
商品カテゴリ数
したがって
パラメータの背後にある関係を
回帰式を使って説明している

※

モデル化
時変係数のモデル化
①tt,i , βjt,iのモデル化

j=1, … ,6

②wt,i のモデル化
時間変化を生み出す確率的変動項

③システムモデルの分散θ
③システムモデルの分散θi,sys のモデル化

モデル化
プロビットモデルにおけるデータ拡大

データ拡大ってなんなの？

モデル化

マルコフ連鎖モンテカルロ法の一種
（ギブスサンプラーの亜種）

総効用ut,iをパラメータの一種と考え(uat,iとする)、観測デ
総効用u をパラメータの一種と考え(u とする)
ータ(yt,i , Zt,i)に整合的になるようにサンプリングを行う
ータ(y
仮想的に疑似観測データを発生
⇒ 仮想的に疑似観測データを発生
サンプリングは切断正規分布切断正規分布から行う
サンプリングは切断正規分布から行う

モデル化

データ拡大の必要性

モデル化

非集計プロビットモデルに積分が含まれていることもあり、一般状態空間モデルの枠組
みが必要となる

非集計プロビットモデルの積分問題は、総効用u
非集計プロビットモデルの積分問題は、総効用ut,iが仮に観測できれば、積分計算は不
要になる

観測モデルをy でなくu
観測モデルをyt,iでなくut,iに対して設けることで、観測モデルが回帰モデルになる
つまり離散選択を回避し、回帰モデルを採用することになる
（0,1などの離散値ではなく連続数として扱える！）
0,1などの離散値ではなく連続数として扱える！）

この代替法が理論面※からも問題なく、また計算技術の面からも容易に実現できるので
あれば、離散選択モデルの活用範囲が格段に広がる！
あれば、離散選択モデルの活用範囲が格段に広がる！
※理論的説明は付録に収める

モデル化

切断正規分布の適用

モデル化

正の領域だけを定義域としてもつ正規分布、
負の領域だけを定義域として持つ正規分布を考える

総効用u
総効用ut,iをパラメータの一種個人のt時点の平滑化推定値
個人iの時点の平滑化推定値
としuat,iとした
としu

これにより取扱いやすいデータが手元に用意できる
これにより取扱いやすいデータが手元に用意できる
取扱いやすいデータ

モデル化

非集計プロビットモデルの
データ拡大による評価

モデル化

来店生起確率

データ拡大によってパラメータ化された総効用

yt,iのかわりに t,i, Ztpt,i)に整合的な at,iを導入することにより、消費者の来店生起行動の
のかわりに(y に整合的なu
に整合的な
観測モデルは以下で表現できる

モデル化
状態空間モデル

カルマンフィルタの適用

モデル化

状態変数の時間発展式も線形ガウス型
本稿の状態空間モデルは線形ガウス状態空間モデルとなる

状態空間モデルはシステムモデルと観測モデルで表現される
現在までに示されたモデルとの関係は次スライドの様になる

モデル化
状態空間モデル状態空間モデルで
扱うのはここ
ギブスサンプラー
階層モデルシステムモデル

FFBS
M-H法

観測モデル

説明変数相対変数来店有無

モデル化

システムモデル

観測モデル

MCMC法
MCMC法
同時事後分布の算出

計算にはこれを使う

① ② ③ ④

⑤ ⑥ ⑦ ⑧

⑨ ⑩

MCMC法
MCMC法
各生成分布の役割

MCMC法
MCMC法
DAGを用いた視覚的な同時事後分布の分解
DAGを用いた視覚的な同時事後分布の分解
事前分布事前分布事前分布事前分布

初期分布

モデルの尤度

状態ベクトルの分布

事前分布

MCMC法
MCMC法
推定の全体フロー
手順０ ※１

潜在効用のサンプリング
手順１消費者iに対して時点数だけサンプリング
消費者に対して時点数Tだけサンプリング
に対して時点数

MCMCの繰り返しループ
の繰り返しループ
For r=1 to R 状態ベクトルのサンプリング
手順２消費者iに対して時点数だけサンプリング

消費者のループ
消費者総数回)のループ
消費者総数(I回のループ手順３システムノイズのサンプリング

※１
手順４

消費者のループの終点

手順５
※２
※２
MCMCのループの終点
のループの終点手順６

MCMC法
MCMC法
推定の全体フロー
手順０ ※１

潜在効用のサンプリング
手順１消費者iに対して時点数だけサンプリング

MCMCの繰り返しループ
の繰り返しループ
For r=1,R 状態ベクトルのサンプリング
手順２消費者iに対して時点数だけサンプリング
最終的に算出したい値に適応させるため
消費者のループ
消費者総数回)のループ
に、サンプリリング手順は潜在効用値か
消費者総数(I回のループ
手順３システムノイズのサンプリング

ら行う※１
手順４

消費者のループの終点

手順５
※２
※２
MCMCのループの終点
のループの終点手順６

MCMC法
MCMC法
各手順詳細
手順：MCM のエルゴード性により、最終的な事後分布は初期値には依存しなくなる。
手順0：エルゴード性により、最終的な事後分布は初期値には依存しなくなる。
したがって、それらしい値を与えればよい。

MCMC法
MCMC法
各手順詳細

事前分布：逆ガンマ分布尤度関数：正規分布

自然共役分布により事後分布は逆ガンマ分布となる

MCMC法
MCMC法
各手順詳細

事前分布の定義

j = 1,…,6

事後分布の定義

j = 1,…,6

MCMC法
MCMC法
各手順詳細

例ではブランドカテゴリが2以上あるので多変量正規分布
例ではブランドカテゴリが以上あるので多変量正規分布

当該例の場合、尤度関数と事前分布は共役な関係ではないためM-Hアルゴリ
当該例の場合、尤度関数と事前分布は共役な関係ではないため
共役な関係ではないためアルゴリ
ズムを用いる
特にここでは酔歩M-Hアルゴリズムを用いる
特にここでは酔歩アルゴリズムを用いる

MCMC法
MCMC法
各手順詳細

候補サンプルを発生させるために用いたランダムウォークを以下に示す
Σδ, Σλ = diag(0.01, 0.01)
とした。
以下に示す採択確率
が0.4程度となるように
程度となるように
調整するのが最も良い
ひとつ前のステップでとされている。
あることを意味する

採択確率 δを対数変換の影響を調整するヤコビアン。採択確率の計算は対数
を対数変換の影響を調整するヤコビアン。採択確率の計算は対数
変換前の空間で行わなければならない。（λの計算では不要）
変換前の空間で行わなければならない。（の計算では不要）

MCMC法
MCMC法
各手順詳細

事前分布：正規分布を仮定尤度関数：正規分布

共役関係が成立するので、多変量回帰モデルにおける平均
未知、分散共分散既知の場合のベイズ推測（正規分布×
未知、分散共分散既知の場合のベイズ推測（正規分布×正
規尤度→正規分布）を援用できる
規尤度正規分布）を援用できる

MCMC法
MCMC法
各手順詳細

事前分布

Hδを縦につなげたベクトルクロネッカー積

事後分布

MCMC法
MCMC法
各手順詳細

事前分布：
事前分布：正規分布を仮定逆ウィシャート分布を仮定尤度関数：正規分布

既知、分散共分散未知の場合のベイズ推測（逆ウィシャート
分布×正規尤度→逆ウィシャート分布）を援用できる
分布×正規尤度逆ウィシャート分布）を援用できる

MCMC法
MCMC法
各手順詳細

事前分布

事後分布

MCMC法
MCMC法
各手順詳細

データ拡大
多項プロビットモデルへの応用

J個のブランドが選択肢とあると仮定し、識別性確保のため選択肢Jに対する相対効用の算
個のブランドが選択肢とあると仮定し、識別性確保のため選択肢Jに対する相対効用の算
識別性確保のため選択肢相対効用
出を行う

パラメータベクトル
uの説明変数
の説明変数

データ拡大

個人iの時点tでの選択肢j
個人iの時点tでの選択肢jの選択確率（多項プロビットモデル）

データ拡大

つまり

データ拡大
ギブスサンプラーの適用

各選択肢の式に示す分布の切断領域は,yt,i=jのときは以下の式になる

上に示す個々の条件付き分布f(･
上に示す個々の条件付き分布f(･|･)は、多変量正規分布の条件付き分布の議論を援用
f(
することで、次のような1
することで、次のような1変量の切断正規分布となる

データ拡大
パラメータ化した潜在効用と観測値y
パラメータ化した潜在効用と観測値yの関係

相対効用uaj,t,iがほかの選択肢の相対効用
相対効用u
よりも必ず大きくならなければy =jとならな
よりも必ず大きくならなければyt,i=jとならな
いことからくる条件
(k≠j)

ブランドkの効用値と比較してk
ブランドkの効用値と比較してk以外のブランドの効用値の方
が高いため、y =kとなることはない
が高いため、yt,i=kとなることはない

この2つの条件を満たせばy =jが成立する
この2つの条件を満たせばyt,i=jが成立する

以上によりuat,iの発生は1変量の切断正規分布から乱数を発生するだけであり
以上によりu の発生は1
その履行は容易であることが示された

データ拡大
具体的な利点

選択データy
選択データyt,iに整合的な
潜在変数uat,iを発生
潜在変数u
多重積分の計算が不要になる

回帰モデルにおける被説明変数が観測され
たこととみなせる

離散選択モデルが線形回帰モデルに帰着できる

プロビットモデルにおける最大の問題であった
多重積分を行わずともモデルの推定を行える
多重積分を行わずともモデルの推定を行える

付録


線形ガウス型状態空間モデル
基本的考え方
時系列表現
直接観測できないベクトル
システム・ノイズ

観測ノイズ

状態推定
観測区間より先の状態を推定

現在の観測値から現在の状態を推定

（ただし、t<T）

現在までの観測値に基づいて過去の状態を推定

一期先予測

システムモデル観測値から潜在変数を予測

フィルタリング

観測モデル一期先予測

一時点尤度

平滑化

システムモデル

フィルタリング一期先予測

カルマンフィルタ
状態xの平均と分散
状態の平均と分散

一期先予測

フィルタリング

固定区間平滑化

※F,G,Hはそれぞれのモデルにあった定型の行列を作成し、は最尤推定によって求める
はそれぞれのモデルにあった定型の行列を作成し、Qは最尤推定によって求める
はそれぞれのモデルにあった定型の行列を作成し、

参考文献
[1]Rで階層ベイズモデル, @yokkuns
http://www.slideshare.net/yokkuns/r-16189019
[2]Amosを使ったベイズ推定, 小杉考司
http://www.slideshare.net/KojiKosugi/amos-16660816
[3]ビッグデータ時代のマーケティング, 佐藤忠彦・樋口知之,
講談社

階層ベイズによるワンToワンマーケティング入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from shima o

More from shima o (20)

階層ベイズによるワンToワンマーケティング入門