空間的自己相関
SengokuLABゼミ学習発表 宮本旺周
目次
• 空間的自己相関とは
• Python3における実装環境
• 適用例
• まとめ
• 参考文献
QUIZ
1 3 ? 7 9
QUIZ
1 3 5 7 9
空間的自己相関とは
• 「おとなりとの関係」のこと
• ものごとの予測の際、となりの地域と全
く無関係であるという仮定が難しい場合
がある。
• となりの状況を踏まえて考えると妥当な
推定値が得られる場合がある
• 階層ベイズモデルの一部に組み込む
ことが出来る
• この際、MCMCサンプリングを行う
• どの地域が「隣接」しているかは、研究
者自身が決定する必要あり(地理的近接
に限らない)
Python3における実装環境
• PyMC3によっ
てモデリング/
サンプリング
可能
• PyMC2とモデ
リングのやり
方が違うので
注意
• ただし、隣接
行列は自力で
指定する必要
あり?
適用例
• Scotlandのlip cancer(口唇がん)
• Clayton, and Kaldor, 1987. ほか
• 口唇がん:悪性新生物の1つ。日光などが因子となって発生するとされ
る。
• ⇒普段外で働いている人が多い地域では、症例が多くなるのでは?
• 各地域の1975-1980に報告された症例件数と、人口に占める農林水産
業従事者の割合、加えて各地域の期待死亡数(既知)をもとに、地域ご
とのリスク(SMR)を推計してみよう
適用例
• SMR:ある基準集団と比較した際の相対的なリスク
• SMR>1⇒相対リスク高い
• 基準集団の例:全国
• 𝑺𝑴𝑹 = 𝒀 𝒊
𝑬 𝒊
• 𝑌𝑖:地域iの死亡数
• E𝑖:地域iの期待死亡数
• 𝑬𝒊 = 𝒋
𝑫 𝒋
𝑵 𝒋
∗ 𝑵𝒊𝒋
• D𝑗: 基準集団での年齢𝑗の死亡数
• 𝑁𝑗: 基準集団での年齢𝑗の人口
• 𝑁𝑖𝑗: 地域iでの年齢jの人口
今回は、𝑬𝒊を既知とする
適用例
• スコットランドにおけるSMR推
定値
• 北部で高く、南部(イング
ランド寄り)で低い傾向
適用例
• 前頁で示したSMR
推定値の問題点
• 人口の少ない地域
では、ばらつきが
大きい
• 規模の小さい地域
では推定制度が悪
い(小地域問題)
⇒ベイズ統計を使っ
て死亡数を推定しよ
う
適用例
• モデル ※あくまでも一例
• 0𝑖~𝑃𝑜(exp( μ𝑖))
• 𝑌𝑖の観測値であるO𝑖は、平均 exp( μ𝑖)のポワソン分布に従う
• 𝜇𝑖 = 𝛽0 + 𝛽1 ∗ 𝑎𝑓𝑓𝑖 + 𝝋𝒊 + 𝜃𝑖 + 𝑙𝑜𝑔(𝐸𝑖)
• μ𝑖は上のような線形予測値に従う。aff:農林水産業従事者の割合
• 𝝋𝒊|𝝋𝒋,𝒋≠𝒊~ 𝑵(𝜶 𝒋=𝟏
𝒏
𝒃𝒊𝒋 𝝋𝒋, 𝝈 𝒄𝒊
𝟐
)
• 𝜑𝑖: 地域間のランダム効果。上記のような正規分布に従い、他地域の𝜑𝑗
と相関している(空間的自己相関)
• 𝜃𝑖~ 𝑁(0, 𝜎ℎ𝑖
2
)
• 𝜃𝑖:地域内のランダム効果。
適用例
• モデル(続き,事前分布関係)
• σ 𝑐𝑖~Gam 𝑎, 𝑏 ,
• 𝑎 = 1, 𝑏 = 1
• σℎ𝑖~Gam 𝑎, 𝑏 ,
• 𝑎 = 3.2761, 𝑏 = 1.81
• 𝛽 𝑘~𝑁(0, 105), k = 1, 2
ポワソン分布、平均𝜇𝑖
無情報
事前分布
階層事前
分布σ 𝑐𝑖
階層事前
分布σℎ𝑖
ガンマ分布ガンマ分布
説明変数
O𝒊
β
φθaff, E
適用例
• 事後分布は同時確率(尤度)と事前分布に比例する
• 事後分布:データYを得たときにパラメータが従う確率分布
• 尤度:パラメータがある値をとったときにYが得られる確率
• 事前分布:パラメータがあらかじめ従っている分布
• 𝑝 β0, β1, 𝜎𝑐𝑖 , 𝜑𝑖 , 𝜎ℎ𝑖 , θ𝑖 𝑌)
∝ 𝑝 𝜑𝑖 𝜎𝑐𝑖 )𝑝(𝜎𝑐𝑖 )𝑝 θ𝑖 𝜎ℎ𝑖 )𝑝(𝜎ℎ𝑖 )𝑝(β0)𝑝(β1) ∗ 𝑖 𝑝(𝑦𝑖|μ𝑖)
適用例
• サンプリング結果
適用例
• サンプリング結果
適用例
• SMR = exp(−0.198 + 0.031 ∗ 𝑎𝑓𝑓𝑖 +log( 𝐸𝑖))/ 𝐸𝑖
として、冒頭の結果と比較
Q この周辺確率分布の平均を
利用してよいか???
適用例
• 小地域の分散
が縮まったこ
とがわかる。
SMR
人口(人)
適用例
まとめ
• 今回できたこと
• MCMCをもちいてサンプリングし、空間的自己相関の構造をもつモデ
ルで特徴量を推計した。
• その結果を散布図や地図で吟味した。
• 次のステップ・わからないこと
• 隣接行列の設定方法を確認する
• 予測値の当てはめ方法を確認する
• 階層ベイズモデルについて今一度確認する(事後確率・尤度・事前確
率)
• PyMC3をより随意に使えるようにする
共有事項
• Google
Coraboratry:サン
プリング中は、長い
時間回してもタイム
アウトしなかった。
• GeoDa Data and
Lab というサイトに
いろいろなデータが
載っている。
References
• 加藤直広・立森久照・高橋邦彦. (2016). 地図の上で階層ベイズモ
デリング. 岩波データサイエンス, 4, pp. 55-67.
• 久保拓弥. (2012) . データ解析のための統計モデリング入門―一般
化線形モデル・階層ベイズモデル・MCMC. 岩波書店
• Clayton, D., and Kaldor, J. (1987). Empirical Bayes estimates
of age standardized relative risks for use in disease mapping.
Biometrics, 43,671-681, reproduced from Cressie, N. A. C.
(1993). Statistics for Spatial Data. New York: John Wiley &
Sons, p. 537 Table 7.2.
• Lawson et al. (1999). Disease Mapping and Risk Assessment
for Public Health. New York: Wiley, pp. 68-69, Table 5.1.
Websites
• GeoDa Data and Lab
• https://geodacenter.github.io/data-and-lab//
• PyMC3 Modeling tips and heuristic
• https://docs.pymc.io/notebooks/PyMC3_tips_and_heuristic.htm
l

Car rmodel