Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

社会心理学者のための時系列分析入門_小森

2,123 views

Published on

日本社会心理学会第6回春の方法論セミナー 「社会心理学者のための時系列分析入門」小森担当分.下記リンク「時系列地獄めぐりMAP.pdf」と一緒にご覧ください https://drive.google.com/file/d/1mr73_49oTWHp7yiGrqUITOWQMTgaqmFi/view?usp=sharing

Published in: Science
  • Be the first to comment

社会心理学者のための時系列分析入門_小森

  1. 1. 心理学の研究にいつか 役に立つ時系列分析 小森政嗣 日本社会心理学会第6回春の方法論セミナー 「社会心理学者のための時系列分析入門」
  2. 2. 自己紹介 •小森 政嗣(こもりまさし) • 大阪電気通信大学 情報通信工学部 情報工学科 • 専門:感性情報学 • 様々な時系列データを扱ってきた • ラットやサルの電気生理 • 合コン・カウンセリング・授業場面の体の動き • ツイッターの投稿の時間的変化 • 気分障害患者の日内活動量パタン -5 -4 -3 -2 -1 0 1 2 3 4 5 0 500 1000 1500 2000 2500 INTENSITYOF BODYMOVEMENT[dB] TIME[s] COUNSELOR CLIENT ユング派のカウンセリング場面のビデオ解析 Nagaoka & Komori, 2008; 小森・長岡, 2010
  3. 3. なぜいま時系列? • 本セミナーでは両手で数えられる数の時点より多い時点のデータを 想定している(5点ぐらいの縦断データ分析を期待してた人ゴメンナ サイ) • 経験サンプリング(Experience sampling) や,ライフログデータ・SNSデータ などから得られた生態学的妥当性が高いデータが直接的に,電子的, かなり自動的に記録できるようになった
  4. 4. 時系列データ解析の難しさ: そもそも記述統計すら簡単ではない •平均値が記述統計量として使えないこともある JS Bach, Prelude No. 1 in C major (Glenn Gould)の音波形 このデータの平均値は0 地震波や音声波形の「強さ」の指標には分散の対数値を取ることが一般的 (いわゆるdB(デシベル)と呼ばれるやつ)
  5. 5. 時系列データ解析の難しさ: 手法が分野依存のところがある • ツイッターでこんなつぶやきを見つけた ※元ツイートは削除されている こんなグラフがあって「XX時には 野生型と変異体で差があります」を 言いたいときに使う検定がわからな くて時間が溶けてる。各時刻で野生 型 vs 変異体のt-testをするのはよ くなさそうなのはわかる。 グラフは下記サイトから引用一部改変 二つの時系列データの間に「差」があるか判断するには - StatModeling Memorandum http://statmodeling.hatenablog.com/entry/difference-between-time-courses 野生型 変異体
  6. 6. 野生型 変異体 時系列データ解析の難しさ: 手法が分野依存のところがある • このつぶやきに関する「Togetterまとめ」から抜粋 こんな単純なデータに対する分析であっても, 各々のバックグラウンドによって提案する方法が異なる 二つの時系列データの間に「差」があるか判断するには - StatModeling Memorandum http://statmodeling.hatenablog.com/entry/difference-between-time-courses より引用 • 単に平均値を比較すればいい • 時刻ごとt検定で連続N時刻以上有意でOK • ↑多重検定補正が必要だろ • ↑時系列に対して多重検定補正はおかしい • 拡張ディッキー–フラー検定の後,変化点検出 • クラスター並べ替え検定 • 変化点検出を組み込んだ状態空間モデル(アヒル本の中の人)
  7. 7. 時系列データ解析の難しさ: 東日本大震災直後のツイッターのセンチメント分析 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 3月11日 3月12日 3月13日 3月14日 3月15日 3月16日 3月17日 3月18日 感 情 語 の 出 現 比 率 地震・津波 / 不安 原発事故 不安 地震・津波 / 怒り 原発事故 怒り 0.027 (原発事故/怒り 平均+2SD) 福島第一原発1号機 爆発事故報道開始 (3月12日 16:50-) 東京電力計画停電 開始予定時刻 (3月14日 6:20) 東京電力計画停電 実際の開始時刻 (3月14日 17:00) 福島第一原発2号機 水素爆発事故報道開始 (3月15日 5:30-) 24時間周期で地震・津波への不安があらわれる 原発への不安には概日リズムは見られない,減衰も小さい 3.11後1週間の日本語全ツイートの分析 三浦・小森・松村・前田 (2015). 東日本大震災時のネガティブ感情反応表出―大規模データによる検討―心理学研究, 86, 102-111.
  8. 8. 時系列データ解析の難しさ: 東日本大震災直後のツイッターのセンチメント分析 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 3月11日 3月12日 3月13日 3月14日 3月15日 3月16日 3月17日 3月18日 感 情 語 の 出 現 比 率 地震・津波 / 不安 原発事故 不安 地震・津波 / 怒り 原発事故 怒り 0.027 (原発事故/怒り 平均+2SD) 福島第一原発1号機 爆発事故報道開始 (3月12日 16:50-) 東京電力計画停電 開始予定時刻 (3月14日 6:20) 東京電力計画停電 実際の開始時刻 (3月14日 17:00) 福島第一原発2号機 水素爆発事故報道開始 (3月15日 5:30-) 原発への不安には概日リズムは見られない,減衰も小さい 3.11後1週間の日本語全ツイートの分析 各時点は独立ではなく連続的に変化している 三浦・小森・松村・前田 (2015). 東日本大震災時のネガティブ感情反応表出―大規模データによる検討―心理学研究, 86, 102-111.
  9. 9. 時系列データ解析の難しさ: 東日本大震災直後のツイッターのセンチメント分析 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 9:00 12:00 15:00 18:00 21:00 0:00 3:00 6:00 3月11日 3月12日 3月13日 3月14日 3月15日 3月16日 3月17日 3月18日 感 情 語 の 出 現 比 率 地震・津波 / 不安 原発事故 不安 地震・津波 / 怒り 原発事故 怒り 0.027 (原発事故/怒り 平均+2SD) 福島第一原発1号機 爆発事故報道開始 (3月12日 16:50-) 東京電力計画停電 開始予定時刻 (3月14日 6:20) 東京電力計画停電 実際の開始時刻 (3月14日 17:00) 福島第一原発2号機 水素爆発事故報道開始 (3月15日 5:30-) 三浦・小森・松村・前田 (2015). 東日本大震災時のネガティブ感情反応表出―大規模データによる検討―心理学研究, 86, 102-111. 24時間周期で津波への不安があらわれる 原発への不安には概日リズムは見られない,減衰も小さい 周期性 外的なイベント(爆発事故報道等) に依存して入るバースト
  10. 10. 時系列データはこんなに面白いのに皆んなが 「時系列分析」にイマイチ興味を持てない理由 • 「時系列分析」の教科書は経済学に寄りすぎ • 記述や解釈ではなく「予測」に重点がある • 経済指標の欠損値は殆ど無い • 連続量でシングルケースが多い(株価,雇用統計…etc.) • 目的やデータに依存して方法が違うので全体像がわかりにくい ↓そこで竹林,藤原,小森の3人で相談して作った 時系列解析 for 心理学 地獄めぐりMAP
  11. 11. ノンパラベイズ 状態 の数 START! 解析の 目的は 周波数構 造の時間 的変化 フーリエ変換 パワースペクトル 短時間フーリエ変換(STFT) ウェーブレット変換 スペクトログラム データは テンソル分解 (Tuckerなど)動 的因子分析 非負値? 非負値行列分解 (NMF) 主成分分析(PCA) 独立成分分析(ICA) 相関・一致・ 類似 or 因果 データは? 移動情報量 (TE) 線形/ 非線形 収束的交差写像 (CCM) VARモデル Granger因果性検定 インパルス応答 見たいものは Phase Locking Value などの角度統計・ ウェーブレット相互ス ペクトラム解析 連関係数 相互情報量(MI) ハミング距離 連続/離散 ピアソンの 積率相関 線形? MIC 連続/ 離散 動的時間伸縮 (DTW) ルーベンシュタイン距 離・ジャロウインクラー 距離などの編集距離 相互再帰定量化分析 (CRQA) 状態の 変化 変化する 時点 差分の差分 CausalImpact 隠れマルコフモデル(HMM),レジーム スイッチングモデル(変化点モデル) 動的線形モデル Box-Jenkins法 周波数の構造が 知りたい 状態が 離散的に変化する 状態は連続的に 変化する 未知 既知 サロゲート データ法 因果 相関・一致 カオス的振る舞い・局所的相関 スパイクデータの タイミングの一致 変動パタン そのものの類似 変動のタイミング 離散 連続 非線形 カオス系 線形/線形に 変換する 離散 連続 非線形 線形 離散 連続 複数の時系列間の 関係を調べたい 2相 非負値 非負でない ある ない 3相 @masashikomori@psycle44 季節変動は? トレンドは? 観測値は連 続?離散? 既知 未知
  12. 12. ノンパラベイズ 状態 の数 START! 解析の 目的は 周波数構 造の時間 的変化 フーリエ変換 パワースペクトル 短時間フーリエ変換(STFT) ウェーブレット変換 スペクトログラム データは テンソル分解 (Tuckerなど)動 的因子分析 非負値? 非負値行列分解 (NMF) 主成分分析(PCA) 独立成分分析(ICA) 相関・一致・ 類似 or 因果 データは? 移動情報量 (TE) 線形/ 非線形 収束的交差写像 (CCM) VARモデル Granger因果性検定 インパルス応答 見たいものは Phase Locking Value などの角度統計・ ウェーブレット相互ス ペクトラム解析 連関係数 相互情報量(MI) ハミング距離 連続/離散 ピアソンの 積率相関 線形? MIC 連続/ 離散 動的時間伸縮 (DTW) ルーベンシュタイン距 離・ジャロウインクラー 距離などの編集距離 相互再帰定量化分析 (CRQA) 状態の 変化 変化する 時点 差分の差分 CausalImpact 隠れマルコフモデル(HMM),レジーム スイッチングモデル(変化点モデル) 動的線形モデル Box-Jenkins法 周波数の構造が 知りたい 状態が 離散的に変化する 状態は連続的に 変化する 未知 既知 サロゲート データ法 因果 相関・一致 カオス的振る舞い・局所的相関 スパイクデータの タイミングの一致 変動パタン そのものの類似 変動のタイミング 離散 連続 非線形 カオス系 線形/線形に 変換する 離散 連続 非線形 線形 離散 連続 複数の時系列間の 関係を調べたい 2相 非負値 非負でない ある ない 3相 @masashikomori@psycle44 季節変動は? トレンドは? 観測値は連 続?離散? 既知 未知 計量時系列分析 信号処理 信号処理 カオス 情報理論 情報理論
  13. 13. 差分の差分 CausalImpact 「時間経過に伴って現れる変化が見たい場合」 〜状態空間モデルの世界〜 ノンパラベイズ 状態 の数 START! 解析の 目的は 状態の 変化 変化する 時点 隠れマルコフモデル(HMM),レジーム スイッチングモデル(変化点モデル) 動的線形モデル Box-Jenkins法 状態が 離散的に変化する 状態は連続的に 変化する 未知 季節変動は? トレンドは? 観測値は連 続?離散? 既知 未知
  14. 14. 時間経過に伴って現れる変化が見たい場合 観測された時系列Y 1 t 真の状態 xn 時刻 n 平滑化 ・補間 フィルタ 予測 x t-k t - k t + k x t+kx t • 時系列データを使って • 将来の予測をする • 状態が変化する仕組みを知る y1 yt 状態の変化を生み出す仕組み
  15. 15. 時間経過に伴って現れる変化が見たい場合 • データの例(1月〜7月の@kosugittiさんの体重) ローデータ 確率的レベルモデル (1階差分モデル) 補間と予測 確率的トレンドモデル
  16. 16. 時間経過に伴って現れる変化が見たい場合 • データの例(学生が宇治でデートした時のGPSデータ) • スイッチングCorrelated Random Walkモデルで分析 ◯滞留モード ◯移動モード 平滑化と状態の推定
  17. 17. 時間経過に伴って現れる変化が見たい場合 • データの例(ある学生の1年間の出席状況) • 「授業出席意欲」がランダムウォークするロジスティック回帰モデル 補間と予測 出席確認回数 出席回数 講義出席率 「真」の出席率推定値学生A 学生B
  18. 18. このセクションで言いたいこと •時系列データに安易に回帰分析をし てはいけない •古典的な時系列分析手法は「短期的 な予測」のみが目的なので心理学に はあまりなじまない •状態空間モデルは楽しい
  19. 19. Box−Jenkins法(ARIMAモデル) 1. まず非定常過程の時系列データから,トレンドやら季節変 動やらを「余計なもの」として除去して定常過程に直す 2. 定常過程に直したものに対して,ARやMAモデルを組み合わ せたARMA(自己回帰移動平均モデル)で分析する ※ARモデル(ベクトル自己回帰モデル) MAモデル(移動平均モデル) • 古典的だが手続きが確立した手法(柔軟性はない) • Rだと{forcast} のauto.arima()関数で簡単にできる だいたい時系列分析の教科書の最初のほうに載ってるやつ のめっちゃ雑な説明
  20. 20. 定常な時系列データの代表 ホワイトノイズ • 正規分布に従うノイズ • 平均,分散ともに時間によって 変化しない「定常過程」 • 大域的に見れば平らで,また自己相関は一定 #White noiseの作成. R t <- 1:100 white.noise <- rnorm(100) plot(t, white.noise,type="o") acf(white.noise) #自己相関 𝜇 𝑡 = 𝜀 𝜇 𝑡 𝜀 𝜇 𝑡 ~𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎𝜇 自己相関 ラグ 自己相関がどれもほぼ0
  21. 21. 定常な時系列データの代表 ホワイトノイズ #White Noiseをglmで回帰 summary(glm(formula= white.noise ~t)) 時間を独立変数にして GLMで回帰分析をすると… めったに有意 にはならない 100回試してみても有意になることは滅多にない(赤が有意となった時系列) しかしホワイトノイズのように 定常な時系列データはほぼない
  22. 22. 非定常な時系列データの代表 ランダムウォーク • 「ランダムウォーク」とは? • 一つ前の𝜇に正規ノイズ𝜀 𝜇が 累積加算されていく過程 𝜇 𝑡 = 𝜇 𝑡 − 1 + 𝜀 𝜇 𝑡 𝜀 𝜇 𝑡 ~𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎𝜇 • 非定常過程(特に単位根過程と呼ばれる) • 大域的に見ても平らにはならない #Random Walkの作成. R t <- 1:100 random.walk <-cumsum(rnorm(100)) plot(t, random.walk,type="o") acf(random.walk) #自己相関 世の多くのデータはこんな感じ 自己相関がなだらかに減少
  23. 23. 非定常な時系列データの代表 ランダムウォーク #White Noiseをglmで回帰 summary(glm(formula= random.walk ~t)) 時間を独立変数にして 回帰分析をすると… 有意に なりがち ランダムにも関わらず殆どの系列が「有意」(赤は y ~ t が有意となった時系列) 安易に時間tを説明変数とした 回帰分析をやってはいけない
  24. 24. ランダムウォークはホワイトノイズに 変換することができる • ランダムウォーク 𝜇 𝑡 = 𝜇 𝑡 − 1 + 𝜀 𝜇 𝑡 移項すれば 𝜇 𝑡 − 𝜇 𝑡 − 1 = 𝜀 𝜇 𝑡 ←隣り合う時点の差を取れば ホワイトノイズと同じになる ランダムウォークのデータを分析するとき にはこのように「階差」を取って分析する この差を目的変数に 回帰分析を実行する 古典的な時系列分析では,このように データに対して様々な変換を施して, それから回帰分析を行う 回帰分析を実行するために,システマティックに時系列データの変換を 行い,データを定常過程に直す一連の手続きがBox−Jenkins法
  25. 25. ARモデル(自己回帰モデル) MAモデル(移動平均モデル) •AR(1)モデル 𝑌 𝑡 = 𝑎0 + 𝑎1 𝑌[𝑡 − 1] + 𝜀𝑡 𝜀𝑡~Normal(0, 𝜎) •AR(p)モデル 𝑌 𝑡 = 𝑎0 + 𝑘=1 𝑝 𝑎 𝑘 𝑌 𝑡 − 𝑘 + 𝜀𝑡 𝜀𝑡~Normal(0, 𝜎) •MA(1)モデル 𝑌 𝑡 = 𝜃0 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1 𝜀𝑡~Normal(0, 𝜎) •MA(q)モデル 𝑌 𝑡 = 𝜃0 + 𝑘=1 𝑞 𝜃 𝑘 𝜀𝑡−𝑘 + 𝜀𝑡 𝜀𝑡~Normal(0, 𝜎) AR(p)モデルとMA(q)モデルを組み合わせると ARMA(p,q)モデルになる
  26. 26. Box−Jenkins法(ARIMAモデル) 1. まず時系列データを対数変換したり,単位根過程(ランダ ムウォーク)やら季節変動やらを「余計なもの」として (単位根検定などを利用し)除去して,非定常過程を定常 過程に直す 2. 定常過程に直したものに対して,ARやMAモデルを組み合わ せたARMA(自己回帰移動平均モデル)で分析する • 古典的だが手続きが確立した手法(柔軟性はない) • 弱点:欠損値があるとだめ,目的変数は連続量 の,めっちゃ 雑な説明再掲 • Box−Jenkins法は短期的な予測にのみ関心がある • でも僕らが見たいのは全体的なダイナミクスそのものやんな? • もっと良い方法がある→状態空間モデル
  27. 27. 状態空間モデル • 状態空間モデルでは真の状態𝜇と観測値𝑌を区別する • 真の状態は直接は観測できない • 観測値は時々刻々得られる 真の状態𝜇 観測値𝑌 𝜇[1] 𝜇[2] 𝜇[𝑇] 𝑌[2]𝑌[1] 𝑌[𝑇] ⋯ ⋯ システムモデル(状態方程式) 「真の状態」の前後の関係式 観測モデル(観測方程式) 「真の値」は観測値に その都度反映される
  28. 28. 状態空間モデル 先ほど紹介したランダムウォークモデル+観測ノイズ 𝜇 𝑡 ~ Normal 𝜇 𝑡 − 1 , 𝜎𝜇 システムモデル(状態方程式) 𝑌 𝑡 ~ Normal 𝜇 𝑡 , 𝜎 𝑌 観測モデル(観測方程式) 真の状態𝜇 観測値𝑌 𝜇[1] 𝜇[2] 𝜇[𝑇] 𝑌[2] 𝑌[1] 𝑌[𝑇] ⋯ システムモデル 観測モデル ⋯ +𝜀 𝜇1 +𝜀 𝜇2 +𝜀 𝜇𝑇−1 +𝜀 𝑌1 +𝜀 𝑌2 +𝜀 𝑌𝑇 (状態撹乱項) (状態撹乱項) (観測撹乱項) (観測撹乱項)
  29. 29. 状態空間モデル 𝜇 𝑡 ~ Normal 𝜇 𝑡 − 1 , 𝜎𝜇 システムモデル(状態方程式) 𝑌 𝑡 ~ Normal 𝜇 𝑡 , 𝜎 𝑌 観測モデル(観測方程式) 観測値𝑌 𝑡 は真のkosugittiの体重𝜇 𝑡 に 分散𝜎 𝑌 2 の観測ノイズが乗ったもの 真のkosugittiの体重変化は分散 𝜎𝜇 2 の正規分布に従う ベイズ統計の考え方で𝜇, 𝜎𝜇, 𝜎 𝑌の事後分布を推定する 観測値𝑌 実線が𝜇 𝑡
  30. 30. 状態空間モデル 𝜇 𝑡 ~ Normal 𝜇 𝑡 − 1 + 𝑣[𝑡], 𝜎𝜇 状態方程式(𝜇のレベル) 𝑣 𝑡 ~ Normal 𝑣 𝑡 − 1 , 𝜎𝑣 状態方程式(トレンド𝑣) 𝑌 𝑡 ~ Normal 𝜇 𝑡 , 𝜎 𝑌 観測方程式 • kosugittiの体重変化にはトレンド𝑣が 影響している • 一つ前の時点の体重にトレンド𝑣と正 規ノイズが加わったものが現在の体重 • トレンド𝑣自体の変化は分散𝜎𝑣 2 の正規 分布に従う • 観測誤差は同じ トレンド自体も明示的にモデルに入れることができる柔軟性
  31. 31. 状態空間モデルの良いところ • システムモデル・観測モデルともに自由に設定できる • システムモデルにSIRモデル等の非線形なモデルも設定可能 • 観測モデルには,二項分布やポアソン分布等も設定可能 • もちろん古典的なARIMAモデルも包含している 真の状態𝜇 観測値𝑌 𝜇[1] 𝜇[2] 𝜇[𝑇] 𝑌[2]𝑌[1] 𝑌[𝑇] ⋯ ⋯ システムモデル(状態方程式) 観測モデル(観測方程式)
  32. 32. 状態空間モデルの良いところ 学習意欲𝜇 出席率𝑌 𝜇[1] 𝜇[2] 𝜇[𝑇] 𝑌[2]𝑌[1] 𝑌[𝑇] ⋯ ⋯ 学習意欲はランダムウォークする 学習意欲がロジスティック 関数を介して二項分布に 従って出席率を決定 多様な時系列データに対応が可能 出席確認回数 出席回数 「出席意欲」の推定値
  33. 33. 状態が離散値の場合 • 隠れマルコフモデル(HMM) • 状態が離散値の状態空間モデル • ガウス混合モデル(GMM)の時系列版だと考えれば ※stanでやる場合ちょっとテクニックが要る 潜在的に3状態あると 仮定した場合の結果 赤い線は潜在状態(離散値) 観測値 状態
  34. 34. 状態が離散値の場合 • 学生の宇治のデートGPSデータ • 各モードで𝜎 𝜼 2 , 𝜎𝜺 2 , 𝛾, 𝜃が異なる • ノンパラベイズによるウマの歩法推定 西山慶太,大北碧ら: 機械学習によるウマの歩法推定, 日本ウマ科学会第28回学術集会 ◯滞留モード ◯移動モード 𝛂 𝑡+1 = 𝛂 𝑡 + 𝛾𝐑𝐯𝑡 + 𝜼 𝑡 𝐲𝑡 = 𝛂 𝑡 + 𝜺 𝑡 𝛂 𝑡 = 𝑥1,𝑡 𝑥2,𝑡 𝐑 = cos𝜃 − sin𝜃 sin𝜃 cos𝜃 𝐯𝑡 = 𝑥1,𝑡 – 𝑥1,𝑡−1 𝑥2,𝑡 – 𝑥2,𝑡−1 𝜼 𝑡 ~ 𝑁 0, 𝜎 𝜼 2 𝜺 𝑡 ~ 𝑁 0, 𝜎𝜺 2
  35. 35. 介入の影響の評価 • 介入前のデータから介入後を推定する • 観測値と(介入が無かったときの)予測値との差を求める 介 入 観測値 介入前のデータ による予測 観測値と の差分 差の累積 (効果) Rの{CausalImpact} ライブラリの説明から
  36. 36. 状態空間モデルの世界まとめ • 古典的な時系列分析(Box-Jenkins法) • 頑張って時系列データを変換して定常過程に持ち込んで回帰・予測 • 状態空間モデル • 明示的にモデリングをしてダイナミクスを包括的に把握する • 多様な観測値(離散量,間隔データ,比率)を扱える • (かなり)欠損値があっても大丈夫,補間せずにそのまま使おう • MCMCが簡単に使えるようになったおかげで「使える」手法に 参考図書 こちらもぜひ https://www.slideshare.net/MasashiKomori/stanrchapter12
  37. 37. 周波数の構造が知りたい 〜周波数ドメインの世界〜 START! 解析 ⽬的 周波数構 造 時間 的変化 変換 短時間 変換(STFT) 変換 周波数 世界 周波数の構造が 知り たい ある ない
  38. 38. 周波数ドメインの世界 • 時系列分析は大きく分けると二種類ある • もちろん周波数領域で統計を実行することもできる • 時系列データに隠されている周期性を発見したい • ある周期の成分だけを取り出したい…etc. 時間領域 (Time domain) 周波数領域 (Frequency domain) 時系列データ スペクトル フーリエ変換 逆フーリエ変換
  39. 39. 周波数領域での統計を実行した例 気分障害入院患者の活動パタン分析 双極性障害 に多いパタン うつ病に 多いパタン 00:00 04:00 08:00 12:00 16:00 20:00 24:00 Fourier Series Expansion Intra-day Activity Data PCA Comparisons of PC scores Reconstruction of the pattern corresponding to each PC 鬱病,鬱期の双極性障害 患者の活動量変化から 気分障害と関連した成分を 探索的に見出す試み Tanaka, T., Kokubo, K., Iwasa, K., Sawa, K., Yamada, N., & Komori, M. (2018). Intraday activity levels may better reflect the differences between Major Depressive Disorder and Bipolar Disorder than average daily activity levels. Frontiers in psychology, 9.
  40. 40. 周波数の構造が知りたい • 離散フーリエ変換の数式は自体は難しそうに見えるが, 要は信号 f(x) と三角関数の共分散を見ている • ある区間の特徴を見るためには,短時間フーリエ変換 (STFT)や,ウェーブレット変換を行う • 窓関数やマザーウェーブレットの選ぶ必要がある • 生理データ,音声,身体動作の分析には有用かと あとは藤原先生に任せます!
  41. 41. 多変量時系列データを要約したい 〜行列/テンソル分解の世界〜 START! 解析の 目的は データは テンソル分解 (Tuckerなど)動 的因子分析 非負値? 非負値行列分解 (NMF) 主成分分析(PCA) 独立成分分析(ICA) 2相 非負値 非負でない 3相
  42. 42. 多変量時系列データを要約したい 同じ振り付けで踊っているPerfumeの モーションキャプチャデータ 解析区間全ての標識点座標のプロット −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5−1.0−0.50.00.51.01.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 のっち かしゆか あ~ちゃん −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5−1.0−0.50.00.51.01.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Factor 1 Factor2 Factor3 ● ● ● 各動作者の因子得点 これが… こうじゃPARAFACを使うたら
  43. 43. 多変量時系列データを要約したい • 携帯端末を用いた集落の社会的ネットワークの分析 𝑌 𝐽 𝐼 𝑌𝑖,𝑗 ≥ 0 時 系 列 ( 半 年 以 上 ) 人と人の組み合わせJ=2850 30分毎の 検知データ (0〜6) 住民同士の社会的接触を4ヶ月にわたり測定した. 小型携帯端末のBluetooth機能により空間的な 近接を記録した 小森政嗣, 飯田梨乃, 箕浦有希久, 一言英文, 竹村幸祐, 内田由紀子. (2018). 集落の多層的な社会的ネットワークの分解, 日心大会
  44. 44. 多変量時系列データを要約したい • 携帯端末を用いた集落の社会的ネットワークの分析 • 非負値行列分解(NMF)ですれ違いデータを分解 小森政嗣, 飯田梨乃, 箕浦有希久, 一言英文, 竹村幸祐, 内田由紀子. (2018). 集落の多層的な社会的ネットワークの分解, 日心大会 各因子と対応する社会的接触生起パタン 各因子と対応する社会的ネットワーク
  45. 45. 行列/テンソル分解の世界まとめ •大量のログデータを扱うときには必要 •実際には行動のデータは音声や脳波のデータと 異なって,疎(スパース)であることが多く, また欠損値も多いので注意が必要
  46. 46. 複数の時系列間の相関・一致が知りたい 〜シンクロの園〜 ⾒ Phase Locking Value ⾓度統計・ 相互 解析 連関係数 相互情報量( M I) 距離 連続/離散 積率相関 線形? M IC 連続/ 離散 動的時間伸縮 ( DTW ) 距 離・ 距離 編集距離 相互再帰定量化分析 ( CRQA) 法 相関・一致 カ オス的振る 舞い ・局所的相関 位 相 差 が 一 定 か ど う か スパイ ク データ の タ イ ミ ン グの一致 変動パタ ン そのも のの類似 変動のタ イ ミ ン グ 離散 連続 非線形 線形 離散 連続 START! 解析 ⽬的 相関・ ⼀致・ 類似 or 因果 複数の時系列間の 関係を調べたい
  47. 47. Synchronyの研究のイメージ F1 F2 F3 F4 M1 M2 M3 M4 異性間 同性間 女性陣    男性陣 Wiiリモコンを背負って 白木屋で合コン 合コンの研究(小森, 2010) 有意な偏相関のあったペア 女性は好みの男性の身体動作に同期して動く
  48. 48. 変動のタイミングの一致 • 時系列データ同士の相関係数や共分散 • 適切なラグ(時間的なズレ)を設けると良い場合がある 教員の声の強さと,その0.7秒後の学生の体 の動きの共分散をマッピングすると, 授業を聞いている学生がどこにいるか判る 音声 身体動作 授業前半 授業後半 Komori & Nagaoka (2012)
  49. 49. 変動のタイミングの一致 離散量の場合 •こんな感じのデータの場合は… 連関係数や相互情報量などで評価(多分) 0 1 0 1 1 1 1 0 1 0 1 1 1 1 0 1 0 1 1 1 1 0 … 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1 0 1 0 0 0 0 … 風呂,メシ,風呂,メシ,寝る,寝る,風呂,メシ,寝る… 風呂,寝る,風呂,メシ,メシ,寝る,メシ,風呂,寝る…
  50. 50. スパイクデータのタイミングの一致 •サロゲートデータ法 • 一方をランダムシャッフル系列 にしてコントロールとする Refference Test 3 1 2 4 5 6 Refference Randomized 3 5 4 2 6 2 二つの系列を用意し,同期を評価 一方をランダムにシャッフルする 比較 野村亮太ら(2014) 『演芸における表現と しての間と観客のまばたき同期』より シャッフル した系列
  51. 51. 位相差が一定かどうかを調べる •角度統計による評価 •ヒルベルト変換で瞬時位相を求め位相差(角度) をPhase Locking Valueで評価 位相差 相関係数は0だが… 脳波の同期の解析ではしばしば 用いられるが,社会心理学で どう使うかは不明 別の方法(相互スペクトラム解析)は藤原先生からご説明
  52. 52. 変動パタンそのものの類似の評価 • 連続量の場合は,動的伸縮法(Dynamic Time Warping: DTW)で複数 の時系列を揃えてから類似度評価をする • 離散量の場合は編集距離(DNAなどの近さを評価する方法) で類似度評価する 2018年台風全経路図 →時系列クラスタリングに使われる事が多い
  53. 53. カオス的振る舞い(非線形時系列解析) • 相互再帰定量化分析(Cross recurrent quantification analysis: CRQA) • 時系列の変動がノイズに由来するのか,それとも決定論 的カオスによって生じているのかを検討する 再帰定量化分析に用いられる リカレンスプロット 対話中の重心動揺を計測 Shockley, Santana & Fowler (2003)
  54. 54. 複数の時系列間の因果が知りたいSTART! 解析の 目的は 相関・一致・ 類似 or 因果 データは? 移動情報量 (TE) 線形/ 非線形 収束的交差写像 (CCM) VARモデル Granger因果性検定 インパルス応答 因果 離散 連続 非線形 カオス系 線形/線形に 変換する 複数の時系列間の 関係を調べたい
  55. 55. 時系列の因果が知りたい •VARモデル(前に出てきたARモデルの多変量版) →Granger因果性検定→インパルス応答 • 時系列Xの現在までのデータだけでモデルを作成するより, 時系列Yの現在までのデータも考慮したほうが,より予測の 誤差が小さくなるとき 「Grangerの意味で因果(Y→X)がある」 詳しくは 竹林先生から! ARモデルの誤差 Y X X VARモデルの誤差
  56. 56. 時系列の因果が知りたい •移動情報量解析 • 2信号間の情報伝播の関係を推定する方法の一つ Xt+τ Xt Yt TY→X 𝑇𝑌→𝑋 = 𝑝 𝑋𝑡+τ, 𝑋𝑡, 𝑌𝑡 log 𝑝 𝑋𝑡+τ 𝑋𝑡, 𝑌𝑡 𝑝 𝑋𝑡+τ 𝑋𝑡 情報量 ココ!
  57. 57. 駆け足ですみませんでした(最後に) • これから注目すべきところ • 特に機械学習の方面では,RNN, LSTM,またDNN- HMM等,新しい時系列分析の方法が生まれています • 時系列分析は,単に「将来の値を予測する」ためだけ にあるのではないことをわかってもらえると嬉しい • 竹林さん,藤原さんからは,より楽しい具体的な研 究のお話があります!
  58. 58. ノンパラベイズ 状態 の数 START! 解析の 目的は 周波数構 造の時間 的変化 フーリエ変換 パワースペクトル 短時間フーリエ変換(STFT) ウェーブレット変換 スペクトログラム データは テンソル分解 (Tuckerなど)動 的因子分析 非負値? 非負値行列分解 (NMF) 主成分分析(PCA) 独立成分分析(ICA) 相関・一致・ 類似 or 因果 データは? 移動情報量 (TE) 線形/ 非線形 収束的交差写像 (CCM) VARモデル Granger因果性検定 インパルス応答 見たいものは Phase Locking Value などの角度統計・ ウェーブレット相互ス ペクトラム解析 連関係数 相互情報量(MI) ハミング距離 連続/離散 ピアソンの 積率相関 線形? MIC 連続/ 離散 動的時間伸縮 (DTW) ルーベンシュタイン距 離・ジャロウインクラー 距離などの編集距離 相互再帰定量化分析 (CRQA) 状態の 変化 変化する 時点 差分の差分 CausalImpact 隠れマルコフモデル(HMM),レジーム スイッチングモデル(変化点モデル) 動的線形モデル Box-Jenkins法 周波数の構造が 知りたい 状態が 離散的に変化する 状態は連続的に 変化する 未知 既知 サロゲート データ法 因果 相関・一致 カオス的振る舞い・局所的相関 スパイクデータの タイミングの一致 変動パタン そのものの類似 変動のタイミング 離散 連続 非線形 カオス系 線形/線形に 変換する 離散 連続 非線形 線形 離散 連続 複数の時系列間の 関係を調べたい 2相 非負値 非負でない ある ない 3相 @masashikomori@psycle44 季節変動は? トレンドは? 観測値は連 続?離散? 既知 未知 間違い,誤解などの御指摘や アドバイス等ありましたら SNS等でコメントお願いします! まだまだMAPは更新中
  59. 59. 事前質問 ありがとうございます
  60. 60. 質問1 • 参加者内計画で実験をおこない、従属変数について参 加者ごとに2本の時系列データ(例えば実験条件と統制 条件)を収集するとします。このとき実験条件と統制条 件とで従属変数の時系列変化が異なるかどうかを、状 態空間モデルで調べるにはどのような方法があります でしょうか。また単に異なるかどうかだけでなく、時 系列のどの時点から異なるのか、違いはどのくらいの 大きさなのか、もわかるとよいです。
  61. 61. 時系列データ解析の難しさ: 手法が分野依存のところがある • ツイッターでこんなつぶやきを見つけた ※元ツイートは削除されている こんなグラフがあって「XX時には 野生型と変異体で差があります」を 言いたいときに使う検定がわからな くて時間が溶けてる。各時刻で野生 型 vs 変異体のt-testをするのはよ くなさそうなのはわかる。 グラフは下記サイトから引用一部改変 二つの時系列データの間に「差」があるか判断するには - StatModeling Memorandum http://statmodeling.hatenablog.com/entry/difference-between-time-courses 野生型 変異体
  62. 62. これは • レジームスイッチングモデル • 変化点モデル 差分の差分 CausalImpact ノンパラベイズ 状態 の数 START! 解析の 目的は 状態の 変化 変化する 時点 隠れマルコフモデル(HMM),レジーム スイッチングモデル(変化点モデル) 動的線形モデル Box-Jenkins法 状態が 離散的に変化する 状態は連続的に 変化する 未知 季節変動は? トレンドは? 観測値は連 続?離散? 既知 未知
  63. 63. まずは「異なるのか」?
  64. 64. どこから異なるのか? レジームが変化する点が2点ぐらいまでならこの方法で書ける レジームがスイッチする点の数を予め想定できないならHMM
  65. 65. SSRI投与が行動 パタンに及ぼす効果 • SSRIの投与から約2週間で 行動に変化が現れる Kokubo, K., Tanaka, T., Iwasa, K., Sawa, K., Kadotani, H., & Komori, M. (2017, December). Preliminary study investigating influence of anti-depressant medication on diurnal physical activity patterns. In 2017 IEEE Life Sciences Conference (LSC)(pp. 67-70).
  66. 66. 質問2 • “例えば30人が、100試行からなる課題を遂行したとしま す。各参加者の、各試行における「反応時間の推移の 仕方」を、ある変数(例えば前日の睡眠時間)で予測 する、といったことは可能でしょうか。 • (例えば、睡眠不足であるほど、試行を追うごとに反 応時間が急峻に伸びやすい、など) • 反応時間は指数ガウス分布でモデリングする ことが多いように思います • 「試行数×前日の睡眠時間」の交互作用項を 指数ガウス分布のμに入れればよいかと

×