Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データ解析

6,919 views

Published on

  • Be the first to comment

データ解析

  1. 1. 東京大学 医学系研究科<br />倉橋一成<br />データ解析<br />
  2. 2. データはあるけどどうやって解析したら良いの?<br />東京大学 医学系研究科 倉橋一成<br />2<br />解析方法<br />データの形による解析<br />データの形が決まれば解析もある程度決まる<br />研究デザインによる解析<br />研究、実験のデザインに沿った解析<br />推定、検定<br />方法は数えきれない程ある<br />よく使われる検定はそんなに多くない<br />現在得ているデータを記述する<br />予測<br />推定の延長<br />将来得られる観測値を推定する<br />欠測<br />一部のデータが欠測している場合の推定、補完方法<br />変数の要約<br />調査票の解析、遺伝子データの解析など<br />多くの変数を要約する変数に縮小する<br />変数間の構造<br />因果関係とは?<br />ベイズ統計<br />
  3. 3. データの形による解析<br />東京大学 医学系研究科 倉橋一成<br />3<br />変数<br />順序(数値データ)<br />連続<br />体重、身長、血圧など<br />離散<br />調査票の回答など<br />名義(クラスデータ)<br />性別、世代など<br />生存時間<br />特殊な解析<br />結果変数×説明変数<br />
  4. 4. 解析をする際はどのような視点を持てば良いか?<br />東京大学 医学系研究科 倉橋一成<br />4<br />説明変数と結果変数<br />変数を説明変数と結果変数に分類<br />各変数の型<br />数値<br />正規性(正規性を仮定した漸近的なモデルを利用)<br />非正規性(ノンパラメトリックな解析)<br />クラス<br />群の数<br />各変数の数<br />1つ:単変量<br />2つ以上:多変量<br />変数の型と数によって分析方法がほぼ決まる<br />
  5. 5. 結果変数×説明変数の分類例<br />5<br />各変数の型(種類)での分類例<br />各変数の数での分類例<br />大部分のデータでは結果変数は単変量である<br />以降結果変数が単変量、多変量である場合に分けて説明<br />東京大学 医学系研究科 倉橋一成<br />
  6. 6. 数値×数値<br />東京大学 医学系研究科 倉橋一成<br />6<br />単変数<br />記述<br />相関係数<br />Searsonの積率相関係数<br />Spearmanの順位相関係数<br />Kendallの順位相関係数<br />予測<br />単回帰<br />多変数<br />重回帰<br />線形回帰<br />非線形回帰<br />移動平均<br />Spline<br />Locally Weighted Scatterplot Smoother(LOESS)<br />結果変数:単変量<br />
  7. 7. 数値×クラス<br />東京大学 医学系研究科 倉橋一成<br />7<br />単変量<br />2群比較<br />検定<br />t検定<br />等分散性を仮定したt検定<br />Welchの検定<br />符号検定<br />Wilcoxsonの符号付順位和検定(Mann-WhitenyのU検定)<br />並べ替え検定<br />多群比較<br />検定<br />分散分析<br />Kluskal-Wallis検定<br />推定<br />線形回帰<br />多変量<br />重回帰<br />多変量分散分析(MANOVA)<br />結果変数:単変量<br />
  8. 8. 等分散性の検定<br />東京大学 医学系研究科 倉橋一成<br />8<br />クラス間の等分散性<br />Levene検定<br />Bartlett検定<br />Harley検定<br />結果変数:単変量<br />等分散性<br />の検定<br />
  9. 9. 検定の多重性は常に気に留めておく<br />東京大学 医学系研究科 倉橋一成<br />9<br />多重性の問題<br />検定を何度も行うとαerrorが増大する<br />個々の検定のαerrorが5%であるから、何度も行うと全体のαerror(Family-wise type I error)が増える<br />古典的な調整<br />実験データで多用<br />Bonferroni<br />Tukey<br />Dunnet<br />Williams<br />False Discovery Rate(Benjamini, 1995, JRSS)<br />遺伝子データの分野<br />Closed testing(Marcus, 1976, Biometrika)<br />Gatekeeping procedure(Bauer, 1998, Stat Med)<br />臨床試験の分野<br />
  10. 10. クラス×数値<br />東京大学 医学系研究科 倉橋一成<br />10<br />判別<br />Fisherの線形判別分析<br />Nearest Neighbor<br />NeuralNetwork<br />Support Vector Machine<br />Bagging<br />決定木<br />回帰<br />ロジスティック回帰<br />ポアソン回帰<br />Spline回帰<br />Locally Weighted Scatterplot Smoother(LOESS)<br />結果変数:単変量<br />
  11. 11. クラス×クラス(分割表)<br />東京大学 医学系研究科 倉橋一成<br />11<br />単変量<br />χ2検定<br />Fisherの正確検定<br />Cochran-Armitage傾向検定<br />多変量<br />Chocran-Mantel-Haenszel検定(交絡の調整)<br />リスク差<br />リスク比<br />オッズ比<br />Breslow-Day検定(オッズ比の均一性の検定)<br />条件付きロジスティック回帰<br />結果変数:単変量<br />
  12. 12. 結果変数:単変量<br />東京大学 医学系研究科 倉橋一成<br />12<br />以上を統一するモデル<br />Generalized Linear Model(GLIM、一般化線形モデル)<br />Generalized Estimating Equation(GEE、一般化推定方程式)で解く<br />Generalized Additive model(GAM、一般化加法モデル)<br />モデルの構造<br />サンプリングモデル<br />結果変数の従う分布族の指定<br />指数型分布族<br />正規分布、二項分布、ポアソン分布など<br />平均構造のモデル<br />説明変数と結果変数の関係<br />リンク関数によって結果変数を変換<br />Identical link, log link, logit link<br />
  13. 13. 生存時間解析は少し特殊<br />東京大学 医学系研究科 倉橋一成<br />13<br />記述<br />Kaplan-Meier法<br />Log-log plot<br />Proportional Hazard(比例ハザード)性の確認<br />検定<br />Logrank検定<br />一般化Wilcoxson検定<br />推定<br />Cox回帰<br />
  14. 14. 変数間の構造を見たい(多変量×多変量)<br />東京大学 医学系研究科 倉橋一成<br />14<br />パス解析<br />Structural equation model(SEM、構造方程式モデル、共分散構造分析)<br />結果変数:多変量<br />
  15. 15. 経時データはどのように考える?<br />東京大学 医学系研究科 倉橋一成<br />15<br />結果変数は単変量か多変量か?<br />単変量<br />時間変数を説明変数に加える<br />GLIM, GAM等で解析<br />経済時系列解析<br />Autoregressivemoving average model(ARMA、自己回帰移動平均モデル)<br />自己回帰(AR)と移動平均(MA)を組み合わせたモデル<br />NARMA:非線形~<br />ARIMA:自己回帰和分移動平均モデル(integrated)<br />多変量<br />それぞれの時点での結果変数は相関した別々の変数<br />SEM等で解析<br />
  16. 16. 時間依存性共変量<br />東京大学 医学系研究科 倉橋一成<br />16<br />属性(説明変数、共変量)が時間と共に変化する<br />
  17. 17. 変数の縮約(変数が多すぎる!!)<br />東京大学 医学系研究科 倉橋一成<br />17<br />説明変数、結果変数の数を減らしたい<br />変数選択<br />Stepwise法<br />Least Angle Resression(LARS,Efron andHastie.2004. Annals of Stat.)<br />縮約、縮小<br />Principal Component Analysis(主成分分析)<br />FactorAnalysis(因子分析)<br />Partial Least Squares(PLS)<br />グループ分け(Clustering)<br />階層型<br />Ward法<br />凝集法<br />非階層型<br />K-means法<br />Self Organization Map(SOM)<br />
  18. 18. 予測<br />東京大学 医学系研究科 倉橋一成<br />18<br />正解率(感度、特異度)を評価する<br />検定?<br />推定<br />Cross-Validation<br />Leave-one-outCV<br />N-fold CV<br />Bootstrap<br />Adaptivebootstrap<br />ABC法<br />.632 bootstrap<br />.632+ bootstrap<br />閾値を変化させた際の挙動を見たい<br />Receiver Operating Characteristic(ROC)曲線<br />IDI<br />
  19. 19. 欠測<br />東京大学 医学系研究科 倉橋一成<br />19<br />欠測の過程<br />Missing Completely at Random<br />Missing at Random<br />Missing not at Random<br />補完<br />Multiple Imputation<br />Propensity Score<br />Markov Chain Monte Carlo(MCMC)法<br />推定<br />補完はしない<br />Propensity Score法<br />Inverse Probability of Censoring Weight(IPCW)法<br />Doubly Robust法<br />
  20. 20. 研究デザインによる解析<br />東京大学 医学系研究科 倉橋一成<br />20<br />実験研究<br />Factorial design(要因実験)<br />Randomized block design(乱塊法)<br />臨床試験<br />デザイン<br />並行群間<br />Cross-over研究<br />層別ランダム化<br />中間解析<br />疫学研究<br />Cohort<br />Case control<br />Nested case control<br />Case cohort<br />2-stage case control<br />Case specula<br />Case only<br />
  21. 21. 実験研究<br />東京大学 医学系研究科 倉橋一成<br />21<br />Fisherの3原則<br />繰り返し<br />ランダム化<br />局所管理<br />要因実験<br />総組み合わせ法<br />乱塊法<br />ブロックに分けてランダム化する<br />1~3全て満たすことが出来る<br />
  22. 22. 臨床試験<br />東京大学 医学系研究科 倉橋一成<br />22<br />デザイン<br />並行群間<br />単純に2群比較を行う<br />Cross-over研究<br />対象者の節約が可能<br />食品や生活習慣に係わる要因は避けたほうが良い<br />Wash-out期間が長いと思われる<br />層別ランダム化<br />実験研究での乱塊法と同じ<br />中間解析<br />試験途中でも以下の場合はそれ以上の試験は中止<br />十分な結果が得られた<br />続けても効果が見られない<br />有害事象が多くみられる<br />
  23. 23. 疫学研究<br />東京大学 医学系研究科 倉橋一成<br />23<br />Cohort<br />全ての疫学研究の理想形<br />時間、予算、患者数などの問題で種々のデザイン<br />Case control<br />Nested case control<br />Case cohort<br />2-stage case control<br />Case specula<br />Case only<br />
  24. 24. 因果関係とは?<br />東京大学 医学系研究科 倉橋一成<br />24<br />因果関係<br />正しく制御されたランダム化試験<br />得られた結果は因果関係を表す<br />それ以外の全ての研究<br />Hillの必要条件を満たさないと因果関係と言えない<br />時間的順序<br />唯一完全に分かる可能性がある<br />交絡を受けている可能性が高い<br />Directed Acyclic Graph(DAG)<br />因果関係を有向グラフ(矢線)で表現<br />交絡を解析によって除去できる<br />
  25. 25. DAGによる表現<br />東京大学 医学系研究科 倉橋一成<br />25<br />Z<br />W<br />Z<br />Y<br />Y<br />X<br />X<br />Z: collider<br />Closed pass<br />Unconditional d-separation<br />Z: confounder<br />Open pass<br />conditional d-separation<br />DAGからopen passを消すとX-Y間の交絡が無くなる<br />交絡変数を説明変数に加えて調整する<br />因果推論的な解析を行う(直接効果の推定)<br />
  26. 26. ベイズ統計<br />東京大学 医学系研究科 倉橋一成<br />26<br />確率には2種類ある<br />頻度論(客観確率)<br />確率論の公理(AndreyKolmogorov, 『確率論の基礎概念』)<br />全ての事象の確率は0以上1以下である<br />全ての事象の確率を足すと1である<br />排反事象の和集合が起こる確率は、個々の事象の確率の和である<br />これまでのスライドの内容ほとんど全て<br />ベイズ統計(主観確率)<br />確率論が定式化される以前にThomas Bayesが考えていた(1764, Essay toward solving a problem in the doctrine of chances)<br />事後確率は事前確率に尤度(データの情報)をかけたもの<br />実生活での知識、情報の更新に近い<br />頻度論の解析手法はベイズ流の手法に修正可能<br />事前確率の設定について客観的な基準は無い<br />
  27. 27. 以上の内容をSASとRで解析していこう<br />東京大学 医学系研究科 倉橋一成<br />27<br />SAS<br />Statistical Analysis System<br />世界的に信頼されている解析ソフト<br />プログラミング技術が無くても解析は容易<br />多くの論文で利用されている<br />幅広い解析に対応できる<br />パッケージ<br />行列計算をプログラミング<br />高価なため個人的な利用は難しい<br />R<br />インターネット上で無料配布<br />ダウンロードしてすぐ利用できる!<br />世界中の統計家が常に新しいパッケージを開発、公開<br />最新の論文で提案された手法も解析可能<br />グラフィックに強いため思い通りの図を描ける<br />SASと同等の質の結果を得ることができる<br />プログラミングは少々わかり辛い<br />

×