Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DNAマイクロアレイの解析と多重検定補正

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

DNAマイクロアレイの解析と多重検定補正

  1. 1. DNAマイクロアレイの解析と多重検定補正東京理科大学 薬学研究科薬科学専攻露崎弘毅
  2. 2. DNAマイクロアレイの解析
  3. 3. mRNA転写翻訳,折りたたみ…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノムmRNAタンパク質DNAマイクロアレイはこのmRNAを定量的に計測する技術⇒遺伝子の機能解析、遺伝子間相互作用の解析等に利用各種生体内機能
  4. 4. マイクロアレイとはマイクロアレイ = 基盤上に何かを固定化させたものMicro:1/1000レベルに分割してArray:並べたものDNAマイクロアレイ = DNAを基盤上に固定化細胞マイクロアレイ = 細胞を基盤上に固定化タンパク質マイクロアレイ抗体アレイ組織マイクロアレイ化合物マイクロアレイ…
  5. 5. DNAマイクロアレイの原理生物の細胞からmRNAを抽出ハイブリダイゼーション反応各スポットにcDNAと相補的なプローブが並んだ基盤ビオチン
  6. 6. アレイ解析の基礎-5.6-4.2-5.54.44.45.3遺伝子35.15.34.45.35.56.5遺伝子12.12.41.34.40.41.5遺伝子300005.77.55.61.03.32.3遺伝子2t3t2t1c3c2c11チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる各統計手法(例:t検定)p=0.1p=0.007p=0.001p=0.09対照群何も刺激を与えていないもの処置群試薬の投与、培養条件の変化など、刺激を与えたもの発現変動遺伝子の判定等FDR制御画像データ(.DAT)数値データ、生データ(.CEL)正規化 & log2変換実験
  7. 7. データ取得http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30668対照群(n=4)カロリー制限群(n=4)AL1.CEL AL2.CEL AL3.CEL AL4.CEL CR1.CEL CR2.CEL CR3.CEL CR4.CEL
  8. 8. 正規化、対数変換1色法(Affymetrix型)はRMA,MAS5がよく使われる2色法(Oxford型)はLOWESSがよく使われる# ライブラリロードlibrary(“affy”)# CELファイルを読み込むData <- ReadAffy()# RMA正規化+対数変換est <- rma(Data)express <- exprs(est)# コントロールプローブ削除express <- express[1:31042,]# データ保存write.table(express, “rma.txt”)31042×8 行列1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.91.5 1.6 0.7 0.4 4.3 4.2 4.1 4.02.4 2.5 2.9 2.2 1.9 1.3 1.5 2.31399167_a_at1367453_at1367452_atAL1.CELAL2.CELAL3.CELAL4.CELCR1.CELCR2.CELCR3.CELCR4.CEL
  9. 9. 検定たくさんの検定手法が提案されているを参考# t検定p <- c()for(i in 1:31042){p[i] <- t.test(express[i, 1:4],express[i, 5:8])$p.value}# データ保存names(p)<- rownames(express)write.table(p, “p.txt”)0.14050.00130.0355 p値1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.91.5 1.6 0.7 0.4 4.3 4.2 4.1 4.02.4 2.5 2.9 2.2 1.9 1.3 1.5 2.31399167_a_at1367453_at1367452_atAL1.CELAL2.CELAL3.CELAL4.CELCR1.CELCR2.CELCR3.CELCR4.CEL1399167_a_at1367453_at1367452_at
  10. 10. FDR制御FDR、q値(またはQ値)って何なのかは次のページ以降で説明q値# 別途パッケージロードlibrary(“fdrtool”)# FDR制御fdr1 <- p.adjust(p, “BH”)fdr2 <- fdrtool(p, statistic=“pvalue”)$qvqlfdr3 <- fdrtool(p, statistic=“pvalue”)$lfdr# データ保存names(fdr1) <- rownames(express)names(fdr2) <- rownames(express)names(fdr3) <- rownames(express)write.table(fdr1, “BH.txt”)write.table(fdr2, “Q.txt”)write.table(fdr3, “LFDR.txt”)0.14050.00130.0355 p値1399167_a_at1367453_at1367452_at0.15550.02570.05921399167_a_at1367453_at1367452_at
  11. 11. 多重検定補正
  12. 12. 提案された色々な多重検定法• FWER: Family-wise Error Rate– Bonferroni、Tukey、Dunnet …• FDR: False Discovery Rate– BH、ABH、BY、Q-value、LocalFDR …• その他:GFWER、TPPFP、EFP、ETP
  13. 13. BH法の原著論文(みんなが引用するからすごいことに)最近の論文は多重性を考慮していないと査読で何かと文句言われるGabriele Zoppoli, et. Al., PNAS, 2012Barry S. Taylor, et. al., Cancer Cell, 2010Simon Anders, et. Al., Genome Biology, 2010
  14. 14. 多重検定って?検定数があまりにも多いと、通常の有意水準0.05はほぼ100%一度は間違う事に相当する有意水準を0.05と設定したとするn=1の時0.05n=2の時1 - (1-0.05)2 = 0.0975n=3の時1 - (1-0.05)3 = 0.142625 …n=kの時1 – (1-0.05)k仮説検定数有意水準複数回検定をする場合、間違った結果を含む確率が増加する
  15. 15. 多重検定って?n=1n=2n=3かつての多重検定はこのくらいのものを想定していた(多群検定)N血糖値、赤血球数など一つの値
  16. 16. FWER制御法:Bonferroni法マイクロアレイ等の超多重検定の場合、FWERでは基準が厳しすぎ→ 一つの遺伝子も有意に判定できないBonferroniの不等式𝑃 𝐸𝑖𝑘𝑖=1≤ 𝑃(𝐸𝑖)𝑘𝑖=1有意水準をα=0.05にしたい場合、検定数で割るα/N𝑃(𝐸𝑖): 事象Eiが起こる確率例:k=3𝑃 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ≤ 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃(𝐸3)FWER制御:一度でも間違う確率を制御する
  17. 17. FDR制御法一つも間違わないでいる確率(FWER)は基準として厳しすぎる↓間違っても良い事にしよう↓ただし、発現変動遺伝子のリストの中にどのくらいの間違いが含まれているのかを推定してそれを新たな基準にしよう(FDR)+自分がどれくらいまで間違いを許すかの有意水準はp値と区別するためにq値と呼ぼう↓どれが間違いか正解かは神様しかしらないので、各手法が何らかの統計学的な仮定(p値の一様分布性など)をもうけて、FDRの期待値を計算する
  18. 18. p値の分布は一様分布とするBH法Yes Nop値の分布は帰無仮説と対立仮説の混合分布とする(混合比 π0 : 1 - π0)自然スプライン回帰でπ0を推定+BH法のq値にπ0をかけるベイズの定理における事後分布として解釈Q-value法 LocalFDR法𝑞𝑖 =𝑝𝑖 × 𝑁𝑖𝑄𝑖 =𝜋0 × 𝑝𝑖 × 𝑁𝑖𝑙𝑓𝑑𝑟 =𝑓0 𝑝 × 𝜋0𝑓(𝑝)𝜋(𝜃|𝐷) =𝑓(𝐷|𝜃) × 𝜋 (𝜃)𝑓(𝐷)
  19. 19. FDR制御法:BH法①p値を昇順に並べ替え②p値をq値に変換i: 昇順に並べた時の上からの順番N: 全遺伝子数③閾値以下のq値の遺伝子を発現変動したとする0.005gene50.06gene40.1gene30.001gene20.21gene1p-value0.001(gene2)0.005(gene5)0.06(gene4)0.1(gene3)0.21(gene1) ○gene5×gene4×gene3○gene2×gene1発現変動0.001*(5/1) = 0.0050.005*(5/2) = 0.001250.06*(5/3) = 0.10.1*(5/4) = 0.1250.21*(5/5) = 0.21①②③q値p値< 0.05< 0.05> 0.05> 0.05> 0.05閾値= P= E[FP]𝑞𝑖 =𝑝𝑖 × 𝑁𝑖
  20. 20. p値の一様分布性の破綻BH法が想定しているp値の分布実際のデータでのp値の分布(0側に偏る場合が多い)# 一様分布シミュレーションfor(i in 1:31042){x <- rnorm(4)y <- rnorm(4)pp[i] <- t.test(x, y)$p.value}# プロットhist(pp)# 実際のデータのプロットhist(p)
  21. 21. FDR制御法: Q-value法帰無仮説(差が無い)対立仮説(差が有る)0側に寄る一様分布する 0側に寄り気味な一様分布ができる平均値の差頻度000 111頻度頻度頻度混合分布0𝑄𝑖 =𝝅 𝟎 × 𝑝𝑖 × 𝑁𝑖帰無仮説:対立仮説 = 𝜋0 ∶ 1 − 𝜋0
  22. 22. FDR制御法: LocalFDR法𝑃 𝐻0|𝑝 = 𝑙𝑓𝑑𝑟 =𝑓0 𝑝 × 𝜋0𝑓(𝑝)帰無仮説(差が無い)対立仮説(差が有る)平均値の差頻度0𝑃 𝐻1| 𝑝 = 1 −𝑓0 𝑝 × 𝜋0𝑓(𝑝)ベイズの定理𝑃 𝐻|𝐷 =𝑃(𝐷|𝐻) × 𝑃(𝐻)𝑃(𝐷)D: データH: 仮説
  23. 23. まとめCELファイル↓正規化↓対数変換↓検定↓FDR制御↓発現変動遺伝子リストRMAかMAS5が無難みんな対数とるp値を計算するようなもののほうが良いp値の分布に合わせて、各手法を利用(FDR<0.1くらいが一つの目安)

×