FDRの使い方 (Kashiwa.R #3)

  • 6,970 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
6,970
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
55
Comments
0
Likes
6

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n

Transcript

  • 1. FDRの使い方
  • 2. 話す人尾崎 遼おざき はるか情報生命科学専攻 博士1年@yuifu
  • 3. 今日の内容統計的仮説検定について多重検定問題について多重検定問題への対策Bonferroni補正Benjamini-Hochberg法
  • 4. 統計的仮説検定について統計学が(たぶん)最も使われる場面帰無仮説を仮定して、統計量がある値以上の量が出てくる確率(p値)を計算検定にかけられる統計量が予め決めたいき値未満なら帰無仮説を棄却
  • 5. 統計的仮説検定について 帰無仮説を採択 帰無仮説を棄却 True negative False postive帰無分布から (TN) (FP)帰無分布からで False negative True positive ない (FN) (TP)
  • 6. 統計的仮説検定について 有意水準 陰性データ 陽性データ TP NP
  • 7. 多重検定問題について背景:大量データマイクロアレイ,RNA-seq,GWAS, etc.たとえば P<0.05,N=10000だとすると,実際に全部がnullだとしても,500個はsignificantになる
  • 8. 多重検定問題への対策Bonferroni補正Benjamini-Hochberg法 他にも色々あるけど,この2つが有名Storey法 現状かなりよさげ
  • 9. Bonferroni補正Family-wise error rate をコントロール FWER = 1-(1-α)m ≒mα 帰無仮説に従うものの検定をm回行ったとき,少なくと も1回帰無仮説が棄却される確率 上の式のαをα/m に置き換えると,FWERがαになる 例えば,遺伝子発現の差の検定をしたいとき, α=0.01の検定で遺伝子が10000個あったら, α=1×10-6とする
  • 10. Bonferroni補正の問題点実際のサンプル中にsignificantなものがほとんどないときには有効だが,厳しすぎる非現実的な有意水準を要求する
  • 11. Bonferroni補正の問題点controlとの発現の差があるかどうかの検定 T0:真の非発現変動遺伝 子 T1:真の発現変動遺伝子
  • 12. Bonferroni補正の問題点controlとの発現の差があるかどうかの検定 T0:真の非発現変動遺伝 子 T1:真の発現変動遺伝子
  • 13. False discovery rateFamily-wise error rateのコントロールは厳しすぎるし,現実的でない FP/(TN+FP) をコントロールしようとしていた後でバリデーション実験するから多少FPが入ってもいいから多くの候補を,という要請→False discovery rateをコントロールしよう positiveだとされたもののうち、false positiveであるもの の割合 False discovery rate = FP/(TP+FP)
  • 14. Benjamini-Hochberg法p-valueを昇順に並べる(p1<p2<p3,...)pi<= α×i/mを満たす時、p1,...,pi を有意とするこのとき,FDRはα以下に抑えられる FP =< m×α×i/m = α×i FP+TP=i FDR=FP/(FP+TP)=FP/i<=α×i/i=α
  • 15. Benjamini-Hochberg法の問題 p-valueが一様分布することを仮定している π0=1を仮定(次項) 厳しい(FDRを大きく見積もる) 非単調増加 上位m個についてのFDRが,上位m+1個
  • 16. π 0を考えるπ0:N個のp-valueのうち,帰無仮説が真であるものの割合帰無仮説からのp-valueの分布は一様分布実際のp-valueは一様分布しない すなわち,π0=1でない
  • 17. π 0を考えた手法実際のp-valueの分布は,帰無仮説由来の分布(T0)と対立仮説由来の分布(T1)の混合分布だと考えられるT0は一様分布,T1はゼロに偏った分布をすると考えられるゆえにゼロからある程度はなれたところでの
  • 18. π 0を考えた手法 p-valueを昇順に並べる(p1<p2<p3,...) π0(λ)を計算 π0(λ)=(λより大なpiの数)/m(1-λ) λとπ0(λ)をプロットしたグラフにnatural cubic spline をフィッティングするStorey and Tibshirani. “Statistical significance for genomewide studies”PNAS. (2003)
  • 19. q-valueを計算するq-valueを定義 任意の値以上の統計量に対応づけられた最小の FDR ある値に割り当てられたq-valueは,その値を significanceのいちきにしたときのFDRを表す先ほどの例だと,q-value=<0.05のところをとると,FDRが5%となる
  • 20. q-valueの計算 q(pm)= (π0*m*Pm)/m = π0*pm i=m-1,m-2,...,1について ←ここで単調減少を保証 q(pi)=min((π0*m*Pm)/i, q(pi+1))Storey and Tibshirani. “Statistical significance for genomewide studies”PNAS. (2003)
  • 21. p-valueとq-valuep-value p<0.05ということは False positive rateが0.05未満になるということ False positive rate = FP/(TN+FP)q-value q<0.05ということは False discovery rateが0.05未満になるということ
  • 22. パッケージ{qvalue} (Bioconductor) http://www.bioconductor.org/packages/devel/ bioc/html/qvalue.html John Storey本人が作った
  • 23. {qvalue} p-valueの分布library(qvalue)data(hedenfalk) #乳がん(BRCA1,BRCA2)の3,170個の遺伝子の発現量の差をt-testしたp-valueのリストhist(hedenfalk) q-valueの分布qobj <- qvalue(hedenfalk) #q-valueを計算hist(qobj$qvalues) # $qvalueでq-valueの値を呼び出せる
  • 24. {qvalue}> qsummary(qobj) # π0の推定値や帰無仮説が棄却された数を表示Call:qvalue(p = hedenfalk)pi0: 0.6635185Cumulative number of significant calls: <1e-04 <0.001 <0.01 <0.025 <0.05 <0.1 <1p-value 15 76 265 424 605 868 3170q-value 0 0 1 73 162 319 3170
  • 25. p-valueのどのへんで切ったとき {qvalue} にπ0がどうなるか p-valueqplot(qobj)#4つのプロットを表示 q-valueのいき値と棄却され 棄却された帰無仮説の数と る帰無仮説の数の関係 FPの関係
  • 26. {qvalue}qwrite(qobj, filename = "my-qvalue-results.txt")# p-valueとq-valueの組をファイルに書き出す
  • 27. {qvalue}qvalue.gui()# GUIで動かせる# (tcltk packageが必要)
  • 28. ReferenceStorey and Tibshirani. “Statistical significance forgenomewide studies”PNAS. (2003)Noble. “How does multiple testing correction work?” NatureBiotechnology. (2009)山田・上田 “大規模データの解析における問題点”蛋白質 核酸 酵素(2009)http://www.bioconductor.org/packages/devel/bioc/html/qvalue.html@antiplasticsのサイト https://sites.google.com/site/scriptofbioinformatics/maikuroarei-guan-xi/fdr-zhi-yu-r
  • 29. 懇親会鍋・酒20:30-22:30総合研究棟3階364号室参加費 1000円