Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Meta analysis of microarray

2,981 views

Published on

  • Be the first to comment

Meta analysis of microarray

  1. 1. DNAマイクロアレイにおける メタ解析 @antiplastics
  2. 2. 目次• 事前知識• DNAマイクロアレイにおけるメタ解析 – Vote-Counting法 – Fisher法 – Effect Size Model (FEM&REM) – XPN• データ取得方法
  3. 3. 事前知識
  4. 4. mRNA …ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム 転写 mRNADNAマイクロアレイはこのmRNAを 翻訳,折りたたみ定量的に計測する技術⇒遺伝子の機能解析、遺伝子間相 タンパク質互作用の解析等に利用 各種生体内機能
  5. 5. マイクロアレイとはマイクロアレイ = 基盤上に何かを固定化させたもの Micro:1/1000レベルに分割して Array:並べたものDNAマイクロアレイ = DNAを基盤上に固定化細胞マイクロアレイ = 細胞を基盤上に固定化タンパク質マイクロアレイ抗体アレイ組織マイクロアレイ化合物マイクロアレイ…
  6. 6. DNAマイクロアレイの原理 生物の細胞からmRNAを抽出 ビオチン標識 ハイブリダイゼーション反応各スポットにcDNAと相補的なプローブが並んだ基盤
  7. 7. アレイ解析の基礎 実験 画像データ 数値データ、生データ (.DAT) (.CEL) 正規化 & log2変換 c1 c2 c3 t1 t2 t3 各統計手法(例:t検定)遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09 対照群 処置群 何も刺激を与えていないもの 試薬の投与、培養条件の変化 FDR制御 など、刺激を与えたもの 発現変動遺伝子の判定等1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
  8. 8. DNAマイクロアレイに おけるメタ解析
  9. 9. p>>n問題 n=6(理想としては30000欲しい) c1 c2 c3 t1 t2 t3 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 DNAマイクロアレイ等ハイスループット技術において特に重大な問題 n(標本数)に対してp(仮説検定数)が異常に大きい
  10. 10. メタ解析とはp>>n問題を解決するべく、他の研究データと統合して、 より信頼性のある結論を導く事 例:ブリッジング試験 日本人 アメリカ人 イギリス人(10歳、男性、8人) (11歳、男性、10人) (10歳、男性、7人) + + その薬を承認 してもいいか 薬Xを服用(4人) 薬Xを服用(5人) 薬Xを服用(3人) 検定 検定 検定 未服用(4人) 未服用(5人) 未服用(4人)
  11. 11. アレイデータ登録数の推移 750256枚 (2012/6/3)二大マイクロアレイデータベース GEO 128106枚 (2012/6/3) GEO ArrayExpress 登録開始 登録開始 ArrayExpress
  12. 12. DNAマイクロアレイにおけるメタ解析 低レベル 高レベル 難しい、根本的 手っ取り早い C1 C2 T1 T2 x p DEG 1241 1312 1005 1414 210 0.1 × C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG 341 321 286 241 (例:平均値の差) 0.1 (例:t 検定) 0.2 (例:発現変動遺伝子) ○ 1211 1011 1441 1101 129 0.2 ○ C1 2414 2001 1801 1734 0.8 0.1 × 341 C2 321 T1 286 T2 245 x p DEG ○ 0.3 0.21245 1352 1005 1100 2414 2001 1801 1794 124 0.1 ○ 0.2 0.2 ○ 341 321 286 245 batch effect補正 42 0.3 ×2414 2001 1801 1794 (Zスケーリン グ,Empirical 214 0.2 ○ Bayes,FC変換) 1つに統合 = メタ解析SVD、rGN、DWD、 FEM(母数モデル、等分散) Fisher, Stouffer, AW, Vote-CountingXPN、L/S adjustment 、 REM(変数モデル、不等分散) maxP/minP, TPM (共通して変動する遺伝子を見る)EB Bayesian model, meta-z, クラスタリング結果を見比べる LASSO, PCD, SME, ネットワークを見比べる、重ねる RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる RankSum, MAPE、 MBP,Knorm
  13. 13. Vote-Counting法:解析結果の統合 Step1 “閾値1”で各研究での発現変動遺伝子を割り出す Step2 “閾値2”でメタな発現変動遺伝子を割り出す 処置群 vs vs vs vs vs 複数の研究に跨るDEGを “Signature”と呼ぶから、 対照群 Signature解析ともいう閾値1(例:FC>2) 閾値2 (例:3/5以上) 研究1 研究2 研究3 研究4 研究5 meta-DEG gene1 ○ × ○ × × × gene2 × × × × × × gene3 × ○ ○ ○ ○ ○ … … gene30000 × × ○ ○ ○ ○
  14. 14. Fisher法:p値の統合 Step1 各研究データ毎に、“片側検定”でp値を算出(*) (+側、ー側の2パターンのp値を計算しておく) Step2 +側の変動でのp値をFisher法で統合 *両側検定のp値はどっち側で Step3 ー側の変動でのp値をFisher法で統合 有意なのか判断できないから Fisher法 片側p値 研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEGgene1 1.04 0.72 0.31 0.24 0.62 0.31 ×gene2 0.12 0.45 0.54 0.03 0.05 0.01 ×gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○… … …gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○
  15. 15. Effect Size Model エフェクトサイズの統合 階層モデル 研究内分散 i : 1,2,…k(研究数) yi : 各研究データの標準化した平均値 FEM εi : ノイズ項(研究内)REM μ : 全研究データの平均 δi : ノイズ項(研究間) 研究間分散 等分散 均質性検定 (τ2=0) FEM (Fixed Effect Model) wi : si^(-2) 不等分散 (τ2≠0) u : (Σwiyi) / Σwi 研究間のばらつきをχ2検定 REM (Random Effect Model)
  16. 16. XPN:データセットを直接統合Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法 Affymetrix社 GeneChip U95Av2 arrays Agilent社 一つのデータセット 25K oligonucleotide arrays に統合 Agilent社 22K oligonucleotide arrays
  17. 17. XPN Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出 Step2 k-means法で各研究データをバイクラスタリング Step3 行、列で最適と思われるクラスター数を推定し (ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成 Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正 同じ癌でも幾つかの種類(Phenotype) ブロック線形モデル があるだろうという仮定 ブロック平均 感度 ノイズ項 オフセットg : 遺伝子 パラメータs : サンプル(任意のチップ1枚)p : プラットフォーム(チップのタイプ)同じような発現パターンの遺伝子”群”があるだろうという仮定
  18. 18. データ取得方法
  19. 19. データ取得言うまでもなく、同じような実験データを収集する過程が一番大変→ 何をもって”同じ”とする? 実験条件を信じる立場 数字を信じる立場同じ“ラットの品種”、同じ“性別”、 同じ条件下にあるのなら、殆どの遺伝同じ“年齢”、同じ“生育条件”... 子が同程度の発現レベルを示しているで計測されたデータ同士は、同じ条件下 に違いない!にあるに違いない! → “Cell montage”による類似データ→アレイデータベースの利用 の検索一次データベース:GEO、ArrayExpress、SMD…二次データベース:ONCOMINE(癌),RefDic(免疫)、AtGenExpress(シロイヌナズナ)…
  20. 20. Cellmontage CBRC@台場CMファイル のサーバー スピアマンの順位和相 関係数をもとに類似 スコア順に結果を表示 データを検索 上位ランク 遺伝子 下位ランク 遺伝子 クエリ側 DB側 イメージ
  21. 21. 検索結果カロリー制限ラット → 結構それっぽいものがひっかかってくる
  22. 22. まとめ• アレイデータの二次利用として、メタ解析が行われ るようになった• メタ解析により、より信頼できる解析結果を導けると 考えられる• どの段階で統合するかで様々な方法論が提案され ている• メタ解析のためのデータベース、ツールも開発され ている

×