SlideShare a Scribd company logo
DNAマイクロアレイにおける
     メタ解析


   @antiplastics
目次
• 事前知識

• DNAマイクロアレイにおけるメタ解析
 –   Vote-Counting法
 –   Fisher法
 –   Effect Size Model (FEM&REM)
 –   XPN


• データ取得方法
事前知識
mRNA
       …ATGCATCGTAGATGCTAGCATGCTAGTAGCT…   ゲノム

                          転写


                                           mRNA


DNAマイクロアレイはこのmRNAを        翻訳,折りたたみ
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
                                           タンパク質
互作用の解析等に利用




                     各種生体内機能
マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
   Micro:1/1000レベルに分割して
   Array:並べたもの

DNAマイクロアレイ = DNAを基盤上に固定化

細胞マイクロアレイ = 細胞を基盤上に固定化

タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…
DNAマイクロアレイの原理

                  生物の細胞からmRNAを抽出

    ビオチン標識
             ハイブリダイゼーション反応




各スポットにcDNAと相補的なプローブが並んだ基盤
アレイ解析の基礎
  実験               画像データ             数値データ、生データ
                   (.DAT)            (.CEL)



                                                   正規化 & log2変換

            c1    c2    c3     t1     t2     t3      各統計手法(例:t検定)
遺伝子1        6.5   5.5   5.3   4.4    5.3     5.1         p=0.1
遺伝子2        2.3   3.3   1.0   5.6    7.5     5.7         p=0.007
遺伝子3        5.3   4.4   4.4   -5.5   -4.2   -5.6         p=0.001


遺伝子30000    1.5   0.4   4.4   1.3    2.4     2.1         p=0.09
                  対照群                処置群
           何も刺激を与えていないもの      試薬の投与、培養条件の変化             FDR制御
                               など、刺激を与えたもの

                                            発現変動遺伝子の判定等

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
DNAマイクロアレイに
  おけるメタ解析
p>>n問題
                          n=6(理想としては30000欲しい)

                     c1     c2    c3    t1     t2     t3
          遺伝子1       6.5    5.5   5.3   4.4    5.3    5.1
          遺伝子2       2.3    3.3   1.0   5.6    7.5    5.7
p=30000   遺伝子3       5.3    4.4   4.4   -5.5   -4.2   -5.6


          遺伝子30000   1.5    0.4   4.4   1.3    2.4    2.1




   DNAマイクロアレイ等ハイスループット技術において特に重大な問題

           n(標本数)に対してp(仮説検定数)が異常に大きい
メタ解析とは
p>>n問題を解決するべく、他の研究データと統合して、
  より信頼性のある結論を導く事

  例:ブリッジング試験
    日本人               アメリカ人             イギリス人
(10歳、男性、8人)       (11歳、男性、10人)       (10歳、男性、7人)




              +                  +                 その薬を承認
                                                   してもいいか
 薬Xを服用(4人)        薬Xを服用(5人)          薬Xを服用(3人)

     検定                検定                 検定

  未服用(4人)          未服用(5人)            未服用(4人)
アレイデータ登録数の推移
                                                         750256枚
                                                         (2012/6/3)


二大マイクロアレイデータベース




                                        GEO     128106枚
                                                (2012/6/3)
                  GEO    ArrayExpress
                  登録開始   登録開始
                                          ArrayExpress
DNAマイクロアレイにおけるメタ解析
           低レベル                                                                                            高レベル
          難しい、根本的                                                                                         手っ取り早い

              C1       C2       T1         T2                               x                       p                  DEG
              1241     1312     1005       1414                            210                      0.1                ×
       C1       C2       T1        T2              エフェクトサイズ           x       検定              p         解析結果    DEG
              341      321       286       241
                                                  (例:平均値の差)             0.1 (例:t 検定)            0.2 (例:発現変動遺伝子)     ○
       1211     1011   1441   1101
                                                                     129                      0.2                  ○
 C1
              2414   2001   1801   1734                                    0.8                      0.1                ×
       341 C2     321 T1    286 T2   245                        x                        p                    DEG ○
                                                                     0.3                      0.2
1245      1352    1005    1100
       2414    2001    1801    1794                            124                      0.1                    ○
                                                                     0.2                      0.2                  ○
 341        321      286       245            batch effect補正
                                                               42                       0.3                    ×
2414      2001       1801     1794
                                              (Zスケーリン
                                              グ,Empirical      214                      0.2                    ○
                                              Bayes,FC変換)
                                                           1つに統合 = メタ解析
SVD、rGN、DWD、         FEM(母数モデル、等分散)                                              Fisher, Stouffer, AW, Vote-Counting
XPN、L/S adjustment 、 REM(変数モデル、不等分散)                                             maxP/minP, TPM        (共通して変動する遺伝子を見る)
EB                   Bayesian model, meta-z,                                                           クラスタリング結果を見比べる
                     LASSO, PCD, SME,                                                                  ネットワークを見比べる、重ねる
                     RankProd, Rank aggregation,                                                       各論文の遺伝子リストを見比べる
                     RankSum, MAPE、
                     MBP,Knorm
Vote-Counting法:解析結果の統合
    Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
    Step2 “閾値2”でメタな発現変動遺伝子を割り出す


       処置群

               vs     vs    vs    vs    vs
                                                     複数の研究に跨るDEGを
                                                     “Signature”と呼ぶから、
       対照群                                            Signature解析ともいう

閾値1(例:FC>2)                                    閾値2
                                             (例:3/5以上)
               研究1   研究2   研究3   研究4   研究5               meta-DEG
   gene1       ○     ×     ○     ×     ×                    ×
   gene2       ×     ×     ×     ×     ×                    ×
   gene3       ×     ○     ○     ○     ○                    ○
   …                                                        …
   gene30000   ×     ×     ○     ○     ○                    ○
Fisher法:p値の統合
    Step1 各研究データ毎に、“片側検定”でp値を算出(*)
    (+側、ー側の2パターンのp値を計算しておく)
    Step2 +側の変動でのp値をFisher法で統合
                                                           *両側検定のp値はどっち側で
    Step3 ー側の変動でのp値をFisher法で統合                              有意なのか判断できないから



              Fisher法

                   片側p値

            研究1    研究2    研究3     研究4    研究5     Fisher法   meta-p   FDR制御   meta-DEG
gene1       1.04   0.72   0.31    0.24   0.62               0.31               ×
gene2       0.12   0.45   0.54    0.03   0.05               0.01               ×
gene3       0.02   0.03   0.014   0.04   0.003              0.03               ○
…                                                            …                 …
gene30000   0.12   0.33   0.55    0.55   0.42               0.24               ○
Effect Size Model
                          エフェクトサイズの統合
               階層モデル
                                研究内分散     i : 1,2,…k(研究数)
                                          yi : 各研究データの標準化した平均値
         FEM                              εi : ノイズ項(研究内)
REM                                       μ : 全研究データの平均
                                          δi : ノイズ項(研究間)
                                研究間分散

                                 等分散
           均質性検定                 (τ2=0)
                                           FEM (Fixed Effect Model)


      wi : si^(-2)
                                 不等分散
                                 (τ2≠0)
      u : (Σwiyi) / Σwi

  研究間のばらつきをχ2検定
                                          REM (Random Effect Model)
XPN:データセットを直接統合
Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法



             Affymetrix社
             GeneChip
             U95Av2 arrays



             Agilent社                        一つのデータセット
             25K oligonucleotide arrays      に統合



             Agilent社
             22K oligonucleotide arrays
XPN
   Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
   Step2 k-means法で各研究データをバイクラスタリング
   Step3 行、列で最適と思われるクラスター数を推定し
         (ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成
   Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正


                               同じ癌でも幾つかの種類(Phenotype)
    ブロック線形モデル                  があるだろうという仮定

     ブロック平均   感度       ノイズ項


                      オフセット
g : 遺伝子               パラメータ
s : サンプル(任意のチップ1枚)
p : プラットフォーム(チップのタイプ)



同じような発現パターンの遺伝子”群”
があるだろうという仮定
データ取得方法
データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?

     実験条件を信じる立場                      数字を信じる立場

同じ“ラットの品種”、同じ“性別”、             同じ条件下にあるのなら、殆どの遺伝
同じ“年齢”、同じ“生育条件”...             子が同程度の発現レベルを示している
で計測されたデータ同士は、同じ条件下             に違いない!
にあるに違いない!
                               → “Cell montage”による類似データ
→アレイデータベースの利用                  の検索

一次データベース:GEO、ArrayExpress、
SMD…

二次データベース:ONCOMINE(癌),
RefDic(免疫)、AtGenExpress(シロイヌ
ナズナ)…
Cellmontage
                      CBRC@台場
CMファイル                のサーバー

         スピアマンの順位和相
         関係数をもとに類似              スコア順に結果を表示
         データを検索


              上位ランク
               遺伝子




              下位ランク
               遺伝子




  クエリ側 DB側            イメージ
検索結果




カロリー制限ラット




            → 結構それっぽいものがひっかかってくる
まとめ
• アレイデータの二次利用として、メタ解析が行われ
  るようになった

• メタ解析により、より信頼できる解析結果を導けると
  考えられる

• どの段階で統合するかで様々な方法論が提案され
  ている

• メタ解析のためのデータベース、ツールも開発され
  ている

More Related Content

What's hot

Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
弘毅 露崎
 

What's hot (20)

MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
 
フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMC
 
情報検索とゼロショット学習
情報検索とゼロショット学習情報検索とゼロショット学習
情報検索とゼロショット学習
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 

Viewers also liked

FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
Haruka Ozaki
 
Dna microarray (dna chips)
Dna microarray (dna chips)Dna microarray (dna chips)
Dna microarray (dna chips)
Rachana Tiwari
 

Viewers also liked (7)

Microarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMicroarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the bench
 
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
 
Agilent Technologies Corporate Overview
Agilent Technologies Corporate OverviewAgilent Technologies Corporate Overview
Agilent Technologies Corporate Overview
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
Agilent Technologies
Agilent TechnologiesAgilent Technologies
Agilent Technologies
 
Meta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevManMeta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevMan
 
Dna microarray (dna chips)
Dna microarray (dna chips)Dna microarray (dna chips)
Dna microarray (dna chips)
 

Similar to Meta analysis of microarray

一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ryotat
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
Prunus 1350
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
 

Similar to Meta analysis of microarray (16)

カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
Sakashita
SakashitaSakashita
Sakashita
 
Chapter14.4
Chapter14.4Chapter14.4
Chapter14.4
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 

More from 弘毅 露崎

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
弘毅 露崎
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
弘毅 露崎
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
弘毅 露崎
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
弘毅 露崎
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
弘毅 露崎
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
弘毅 露崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
弘毅 露崎
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
 

More from 弘毅 露崎 (20)

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
 
R-4.0の解説
R-4.0の解説R-4.0の解説
R-4.0の解説
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加
 
20191204 mbsj2019
20191204 mbsj201920191204 mbsj2019
20191204 mbsj2019
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
WACODE
WACODEWACODE
WACODE
 

Meta analysis of microarray

  • 1. DNAマイクロアレイにおける メタ解析 @antiplastics
  • 2. 目次 • 事前知識 • DNAマイクロアレイにおけるメタ解析 – Vote-Counting法 – Fisher法 – Effect Size Model (FEM&REM) – XPN • データ取得方法
  • 4. mRNA …ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム 転写 mRNA DNAマイクロアレイはこのmRNAを 翻訳,折りたたみ 定量的に計測する技術 ⇒遺伝子の機能解析、遺伝子間相 タンパク質 互作用の解析等に利用 各種生体内機能
  • 5. マイクロアレイとは マイクロアレイ = 基盤上に何かを固定化させたもの Micro:1/1000レベルに分割して Array:並べたもの DNAマイクロアレイ = DNAを基盤上に固定化 細胞マイクロアレイ = 細胞を基盤上に固定化 タンパク質マイクロアレイ 抗体アレイ 組織マイクロアレイ 化合物マイクロアレイ …
  • 6. DNAマイクロアレイの原理 生物の細胞からmRNAを抽出 ビオチン標識 ハイブリダイゼーション反応 各スポットにcDNAと相補的なプローブが並んだ基盤
  • 7. アレイ解析の基礎 実験 画像データ 数値データ、生データ (.DAT) (.CEL) 正規化 & log2変換 c1 c2 c3 t1 t2 t3 各統計手法(例:t検定) 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09 対照群 処置群 何も刺激を与えていないもの 試薬の投与、培養条件の変化 FDR制御 など、刺激を与えたもの 発現変動遺伝子の判定等 1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
  • 9. p>>n問題 n=6(理想としては30000欲しい) c1 c2 c3 t1 t2 t3 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 DNAマイクロアレイ等ハイスループット技術において特に重大な問題 n(標本数)に対してp(仮説検定数)が異常に大きい
  • 10. メタ解析とは p>>n問題を解決するべく、他の研究データと統合して、 より信頼性のある結論を導く事 例:ブリッジング試験 日本人 アメリカ人 イギリス人 (10歳、男性、8人) (11歳、男性、10人) (10歳、男性、7人) + + その薬を承認 してもいいか 薬Xを服用(4人) 薬Xを服用(5人) 薬Xを服用(3人) 検定 検定 検定 未服用(4人) 未服用(5人) 未服用(4人)
  • 11. アレイデータ登録数の推移 750256枚 (2012/6/3) 二大マイクロアレイデータベース GEO 128106枚 (2012/6/3) GEO ArrayExpress 登録開始 登録開始 ArrayExpress
  • 12. DNAマイクロアレイにおけるメタ解析 低レベル 高レベル 難しい、根本的 手っ取り早い C1 C2 T1 T2 x p DEG 1241 1312 1005 1414 210 0.1 × C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG 341 321 286 241 (例:平均値の差) 0.1 (例:t 検定) 0.2 (例:発現変動遺伝子) ○ 1211 1011 1441 1101 129 0.2 ○ C1 2414 2001 1801 1734 0.8 0.1 × 341 C2 321 T1 286 T2 245 x p DEG ○ 0.3 0.2 1245 1352 1005 1100 2414 2001 1801 1794 124 0.1 ○ 0.2 0.2 ○ 341 321 286 245 batch effect補正 42 0.3 × 2414 2001 1801 1794 (Zスケーリン グ,Empirical 214 0.2 ○ Bayes,FC変換) 1つに統合 = メタ解析 SVD、rGN、DWD、 FEM(母数モデル、等分散) Fisher, Stouffer, AW, Vote-Counting XPN、L/S adjustment 、 REM(変数モデル、不等分散) maxP/minP, TPM (共通して変動する遺伝子を見る) EB Bayesian model, meta-z, クラスタリング結果を見比べる LASSO, PCD, SME, ネットワークを見比べる、重ねる RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる RankSum, MAPE、 MBP,Knorm
  • 13. Vote-Counting法:解析結果の統合 Step1 “閾値1”で各研究での発現変動遺伝子を割り出す Step2 “閾値2”でメタな発現変動遺伝子を割り出す 処置群 vs vs vs vs vs 複数の研究に跨るDEGを “Signature”と呼ぶから、 対照群 Signature解析ともいう 閾値1(例:FC>2) 閾値2 (例:3/5以上) 研究1 研究2 研究3 研究4 研究5 meta-DEG gene1 ○ × ○ × × × gene2 × × × × × × gene3 × ○ ○ ○ ○ ○ … … gene30000 × × ○ ○ ○ ○
  • 14. Fisher法:p値の統合 Step1 各研究データ毎に、“片側検定”でp値を算出(*) (+側、ー側の2パターンのp値を計算しておく) Step2 +側の変動でのp値をFisher法で統合 *両側検定のp値はどっち側で Step3 ー側の変動でのp値をFisher法で統合 有意なのか判断できないから Fisher法 片側p値 研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEG gene1 1.04 0.72 0.31 0.24 0.62 0.31 × gene2 0.12 0.45 0.54 0.03 0.05 0.01 × gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○ … … … gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○
  • 15. Effect Size Model エフェクトサイズの統合 階層モデル 研究内分散 i : 1,2,…k(研究数) yi : 各研究データの標準化した平均値 FEM εi : ノイズ項(研究内) REM μ : 全研究データの平均 δi : ノイズ項(研究間) 研究間分散 等分散 均質性検定 (τ2=0) FEM (Fixed Effect Model) wi : si^(-2) 不等分散 (τ2≠0) u : (Σwiyi) / Σwi 研究間のばらつきをχ2検定 REM (Random Effect Model)
  • 16. XPN:データセットを直接統合 Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法 Affymetrix社 GeneChip U95Av2 arrays Agilent社 一つのデータセット 25K oligonucleotide arrays に統合 Agilent社 22K oligonucleotide arrays
  • 17. XPN Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出 Step2 k-means法で各研究データをバイクラスタリング Step3 行、列で最適と思われるクラスター数を推定し (ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成 Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正 同じ癌でも幾つかの種類(Phenotype) ブロック線形モデル があるだろうという仮定 ブロック平均 感度 ノイズ項 オフセット g : 遺伝子 パラメータ s : サンプル(任意のチップ1枚) p : プラットフォーム(チップのタイプ) 同じような発現パターンの遺伝子”群” があるだろうという仮定
  • 19. データ取得 言うまでもなく、同じような実験データを収集する過程が一番大変 → 何をもって”同じ”とする? 実験条件を信じる立場 数字を信じる立場 同じ“ラットの品種”、同じ“性別”、 同じ条件下にあるのなら、殆どの遺伝 同じ“年齢”、同じ“生育条件”... 子が同程度の発現レベルを示している で計測されたデータ同士は、同じ条件下 に違いない! にあるに違いない! → “Cell montage”による類似データ →アレイデータベースの利用 の検索 一次データベース:GEO、ArrayExpress、 SMD… 二次データベース:ONCOMINE(癌), RefDic(免疫)、AtGenExpress(シロイヌ ナズナ)…
  • 20. Cellmontage CBRC@台場 CMファイル のサーバー スピアマンの順位和相 関係数をもとに類似 スコア順に結果を表示 データを検索 上位ランク 遺伝子 下位ランク 遺伝子 クエリ側 DB側 イメージ
  • 21. 検索結果 カロリー制限ラット → 結構それっぽいものがひっかかってくる
  • 22. まとめ • アレイデータの二次利用として、メタ解析が行われ るようになった • メタ解析により、より信頼できる解析結果を導けると 考えられる • どの段階で統合するかで様々な方法論が提案され ている • メタ解析のためのデータベース、ツールも開発され ている