Meta analysis of microarray

DNAマイクロアレイにおける
メタ解析

@antiplastics

目次
• 事前知識

• DNAマイクロアレイにおけるメタ解析
– Vote-Counting法
– Fisher法
– Effect Size Model (FEM&REM)
– XPN

• データ取得方法

mRNA
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム

転写

mRNA

DNAマイクロアレイはこのmRNAを翻訳,折りたたみ
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
タンパク質
互作用の解析等に利用

各種生体内機能

マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
Micro：1/1000レベルに分割して
Array：並べたもの

DNAマイクロアレイ = DNAを基盤上に固定化

細胞マイクロアレイ = 細胞を基盤上に固定化

タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…

DNAマイクロアレイの原理

生物の細胞からmRNAを抽出

ビオチン標識
ハイブリダイゼーション反応

各スポットにcDNAと相補的なプローブが並んだ基盤

アレイ解析の基礎
実験画像データ数値データ、生データ
(.DAT) (.CEL)

正規化 & log2変換

c1 c2 c3 t1 t2 t3 各統計手法（例：t検定）
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007
遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001

遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09
対照群処置群
何も刺激を与えていないもの試薬の投与、培養条件の変化 FDR制御
など、刺激を与えたもの

発現変動遺伝子の判定等

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。

DNAマイクロアレイに
おけるメタ解析

p>>n問題
n=6（理想としては30000欲しい）

c1 c2 c3 t1 t2 t3
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7
p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6

遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1

DNAマイクロアレイ等ハイスループット技術において特に重大な問題

n（標本数）に対してp（仮説検定数）が異常に大きい

メタ解析とは
p>>n問題を解決するべく、他の研究データと統合して、
より信頼性のある結論を導く事

例：ブリッジング試験
日本人アメリカ人イギリス人
（10歳、男性、8人）（11歳、男性、10人）（10歳、男性、7人）

+ + その薬を承認
してもいいか
薬Xを服用（4人）薬Xを服用（5人）薬Xを服用（3人）

検定検定検定

未服用（4人）未服用（5人）未服用（4人）

アレイデータ登録数の推移
750256枚
（2012/6/3）

二大マイクロアレイデータベース

GEO 128106枚
（2012/6/3）
GEO ArrayExpress
登録開始登録開始
ArrayExpress

DNAマイクロアレイにおけるメタ解析
低レベル高レベル
難しい、根本的手っ取り早い

C1 C2 T1 T2 x p DEG
1241 1312 1005 1414 210 0.1 ×
C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG
341 321 286 241
（例:平均値の差） 0.1 （例:t 検定） 0.2 （例:発現変動遺伝子） ○
1211 1011 1441 1101
129 0.2 ○
C1
2414 2001 1801 1734 0.8 0.1 ×
341 C2 321 T1 286 T2 245 x p DEG ○
0.3 0.2
1245 1352 1005 1100
2414 2001 1801 1794 124 0.1 ○
0.2 0.2 ○
341 321 286 245 batch effect補正
42 0.3 ×
2414 2001 1801 1794
（Zスケーリン
グ,Empirical 214 0.2 ○
Bayes,FC変換）
１つに統合 = メタ解析
SVD、rGN、DWD、 FEM（母数モデル、等分散） Fisher, Stouffer, AW, Vote-Counting
XPN、L/S adjustment 、 REM（変数モデル、不等分散） maxP/minP, TPM （共通して変動する遺伝子を見る）
EB Bayesian model, meta-z, クラスタリング結果を見比べる
LASSO, PCD, SME, ネットワークを見比べる、重ねる
RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる
RankSum, MAPE、
MBP,Knorm

Vote-Counting法：解析結果の統合
Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
Step2 “閾値2”でメタな発現変動遺伝子を割り出す

処置群

vs vs vs vs vs
複数の研究に跨るDEGを
“Signature”と呼ぶから、
対照群 Signature解析ともいう

閾値1（例：FC＞2）閾値2
（例：3/5以上）
研究1 研究2 研究3 研究4 研究5 meta-DEG
gene1 ○ × ○ × × ×
gene2 × × × × × ×
gene3 × ○ ○ ○ ○ ○
… …
gene30000 × × ○ ○ ○ ○

Fisher法：p値の統合
Step1 各研究データ毎に、“片側検定”でp値を算出（＊）
（＋側、ー側の2パターンのp値を計算しておく）
Step2 ＋側の変動でのp値をFisher法で統合
＊両側検定のp値はどっち側で
Step3 ー側の変動でのp値をFisher法で統合有意なのか判断できないから

Fisher法

片側p値

研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEG
gene1 1.04 0.72 0.31 0.24 0.62 0.31 ×
gene2 0.12 0.45 0.54 0.03 0.05 0.01 ×
gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○
… … …
gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○

Effect Size Model
エフェクトサイズの統合
階層モデル
研究内分散 i : 1,2,…k(研究数)
yi : 各研究データの標準化した平均値
FEM εi : ノイズ項(研究内)
REM μ : 全研究データの平均
δi : ノイズ項(研究間)
研究間分散

等分散
均質性検定 (τ2=0)
FEM (Fixed Effect Model)

wi : si^(-2)
不等分散
(τ2≠0)
u : (Σwiyi) / Σwi

研究間のばらつきをχ2検定
REM (Random Effect Model)

XPN：データセットを直接統合
Cross-Platform Normalization : プラットフォーム（アレイのタイプ）を跨いだ正規化手法

Affymetrix社
GeneChip
U95Av2 arrays

Agilent社一つのデータセット
25K oligonucleotide arrays に統合

Agilent社
22K oligonucleotide arrays

XPN
Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
Step2 k-means法で各研究データをバイクラスタリング
Step3 行、列で最適と思われるクラスター数を推定し
（ここでは全研究データで同じようにクラスタリング）、”ブロック”を作成
Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正

同じ癌でも幾つかの種類(Phenotype)
ブロック線形モデルがあるだろうという仮定

ブロック平均感度ノイズ項

オフセット
g : 遺伝子パラメータ
s : サンプル（任意のチップ1枚）
p : プラットフォーム（チップのタイプ）

同じような発現パターンの遺伝子”群”
があるだろうという仮定

データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?

実験条件を信じる立場数字を信じる立場

同じ“ラットの品種”、同じ“性別”、同じ条件下にあるのなら、殆どの遺伝
同じ“年齢”、同じ“生育条件”．．．子が同程度の発現レベルを示している
で計測されたデータ同士は、同じ条件下に違いない！
にあるに違いない！
→ “Cell montage”による類似データ
→アレイデータベースの利用の検索

一次データベース：GEO、ArrayExpress、
SMD…

二次データベース：ONCOMINE(癌),
RefDic(免疫)、AtGenExpress（シロイヌ
ナズナ）…

Cellmontage
CBRC@台場
CMファイルのサーバー

スピアマンの順位和相
関係数をもとに類似スコア順に結果を表示
データを検索

上位ランク
遺伝子

下位ランク
遺伝子

クエリ側 DB側イメージ

検索結果

カロリー制限ラット

→ 結構それっぽいものがひっかかってくる

まとめ
• アレイデータの二次利用として、メタ解析が行われ
るようになった

• メタ解析により、より信頼できる解析結果を導けると
考えられる

• どの段階で統合するかで様々な方法論が提案され
ている

• メタ解析のためのデータベース、ツールも開発され
ている

Meta analysis of microarray

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to Meta analysis of microarray

Similar to Meta analysis of microarray (16)

More from 弘毅露崎

More from 弘毅露崎 (20)