Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Normalization of microarray

11,922 views

Published on

  • Be the first to comment

Normalization of microarray

  1. 1. DNAマイクロアレイの内部構造の詳細 及び既存の正規化手法のまとめ @antiplastics
  2. 2. 目次• 事前知識• 1色法での正規化• 2色法での正規化• 1色法、2色法に共通した正規化 2
  3. 3. 事前知識 3
  4. 4. 事前知識 - mRNA - …ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム 転写 mRNADNAマイクロアレイはこのmRNAを 翻訳,折りたたみ定量的に計測する技術⇒ タンパク質遺伝子の機能解析、遺伝子間相互作用の解析等に利用 各種生体内機能 4
  5. 5. 事前知識 – マイクロアレイ -マイクロアレイ = 基盤上に何かを並べたもの Micro:1/1000レベルに分割して Array:並べたものDNAマイクロアレイ = DNAを基盤上に並べたもの細胞マイクロアレイ = 細胞を基盤上に並べたものタンパク質マイクロアレイ抗体アレイ組織マイクロアレイ化合物マイクロアレイ… 5
  6. 6. 事前知識 - DNAマイクロアレイ -• 以下の2つがポピュラー – 1色法:Affymetrix型(オリゴヌクレオチドアレイ) • 作成法:フォトリソグラフィ法(基盤上でプローブを合成) • 商品名:GeneChip(Affymetrix社) • 種類: 3’-Array, Gene Array, Exon Array, Cytogenetics Array, miRNA Array, SNP Array – 2色法:Stanford型(cDNAアレイ、オリゴよりプローブが長い) • 作成法:スポット法(作成したプローブをスライドガラス上にスポット) プリント法(インクジェット) • 商品名:DNAmicroarray(Agilent社)、AceGene(DNAChip研究所)、IntelliGene (タカラバイオ社)• その他ビーズアレイ(Bead Array: Illumina社)や、長鎖オリゴヌクレオチドアレイ(Agilent 社)、タイリングアレイ(ゲノム断片)とかもあるけどここでは割愛• EST、SAGE、CAGE、MPSS、RNA-Seq(次世代シーケンサ)等も技術は違うが、同様に 遺伝子発現データを出力する 6
  7. 7. 事前知識 - アレイ解析の基礎 - 実験 画像データ 数値データ、生データ (.DAT) (.CEL) 正規化 c1 c2 c3 t1 t2 t3 各統計手法(例:t検定)遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09 対照群 処置群 何も刺激を与えていないもの 試薬の投与、培養条件の変化など、 FDR制御 刺激を与えたもの 発現変動遺伝子の判定 71チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
  8. 8. 事前知識 - アレイ解析の基礎 - • 必ず対数変換したものを用いる。しかも底を2にする事が多い – 正規分布になって、統計的に扱いやすいから – 2くらいのスケールが一番見やすいから – 2倍と1/2倍を同等に扱いたいから – 情報系の人はビットが好きだから y:頻度 y x:蛍光強度 log2x • なぜ対数正規分布するのは不明。ただし、熱力学モデルを作成 して、対数正規分布するまでの仮定を記述した研究は存在 8 (Tomokazu Konishi,2005)
  9. 9. 事前知識 - バイアスと正規化 -• バイアス:実験操作やプローブの物性などで、ある値を大き く(または小さく)見積もってしまう事• 正規化:「データには○○というバイアスがあるはずだ」とい う仮定のもと、そのバイアスの影響を軽減させるために、値 に補正をかける事 バイアスの例 空間バイアス Cy3、Cy5のそもそも 蛍光強度の値に依存す 9 の蛍光強度の違い る分散の大きさの違い
  10. 10. 事前知識 - バイアスと正規化 -• 各研究者が各々バイアスを仮定するため、正規化 手法は乱立• そのわりにみんなに広く使われている手法(デファク トスタンダード)は決まっている• 1色法と2色法でも使われている手法が全然違う• ただし、共通の問題というのもある 10
  11. 11. 1色法での正規化 11
  12. 12. 1色法の原理 生物の細胞からmRNAを抽出ビオチン標識 cDNAに逆転写 ハイブリダイゼーション反応 処置群 比較各スポットにcDNAと相補的なプローブが並んだ基盤 対照群 12
  13. 13. PM-MM戦略(Affymetrix社) mRNAの全長は5000塩基くらい。3‘側近辺から適当な間隔で11〜16配列が 選択されプローブが作成される。これはRNAが不安定で分解されやすいため AAAAAAA5’ 3’ mRNA 1 2 3 4 5 6 7 8 9 10 11 acttctataatctgcaacggtacat PM acttctataatctccaacggtacat MM 13 プローブ長は25塩基で、13番目の塩基を変えてる
  14. 14. さらにズーム(Affymetrix社のサイトより) 14
  15. 15. 1色法で提案されている正規化法• MBEI(2001)• PLIER(2001)• dChip(2001)• RMA(2002)• PDNN(2003) デファクトスタンダード• MAS5(2003)• GCRMA(2004)• multi-mgMOS(2005)• GLA(2005)• Extrapolation Strategy、refRMA,RMA+(2006)• FARMS(2006)• RMA++(2007)• DFW(2007)• Hook(2008)…Comparison of Affymetrix GeneChip expression measures, Bioinformatics, 2006の時点で50の手法が存在している事が確認されている 15
  16. 16. 3つの尺度による分類<Background Correction>結合したmRNA以外のもの(不純物等)から由来した蛍光強度をどのように差し引くか<Summarization>PM/MMを使ってどのように発現量を割り出すか geneX = 234.7<Normalization>他のチップデータとどのように値を揃えるか 16
  17. 17. *MAS4(今は誰も使わない) <特徴>プローブペア <Background Correction> PM PMからMMを引く事で自ずと <Summalization> MM Avdiff 1 2 3 4 5 6 7 8 9 10 11 <Normalization> 特に無しPM = (特異的な結合) + (非特異的な結合) + (バックグラウンド)MM = (非特異的な結合) + (バックグラウンド)だと考えれば、PMからMMをひけばいい A:3SD以内に入った(すなわち外れ値ではないと思われる)ペアの数 1≦A≦11 値が負になる場合が出てくる ⇒ 対数とるとNA(欠損値)になる ⇒ エラーになる 17
  18. 18. MAS5プローブペア <特徴> <Background Correction> PM 4×4の区画からの重み付け平均 MM <Summalization> 1 2 3 4 5 6 7 8 9 10 11 Tukey Biweight法で重み付けをした Avdiff <Normalization> 特に無し <Background Correction> 1 2 3 4 1. 4×4の区画にアレイを分割 2. 各区画でのランキングで小さいほうから2%のところのセルの平 均値(bZk)と、その標準偏差(nZk)を計算 5 6 7 8 3. 各セル毎に、全区画の中心との距離を計算:dk(x,y) y 9 10 11 12 4. 距離をもとにした重みを計算:1/ (dk(x,y) +100) 5. 各中心からの重み付け平均をバックグランドの推定値とする 13 14 15 16 6. 蛍光強度からバックグランド値を引く 18 x
  19. 19. MAS5(続き)<Summalization> MAS4の値が負になる弱点をロバスト推定の手法(Tukey Biweight法)でカバー Normalization and Construction of Expression Measures for Affymetrixより 19
  20. 20. プローブ効果並べている塩基配列が違うから、プローブペアの位置によって、蛍光強度は大きく変わる PM MM 20
  21. 21. MBEI <特徴>複数のアレイでのプローブペアの値を非線形回帰して、 プローブ効果を考慮推定値を割り出してから、平均を計算する <Background Correction>開発者達の名前“Li Wong”としても知られている PMからMMを引く事で <Summalization> 非線形回帰 <Normalization> 1 2 3 4 5 6 7 8 9 10 11 特に無し 1 2 3 4 5 6 7 8 9 10 11 最尤法で回帰係数を推定。 但し、少なくともこれを使うの 1 2 3 4 5 6 7 8 9 10 11 には、10〜20チップは必要PM-MMの (正規分布ベースだから)蛍光強度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . の平均を使う . . . . . . . . . . . . . 21 プローブペア
  22. 22. MMの必要性に対する疑問・MMは結構PMより大きくなる事が多い(全体の1/3くらいになる事も)・PMからMMを引くと値のばらつきが激しくなってしまう・PMだけにすれば、製造コストも減らせる 22 Probe-Level Data Normalization: RMA and GC-RMAより
  23. 23. dChipMBEIをPMの値のみで行なったものdChip自体はソフトウェア名おそらくオプションでMM引くか引かないか選択できるのだと思われる論文内で、よくMBEIのPMだけ使ったバージョンという意味で出てくる 23
  24. 24. RMA法 1色法正規化のデファクトスタンダード <特徴> <Background Correction> グローバルバックグラウンド補正(PM <Background Correction> のみ)①PMは真のシグナル(指数分布)とバックグラウンド(正規分布) <Summalization> Median polish (PMのみ)からなると仮定 <Normalization>②1チップ毎に、シグナルとバックグラウンドのパラメーターを推定 クオンタイル正規化(箱ひげ図を揃え る)③それらパラメーターを利用して、PMを補正 http://bmbolstad.com/t alks/Bolstad- %20GenentechBioinf ormaticsTalk.pdfより PMの補正式 24
  25. 25. RMA法(続き) <Normalization>クオンタイル正規化(後述)で複数アレイのデータを標準化する <Summalization>Median Polish法で線形モデルを求める http://bmbolstad.com/t alks/Bolstad- %20GenentechBioinf ormaticsTalk.pdfより 25
  26. 26. RMAから派生した手法• GCRMA プローブ-ターゲットRNA間のGC結合の強さ まで考慮したRMA• RMA+ 大規模なアレイ解析(100枚以上)を意識し た(Extrapolation Strategy)RMA• RMA++ 26
  27. 27. 2色法での正規化 27
  28. 28. 2色法の原理 対照群の細胞から 処置群の細胞から mRNAを抽出 mRNAを抽出 対照群1vs処置群1 逆転写&蛍光標識 対照群2vs処置群2Cy3 Cy5 競合的 ハイブリダイゼーション反応 対照群3vs処置群3Cy:Cyanine 28 1色法との違いは、1チップ上で対照群と処置群を同時に見るところ
  29. 29. 一般的なマイクロアレイ Cy3が赤の発光をする のイメージ画像ハイブリ後 波長Xの光のプレート 画像重ね合わせ 無色 波長Yの光 赤:正常細胞で多く発現 緑:癌細胞で多く発現 Cy5が緑の発光をする 黄:両細胞で多く発現 黒:両細胞で発現無し 29
  30. 30. 2色法で提案されている正規化法• LOWESS(局所重み付け多項式回帰) デファクトスタンダード• スプライン回帰• ハウスキーピング遺伝子の利用• プリントオーダーバイアス補正• 空間バイアス補正(ヒストグラム法)…• 分散安定化法 こっちは1色法にも共通す• グローバル正規化 るものがあるので後で説明• クオンタイル正規化 30
  31. 31. Cy3/Cy5の非線形な系統誤差 Cy5(対照群)に比べ、 MA-plot Cy3(処置群)で何倍 発現変動したかM = log2( Cy3 / Cy5 ) Cy5側に系統的に偏る (Cy3/Cy5の物性の違い) +しかも蛍光強度に依存 して偏る(非線形) Cy5とCy3の 対数値の平均 A = ( log2(Cy3)+log2(Cy5)) / 2 31 Wikipediaより
  32. 32. LOWESS、スプライン回帰 ノンパラトリック回帰の手法の利用 補正前 補正後 この関数を直線にして、 全データに補正をかけるこの回帰関数の選び方でLOWESS、LOESS、スプライン回帰等がある 32
  33. 33. 1色法、2色法に共通した正規化 33
  34. 34. 標準化(スケーリング)他のマイクロアレイ実験と相対的に値を比べたい(グローバル正規化ともいう) – 平均値0、標準偏差1にする (z-スケーリング) 平均値=0 ⇒正規分布する時 – 中央値を0、MADを1にする (特にこの類を“グローバル正規化”と呼んでる気がする) ⇒正規分布しない時 中央値=0 – 箱ヒゲ図をそろえる、同じ順位の遺伝子同士を平均化する (クオンタイル正規化) ⇒無理やり全部同じ分布にする 中央値 34
  35. 35. VSN(分散安定化法) 散布図geneAの発現量 高発現領域(分散小) 低発現領域(分散大) 考えられる理由 チップ2 *そもそも小さい値のほうが、変動 がでかい 例:1⇒2は2倍だが、100⇒101は 1.01倍でしかない geneAの発現量 *アレイは飽和する チップ1 ⇒高発現領域はもう それ以上値が大きく ならない低発現領域の遺伝子発現は信頼度が低い ⇒ 低発現領域の分散を小さくする補正 35
  36. 36. SuperNorm (3パラメータ対数正規分布モデル)実際のデータは正規分布しない事も多い。通常正規分布は、 ①平均値(分布の位置) ②分散(分布の幅)という2つのパラメータで求められるが、SuperNormでは、第三の パラメータ ③バックグラウンドを仮定する。そうすると分布が必ず正規分布するようになるらしい(数式は割愛) 36
  37. 37. まとめ 既存の正規化手法のアプローチ1色法→PM、MMをどう使うか2色法→Cy3、Cy5の系統誤差をどう補正するか1,2色法共通→標準化、分散安定化、正規分布化 37
  38. 38. 参考文献• 各手法の文献• 門田先生のサイト• 各メタ解析の文献• PM/MMの画像: http://compbio.pbworks.com/w/page/16252906/Microarray%20Normalization%20and%20Expression%20Index• バイオメトリックス研究所:http://www.biomatrix.co.jp/product/dna_micro/1_1.html• Affymetrix:http://www.affymetrix.com/jp/products_services/arrays/specific/ht_hgu133_pm_ap.affx• 京大のサイト:• Agilent:• Illumina:• 製造法の違い:http://www.bio-concierge.com/buyers_guide/nucle2_2_1.php• 藤淵先生の講義資料(2色法の正規化):http://cellmontage.cbrc.jp/~wataru/to_takeyama/waseda-enshu2010-1.pdf• MAS5アルゴリズム:http://bioinformatics.picr.man.ac.uk/research/software/simpleaffy/algorithms.html• MAS5のスライド: http://www.google.co.jp/url?sa=t&rct=j&q=estimating%20signal%20with%20next%20generation%20affymetrix%20 software&source=web&cd=1&ved=0CD0QFjAA&url=http%3A%2F%2Fstat- www.berkeley.edu%2Fusers%2Fterry%2Fzarray%2FAffy%2FGL_Workshop%2FHubbell_GLGCpresents.ppt&ei= 4LWPT6SKNYHumAX7gtnxAQ&usg=AFQjCNH3PnznEWu02vK8H7mb6GkW6NW2aQ&sig2=oTlCY4XIIOQYaY5 Vz9Nx8A• median polishについて:http://www3.atword.jp/kmgs/2008/12/29/median-polishで株価変動のトレンド除去/• 正規化のベンチマーク:http://affycomp.biostat.jhsph.edu/ 38

×