SlideShare a Scribd company logo
1 of 38
Download to read offline
DNAマイクロアレイの内部構造の詳細
  及び既存の正規化手法のまとめ



    @antiplastics
目次

• 事前知識

• 1色法での正規化

• 2色法での正規化

• 1色法、2色法に共通した正規化
                    2
事前知識


       3
事前知識 - mRNA -
       …ATGCATCGTAGATGCTAGCATGCTAGTAGCT…   ゲノム

                          転写


                                           mRNA


DNAマイクロアレイはこのmRNAを        翻訳,折りたたみ
定量的に計測する技術
⇒
                                           タンパク質
遺伝子の機能解析、遺伝子間相互
作用の解析等に利用




                     各種生体内機能                       4
事前知識 – マイクロアレイ -
マイクロアレイ = 基盤上に何かを並べたもの
   Micro:1/1000レベルに分割して
   Array:並べたもの

DNAマイクロアレイ = DNAを基盤上に並べたもの
細胞マイクロアレイ = 細胞を基盤上に並べたもの

タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…                            5
事前知識 - DNAマイクロアレイ -
•   以下の2つがポピュラー
     – 1色法:Affymetrix型(オリゴヌクレオチドアレイ)
        • 作成法:フォトリソグラフィ法(基盤上でプローブを合成)
        • 商品名:GeneChip(Affymetrix社)
        • 種類: 3’-Array, Gene Array, Exon Array, Cytogenetics Array, miRNA Array,
          SNP Array

     – 2色法:Stanford型(cDNAアレイ、オリゴよりプローブが長い)
        • 作成法:スポット法(作成したプローブをスライドガラス上にスポット)
                プリント法(インクジェット)
        • 商品名:DNAmicroarray(Agilent社)、AceGene(DNAChip研究所)、IntelliGene
          (タカラバイオ社)

•   その他ビーズアレイ(Bead Array: Illumina社)や、長鎖オリゴヌクレオチドアレイ(Agilent
    社)、タイリングアレイ(ゲノム断片)とかもあるけどここでは割愛

•   EST、SAGE、CAGE、MPSS、RNA-Seq(次世代シーケンサ)等も技術は違うが、同様に
    遺伝子発現データを出力する


                                                                                   6
事前知識 - アレイ解析の基礎 -
  実験                   画像データ           数値データ、生データ
                       (.DAT)          (.CEL)



                                                      正規化

            c1    c2     c3     t1     t2     t3       各統計手法(例:t検定)
遺伝子1        6.5   5.5    5.3    4.4    5.3    5.1           p=0.1
遺伝子2        2.3   3.3    1.0    5.6    7.5    5.7           p=0.007
遺伝子3        5.3   4.4    4.4    -5.5   -4.2   -5.6          p=0.001


遺伝子30000    1.5   0.4    4.4    1.3    2.4    2.1           p=0.09
                  対照群                   処置群
           何も刺激を与えていないもの 試薬の投与、培養条件の変化など、                     FDR制御
                             刺激を与えたもの

                                                     発現変動遺伝子の判定
                                                                      7
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
事前知識 - アレイ解析の基礎 -
 •   必ず対数変換したものを用いる。しかも底を2にする事が多い
     –   正規分布になって、統計的に扱いやすいから
     –   2くらいのスケールが一番見やすいから
     –   2倍と1/2倍を同等に扱いたいから
     –   情報系の人はビットが好きだから



     y:頻度
                           y




            x:蛍光強度              log2x




 •   なぜ対数正規分布するのは不明。ただし、熱力学モデルを作成
     して、対数正規分布するまでの仮定を記述した研究は存在         8
     (Tomokazu Konishi,2005)
事前知識 - バイアスと正規化 -
• バイアス:実験操作やプローブの物性などで、ある値を大き
  く(または小さく)見積もってしまう事

• 正規化:「データには○○というバイアスがあるはずだ」とい
  う仮定のもと、そのバイアスの影響を軽減させるために、値
  に補正をかける事
             バイアスの例




  空間バイアス   Cy3、Cy5のそもそも   蛍光強度の値に依存す 9
           の蛍光強度の違い       る分散の大きさの違い
事前知識 - バイアスと正規化 -
• 各研究者が各々バイアスを仮定するため、正規化
  手法は乱立

• そのわりにみんなに広く使われている手法(デファク
  トスタンダード)は決まっている

• 1色法と2色法でも使われている手法が全然違う

• ただし、共通の問題というのもある
                           10
1色法での正規化


           11
1色法の原理

            生物の細胞からmRNAを抽出


ビオチン標識      cDNAに逆転写

         ハイブリダイゼーション反応
                             処置群

                                   比較




各スポットにcDNAと相補的
なプローブが並んだ基盤                  対照群    12
PM-MM戦略(Affymetrix社)
     mRNAの全長は5000塩基くらい。3‘側近辺から適当な間隔で11〜16配列が
     選択されプローブが作成される。これはRNAが不安定で分解されやすいため

                                                    AAAAAAA
5’                                                            3’
     mRNA




                        1   2   3   4   5   6   7   8   9   10 11

                            acttctataatctgcaacggtacat         PM
                            acttctataatctccaacggtacat         MM 13
                         プローブ長は25塩基で、13番目の塩基を変えてる
さらにズーム(Affymetrix社のサイトより)
                            14
1色法で提案されている正規化法
•   MBEI(2001)
•   PLIER(2001)
•   dChip(2001)
•   RMA(2002)
•   PDNN(2003)               デファクトスタンダード
•   MAS5(2003)
•   GCRMA(2004)
•   multi-mgMOS(2005)
•   GLA(2005)
•   Extrapolation Strategy、refRMA,RMA+(2006)
•   FARMS(2006)
•   RMA++(2007)
•   DFW(2007)
•   Hook(2008)

…
Comparison of Affymetrix GeneChip expression measures, Bioinformatics, 2006
の時点で50の手法が存在している事が確認されている

                                                                              15
3つの尺度による分類

<Background Correction>
結合したmRNA以外のもの(不純物等)から由来した
蛍光強度をどのように差し引くか

<Summarization>
PM/MMを使ってどのように発現量を割り出すか

                            geneX = 234.7

<Normalization>
他のチップデータとどのように値を揃えるか



                                     16
*MAS4(今は誰も使わない)
                                                                    <特徴>
プローブペア
                                                        <Background Correction>
                                                   PM   PMからMMを引く事で自ずと
                                                        <Summalization>
                                                   MM
                                                        Avdiff
       1   2   3   4   5   6   7   8   9   10 11
                                                        <Normalization>
                                                        特に無し
PM = (特異的な結合) + (非特異的な結合) + (バックグラウンド)
MM = (非特異的な結合) + (バックグラウンド)
だと考えれば、PMからMMをひけばいい




     A:3SD以内に入った(すなわち外れ値ではないと思われる)ペアの数
                                       1≦A≦11

    値が負になる場合が出てくる ⇒ 対数とるとNA(欠損値)になる ⇒ エラーになる                                      17
MAS5
プローブペア                                                                            <特徴>
                                                                        <Background Correction>
                                                                  PM    4×4の区画からの重み付け平均
                                                                  MM    <Summalization>
          1       2       3    4   5    6   7    8    9   10 11         Tukey Biweight法で重み付けをした
                                                                        Avdiff
                                                                        <Normalization>
                                                                        特に無し

 <Background Correction>
     1        2           3        4            1.   4×4の区画にアレイを分割
                                                2.   各区画でのランキングで小さいほうから2%のところのセルの平
                                                     均値(bZk)と、その標準偏差(nZk)を計算
     5        6           7        8
                                                3.   各セル毎に、全区画の中心との距離を計算:dk(x,y)

 y   9        10          11       12
                                                4.   距離をもとにした重みを計算:1/ (dk(x,y) +100)
                                                5.   各中心からの重み付け平均をバックグランドの推定値とする
     13       14          15       16           6.   蛍光強度からバックグランド値を引く

                                                                                           18
                      x
MAS5(続き)
<Summalization>
   MAS4の値が負になる弱点をロバスト推定の手法(Tukey Biweight法)でカバー




 Normalization and Construction of Expression Measures for Affymetrixより   19
プローブ効果
並べている塩基配列が違うから、プローブペアの位置によって、蛍光強度は大きく変わる




                                PM

                                MM




                                      20
MBEI
                                                                                   <特徴>
複数のアレイでのプローブペアの値を非線形回帰して、
                                                                       プローブ効果を考慮
推定値を割り出してから、平均を計算する                                                    <Background Correction>
開発者達の名前“Li Wong”としても知られている                                             PMからMMを引く事で
                                                                       <Summalization>
                                                                       非線形回帰
                                                                       <Normalization>
             1   2   3   4   5   6   7   8   9       10 11
                                                                       特に無し


             1   2   3   4   5   6   7   8   9       10 11            最尤法で回帰係数を推定。
                                                                      但し、少なくともこれを使うの
             1   2   3   4   5   6   7   8   9       10 11
                                                                      には、10〜20チップは必要
PM-MMの                                                                (正規分布ベースだから)
蛍光強度                                         .
                                             .
                                             .
                                                 .
                                                 .
                                                 .                                 .
                                                                                   .
                                         .   .   .                                 .
                                         .
                                         .   .   .                                 .
                                     .           .                                 .
                                     .   .   .                                     .
                                 .   .   .   .   .
                             .   .
                                 .   .   .                                         .
                         .   .
                             .   .   .
                     .   .           .   .
                 .   .   .   .   .
                                     .
         .
         .
         .
             .
             .
             .
             .
                 .
                 .
                 .
                     .
                     .
                     .
                         .
                         .
                         .
                             .
                             .
                             .
                                 .
                                 .                           の平均を使う
         .       .   .   .
         .   .   .   .
         .   .
             .   .
         .                                                                                       21
                                                             プローブペア
MMの必要性に対する疑問
・MMは結構PMより大きくなる事が多い(全体の1/3くらいになる事も)
・PMからMMを引くと値のばらつきが激しくなってしまう
・PMだけにすれば、製造コストも減らせる




                                                     22
  Probe-Level Data Normalization: RMA and GC-RMAより
dChip

MBEIをPMの値のみで行なったもの



dChip自体はソフトウェア名
おそらくオプションでMM引くか引かないか選択できるのだと思われる
論文内で、よくMBEIのPMだけ使ったバージョンという意味で出てくる




                                     23
RMA法
 1色法正規化のデファクトスタンダード                                <特徴>
                                       <Background Correction>
                                       グローバルバックグラウンド補正(PM
        <Background Correction>        のみ)
①PMは真のシグナル(指数分布)とバックグラウンド(正規分布)        <Summalization>
                                       Median polish (PMのみ)
からなると仮定                                <Normalization>
②1チップ毎に、シグナルとバックグラウンドのパラメーターを推定        クオンタイル正規化(箱ひげ図を揃え
                                       る)
③それらパラメーターを利用して、PMを補正




                                           http://bmbolstad.com/t
                                           alks/Bolstad-
                                           %20GenentechBioinf
                                           ormaticsTalk.pdfより


                                  PMの補正式                       24
RMA法(続き)
       <Normalization>
クオンタイル正規化(後述)で複数アレイのデータを標準化する

       <Summalization>
Median Polish法で線形モデルを求める




                                http://bmbolstad.com/t
                                alks/Bolstad-
                                %20GenentechBioinf
                                ormaticsTalk.pdfより
                                                    25
RMAから派生した手法
• GCRMA   プローブ-ターゲットRNA間のGC結合の強さ
          まで考慮したRMA



• RMA+
          大規模なアレイ解析(100枚以上)を意識し
          た(Extrapolation Strategy)RMA

• RMA++




                                         26
2色法での正規化


           27
2色法の原理
        対照群の細胞から           処置群の細胞から
        mRNAを抽出            mRNAを抽出
                                       対照群1vs処置群1



              逆転写&蛍光標識
                                       対照群2vs処置群2
Cy3          Cy5
                   競合的
                   ハイブリダイゼーション反応
                                       対照群3vs処置群3




Cy:Cyanine
                                               28
             1色法との違いは、1チップ上で対照群と処置群を同時に見るところ
一般的なマイクロアレイ
                Cy3が赤の発光をする
                                        のイメージ画像

ハイブリ後   波長Xの光
のプレート
                              画像重ね合わせ




 無色
        波長Yの光                            赤:正常細胞で多く発現
                                         緑:癌細胞で多く発現
                Cy5が緑の発光をする              黄:両細胞で多く発現
                                         黒:両細胞で発現無し



                                                  29
2色法で提案されている正規化法
•   LOWESS(局所重み付け多項式回帰)   デファクトスタンダード
•   スプライン回帰
•   ハウスキーピング遺伝子の利用
•   プリントオーダーバイアス補正
•   空間バイアス補正(ヒストグラム法)
…

• 分散安定化法                  こっちは1色法にも共通す
• グローバル正規化                るものがあるので後で説明
• クオンタイル正規化




                                        30
Cy3/Cy5の非線形な系統誤差
 Cy5(対照群)に比べ、
                             MA-plot
 Cy3(処置群)で何倍
 発現変動したか
M = log2( Cy3 / Cy5 )

                                                    Cy5側に系統的に偏る
                                                    (Cy3/Cy5の物性の違い)
                                                    +しかも蛍光強度に依存
                                                    して偏る(非線形)


                                                    Cy5とCy3の
                                                    対数値の平均
                                       A = ( log2(Cy3)+log2(Cy5)) / 2
                                                                        31
                        Wikipediaより
LOWESS、スプライン回帰
               ノンパラトリック回帰の手法の利用

         補正前                          補正後




                     この関数を直線にして、
                     全データに補正をかける




この回帰関数の選び方でLOWESS、LOESS、スプライン回帰等がある         32
1色法、2色法に
共通した正規化


           33
標準化(スケーリング)
他のマイクロアレイ実験と相対的に値を比べたい(グローバル正規化ともいう)
  – 平均値0、標準偏差1にする
    (z-スケーリング)                         平均値=0
  ⇒正規分布する時


  – 中央値を0、MADを1にする
    (特にこの類を“グローバル正規化”と呼んでる気がする)
  ⇒正規分布しない時                            中央値=0




  – 箱ヒゲ図をそろえる、同じ順位の遺伝子同士を平均化する
    (クオンタイル正規化)
  ⇒無理やり全部同じ分布にする


                                               中央値




                                               34
VSN(分散安定化法)
            散布図


geneAの発現量                      高発現領域(分散小)

                                低発現領域(分散大)

                               考えられる理由
  チップ2                         *そもそも小さい値のほうが、変動
                               がでかい
                               例:1⇒2は2倍だが、100⇒101は
                               1.01倍でしかない
                   geneAの発現量   *アレイは飽和する

            チップ1                      ⇒高発現領域はもう
                                      それ以上値が大きく
                                      ならない


低発現領域の遺伝子発現は信頼度が低い ⇒ 低発現領域の分散を小さくする補正           35
SuperNorm
  (3パラメータ対数正規分布モデル)
実際のデータは正規分布しない事も多い。

通常正規分布は、
           ①平均値(分布の位置)
            ②分散(分布の幅)

という2つのパラメータで求められるが、SuperNormでは、第三の
 パラメータ
            ③バックグラウンド
を仮定する。
そうすると分布が必ず正規分布するようになるらしい(数式は割愛)

                                36
まとめ

     既存の正規化手法のアプローチ

1色法→PM、MMをどう使うか

2色法→Cy3、Cy5の系統誤差をどう補正するか

1,2色法共通→標準化、分散安定化、正規分布化




                           37
参考文献
•   各手法の文献
•   門田先生のサイト
•   各メタ解析の文献
•   PM/MMの画像:
    http://compbio.pbworks.com/w/page/16252906/Microarray%20Normalization%20and%20Expression%20Index
•   バイオメトリックス研究所:http://www.biomatrix.co.jp/product/dna_micro/1_1.html
•   Affymetrix:http://www.affymetrix.com/jp/products_services/arrays/specific/ht_hgu133_pm_ap.affx
•   京大のサイト:
•   Agilent:
•   Illumina:
•   製造法の違い:http://www.bio-concierge.com/buyers_guide/nucle2_2_1.php
•   藤淵先生の講義資料(2色法の正規化):http://cellmontage.cbrc.jp/~wataru/to_takeyama/waseda-enshu2010-1.pdf
•   MAS5アルゴリズム:http://bioinformatics.picr.man.ac.uk/research/software/simpleaffy/algorithms.html
•   MAS5のスライド:
    http://www.google.co.jp/url?sa=t&rct=j&q=estimating%20signal%20with%20next%20generation%20affymetrix%20
    software&source=web&cd=1&ved=0CD0QFjAA&url=http%3A%2F%2Fstat-
    www.berkeley.edu%2Fusers%2Fterry%2Fzarray%2FAffy%2FGL_Workshop%2FHubbell_GLGCpresents.ppt&ei=
    4LWPT6SKNYHumAX7gtnxAQ&usg=AFQjCNH3PnznEWu02vK8H7mb6GkW6NW2aQ&sig2=oTlCY4XIIOQYaY5
    Vz9Nx8A
•   median polishについて:http://www3.atword.jp/kmgs/2008/12/29/median-polishで株価変動のトレンド除去/
•   正規化のベンチマーク:http://affycomp.biostat.jhsph.edu/




                                                                                                        38

More Related Content

What's hot

SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018Shuma Ishigami
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~宏喜 佐野
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」Kota Matsui
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -Akisato Kimura
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎Preferred Networks
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング智文 中野
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214Kosuke Nakago
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 

What's hot (20)

SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 

Viewers also liked

A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...弘毅 露崎
 
Microarray Statistics
Microarray StatisticsMicroarray Statistics
Microarray StatisticsA Roy
 
Microarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMicroarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMaté Ongenaert
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化弘毅 露崎
 
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2ndMika Yoshimura
 
Metabolomic Data Analysis Workshop and Tutorials (2014)
Metabolomic Data Analysis Workshop and Tutorials (2014)Metabolomic Data Analysis Workshop and Tutorials (2014)
Metabolomic Data Analysis Workshop and Tutorials (2014)Dmitry Grapov
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングYuichi Ito
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベースDNA Data Bank of Japan center
 

Viewers also liked (12)

A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
 
Microarray Statistics
Microarray StatisticsMicroarray Statistics
Microarray Statistics
 
Microarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMicroarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the bench
 
MUMA_ver.1.0
MUMA_ver.1.0MUMA_ver.1.0
MUMA_ver.1.0
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化
 
非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd非線形データの次元圧縮 150905 WACODE 2nd
非線形データの次元圧縮 150905 WACODE 2nd
 
Metabolomic Data Analysis Workshop and Tutorials (2014)
Metabolomic Data Analysis Workshop and Tutorials (2014)Metabolomic Data Analysis Workshop and Tutorials (2014)
Metabolomic Data Analysis Workshop and Tutorials (2014)
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
One point lessons (OPLs)
One point lessons (OPLs)One point lessons (OPLs)
One point lessons (OPLs)
 
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 

Similar to Normalization of microarray

Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction PredictionMasahito Ohue
 
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2Nagi Teramo
 
FiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeFiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeMasahito Ohue
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎ShoutoYonekura
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリングKosei ABE
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半Akifumi Eguchi
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
Data Mining 6.5 Rule-Based Classification
Data Mining 6.5 Rule-Based ClassificationData Mining 6.5 Rule-Based Classification
Data Mining 6.5 Rule-Based ClassificationKozoChikai
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじsleepy_yoshi
 

Similar to Normalization of microarray (20)

Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction Prediction
 
Prml revenge7.1.1
Prml revenge7.1.1Prml revenge7.1.1
Prml revenge7.1.1
 
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2
 
FiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeFiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal Mode
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
Statistics_R
Statistics_RStatistics_R
Statistics_R
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
Data Mining 6.5 Rule-Based Classification
Data Mining 6.5 Rule-Based ClassificationData Mining 6.5 Rule-Based Classification
Data Mining 6.5 Rule-Based Classification
 
ma99992011id513
ma99992011id513ma99992011id513
ma99992011id513
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
ma52006id384
ma52006id384ma52006id384
ma52006id384
 

More from 弘毅 露崎

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発弘毅 露崎
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向弘毅 露崎
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...弘毅 露崎
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加弘毅 露崎
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法弘毅 露崎
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...弘毅 露崎
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出弘毅 露崎
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出弘毅 露崎
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...弘毅 露崎
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合弘毅 露崎
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方弘毅 露崎
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...弘毅 露崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ弘毅 露崎
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知弘毅 露崎
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
Large-scale imputation of epigenetic datasets for systematic annotation of di...
Large-scale imputation of epigenetic datasets for systematic annotation of di...Large-scale imputation of epigenetic datasets for systematic annotation of di...
Large-scale imputation of epigenetic datasets for systematic annotation of di...弘毅 露崎
 

More from 弘毅 露崎 (20)

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
 
R-4.0の解説
R-4.0の解説R-4.0の解説
R-4.0の解説
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加
 
20191204 mbsj2019
20191204 mbsj201920191204 mbsj2019
20191204 mbsj2019
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
WACODE
WACODEWACODE
WACODE
 
Large-scale imputation of epigenetic datasets for systematic annotation of di...
Large-scale imputation of epigenetic datasets for systematic annotation of di...Large-scale imputation of epigenetic datasets for systematic annotation of di...
Large-scale imputation of epigenetic datasets for systematic annotation of di...
 
PRML10章
PRML10章PRML10章
PRML10章
 

Normalization of microarray

  • 2. 目次 • 事前知識 • 1色法での正規化 • 2色法での正規化 • 1色法、2色法に共通した正規化 2
  • 4. 事前知識 - mRNA - …ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム 転写 mRNA DNAマイクロアレイはこのmRNAを 翻訳,折りたたみ 定量的に計測する技術 ⇒ タンパク質 遺伝子の機能解析、遺伝子間相互 作用の解析等に利用 各種生体内機能 4
  • 5. 事前知識 – マイクロアレイ - マイクロアレイ = 基盤上に何かを並べたもの Micro:1/1000レベルに分割して Array:並べたもの DNAマイクロアレイ = DNAを基盤上に並べたもの 細胞マイクロアレイ = 細胞を基盤上に並べたもの タンパク質マイクロアレイ 抗体アレイ 組織マイクロアレイ 化合物マイクロアレイ … 5
  • 6. 事前知識 - DNAマイクロアレイ - • 以下の2つがポピュラー – 1色法:Affymetrix型(オリゴヌクレオチドアレイ) • 作成法:フォトリソグラフィ法(基盤上でプローブを合成) • 商品名:GeneChip(Affymetrix社) • 種類: 3’-Array, Gene Array, Exon Array, Cytogenetics Array, miRNA Array, SNP Array – 2色法:Stanford型(cDNAアレイ、オリゴよりプローブが長い) • 作成法:スポット法(作成したプローブをスライドガラス上にスポット) プリント法(インクジェット) • 商品名:DNAmicroarray(Agilent社)、AceGene(DNAChip研究所)、IntelliGene (タカラバイオ社) • その他ビーズアレイ(Bead Array: Illumina社)や、長鎖オリゴヌクレオチドアレイ(Agilent 社)、タイリングアレイ(ゲノム断片)とかもあるけどここでは割愛 • EST、SAGE、CAGE、MPSS、RNA-Seq(次世代シーケンサ)等も技術は違うが、同様に 遺伝子発現データを出力する 6
  • 7. 事前知識 - アレイ解析の基礎 - 実験 画像データ 数値データ、生データ (.DAT) (.CEL) 正規化 c1 c2 c3 t1 t2 t3 各統計手法(例:t検定) 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09 対照群 処置群 何も刺激を与えていないもの 試薬の投与、培養条件の変化など、 FDR制御 刺激を与えたもの 発現変動遺伝子の判定 7 1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
  • 8. 事前知識 - アレイ解析の基礎 - • 必ず対数変換したものを用いる。しかも底を2にする事が多い – 正規分布になって、統計的に扱いやすいから – 2くらいのスケールが一番見やすいから – 2倍と1/2倍を同等に扱いたいから – 情報系の人はビットが好きだから y:頻度 y x:蛍光強度 log2x • なぜ対数正規分布するのは不明。ただし、熱力学モデルを作成 して、対数正規分布するまでの仮定を記述した研究は存在 8 (Tomokazu Konishi,2005)
  • 9. 事前知識 - バイアスと正規化 - • バイアス:実験操作やプローブの物性などで、ある値を大き く(または小さく)見積もってしまう事 • 正規化:「データには○○というバイアスがあるはずだ」とい う仮定のもと、そのバイアスの影響を軽減させるために、値 に補正をかける事 バイアスの例 空間バイアス Cy3、Cy5のそもそも 蛍光強度の値に依存す 9 の蛍光強度の違い る分散の大きさの違い
  • 10. 事前知識 - バイアスと正規化 - • 各研究者が各々バイアスを仮定するため、正規化 手法は乱立 • そのわりにみんなに広く使われている手法(デファク トスタンダード)は決まっている • 1色法と2色法でも使われている手法が全然違う • ただし、共通の問題というのもある 10
  • 12. 1色法の原理 生物の細胞からmRNAを抽出 ビオチン標識 cDNAに逆転写 ハイブリダイゼーション反応 処置群 比較 各スポットにcDNAと相補的 なプローブが並んだ基盤 対照群 12
  • 13. PM-MM戦略(Affymetrix社) mRNAの全長は5000塩基くらい。3‘側近辺から適当な間隔で11〜16配列が 選択されプローブが作成される。これはRNAが不安定で分解されやすいため AAAAAAA 5’ 3’ mRNA 1 2 3 4 5 6 7 8 9 10 11 acttctataatctgcaacggtacat PM acttctataatctccaacggtacat MM 13 プローブ長は25塩基で、13番目の塩基を変えてる
  • 15. 1色法で提案されている正規化法 • MBEI(2001) • PLIER(2001) • dChip(2001) • RMA(2002) • PDNN(2003) デファクトスタンダード • MAS5(2003) • GCRMA(2004) • multi-mgMOS(2005) • GLA(2005) • Extrapolation Strategy、refRMA,RMA+(2006) • FARMS(2006) • RMA++(2007) • DFW(2007) • Hook(2008) … Comparison of Affymetrix GeneChip expression measures, Bioinformatics, 2006 の時点で50の手法が存在している事が確認されている 15
  • 17. *MAS4(今は誰も使わない) <特徴> プローブペア <Background Correction> PM PMからMMを引く事で自ずと <Summalization> MM Avdiff 1 2 3 4 5 6 7 8 9 10 11 <Normalization> 特に無し PM = (特異的な結合) + (非特異的な結合) + (バックグラウンド) MM = (非特異的な結合) + (バックグラウンド) だと考えれば、PMからMMをひけばいい A:3SD以内に入った(すなわち外れ値ではないと思われる)ペアの数 1≦A≦11 値が負になる場合が出てくる ⇒ 対数とるとNA(欠損値)になる ⇒ エラーになる 17
  • 18. MAS5 プローブペア <特徴> <Background Correction> PM 4×4の区画からの重み付け平均 MM <Summalization> 1 2 3 4 5 6 7 8 9 10 11 Tukey Biweight法で重み付けをした Avdiff <Normalization> 特に無し <Background Correction> 1 2 3 4 1. 4×4の区画にアレイを分割 2. 各区画でのランキングで小さいほうから2%のところのセルの平 均値(bZk)と、その標準偏差(nZk)を計算 5 6 7 8 3. 各セル毎に、全区画の中心との距離を計算:dk(x,y) y 9 10 11 12 4. 距離をもとにした重みを計算:1/ (dk(x,y) +100) 5. 各中心からの重み付け平均をバックグランドの推定値とする 13 14 15 16 6. 蛍光強度からバックグランド値を引く 18 x
  • 19. MAS5(続き) <Summalization> MAS4の値が負になる弱点をロバスト推定の手法(Tukey Biweight法)でカバー Normalization and Construction of Expression Measures for Affymetrixより 19
  • 21. MBEI <特徴> 複数のアレイでのプローブペアの値を非線形回帰して、 プローブ効果を考慮 推定値を割り出してから、平均を計算する <Background Correction> 開発者達の名前“Li Wong”としても知られている PMからMMを引く事で <Summalization> 非線形回帰 <Normalization> 1 2 3 4 5 6 7 8 9 10 11 特に無し 1 2 3 4 5 6 7 8 9 10 11 最尤法で回帰係数を推定。 但し、少なくともこれを使うの 1 2 3 4 5 6 7 8 9 10 11 には、10〜20チップは必要 PM-MMの (正規分布ベースだから) 蛍光強度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . の平均を使う . . . . . . . . . . . . . 21 プローブペア
  • 24. RMA法 1色法正規化のデファクトスタンダード <特徴> <Background Correction> グローバルバックグラウンド補正(PM <Background Correction> のみ) ①PMは真のシグナル(指数分布)とバックグラウンド(正規分布) <Summalization> Median polish (PMのみ) からなると仮定 <Normalization> ②1チップ毎に、シグナルとバックグラウンドのパラメーターを推定 クオンタイル正規化(箱ひげ図を揃え る) ③それらパラメーターを利用して、PMを補正 http://bmbolstad.com/t alks/Bolstad- %20GenentechBioinf ormaticsTalk.pdfより PMの補正式 24
  • 25. RMA法(続き) <Normalization> クオンタイル正規化(後述)で複数アレイのデータを標準化する <Summalization> Median Polish法で線形モデルを求める http://bmbolstad.com/t alks/Bolstad- %20GenentechBioinf ormaticsTalk.pdfより 25
  • 26. RMAから派生した手法 • GCRMA プローブ-ターゲットRNA間のGC結合の強さ まで考慮したRMA • RMA+ 大規模なアレイ解析(100枚以上)を意識し た(Extrapolation Strategy)RMA • RMA++ 26
  • 28. 2色法の原理 対照群の細胞から 処置群の細胞から mRNAを抽出 mRNAを抽出 対照群1vs処置群1 逆転写&蛍光標識 対照群2vs処置群2 Cy3 Cy5 競合的 ハイブリダイゼーション反応 対照群3vs処置群3 Cy:Cyanine 28 1色法との違いは、1チップ上で対照群と処置群を同時に見るところ
  • 29. 一般的なマイクロアレイ Cy3が赤の発光をする のイメージ画像 ハイブリ後 波長Xの光 のプレート 画像重ね合わせ 無色 波長Yの光 赤:正常細胞で多く発現 緑:癌細胞で多く発現 Cy5が緑の発光をする 黄:両細胞で多く発現 黒:両細胞で発現無し 29
  • 30. 2色法で提案されている正規化法 • LOWESS(局所重み付け多項式回帰) デファクトスタンダード • スプライン回帰 • ハウスキーピング遺伝子の利用 • プリントオーダーバイアス補正 • 空間バイアス補正(ヒストグラム法) … • 分散安定化法 こっちは1色法にも共通す • グローバル正規化 るものがあるので後で説明 • クオンタイル正規化 30
  • 31. Cy3/Cy5の非線形な系統誤差 Cy5(対照群)に比べ、 MA-plot Cy3(処置群)で何倍 発現変動したか M = log2( Cy3 / Cy5 ) Cy5側に系統的に偏る (Cy3/Cy5の物性の違い) +しかも蛍光強度に依存 して偏る(非線形) Cy5とCy3の 対数値の平均 A = ( log2(Cy3)+log2(Cy5)) / 2 31 Wikipediaより
  • 32. LOWESS、スプライン回帰 ノンパラトリック回帰の手法の利用 補正前 補正後 この関数を直線にして、 全データに補正をかける この回帰関数の選び方でLOWESS、LOESS、スプライン回帰等がある 32
  • 34. 標準化(スケーリング) 他のマイクロアレイ実験と相対的に値を比べたい(グローバル正規化ともいう) – 平均値0、標準偏差1にする (z-スケーリング) 平均値=0 ⇒正規分布する時 – 中央値を0、MADを1にする (特にこの類を“グローバル正規化”と呼んでる気がする) ⇒正規分布しない時 中央値=0 – 箱ヒゲ図をそろえる、同じ順位の遺伝子同士を平均化する (クオンタイル正規化) ⇒無理やり全部同じ分布にする 中央値 34
  • 35. VSN(分散安定化法) 散布図 geneAの発現量 高発現領域(分散小) 低発現領域(分散大) 考えられる理由 チップ2 *そもそも小さい値のほうが、変動 がでかい 例:1⇒2は2倍だが、100⇒101は 1.01倍でしかない geneAの発現量 *アレイは飽和する チップ1 ⇒高発現領域はもう それ以上値が大きく ならない 低発現領域の遺伝子発現は信頼度が低い ⇒ 低発現領域の分散を小さくする補正 35
  • 36. SuperNorm (3パラメータ対数正規分布モデル) 実際のデータは正規分布しない事も多い。 通常正規分布は、 ①平均値(分布の位置) ②分散(分布の幅) という2つのパラメータで求められるが、SuperNormでは、第三の パラメータ ③バックグラウンド を仮定する。 そうすると分布が必ず正規分布するようになるらしい(数式は割愛) 36
  • 37. まとめ 既存の正規化手法のアプローチ 1色法→PM、MMをどう使うか 2色法→Cy3、Cy5の系統誤差をどう補正するか 1,2色法共通→標準化、分散安定化、正規分布化 37
  • 38. 参考文献 • 各手法の文献 • 門田先生のサイト • 各メタ解析の文献 • PM/MMの画像: http://compbio.pbworks.com/w/page/16252906/Microarray%20Normalization%20and%20Expression%20Index • バイオメトリックス研究所:http://www.biomatrix.co.jp/product/dna_micro/1_1.html • Affymetrix:http://www.affymetrix.com/jp/products_services/arrays/specific/ht_hgu133_pm_ap.affx • 京大のサイト: • Agilent: • Illumina: • 製造法の違い:http://www.bio-concierge.com/buyers_guide/nucle2_2_1.php • 藤淵先生の講義資料(2色法の正規化):http://cellmontage.cbrc.jp/~wataru/to_takeyama/waseda-enshu2010-1.pdf • MAS5アルゴリズム:http://bioinformatics.picr.man.ac.uk/research/software/simpleaffy/algorithms.html • MAS5のスライド: http://www.google.co.jp/url?sa=t&rct=j&q=estimating%20signal%20with%20next%20generation%20affymetrix%20 software&source=web&cd=1&ved=0CD0QFjAA&url=http%3A%2F%2Fstat- www.berkeley.edu%2Fusers%2Fterry%2Fzarray%2FAffy%2FGL_Workshop%2FHubbell_GLGCpresents.ppt&ei= 4LWPT6SKNYHumAX7gtnxAQ&usg=AFQjCNH3PnznEWu02vK8H7mb6GkW6NW2aQ&sig2=oTlCY4XIIOQYaY5 Vz9Nx8A • median polishについて:http://www3.atword.jp/kmgs/2008/12/29/median-polishで株価変動のトレンド除去/ • 正規化のベンチマーク:http://affycomp.biostat.jhsph.edu/ 38