SlideShare a Scribd company logo
1 of 16
Dong X et. al. Modeling gene
expression using chromatin features in
various cellular contexts
2012/09/29 ENCODE 勉強会
二階堂愛 / @dritoshi #encodejp-28
理化学研究所 発生・再生科学総合研究センター
この資料の最新版の以下にあります
http://cat.hackingisbelieving.org/lecture/

                                           http://genomebiology.com/content/13/9/R53




               このファイルは クリエイティブ・コモンズ 表示 2.0 一般 ライセンスの下に提供されています。




                “catway dritoshi” で検索
Chromatin features から遺伝子発現が予測できるか?
4つの問い



1. Can we reproduce the quantitative relationship between
gene expression levels and histone modifications?

2. Does the relationship hold across different human cell lines
and between different groups of genes?

3. Do the most predictive chromatin features differ depending
on the expression quantification technique used?

4. How well can the chromatin features predict expression
levels of RNA from different cell compartments and/or RNA
extracted by different
Chromatin features が転写を制御する
遺伝子周辺のヒストン修飾, クロマチン構造による転写制御




Cause = Chromatin feature                  Effect = transcription
7 histone modifications                     RNA-seq
1 histone variant                          RNA-PET
DNase I hypersensitivity in 7 cell         deepCAGE



        Effect = transcription


                       Cause = Chromatin feature
Chromatin featuresのデータを表現
遺伝子周辺のヒストン修飾, クロマチン構造のベクトルを作る
RNA転写量データの表現
転写がON/OFFの遺伝子に分けてしまう




Random forests でON/OFFの2群に分類する
モデル化する
回帰モデル




   1. Linear regression
   2. multivariate adaptive regression splines (MARS)
   3. Random forests
モデルを統合する
分類*回帰モデル
モデルを評価する
予測と実測を比較する
予測性能1
予測と実測を比較する
予測性能2
予測と実測を比較する
まとめ1
chromatin features から転写量が良く予測できる




0. chromatin features の転写への影響を定量的に評価できた
発現ON/OFF: H3K9ac > H3K4me3 > DNase I > H3K4me2 ...
転写量: H3K79me2 > H3K36me3 > DNase I > H3K9ac ...


1. 2段階の予測方法を提案
ON/OFFの分類と回帰モデル
まとめ2
ほかに議論されていること


1. Nucleus, Cytosol, Whole Cell 由来のRNA量を予測できるか?
できる。Cytosol > Whole Cell >> Nucleus


2. RNA-seq, CAGE, RNA-PETのどれがchromatin featuresとの相
関が高いか?
CAGE > RNA-PET = RNA-seq


3. ほかの細胞の転写量を説明できるか?
R = 0.8 程度で


4. CpGとの関連は?
High CpG のほうが予測がよい
こう考える
よかったことと残された課題

よかったこと
1. 予測できたのはよかったね
2. chromatin features のそれぞれの重要性がわかったのはよ
かった

課題
1. bestbin を相関で取っているのはいいのかな?
2. 統計モデルでいいのかな? モノの動きがわからない
3. CAGE, RNA-seq, RNA-PETが比較できるほどフェア?
4. 遺伝子に着目した議論も欲しいよね
5. 予測結果から転写をデザインできるのか?
Software
分類や回帰など



Calculation of the mean density of chromatin features
bigWigSummary: BigWig and BigBed: enabling browsing of large
distributed datasets

Variable importance
relaimpo: Relative importance of regressors in linear models

Regression/classification
randomForest: Breiman and Cutler's random forests for
classification and regression

Regression
earth: Multivariate Adaptive Regression Spline Models
この資料の最新版の以下にあります
http://cat.hackingisbelieving.org/lecture/

                                           http://genomebiology.com/content/13/9/R53




               このファイルは クリエイティブ・コモンズ 表示 2.0 一般 ライセンスの下に提供されています。




                “catway dritoshi” で検索

More Related Content

More from Itoshi Nikaido

Rのオブジェクト
RのオブジェクトRのオブジェクト
Rのオブジェクト
Itoshi Nikaido
 
Rの環境とスコープ
Rの環境とスコープRの環境とスコープ
Rの環境とスコープ
Itoshi Nikaido
 

More from Itoshi Nikaido (8)

第1回HPC OPS研究会 Opening Remarks
第1回HPC OPS研究会 Opening Remarks第1回HPC OPS研究会 Opening Remarks
第1回HPC OPS研究会 Opening Remarks
 
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
 
Reading circle of Epigenome Roadmap: Roadmap Epigenomics Consortium et. al. I...
Reading circle of Epigenome Roadmap: Roadmap Epigenomics Consortium et. al. I...Reading circle of Epigenome Roadmap: Roadmap Epigenomics Consortium et. al. I...
Reading circle of Epigenome Roadmap: Roadmap Epigenomics Consortium et. al. I...
 
Bioinformatics Analysis Environment for Your Laboratory Use
Bioinformatics Analysis Environment for Your Laboratory UseBioinformatics Analysis Environment for Your Laboratory Use
Bioinformatics Analysis Environment for Your Laboratory Use
 
DevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティング
DevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティングDevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティング
DevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティング
 
Rのオブジェクト
RのオブジェクトRのオブジェクト
Rのオブジェクト
 
Rの環境とスコープ
Rの環境とスコープRの環境とスコープ
Rの環境とスコープ
 
いつも側にいるコラボレータ Google+を使った共同研究の進め方
いつも側にいるコラボレータ Google+を使った共同研究の進め方いつも側にいるコラボレータ Google+を使った共同研究の進め方
いつも側にいるコラボレータ Google+を使った共同研究の進め方
 

ENCODE勉強会

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n