Submit Search
Upload
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
•
5 likes
•
20,508 views
A
Amelieff
Follow
2014年12月18日に開催した、アメリエフ株式会社・第40回勉強会「フリーソフトではじめるChIP-seq&メチル化データ解析入門」のChIP-Seq編のスライドです。
Read less
Read more
Health & Medicine
Report
Share
Report
Share
1 of 36
Recommended
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Preferred Networks
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
Preferred Networks
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
Preferred Networks
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
KLab Inc. / Tech
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
Recommended
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Preferred Networks
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
Preferred Networks
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
Preferred Networks
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
KLab Inc. / Tech
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
最適化計算の概要まとめ
最適化計算の概要まとめ
Yuichiro MInato
Hyperoptとその周辺について
Hyperoptとその周辺について
Keisuke Hosaka
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
Shuhei Sowa
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
ベイズ最適化
ベイズ最適化
MatsuiRyo
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
Preferred Networks
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
遺伝子のアノテーション付加
遺伝子のアノテーション付加
弘毅 露崎
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Amelieff
Exome解析入門
Exome解析入門
Amelieff
More Related Content
What's hot
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
最適化計算の概要まとめ
最適化計算の概要まとめ
Yuichiro MInato
Hyperoptとその周辺について
Hyperoptとその周辺について
Keisuke Hosaka
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
Shuhei Sowa
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
ベイズ最適化
ベイズ最適化
MatsuiRyo
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
Preferred Networks
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
遺伝子のアノテーション付加
遺伝子のアノテーション付加
弘毅 露崎
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
What's hot
(20)
Optimizer入門&最新動向
Optimizer入門&最新動向
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
最適化計算の概要まとめ
最適化計算の概要まとめ
Hyperoptとその周辺について
Hyperoptとその周辺について
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
coordinate descent 法について
coordinate descent 法について
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Active Learning 入門
Active Learning 入門
ベイズ最適化
ベイズ最適化
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
不均衡データのクラス分類
不均衡データのクラス分類
遺伝子のアノテーション付加
遺伝子のアノテーション付加
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Similar to フリーソフトではじめるChIP-seq解析_第40回勉強会資料
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Amelieff
Exome解析入門
Exome解析入門
Amelieff
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
Amelieff
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習
Jun Nakabayashi
MPSoCのPLの性能について
MPSoCのPLの性能について
marsee101
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
HIDEOMI SUZUKI
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
Amelieff
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング
勲 國府田
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
Toru Tamaki
システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8
shingo suzuki
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
Atc15_reading_networking_session
Atc15_reading_networking_session
紘也 金子
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
Genaris Omics, Inc.
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Panda Yamaki
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
Kaneko Izumi
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)
Baasanchuluun Batnasan
shuji-oh master thesis
shuji-oh master thesis
inet-lab
Reconf_201409
Reconf_201409
Takefumi MIYOSHI
Similar to フリーソフトではじめるChIP-seq解析_第40回勉強会資料
(20)
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Exome解析入門
Exome解析入門
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習
MPSoCのPLの性能について
MPSoCのPLの性能について
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
Atc15_reading_networking_session
Atc15_reading_networking_session
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)
shuji-oh master thesis
shuji-oh master thesis
Reconf_201409
Reconf_201409
More from Amelieff
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
Amelieff
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
Amelieff
SNPデータ解析入門
SNPデータ解析入門
Amelieff
はじめてのLinux
はじめてのLinux
Amelieff
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
Amelieff
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
Amelieff
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Amelieff
More from Amelieff
(7)
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
SNPデータ解析入門
SNPデータ解析入門
はじめてのLinux
はじめてのLinux
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
1.
フ リ ー
ソ フ ト で は じ め る C h I P - s e q 解 析 第 4 0 回 勉 強 会 資 料 2014年12月18日
2.
上記はほんの一部 日々、多くのソフトが公開されている Copyright © Amelieff
Corporation. All Rights Reserved. 2 N G S デ ー タ 解 析 の フ リ ー ソ フ ト QC • cutadapt • FastQC • FastX-toolkit • Trimmomaic : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント • bowtie • bwa • BSMAP • Tophat : ピーク検出 ・アノテーション • MACS • QuEST • ChIPpeakAnno : ※Rなど、WindowsやMacでも動くものもある メチル化解析・比較 ・アノテーション • BSMAP • methylKit • BisSNP :
3.
Copyright © Amelieff
Corporation. All Rights Reserved. 3 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを 参考にして、PCで動く独自OSを開発 Linux 大多数の解析ツールを使用することができる 新しいツールが出た時、すぐ自分で試せる 次世代シーケンシングデータのように、大 きなデータは、Excel等で見る事が難しい 自分の思い通りにデータの可視化や加工ができる バイオインフォマティクスで使用する解析ツールの 多くは、Linux用に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当たるの か確認したい」という時、同じ作業を何度も繰り返す事は、難しい 繰り返し作業を自動化する事ができる 大量データの扱い 繰り返し操作の簡易化 解析ツールの問題
4.
Copyright © Amelieff
Corporation. All Rights Reserved. 4 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など 見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新方針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使用
5.
Copyright © Amelieff
Corporation. All Rights Reserved. 5 解 析 手 法 の ご 紹 介 • 今回の解析で用いたサーバ OS CentOS6 64bit CPU Intel Corei7-3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS用) HDD 2TB × 4台 時間がかかる処理については実行時間を示します
6.
Copyright © Amelieff
Corporation. All Rights Reserved. C h I P - s e q 解 析 で で き る こ と • タンパク質結合部位の検出 • 結合モチーフの探索 6 ChIP-seqとChIP-chIPの比較 • ヒストン修飾や特定のタンパク質に結合するDNA断片を免疫 沈降・回収する点は同じ • ChIP-seqは回収したDNAを断片化してからシーケンシング するため、ChIP-chipよりピークの解像度が高い
7.
Copyright © Amelieff
Corporation. All Rights Reserved. 7 用 い た テ ス ト デ ー タ • NCBI GEOに登録されているヒトのChIP-seqデータ – GSM1295084: BF細胞(ヒト成人繊維芽細胞)のH3K27me3 ChIP-seq • SRA ID:SRR1055695 – GSM1295086: BF細胞のH3 input(コントロール) ChipSeq • SRA ID:SRR1055697 – すべてIllumina GAIIx、36bp Single-End – URL:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40740 H3K27me3 • ヒストンH3の27番目のリジンのトリメチル化→転写抑制に関与
8.
Copyright © Amelieff
Corporation. All Rights Reserved. 8 解 析 手 法 の ご 紹 介 • GEOからダウンロードしたファイルはSRAフォーマットという独自形式に なっており、そのままでは解析に使えない • NCBI SRA Toolkitを使ってSRAフォーマットをFASTQフォーマットに変換 クオリティコントロール → マッピング→ピーク検出→アノテーション $ fastq-dump SRR1055695.sra $ fastq-dump SRR1055697.sra 拡張子が「.fastq」のFASTQファイルができる • データのクオリティを集計して可視化する $ fastqc -o 1_qc -f fastq SRR1055695.fastq $ fastqc -o 1_qc -f fastq SRR1055697.fastq
9.
Copyright © Amelieff
Corporation. All Rights Reserved. 9 解 析 手 法 の ご 紹 介 • クオリティの低い塩基・リードを除去する $ fastq_quality_trimmer -t 20 -l 30 -Q 33 -i SRR1055695.fastq | fastq_quality_filter -q 20 -p 80 -Q 33 -o 1_qc/SRR1055695.clean.fastq 3’末端からクオリティ20未満の塩基をトリミングし、長さが30塩基未満になった リードを破棄する 80%以上の塩基がクオリティー20以上のリードのみを抽出する 約3分 他のFASTQファイルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション
10.
Copyright © Amelieff
Corporation. All Rights Reserved. 10 解 析 手 法 の ご 紹 介 • SRR1055695 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
11.
Copyright © Amelieff
Corporation. All Rights Reserved. 11 解 析 手 法 の ご 紹 介 • SRR1055697 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
12.
$ samtools view
2_mapping/SRR1055695.sorted.bam | awk '$3!="*"{print $1}' | sort | uniq | wc -l Copyright © Amelieff Corporation. All Rights Reserved. 12 解 析 手 法 の ご 紹 介 • クリーニング後のデータをゲノムにマッピングする $ bowtie2 -p 3 genomeファイルのBowtie2インデックス -U 1_qc/SRR1055695.clean.fastq | samtools view -Sb - | samtools sort - 2_mapping/SRR1055695.sorted $ samtools index 2_mapping/SRR1055695.sorted.bam 約15分 もう一つのサンプルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション • マッピング率を計算する 他のサンプルに対しても実施する26699307 マッピング率は 26283268 / 26699307 = 98.4 % $ awk 'NR%4==1' 1_qc/SRR1055695.clean.fastq | wc -l 26283268 マッピング結果をソートしたBAMに直接出力
13.
Copyright © Amelieff
Corporation. All Rights Reserved. 13 解 析 手 法 の ご 紹 介 • マッピング結果をIGVで確認する クオリティコントロール → マッピング→ピーク検出→アノテーション (1)ゲノムを選択 (2)ChiP-seqの マッピング結果 ゲノムポジション↓ (3)コントロールの マッピング結果
14.
Copyright © Amelieff
Corporation. All Rights Reserved. 14 解 析 手 法 の ご 紹 介 • ピークを検出する $ macs14 -t ../2_mapping/SRR1055695.sorted.bam -c ../2_mapping/SRR1055697.sorted.bam -f bam -g hs -n 出力名 コントロール(SRR1055697)と比較し、SRR1055695に特異的なピークを検出する 約30分 クオリティコントロール → マッピング→ピーク検出→アノテーション -t ChIP-seqのマッピング結果 -c コントロールのマッピング結果 -f 入力ファイルのフォーマット(bamなど) -g ゲノムサイズ(ヒトの場合は'hs') -n 出力ファイルの頭につく文字列
15.
Copyright © Amelieff
Corporation. All Rights Reserved. 15 解 析 手 法 の ご 紹 介 • ピーク検出ソフト・MACSのアルゴリズム クオリティコントロール → マッピング→ピーク検出→アノテーション 1. マッピング結果からポアソン分布に基づきピークを検出する。1つの結合部位につき、Forward 側とReverse側の2つのピークが検出される。 2. クオリティの高い1000ピークをランダムに取り出し、Forward側ピークとReverse側ピークの 距離(d)をモデル化する。 3. d/2をシフトし、2dをウィンドウサイズとして、その中の最大値を結合部位とする。 4. トリートメントのピークの数とインプットのピークの数からFDRを推定する。 d
16.
Copyright © Amelieff
Corporation. All Rights Reserved. 16 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.bed) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション(0スタート) 3. ピーク終了ポジション 4. ピーク名 5. スコア:ピークの -10*log10(pvalue)
17.
Copyright © Amelieff
Corporation. All Rights Reserved. 17 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.xls) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション 3. ピーク終了ポジション 4. ピーク領域長 5. ピーク開始ポジションから数えた summitの位置 6. ピーク領域にマップされたリード数 7. ピークの -10*log10(pvalue) for the peak region(pvalue=1e-10な ら100) 8. fold enrichment for this region against random Poisson distribution with local lambda 9. トリートメントのピークの数とイン プットのピークの数から推定した FDR(%) -10*LOG10(p) ↓
18.
Copyright © Amelieff
Corporation. All Rights Reserved. 18 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_MACS_wiggle) クオリティコントロール → マッピング→ピーク検出→アノテーション pileup結果をwiggleフォーマットで記載したファイル wiggleフォーマット:http://genome.ucsc.edu/goldenPath/help/wiggle.html ChIP-SeqのWiggle 検出されたピーク ChIP-SeqのBAM ControlのWiggle ControlのBAM
19.
18,520 429 76
0 Copyright © Amelieff Corporation. All Rights Reserved. 19 解 析 手 法 の ご 紹 介 • FDRの小さいものに絞り込む クオリティコントロール → マッピング→ピーク検出→アノテーション 全結果 FDR<10% FDR<9% FDR<8% [1] Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS. Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9-9-r137. Epub 2008 Sep 17. PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715. MACSの論文[1]ではFDR<1%に絞っていたが 今回のデータはFDRが大きかったため FDR<9%に絞った
20.
Copyright © Amelieff
Corporation. All Rights Reserved. 20 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 – QuESTの特徴:実行時に結合タンパクの種類を選べる – 入力フォーマットはMAQ、ELAND、bowtieなど(BAMには未対応) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055695.clean.fastq 2_mapping/SRR1055695.bowtie bowtieによるマッピング(bowtieフォーマットで出力) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055697.clean.fastq 2_mapping/SRR1055697.bowtie 各約5分
21.
Copyright © Amelieff
Corporation. All Rights Reserved. 21 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 SRR1055695.3 YILLUMINA-B8EC94_105:4:1:1555:1140 length=36 - chr22 32873017 ACACATAGTTCATTTGAGGTGTTTTTGCTTTTTCTG FGDGEDGEFFGGGEGEGGDD>@HHHHHHHFHGEHHH 0 SRR1055695.4 YILLUMINA-B8EC94_105:4:1:1583:1139 length=36 - chr12 34846311 TGAAACACTCTGTTTGTAAAGTCTGCACGTGGATAT DGHGHHHHHHHHHHHHHHHHHGBGBEHHHHHHFHGH 0 SRR1055695.2 YILLUMINA-B8EC94_105:4:1:1226:1131 length=36 + chr12 5193061 TTTTCTCTTATCTTTTCTAAAANTCNTAAACTAGGT GGGG8EDGGDEDGGGDDDDD=:#;;#;:9<BEEE@D 0 22:T>N,25:C>N : bowtieフォーマット
22.
Copyright © Amelieff
Corporation. All Rights Reserved. 22 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 $ generate_QuEST_parameters.pl -rp 染色体Fastaのディレクトリ/ -gt genome.fa.faiのパス -bowtie_align_ChIP SRR1055695.bowtie -bowtie_align_RX_noIP SRR1055697.bowtie -ap 出力ディレクトリ • -rp リファレンスゲノムの染色体ごとのFastaを置いたディレクトリ • -gt リファレンスゲノムの染色体名とサイズの組のリスト • -bowtie_align_ChIP ChIP-seqのマッピング結果(bowtieフォーマット) • -bowtie_align_RX_noIP Controlのマッピング結果(bowtieフォーマット) • -ap 結果出力ディレクトリ
23.
Copyright © Amelieff
Corporation. All Rights Reserved. 23 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクの種類 ・転写因子→1 ・ PolII-like factor→2 ・ヒストン→3 ・自分でパラメータを設定→4 「3」を選択
24.
Copyright © Amelieff
Corporation. All Rights Reserved. 24 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクに応じた パラメータ値の候補 (厳しめにするか緩めにするか) 「2(推奨値)」を選択 約20分
25.
Copyright © Amelieff
Corporation. All Rights Reserved. 25 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:概要(module_outputs/QuEST.out) bowtieフォーマット ## please cite: ## Valouev A, Johnson DS, Sundquist A, Medina C, Anton E, Batzoglou S, ## Myers RM, Sidow A ## Genome-wide analysis of transcription factor binding sites based ## on ChIP-Seq data. ## Nat Methods. 2008 Sep; 5:(9):829-35 ChIP peaks: 13 ChIP peaks accepted: 13 ChIP peaks rejected: 0 ChIP regions: 11 ChIP regions accepted: 11 ChIP regions rejected: 0
26.
Copyright © Amelieff
Corporation. All Rights Reserved. 26 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(calls/peak_caller.ChIP.out.accepted) bowtieフォーマット R-1 chr11 3674740-3676339 ChIP: 170.5 control: 22.6886 max_pos: 3675711 ef: 7.51476 ChIP_tags: 1572 background_tags: 118 tag_ef: 7.92329 ps: 17 cor: 0.485103 -log10_qv: 29914.9 -log10_pv: 29922.1 qv_rank: 1 P-1-1 chr11 3675169 ChIP: 123.088 control: 12.954 region: 3674740-3676340 ef: 9.50194 ps: 17 cor: 0.980156 -log10_qv: 231.8 -log10_pv: 238.99 qv_rank: 5 P-1-2 chr11 3675711 ChIP: 170.5 control: 22.6886 region: 3674740-3676340 ef: 7.51476 ps: 15 cor: 0.94687 -log10_qv: 238.543 -log10_pv: 245.732 qv_rank: 4 R-2 chr22 51081718-51084682 ChIP: 48.6881 control: 3.90919 max_pos: 51082255 ef: 12.4548 ChIP_tags: 430 background_tags: 22 tag_ef: 11.6247 ps: 13 cor: 0.171511 -log10_qv: 1053.29 - log10_pv: 1059.78 qv_rank: 5 P-2-1 chr22 51082255 ChIP: 48.6881 control: 3.90919 region: 51081718-51084683 ef: 12.4548 ps: 13 cor: 0.875156 -log10_qv: 571.506 -log10_pv: 577.997 qv_rank: 1 : ピークの位置、スコア、q-valueなどが記載されている
27.
Copyright © Amelieff
Corporation. All Rights Reserved. 27 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) track name=ChIP_filtered description=ChIP_filtered_regions itemRgb="On" priority=67 visibility=1 chr11 3674741 3676340 R-1 170.5 + 3674741 3676340 0,191,255 chr22 51081719 51084683 R-2 48.6881 + 51081719 51084683 0,191,255 chr17 153120 155470 R-3 43.6734 + 153120 155470 0,191,255 chr7 100547703 100553968 R-4 42.4881 + 100547703 100553968 0,191,255 chr20 46522428 46525209 R-5 35.9235 + 46522428 46525209 0,191,255 chr18 111978 112686 R-6 35.4676 + 111978 112686 0,191,255 chr20 62719779 62720414 R-7 34.2823 + 62719779 62720414 0,191,255 chr2 133021646 133031873 R-8 33.4617 + 133021646 133031873 0,191,255 chr7 944472 946396 R-9 32.6411 + 944472 946396 0,191,255 chr2 90448094 90454767 R-10 32.5499 + 90448094 90454767 0,191,255 chr1 17193078 17204129 R-11 30.6352 + 17193078 17204129 0,191,255 : IGVで表示するために以下の処理が必要 ・ピークとSummitの情報が混在しているので、分ける ・track行を除去しておく
28.
Copyright © Amelieff
Corporation. All Rights Reserved. 28 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) ChIP-SeqのBAM ControlのBAM QuESTで検出されたピーク
29.
Copyright © Amelieff
Corporation. All Rights Reserved. 29 ピ ー ク 検 出 ソ フ ト Q u E S T • MACSとQuESTで共通するピークを探す $ intersectBed -wa -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップするものを探す $ intersectBed -v -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップしないものを探す
30.
Copyright © Amelieff
Corporation. All Rights Reserved. 30 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション MACSで検出されたピークの読み込みと変換 > macs_bed = read.table("MACSのbed") > macs = BED2RangedData(macs_bed) Rを起動し、ChIPpeakAnnoパッケージを読み込む $ R > library(ChIPpeakAnno) EBI Biomartからヒト遺伝子情報をダウンロードし、アノテーション > mart = useMart(biomart="ensembl", dataset="hsapiens_gene_ensembl") > myAnno = getAnnotation(mart) > annotatedPeak = annotatePeakInBatch(macs, AnnotationData=myAnno)
31.
Copyright © Amelieff
Corporation. All Rights Reserved. 31 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション アノテーション結果をファイル出力 > write.table(as.data.frame(annotatedPeak), file="annotatedPeakList.tsv", sep="¥t", row.names=FALSE) 近傍遺伝子からの距離
32.
Copyright © Amelieff
Corporation. All Rights Reserved. 32 R N A - s e q の 結 果 と 併 せ た 考 察 • ChIP-seqで検出されたBF細胞のH3K27me3部位のピークと RNA-seqのHs68-BF間で発現が異なる遺伝子の位置関係を比較 →SIM1遺伝子の上流2kbpのヒストンメチル化が検出されていた →SIM1は、Hs68と比較して、BFで発現が有意に減少していた遺伝子 BFのChIP-seqで 検出されたピーク RNA-seqで BFで発現が 低い遺伝子
33.
Copyright © Amelieff
Corporation. All Rights Reserved. 33 R N A - s e q の 結 果 と 併 せ た 考 察 • SIM1は胎児の腎臓で特異的に発現することが報告されている • メチル化と遺伝子発現の関係を検証するには、さらに以下のような解析が必要 (※本日は紹介しない) → Hs68のChIP-seq結果との比較 → パスウェイ解析、Gene Ontology解析 など 成人由来BFで発現が低下している のと関連している可能性がある
34.
Copyright © Amelieff
Corporation. All Rights Reserved. 34 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索 ピーク領域の塩基配列を取得 $ samtools faidx genomeファイルのFasta chr1:17193078-17204129 $ samtools faidx genomeファイルのFasta chr2:90446939-90454767 : (各ピークに対して実行) 上記の結果からFastaファイルを作成
35.
Copyright © Amelieff
Corporation. All Rights Reserved. 35 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索
36.
Copyright © Amelieff
Corporation All Rights Reserved. 36 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク