SlideShare a Scribd company logo
m i R N A デ ー タ 解 析 入 門
第 2 3 回 勉 強 会 資 料
2013年6月15日
Copyright © Amelieff Corporation. All Rights Reserved.
2
m i R N A と は
• タンパク質をコードしない、ノンコーディングRNAの一種
• 他の遺伝子のイントロンのアンチセンス鎖などから転写
される
• 転写後、ヘアピン構造のprecursor miRNAになった後、
Dicerによって切り出されて長さ20~25bp程度のmature
miRNAとなって機能する
• miRNA上の一部分が他の遺伝子の一部分に結合する
ことで遺伝子の発現が制御される
• 細胞の発生、分化、増殖、がん化などに深く関与するこ
とが知られている
http://ja.wikipedia.org/wiki/MiRNA
Copyright © Amelieff Corporation. All Rights Reserved.
最 近 の m i R N A 関 連 記 事
3
BioToday 2013-05-10
マイナビウーマン 2013-04-27
MTPro 2013-05-08
日経バイオテクONLINE 2013-04-11
Copyright © Amelieff Corporation. All Rights Reserved.
4
m i R N A 解 析 の 一 般 的 な 流 れ
Single-endで
シーケンシング
アダプタを除去
10bp未満を
破棄
既知配列と比較
mature miRNA, other ncRNA,
exon, intergenic/intronic
既知
miRNA
発現量正規化
TPM(*1)
サンプル間比較
SAM(*2)、Fold Change
*1: transcript per million
*2: Significance Analysis of Microarrays
データのクリーニング・解析前処理
アノテーション
リードを
クリーニング
既知 other ncRNA
参考:
BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673
BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/
intergenic/intronic
にある
未知転写物
新規
miRNA
新規miRNA予測
ターゲット予測
Pathway分類
GO分類
発現比較
転写物+両端70bpを
miRNA予測
既知 exon
uniqueなFastaに変換してから解析することが多い
二次構造や
既知モデルとの比較
Pathway分類
GO分類
Copyright © Amelieff Corporation. All Rights Reserved.
5
m i R N A の シ ー ケ ン シ ン グ
• 原則的にSingle End
• シーケンシング長は35~50bp程度で十分
• miRNAのキャプチャキット
– mirVana™ miRNA Isolation Kit (ライフテクノロジー)
– TruSeq Small RNA Sample Preparation Kit (イルミナ) など
Copyright © Amelieff Corporation. All Rights Reserved.
6
テ ス ト デ ー タ を 用 い た 解 析 例
Copyright © Amelieff Corporation. All Rights Reserved.
テ ス ト デ ー タ
• 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている
– http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773
• 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用
7
ID 説明 リード長 リード数
ERR038405
ヒト
脳由来
miRNA
43 21,758,606
ERR038406 43 20,241,515
ERR038410
肝臓由来
51 10,514,371
ERR038411 26 8,399,589
ERR038415
精巣由来
26 7,130,991
ERR038416 26 9,378,202
Copyright © Amelieff Corporation. All Rights Reserved.
8
テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク
• FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
– → クオリティスコアの低いリードが入っている
– → 一部のサンプルでアダプタ配列が混入している
クリーニングが必要
Copyright © Amelieff Corporation. All Rights Reserved.
ク リ ー ニ ン グ
• クリーニング条件
– クオリティスコアが20未満の塩基を80%以上含むリードを破棄
– クオリティスコアが20未満の塩基をトリミング
– トリミングの結果、10bpより短くなったリードを破棄
• FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング
• クリーニング前後のリード配列を、FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
9
$ fastq_quality_filter -i SRR060981.fastq
-q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20
-l 10 -Q33 -o SRR060981_clean.fastq
Copyright © Amelieff Corporation. All Rights Reserved.
10
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較
クオリティの悪い塩基・
リードが除去された
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• 一部のサンプルで以下のアダプタの混入が確認された
– Illumina PCR Primer Index 1
• TACAGTCCGACGATCTCGTATGCCGTCTTC
• CTACAGTCCGACGATCTCGTATGCCGTCTT
– Illumina Single End Adapter 2
• TCGTATGCCGTCTTCTGCTTGAAAAAAAAA
• cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った
11
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(全長)出現数
12
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 8 0 16 0 3 0
ERR038406 264 0 495 0 45 0
ERR038410 2 0 2 0 0 0
ERR038411 0 0 0 0 0 0
ERR038415 0 0 0 0 0 0
ERR038416 0 0 0 0 0 0
アダプタが全長で入っているようなものは完全に除去できた
→アダプタが断片的に入っているようなものはどうか?
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(前半15塩基)出現数
13
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 82 45 99 39 552 0
ERR038406 1,402 91 2,217 78 21,281 11
ERR038410 2 0 2 0 3 0
ERR038411 5 0 4 1 38 0
ERR038415 27 0 14 0 77 0
ERR038416 154 3 124 2 995 0
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep
14
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 552 0 130 0 3 0
ERR038406 21,281 11 4894 3 48 3
ERR038410 3 0 2 0 0 0
ERR038411 38 0 0 0 0 0
ERR038415 77 0 0 0 0 0
ERR038416 995 0 3 0 0 0
※3つ目のアダプタの
前半15塩基と同じ
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
15
ア ノ テ ー シ ョ ン
• fastqをfastaに変換(配列が同一のものは1つにまとめる)
• 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、
最もe-valueの小さい結果を採用した
• mature miRNAにマッピングできなかったものはprecursor miRNA、
ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた
miRBase V19
mature miRNA
miRBase V19
precursor miRNA
Rfam V11
other ncRNA
refSeq Gene
not
mapped
not
mapped
not
mapped
Copyright © Amelieff Corporation. All Rights Reserved.
16
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• サンプルごとに総リード数は異なる(=実験時のバイアスなど)
→サンプル間で発現を比較するには補正が必要
ID アダプタ
除去後
ERR038405 59,245
ERR038406 723,434
ERR038410 460
ERR038411 32,323
ERR038415 157,294
ERR038416 656,099
例えばあるmiRNAが
ERR038406に15リード、ERR038410に13リード
あった場合、単純に
「ERR038406のほうが発現が高い」とは言えない
→「マップできたリード数」などで補正する
Copyright © Amelieff Corporation. All Rights Reserved.
17
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正前)
Copyright © Amelieff Corporation. All Rights Reserved.
18
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正後)
– 「human mature miRNAにマップできたリード数(単位:100万)」で割る
Copyright © Amelieff Corporation. All Rights Reserved.
19
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 補正による発現量の変化の例
0
5000
10000
15000
20000
25000
30000
35000
40000
ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416
hsa-let-7g-5p
補正前
補正後
Copyright © Amelieff Corporation. All Rights Reserved.
20
ヒ ー ト マ ッ プ 図
• 補正後の発現量データをRに読み込む
> mirna <- read.table("補正後の発現量ファイル", header=T,
row.names=1)
補正後発現量の合計が大きい順
50データを用いた
Copyright © Amelieff Corporation. All Rights Reserved.
21
ヒ ー ト マ ッ プ 図
• 組織ごとにクラスタリングされた
• 肝臓でmir-122の発現が高かった
(赤矢印)
• mir-122は肝臓特異的に発現する
miRNAであることが論文で報告さ
れている[1]
脳脳肝
臓
肝
臓
精
巣
精
巣
[1] Landgraf P, et al.
A mammalian microRNA expression atlas based on
small RNA library sequencing.
Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
Copyright © Amelieff Corporation. All Rights Reserved.
22
ま と め
• miRNAシーケンシングデータ解析で留意すべき点
– アダプタが混入していたら、適切に除去する
– 既知miRNAやncRNAにマッピングしてアノテーションをつける
– 新規miRNAを予測するソフトもある
– 発現量を比較する場合は「マッピングできたリード数」などで補正する
Copyright © Amelieff Corporation All Rights Reserved.
23
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

What's hot

Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
Takahiro Kubo
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)Haruka Ozaki
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
 
モバイル向けEdgeTPUの紹介
モバイル向けEdgeTPUの紹介モバイル向けEdgeTPUの紹介
モバイル向けEdgeTPUの紹介
卓然 郭
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
Naoto Tamiya
 
探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット
H Okazaki
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
Kentaro Kanamori
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
Takeshi Mikami
 
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
 

What's hot (20)

Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
 
モバイル向けEdgeTPUの紹介
モバイル向けEdgeTPUの紹介モバイル向けEdgeTPUの紹介
モバイル向けEdgeTPUの紹介
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
 
探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット探索と活用の戦略 ベイズ最適化と多腕バンディット
探索と活用の戦略 ベイズ最適化と多腕バンディット
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
 
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 

More from Amelieff

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
Amelieff
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
Amelieff
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
Amelieff
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
Amelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
Amelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
Amelieff
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 

More from Amelieff (13)

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 

miRNAデータ解析入門_第23回勉強会資料

  • 1. m i R N A デ ー タ 解 析 入 門 第 2 3 回 勉 強 会 資 料 2013年6月15日
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 m i R N A と は • タンパク質をコードしない、ノンコーディングRNAの一種 • 他の遺伝子のイントロンのアンチセンス鎖などから転写 される • 転写後、ヘアピン構造のprecursor miRNAになった後、 Dicerによって切り出されて長さ20~25bp程度のmature miRNAとなって機能する • miRNA上の一部分が他の遺伝子の一部分に結合する ことで遺伝子の発現が制御される • 細胞の発生、分化、増殖、がん化などに深く関与するこ とが知られている http://ja.wikipedia.org/wiki/MiRNA
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 最 近 の m i R N A 関 連 記 事 3 BioToday 2013-05-10 マイナビウーマン 2013-04-27 MTPro 2013-05-08 日経バイオテクONLINE 2013-04-11
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 m i R N A 解 析 の 一 般 的 な 流 れ Single-endで シーケンシング アダプタを除去 10bp未満を 破棄 既知配列と比較 mature miRNA, other ncRNA, exon, intergenic/intronic 既知 miRNA 発現量正規化 TPM(*1) サンプル間比較 SAM(*2)、Fold Change *1: transcript per million *2: Significance Analysis of Microarrays データのクリーニング・解析前処理 アノテーション リードを クリーニング 既知 other ncRNA 参考: BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673 BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/ intergenic/intronic にある 未知転写物 新規 miRNA 新規miRNA予測 ターゲット予測 Pathway分類 GO分類 発現比較 転写物+両端70bpを miRNA予測 既知 exon uniqueなFastaに変換してから解析することが多い 二次構造や 既知モデルとの比較 Pathway分類 GO分類
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 m i R N A の シ ー ケ ン シ ン グ • 原則的にSingle End • シーケンシング長は35~50bp程度で十分 • miRNAのキャプチャキット – mirVana™ miRNA Isolation Kit (ライフテクノロジー) – TruSeq Small RNA Sample Preparation Kit (イルミナ) など
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 テ ス ト デ ー タ を 用 い た 解 析 例
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. テ ス ト デ ー タ • 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている – http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773 • 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用 7 ID 説明 リード長 リード数 ERR038405 ヒト 脳由来 miRNA 43 21,758,606 ERR038406 43 20,241,515 ERR038410 肝臓由来 51 10,514,371 ERR038411 26 8,399,589 ERR038415 精巣由来 26 7,130,991 ERR038416 26 9,378,202
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク • FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック – → クオリティスコアの低いリードが入っている – → 一部のサンプルでアダプタ配列が混入している クリーニングが必要
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. ク リ ー ニ ン グ • クリーニング条件 – クオリティスコアが20未満の塩基を80%以上含むリードを破棄 – クオリティスコアが20未満の塩基をトリミング – トリミングの結果、10bpより短くなったリードを破棄 • FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング • クリーニング前後のリード配列を、FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック 9 $ fastq_quality_filter -i SRR060981.fastq -q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20 -l 10 -Q33 -o SRR060981_clean.fastq
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較 クオリティの悪い塩基・ リードが除去された
  • 11. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • 一部のサンプルで以下のアダプタの混入が確認された – Illumina PCR Primer Index 1 • TACAGTCCGACGATCTCGTATGCCGTCTTC • CTACAGTCCGACGATCTCGTATGCCGTCTT – Illumina Single End Adapter 2 • TCGTATGCCGTCTTCTGCTTGAAAAAAAAA • cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った 11
  • 12. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(全長)出現数 12 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 8 0 16 0 3 0 ERR038406 264 0 495 0 45 0 ERR038410 2 0 2 0 0 0 ERR038411 0 0 0 0 0 0 ERR038415 0 0 0 0 0 0 ERR038416 0 0 0 0 0 0 アダプタが全長で入っているようなものは完全に除去できた →アダプタが断片的に入っているようなものはどうか?
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(前半15塩基)出現数 13 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 82 45 99 39 552 0 ERR038406 1,402 91 2,217 78 21,281 11 ERR038410 2 0 2 0 3 0 ERR038411 5 0 4 1 38 0 ERR038415 27 0 14 0 77 0 ERR038416 154 3 124 2 995 0 「アダプタ断片」は少し残っている可能性がある
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep 14 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 552 0 130 0 3 0 ERR038406 21,281 11 4894 3 48 3 ERR038410 3 0 2 0 0 0 ERR038411 38 0 0 0 0 0 ERR038415 77 0 0 0 0 0 ERR038416 995 0 3 0 0 0 ※3つ目のアダプタの 前半15塩基と同じ 「アダプタ断片」は少し残っている可能性がある
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 ア ノ テ ー シ ョ ン • fastqをfastaに変換(配列が同一のものは1つにまとめる) • 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、 最もe-valueの小さい結果を採用した • mature miRNAにマッピングできなかったものはprecursor miRNA、 ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた miRBase V19 mature miRNA miRBase V19 precursor miRNA Rfam V11 other ncRNA refSeq Gene not mapped not mapped not mapped
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • サンプルごとに総リード数は異なる(=実験時のバイアスなど) →サンプル間で発現を比較するには補正が必要 ID アダプタ 除去後 ERR038405 59,245 ERR038406 723,434 ERR038410 460 ERR038411 32,323 ERR038415 157,294 ERR038416 656,099 例えばあるmiRNAが ERR038406に15リード、ERR038410に13リード あった場合、単純に 「ERR038406のほうが発現が高い」とは言えない →「マップできたリード数」などで補正する
  • 17. Copyright © Amelieff Corporation. All Rights Reserved. 17 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正前)
  • 18. Copyright © Amelieff Corporation. All Rights Reserved. 18 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正後) – 「human mature miRNAにマップできたリード数(単位:100万)」で割る
  • 19. Copyright © Amelieff Corporation. All Rights Reserved. 19 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 補正による発現量の変化の例 0 5000 10000 15000 20000 25000 30000 35000 40000 ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416 hsa-let-7g-5p 補正前 補正後
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 ヒ ー ト マ ッ プ 図 • 補正後の発現量データをRに読み込む > mirna <- read.table("補正後の発現量ファイル", header=T, row.names=1) 補正後発現量の合計が大きい順 50データを用いた
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 ヒ ー ト マ ッ プ 図 • 組織ごとにクラスタリングされた • 肝臓でmir-122の発現が高かった (赤矢印) • mir-122は肝臓特異的に発現する miRNAであることが論文で報告さ れている[1] 脳脳肝 臓 肝 臓 精 巣 精 巣 [1] Landgraf P, et al. A mammalian microRNA expression atlas based on small RNA library sequencing. Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ま と め • miRNAシーケンシングデータ解析で留意すべき点 – アダプタが混入していたら、適切に除去する – 既知miRNAやncRNAにマッピングしてアノテーションをつける – 新規miRNAを予測するソフトもある – 発現量を比較する場合は「マッピングできたリード数」などで補正する
  • 23. Copyright © Amelieff Corporation All Rights Reserved. 23 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク