SlideShare a Scribd company logo

miRNAデータ解析入門_第23回勉強会資料

A
Amelieff

アメリエフ株式会社・第23回勉強会「miRNAデータ解析入門」のスライドです。

1 of 23
m i R N A デ ー タ 解 析 入 門
第 2 3 回 勉 強 会 資 料
2013年6月15日
Copyright © Amelieff Corporation. All Rights Reserved.
2
m i R N A と は
• タンパク質をコードしない、ノンコーディングRNAの一種
• 他の遺伝子のイントロンのアンチセンス鎖などから転写
される
• 転写後、ヘアピン構造のprecursor miRNAになった後、
Dicerによって切り出されて長さ20~25bp程度のmature
miRNAとなって機能する
• miRNA上の一部分が他の遺伝子の一部分に結合する
ことで遺伝子の発現が制御される
• 細胞の発生、分化、増殖、がん化などに深く関与するこ
とが知られている
http://ja.wikipedia.org/wiki/MiRNA
Copyright © Amelieff Corporation. All Rights Reserved.
最 近 の m i R N A 関 連 記 事
3
BioToday 2013-05-10
マイナビウーマン 2013-04-27
MTPro 2013-05-08
日経バイオテクONLINE 2013-04-11
Copyright © Amelieff Corporation. All Rights Reserved.
4
m i R N A 解 析 の 一 般 的 な 流 れ
Single-endで
シーケンシング
アダプタを除去
10bp未満を
破棄
既知配列と比較
mature miRNA, other ncRNA,
exon, intergenic/intronic
既知
miRNA
発現量正規化
TPM(*1)
サンプル間比較
SAM(*2)、Fold Change
*1: transcript per million
*2: Significance Analysis of Microarrays
データのクリーニング・解析前処理
アノテーション
リードを
クリーニング
既知 other ncRNA
参考:
BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673
BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/
intergenic/intronic
にある
未知転写物
新規
miRNA
新規miRNA予測
ターゲット予測
Pathway分類
GO分類
発現比較
転写物+両端70bpを
miRNA予測
既知 exon
uniqueなFastaに変換してから解析することが多い
二次構造や
既知モデルとの比較
Pathway分類
GO分類
Copyright © Amelieff Corporation. All Rights Reserved.
5
m i R N A の シ ー ケ ン シ ン グ
• 原則的にSingle End
• シーケンシング長は35~50bp程度で十分
• miRNAのキャプチャキット
– mirVana™ miRNA Isolation Kit (ライフテクノロジー)
– TruSeq Small RNA Sample Preparation Kit (イルミナ) など
Copyright © Amelieff Corporation. All Rights Reserved.
6
テ ス ト デ ー タ を 用 い た 解 析 例

Recommended

SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報Takayuki Itoh
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門michiaki ito
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計Takahiro Kubo
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 

More Related Content

What's hot

Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Ryohei Suzuki
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
「次世代シークエンスデータの登録」(理研横浜)
「次世代シークエンスデータの登録」(理研横浜)「次世代シークエンスデータの登録」(理研横浜)
「次世代シークエンスデータの登録」(理研横浜)DNA Data Bank of Japan center
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 
遺伝子のアノテーション付加
遺伝子のアノテーション付加遺伝子のアノテーション付加
遺伝子のアノテーション付加弘毅 露崎
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilitySatoshi Hara
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習Hitoshi Sato
 
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mclMITSUNARI Shigeo
 
抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張MENGSAYLOEM1
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモayohe
 
関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザー関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザーIchiro Maruta
 
[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題tmtm otm
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 

What's hot (20)

Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
「次世代シークエンスデータの登録」(理研横浜)
「次世代シークエンスデータの登録」(理研横浜)「次世代シークエンスデータの登録」(理研横浜)
「次世代シークエンスデータの登録」(理研横浜)
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
遺伝子のアノテーション付加
遺伝子のアノテーション付加遺伝子のアノテーション付加
遺伝子のアノテーション付加
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
BERT入門
BERT入門BERT入門
BERT入門
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
 
抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
 
関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザー関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザー
 
[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 

More from Amelieff

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料Amelieff
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 

More from Amelieff (12)

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 

miRNAデータ解析入門_第23回勉強会資料

  • 1. m i R N A デ ー タ 解 析 入 門 第 2 3 回 勉 強 会 資 料 2013年6月15日
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 m i R N A と は • タンパク質をコードしない、ノンコーディングRNAの一種 • 他の遺伝子のイントロンのアンチセンス鎖などから転写 される • 転写後、ヘアピン構造のprecursor miRNAになった後、 Dicerによって切り出されて長さ20~25bp程度のmature miRNAとなって機能する • miRNA上の一部分が他の遺伝子の一部分に結合する ことで遺伝子の発現が制御される • 細胞の発生、分化、増殖、がん化などに深く関与するこ とが知られている http://ja.wikipedia.org/wiki/MiRNA
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 最 近 の m i R N A 関 連 記 事 3 BioToday 2013-05-10 マイナビウーマン 2013-04-27 MTPro 2013-05-08 日経バイオテクONLINE 2013-04-11
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 m i R N A 解 析 の 一 般 的 な 流 れ Single-endで シーケンシング アダプタを除去 10bp未満を 破棄 既知配列と比較 mature miRNA, other ncRNA, exon, intergenic/intronic 既知 miRNA 発現量正規化 TPM(*1) サンプル間比較 SAM(*2)、Fold Change *1: transcript per million *2: Significance Analysis of Microarrays データのクリーニング・解析前処理 アノテーション リードを クリーニング 既知 other ncRNA 参考: BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673 BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/ intergenic/intronic にある 未知転写物 新規 miRNA 新規miRNA予測 ターゲット予測 Pathway分類 GO分類 発現比較 転写物+両端70bpを miRNA予測 既知 exon uniqueなFastaに変換してから解析することが多い 二次構造や 既知モデルとの比較 Pathway分類 GO分類
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 m i R N A の シ ー ケ ン シ ン グ • 原則的にSingle End • シーケンシング長は35~50bp程度で十分 • miRNAのキャプチャキット – mirVana™ miRNA Isolation Kit (ライフテクノロジー) – TruSeq Small RNA Sample Preparation Kit (イルミナ) など
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 テ ス ト デ ー タ を 用 い た 解 析 例
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. テ ス ト デ ー タ • 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている – http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773 • 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用 7 ID 説明 リード長 リード数 ERR038405 ヒト 脳由来 miRNA 43 21,758,606 ERR038406 43 20,241,515 ERR038410 肝臓由来 51 10,514,371 ERR038411 26 8,399,589 ERR038415 精巣由来 26 7,130,991 ERR038416 26 9,378,202
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク • FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック – → クオリティスコアの低いリードが入っている – → 一部のサンプルでアダプタ配列が混入している クリーニングが必要
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. ク リ ー ニ ン グ • クリーニング条件 – クオリティスコアが20未満の塩基を80%以上含むリードを破棄 – クオリティスコアが20未満の塩基をトリミング – トリミングの結果、10bpより短くなったリードを破棄 • FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング • クリーニング前後のリード配列を、FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック 9 $ fastq_quality_filter -i SRR060981.fastq -q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20 -l 10 -Q33 -o SRR060981_clean.fastq
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較 クオリティの悪い塩基・ リードが除去された
  • 11. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • 一部のサンプルで以下のアダプタの混入が確認された – Illumina PCR Primer Index 1 • TACAGTCCGACGATCTCGTATGCCGTCTTC • CTACAGTCCGACGATCTCGTATGCCGTCTT – Illumina Single End Adapter 2 • TCGTATGCCGTCTTCTGCTTGAAAAAAAAA • cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った 11
  • 12. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(全長)出現数 12 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 8 0 16 0 3 0 ERR038406 264 0 495 0 45 0 ERR038410 2 0 2 0 0 0 ERR038411 0 0 0 0 0 0 ERR038415 0 0 0 0 0 0 ERR038416 0 0 0 0 0 0 アダプタが全長で入っているようなものは完全に除去できた →アダプタが断片的に入っているようなものはどうか?
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(前半15塩基)出現数 13 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 82 45 99 39 552 0 ERR038406 1,402 91 2,217 78 21,281 11 ERR038410 2 0 2 0 3 0 ERR038411 5 0 4 1 38 0 ERR038415 27 0 14 0 77 0 ERR038416 154 3 124 2 995 0 「アダプタ断片」は少し残っている可能性がある
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep 14 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 552 0 130 0 3 0 ERR038406 21,281 11 4894 3 48 3 ERR038410 3 0 2 0 0 0 ERR038411 38 0 0 0 0 0 ERR038415 77 0 0 0 0 0 ERR038416 995 0 3 0 0 0 ※3つ目のアダプタの 前半15塩基と同じ 「アダプタ断片」は少し残っている可能性がある
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 ア ノ テ ー シ ョ ン • fastqをfastaに変換(配列が同一のものは1つにまとめる) • 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、 最もe-valueの小さい結果を採用した • mature miRNAにマッピングできなかったものはprecursor miRNA、 ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた miRBase V19 mature miRNA miRBase V19 precursor miRNA Rfam V11 other ncRNA refSeq Gene not mapped not mapped not mapped
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • サンプルごとに総リード数は異なる(=実験時のバイアスなど) →サンプル間で発現を比較するには補正が必要 ID アダプタ 除去後 ERR038405 59,245 ERR038406 723,434 ERR038410 460 ERR038411 32,323 ERR038415 157,294 ERR038416 656,099 例えばあるmiRNAが ERR038406に15リード、ERR038410に13リード あった場合、単純に 「ERR038406のほうが発現が高い」とは言えない →「マップできたリード数」などで補正する
  • 17. Copyright © Amelieff Corporation. All Rights Reserved. 17 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正前)
  • 18. Copyright © Amelieff Corporation. All Rights Reserved. 18 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正後) – 「human mature miRNAにマップできたリード数(単位:100万)」で割る
  • 19. Copyright © Amelieff Corporation. All Rights Reserved. 19 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 補正による発現量の変化の例 0 5000 10000 15000 20000 25000 30000 35000 40000 ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416 hsa-let-7g-5p 補正前 補正後
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 ヒ ー ト マ ッ プ 図 • 補正後の発現量データをRに読み込む > mirna <- read.table("補正後の発現量ファイル", header=T, row.names=1) 補正後発現量の合計が大きい順 50データを用いた
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 ヒ ー ト マ ッ プ 図 • 組織ごとにクラスタリングされた • 肝臓でmir-122の発現が高かった (赤矢印) • mir-122は肝臓特異的に発現する miRNAであることが論文で報告さ れている[1] 脳脳肝 臓 肝 臓 精 巣 精 巣 [1] Landgraf P, et al. A mammalian microRNA expression atlas based on small RNA library sequencing. Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ま と め • miRNAシーケンシングデータ解析で留意すべき点 – アダプタが混入していたら、適切に除去する – 既知miRNAやncRNAにマッピングしてアノテーションをつける – 新規miRNAを予測するソフトもある – 発現量を比較する場合は「マッピングできたリード数」などで補正する
  • 23. Copyright © Amelieff Corporation All Rights Reserved. 23 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク