Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
フ リ ー ソ フ ト で は じ め る
N G S 融 合 遺 伝 ⼦ 解 析 ⼊ ⾨
2016年5⽉27⽇
アメリエフ株式会社
本 ⽇ の テ ー マ
2Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• RNA-seq解析
• 融合遺伝⼦解析
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
3
R N A - s e q と は
メッセンジャーRNA(mRNA)をキャプチャして次世代
シーケンサでシーケンシングする⼿法
•...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
R N A - s e q 解 析 で で き る こ と
• 発現量の定量・⽐較
• 新規転写物・新規スプライシングバリアントの探索...
5
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化
...
上記はほんの⼀部
⽇々、多くのソフトが公開されている
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
6
R N A - S e q 解 析 ソ フ ト
QC
• cutadapt
...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
7
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多⼈数で同時に利⽤し、常時稼働して...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
8
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど...
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
9
⽣データ → クオリティコントロール → マッピング→発現定量
R N A - s e q 解 析 : ク オ リ テ ィ コ ン ...
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
10
⽣データ → クオリティコントロール → マッピング→発現定量
• TopHatの使い方を確認
$ tophat
R N A - ...
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
11
⽣データ → クオリティコントロール → マッピング→発現定量
• マッピング
$ tophat -o SMAPLE -g 3 –...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
12
ポ イ ン ト ) T o p H a t の ア ル ゴ リ ズ ム
1. リードをペアエンドでリファレンスに
マッピングする...
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
13
• Cufflinksの使い⽅を確認
R N A - s e q 解 析 : 発 現 定 量
$ cufflinks
アセンブルの...
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
14
• 発現量を計算
R N A - s e q 解 析 : 発 現 定 量
$ cufflinks -o SAMPLE SAMPL/...
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
15
R N A - s e q 解 析 : 発 現 定 量
$ less SAMPL/genes.fpkm_tracking
4列⽬が...
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
16
⻑い遺伝⼦ほど、マップされるリードは多くなる(遺伝⼦間のバイアス)
サンプル量の多いランほど、マップされるリードは多くなる(ラン間...
17
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化...
本 ⽇ の テ ー マ
• RNA-seq解析
• 融合遺伝⼦解析
18Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
融 合 遺 伝 ⼦ と は
• 染⾊体の挿⼊・逆位・転座などの組換えの結果、2つの遺伝⼦が
融合して⽣じる遺伝⼦
• がんなどにおけるゲノム・遺伝⼦異常の⼀種
19Copyright	©	Amelieff Corporation	All	Rig...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
20
• 腫瘍のドライバーとなったり、分⼦標的治療のターゲットとなる
など、がんなどの疾患との関連が注⽬されている
– ヒト21番染⾊...
融 合 遺 伝 ⼦ 関 連 論 ⽂
21Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
⽪膚ガンの原因遺伝⼦を特定
AYA世代の⽩⾎病で複数の新規の融合癌遺伝⼦を同定
Cancer R...
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
22
ChimeraScan FusionSeq TopHat-Fusion
deFuse SOAP-Fusion PRADA
Fus...
公 開 デ ー タ を ⽤ い た 検 証
本論⽂のデータを⽤いて融合遺伝⼦の検出を、TopHat-
FusionおよびChimerascanで検証した
23Copyright	©	Amelieff	Corporation	All	Rights...
検 証 に ⽤ い た 公 開 デ ー タ
• サンプル:ヒト乳がんの細胞株5種類
• シーケンシング:Illumina Genome Analyzer IIx, paired-end
24Copyright	©	Amelieff	Corpor...
25
検 証 の 対 象 と し た 融 合 遺 伝 ⼦
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
27個の
融合遺伝⼦
Edgren et al., Genome Biolog...
融 合 遺 伝 ⼦ 解 析 の 流 れ
26Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
⽣の
リードデータ
クリーニングした
リードデータ
融合遺伝⼦候補
リードQC
融合遺伝⼦検...
27
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ ⽐ 較
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• クオリティスコアの低いリードを除去
• クリーニング前後のリー...
T o p H a t - F u s i o n 解 析 フ ロ ー
28Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
クリーニングしたリードデータ
融合遺伝⼦候補
マップされたリ...
29
ブ レ イ ク ポ イ ン ト の 探 索
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• マッピングされなかった
リードをセグメントに分割
↓
• 分割されたセグメントから...
30
T o p H a t - F u s i o n の 実 ⾏
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• クリーニング後のFASTQファイルから融合遺伝⼦を検出する
$...
• 出⼒結果(fusion.out)では、多数の融合遺伝⼦候補が検出される
31
T o p H a t - F u s i o n の 実 ⾏ 結 果
Copyright	©	Amelieff	Corporation	All	Rights	R...
32
T o p H a t - F u s i o n の フ ィ ル タ リ ン グ
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• 出⼒結果(fusion.out)からフィル...
33
フ ィ ル タ リ ン グ 結 果
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
フィルタリングにより、数個〜数⼗個の融合遺伝⼦に絞りこまれた
# ID 細胞株 検出数
1 S...
他 ソ フ ト ウ ェ ア と の ⽐ 較
34Copyright	©	Amelieff Corporation	All	Rights	Reserved.
TopHat-Fusion Chimerascan
総検出数 72 335
既知融合遺伝...
35
検 出 結 果 の ⽐ 較
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
Sample 5' gene 5' chr 3' gene 3' chr TopHat-Fusion ...
融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
36Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• ChimerDB (http://biome.ewha.ac.kr:...
ア ノ テ ー シ ョ ン 結 果
37Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
1 2 3 4 5 6 7 8 9 10 11
MCF7 BCAS4 chr20 4941170...
融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
38Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
http://54.84.12.177/PanCanFusV2/
• T...
受 託 解 析 サ ー ビ ス : 融 合 遺 伝 ⼦ 解 析
39Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
Upcoming SlideShare
Loading in …5
×

フリーソフトではじめるNGS融合遺伝子解析入門

2016年5月20日に大阪(第44回)で、27日に東京(第45回)で開催したバイオインフォマティクス勉強会で発表したスライド資料です。

  • Login to see the comments

フリーソフトではじめるNGS融合遺伝子解析入門

  1. 1. フ リ ー ソ フ ト で は じ め る N G S 融 合 遺 伝 ⼦ 解 析 ⼊ ⾨ 2016年5⽉27⽇ アメリエフ株式会社
  2. 2. 本 ⽇ の テ ー マ 2Copyright © Amelieff Corporation All Rights Reserved. • RNA-seq解析 • 融合遺伝⼦解析
  3. 3. Copyright © Amelieff Corporation. All Rights Reserved. 3 R N A - s e q と は メッセンジャーRNA(mRNA)をキャプチャして次世代 シーケンサでシーケンシングする⼿法 • リファレンスゲノムがある⽣物種の場合: – 既知遺伝⼦にマッピングする – リファレンスゲノムにマッピングして遺伝⼦構造を同定する • リファレンスゲノムがない⽣物種の場合: – アセンブリングして転写物構造を予測し、それに対してマッピングする – 近いゲノムのリファレンスゲノムにマッピングする
  4. 4. Copyright © Amelieff Corporation. All Rights Reserved. R N A - s e q 解 析 で で き る こ と • 発現量の定量・⽐較 • 新規転写物・新規スプライシングバリアントの探索 • 融合遺伝⼦の検出 4 RNA-seqがマイクロアレイと⽐較して優れている点 • 新規転写物や融合遺伝⼦が検出可 • SNV・small Indelも検出可 • プローブの設計を必要としない(⾮モデル⽣物にも対応可)
  5. 5. 5 解 析 フ ロ ー ⽣の リードデータ クリーニングした リードデータ マッピング結果 ジャンクション 情報 転写物情報 発現レベル 情報 コンセンサス 転写物 グラフ画像 融合遺伝⼦ 検出 ⽐較結果 リードQC 融合遺伝⼦ 予測 視覚化 発現レベル予測 コンセンサス 転写物予測 マッピング・ 転写構造予測 転写構造・発現レベル⽐較 既知転写物と⽐較 新規転写物 候補 マッピング チェック結果 マッピングチェック・カバレージチェック 平均カバレージ チェック結果 SNP/InDel 検出結果 SNP/InDel検出 Copyright © Amelieff Corporation All Rights Reserved.
  6. 6. 上記はほんの⼀部 ⽇々、多くのソフトが公開されている Copyright © Amelieff Corporation. All Rights Reserved. 6 R N A - S e q 解 析 ソ フ ト QC • cutadapt • FastQC • FastX-toolkit • HTseq • prinseq : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント • bowtie • bwa • SOAP • STAR • Tophat : 発現定量/⽐較 • Cufflinks • DESeq • DEGSeq • EdgeR • ERANGE : 融合遺伝⼦検出 • BreakDancer • FusionCatcher • SOAPfusion • deFuse • Tophat-Fusion : ※Rなど、WindowsやMacでも動くものもある
  7. 7. Copyright © Amelieff Corporation. All Rights Reserved. 7 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多⼈数で同時に利⽤し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、⼀般⼈の⼿の届かない存在となったため、Linus⽒がUNIXを 参考にして、PCで動く独⾃OSを開発 Linux ⼤多数の解析ツールを使⽤することができる 新しいツールが出た時、すぐ⾃分で試せる 次世代シーケンシンスデータのように、⼤ きなデータは、Excel等で⾒る事が難しい ⾃分の思い通りにデータの可視化や加⼯ができる バイオインフォマティクスで使⽤する解析ツールの 多くは、Linux⽤に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝⼦に当たるの か確認したい」という時、同じ作業を何度も繰り返す事は、難しい 繰り返し作業を⾃動化する事ができる ⼤量データの扱い 繰り返し操作の簡易化 解析ツールの問題
  8. 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商⽤)、CentOS(無償)など ⾒た⽬やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新⽅針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使⽤
  9. 9. Copyright © Amelieff Corporation All Rights Reserved. 9 ⽣データ → クオリティコントロール → マッピング→発現定量 R N A - s e q 解 析 : ク オ リ テ ィ コ ン ト ロ ー ル サンプルや調整⽅法、シーケンサの特徴にあわせて クリーニング項⽬や条件を⼯夫しています。 塩 基 ク オ リ テ ィ 0 40 5ʻリード上のポジション3ʼ
  10. 10. Copyright © Amelieff Corporation All Rights Reserved. 10 ⽣データ → クオリティコントロール → マッピング→発現定量 • TopHatの使い方を確認 $ tophat R N A - s e q 解 析 : マ ッ ピ ン グ スプライシングを考慮して、マッピングするため、 既知の遺伝⼦情報を使⽤することもできます。
  11. 11. Copyright © Amelieff Corporation All Rights Reserved. 11 ⽣データ → クオリティコントロール → マッピング→発現定量 • マッピング $ tophat -o SMAPLE -g 3 –G /path/to/genes.gtf ¥ /path/to/Bowtie2Index/genome SAMPLE_clean_1.fastq ¥ SAMPLE_clean_2.fastq $ ls SAMPLE R N A - s e q 解 析 : マ ッ ピ ン グ BAMとインデックス、 BEDなどが作成されます。
  12. 12. Copyright © Amelieff Corporation. All Rights Reserved. 12 ポ イ ン ト ) T o p H a t の ア ル ゴ リ ズ ム 1. リードをペアエンドでリファレンスに マッピングする。 2. マッピングできなかったリードを断 片化して、リファレンスにマッピング する。 3. マッピング結果をもとに、転写構造 をアセンブリングする。 http://www.ncbi.nlm.nih.gov/pubmed/19289445http://en.wikipedia.org/wiki/File:RNA-seq-alignment.png
  13. 13. Copyright © Amelieff Corporation All Rights Reserved. 13 • Cufflinksの使い⽅を確認 R N A - s e q 解 析 : 発 現 定 量 $ cufflinks アセンブルのガイドとして既知の遺伝⼦情報を 使⽤することもできます。 ⽣データ → クオリティコントロール → マッピング→発現定量
  14. 14. Copyright © Amelieff Corporation All Rights Reserved. 14 • 発現量を計算 R N A - s e q 解 析 : 発 現 定 量 $ cufflinks -o SAMPLE SAMPL/accepted_hits.bam ¥ –g /path/to/genes.gtf –M /path/to/mask.gtf $ ll –h SAMPLE fpkm_trackingファイル が作成されます。 ⽣データ → クオリティコントロール → マッピング→発現定量
  15. 15. Copyright © Amelieff Corporation All Rights Reserved. 15 R N A - s e q 解 析 : 発 現 定 量 $ less SAMPL/genes.fpkm_tracking 4列⽬がGene ID、 10列⽬がFPKMです。 ⽣データ → クオリティコントロール → マッピング→発現定量 • 発現量を計算
  16. 16. Copyright © Amelieff Corporation All Rights Reserved. 16 ⻑い遺伝⼦ほど、マップされるリードは多くなる(遺伝⼦間のバイアス) サンプル量の多いランほど、マップされるリードは多くなる(ラン間のバイアス) ・発現量としてよく使われる指標 RPKM(Reads Per Kilobase per Million mapped reads) FPKM(Fragments Per Kilobase of exon per Million mapped fragments) どちらも、発現量をエクソン⻑と全マッピング数で補正した値 FPKM = raw counts× 1,000,000 all reads × 1,000 gene length ポ イ ン ト ) 発 現 量 遺伝⼦の発現量 ≠ 遺伝⼦上にマップされたリード数 これらのバイアスを補正してから発現量を⽐較する必要があります
  17. 17. 17 解 析 フ ロ ー ⽣の リードデータ クリーニングした リードデータ マッピング結果 ジャンクション 情報 転写物情報 発現レベル 情報 コンセンサス 転写物 グラフ画像 融合遺伝⼦ 検出 ⽐較結果 リードQC 融合遺伝⼦ 予測 視覚化 発現レベル予測 コンセンサス 転写物予測 マッピング・ 転写構造予測 転写構造・発現レベル⽐較 既知転写物と⽐較 新規転写物 候補 マッピング チェック結果 マッピングチェック・カバレージチェック 平均カバレージ チェック結果 SNP/InDel 検出結果 SNP/InDel検出 Copyright © Amelieff Corporation All Rights Reserved.
  18. 18. 本 ⽇ の テ ー マ • RNA-seq解析 • 融合遺伝⼦解析 18Copyright © Amelieff Corporation All Rights Reserved.
  19. 19. 融 合 遺 伝 ⼦ と は • 染⾊体の挿⼊・逆位・転座などの組換えの結果、2つの遺伝⼦が 融合して⽣じる遺伝⼦ • がんなどにおけるゲノム・遺伝⼦異常の⼀種 19Copyright © Amelieff Corporation All Rights Reserved. exon exon exon Gene A exon exon exon Gene B exon exon exon exon join Fusion Gene
  20. 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 • 腫瘍のドライバーとなったり、分⼦標的治療のターゲットとなる など、がんなどの疾患との関連が注⽬されている – ヒト21番染⾊体上のTMPRESS2遺伝⼦とERG遺伝⼦から⽣じる融合 遺伝⼦TMPRESS2-ERGは、前⽴腺がんとの関連が報告されている Tomlins SA et al., Recurrent fusion of TMPRSS2 and ETS transcription factor genes in prostate cancer. Science. 2005;310(5748):644–8. – RET-ROS1融合遺伝⼦は肺腺がんの分⼦標的治療のターゲットである Takeuchi K, Soda M, Togashi Y, et al. RET, ROS1 and ALK fusions in lung cancer. Nat Med 2012;18:378-81. 融 合 遺 伝 ⼦ と は
  21. 21. 融 合 遺 伝 ⼦ 関 連 論 ⽂ 21Copyright © Amelieff Corporation All Rights Reserved. ⽪膚ガンの原因遺伝⼦を特定 AYA世代の⽩⾎病で複数の新規の融合癌遺伝⼦を同定 Cancer Res. 2015 Nov 1;75(21):4458-65. Nat Genet. 2016 May;48(5):569-74. 近年、NGSを⽤いた融合遺伝⼦の研究が盛んに⾏われている
  22. 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ChimeraScan FusionSeq TopHat-Fusion deFuse SOAP-Fusion PRADA FusionMap STAR-Fusion : ⽇々、多くのソフトが公開されているが golden standardと呼べるものはまだない ソフトウェア 論⽂ 被引⽤数 Chimerascan ChimeraScan: a tool for identifying chimeric transcription in sequencing data, Bioinformatics, 2011 107 deFuse deFuse: an algorithm for gene fusion discovery in tumor RNA-Seq data, PLoS Comput Biol, 2011 215 TopHat-Fusion TopHat-Fusion: an algorithm for discovery of novel fusion transcripts, Genome Biol, 2011 226 融 合 遺 伝 ⼦ 検 出 ソ フ ト
  23. 23. 公 開 デ ー タ を ⽤ い た 検 証 本論⽂のデータを⽤いて融合遺伝⼦の検出を、TopHat- FusionおよびChimerascanで検証した 23Copyright © Amelieff Corporation All Rights Reserved.
  24. 24. 検 証 に ⽤ い た 公 開 デ ー タ • サンプル:ヒト乳がんの細胞株5種類 • シーケンシング:Illumina Genome Analyzer IIx, paired-end 24Copyright © Amelieff Corporation All Rights Reserved. # ID 細胞株 リード⻑ リード数 1 SRR064286 MCF-7 50bp 12,805,674 2 SRR064287 KPL-4 50bp 10,199,593 3 SRR064437 normal breast 56bp 11,134,621 4 SRR064438 BT-474 50bp 27,030,264 SRR064439 50bp 15,830,764 5 SRR064440 SK-BR-3 50bp 18,096,704 SRR064441 50bp 18,194,304 Edgren et al., Genome Biology, 2011
  25. 25. 25 検 証 の 対 象 と し た 融 合 遺 伝 ⼦ Copyright © Amelieff Corporation All Rights Reserved. 27個の 融合遺伝⼦ Edgren et al., Genome Biology, 2011
  26. 26. 融 合 遺 伝 ⼦ 解 析 の 流 れ 26Copyright © Amelieff Corporation All Rights Reserved. ⽣の リードデータ クリーニングした リードデータ 融合遺伝⼦候補 リードQC 融合遺伝⼦検出 マッピング フィルタリング
  27. 27. 27 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ ⽐ 較 Copyright © Amelieff Corporation All Rights Reserved. • クオリティスコアの低いリードを除去 • クリーニング前後のリード配列をFastQCでチェック 塩 基 ク オ リ テ ィ 0 40 5ʻリード上のポジション3ʼ
  28. 28. T o p H a t - F u s i o n 解 析 フ ロ ー 28Copyright © Amelieff Corporation All Rights Reserved. クリーニングしたリードデータ 融合遺伝⼦候補 マップされたリード マップされなかったリード 融合遺伝⼦検出 ブレイクポイントの探索 マッピング フィルタリング Supporting リードの情報
  29. 29. 29 ブ レ イ ク ポ イ ン ト の 探 索 Copyright © Amelieff Corporation All Rights Reserved. • マッピングされなかった リードをセグメントに分割 ↓ • 分割されたセグメントから ブレイクポイントを探索 Kim et al., Genome Biology, 2011
  30. 30. 30 T o p H a t - F u s i o n の 実 ⾏ Copyright © Amelieff Corporation All Rights Reserved. • クリーニング後のFASTQファイルから融合遺伝⼦を検出する $ tophat -o tophat_SAMPLE -p 8 --fusion-search ¥ --keep-fasta-order --no-coverage-search ¥ --mate-std-dev 80 --max-intron-length 100000 ¥ --fusion-min-dist 100000 --fusion-anchor-length 13 ¥ --fusion-ignore-chromosomes chrM ¥ /path/to/bowtie2_index/hg19 SAMPLE_1.fastq SAMPLE_2.fastq --keep-fasta-order = In order to sort alignments in the same order in the genome fasta file. --no-coverage-search = Disables the coverage based search for junctions. --mate-std-dev = The standard deviation for the distribution on inner distances between mate pairs. --max-intron-length = The maximum intron length. --fusion-min-dist = Minimum distance for intra-chromosomal fusions. --fusion-anchor-length = Minimum anchor length of supporting read. --fusion-ignore-chromosomes = Ignore some chromosomes such as chrM.
  31. 31. • 出⼒結果(fusion.out)では、多数の融合遺伝⼦候補が検出される 31 T o p H a t - F u s i o n の 実 ⾏ 結 果 Copyright © Amelieff Corporation All Rights Reserved. # ID 細胞株 検出候補数 1 SRR064286 MCF-7 59,713 2 SRR064287 KPL-4 46,195 3 SRR064437 normal breast 34,032 4 SRR064438 BT-474 69,008 SRR064439 58,525 5 SRR064440 SK-BR-3 56,852 SRR064441 52,760
  32. 32. 32 T o p H a t - F u s i o n の フ ィ ル タ リ ン グ Copyright © Amelieff Corporation All Rights Reserved. • 出⼒結果(fusion.out)からフィルタリングを⾏う – BLAST検索の結果をフィルタリングに⽤いるため、BLASTの データベースをダウンロードしておく必要がある。 – フィルタリングではBowtie1とインデックスファイルを⽤意し ておく必要がある。 $ tophat-fusion-post -p 8 --num-fusion-reads 1 ¥ --num-fusion-pairs 2 --num-fusion-both 3 /path/to/bowtie_index/hg19 --num-fusion-reads = Fusions with at least this many supporting reads. --num-fusion-pairs = Fusions with at least this many supporting pairs. --num-fusion-both = The sum of supporting reads and pairs.
  33. 33. 33 フ ィ ル タ リ ン グ 結 果 Copyright © Amelieff Corporation All Rights Reserved. フィルタリングにより、数個〜数⼗個の融合遺伝⼦に絞りこまれた # ID 細胞株 検出数 1 SRR064286 MCF-7 12 2 SRR064287 KPL-4 4 3 SRR064437 normal breast 1 4 SRR064438 BT-474 34 SRR064439 5 SRR064440 SK-BR-3 21 SRR064441
  34. 34. 他 ソ フ ト ウ ェ ア と の ⽐ 較 34Copyright © Amelieff Corporation All Rights Reserved. TopHat-Fusion Chimerascan 総検出数 72 335 既知融合遺伝⼦の検出数 17 21 既知融合遺伝⼦数 27 ソフトウェア 論⽂ 被引⽤数 Chimerascan ChimeraScan: a tool for identifying chimeric transcription in sequencing data, Bioinformatics, 2011 107 TopHat-Fusion TopHat-Fusion: an algorithm for discovery of novel fusion transcripts, Genome Biol, 2011 226 Chimerascanの⽅が既知融合遺伝⼦の検出数は多い
  35. 35. 35 検 出 結 果 の ⽐ 較 Copyright © Amelieff Corporation All Rights Reserved. Sample 5' gene 5' chr 3' gene 3' chr TopHat-Fusion Chimerascan BT-474 ACACA 17 STAC2 17 ● ● RPS6KB1 17 SNF8 17 ● ● VAPB 20 IKZF3 17 ● ● ZMYND8 20 CEP250 20 ● ● RAB22A 20 MYO9B 19 ● SKA2 17 MYO19 17 ● ● DIDO1 20 KIAA0406 20 ● STARD3 17 DOK5 20 ● LAMP1 13 MCF2L 13 GLB1 3 CMTM7 3 ● ● CPNE1 20 PI3 20 KPL-4 BSG 19 NFIX 19 ● ● PPP1R12A 12 10-Sep 2 ● ● NOTCH1 9 NUP214 9 ● MCF-7 BCAS4 20 BCAS3 17 ● ● ARFGEF2 20 SULF2 20 ● ● RPS6KB1 17 TMEM49 17 ● SK-BR-3 TATDN1 8 GSDMB 17 ● ● CSE1L 20 ENSG00000236127 20 RARA 17 PKIA 8 ● ● ANKHD1 5 PCDH1 5 ● ● CCDC85C 14 SETD3 14 ● SUMF1 3 LRRFIP2 3 ● ● WDR67 8 ZNF704 8 ● CYTH1 17 EIF3H 8 ● ● DHX35 20 ITCH 20 ● NFS1 20 PREX1 20 両ソフトで検出 15 TopHat-Fusionのみ 2 Chimerascanのみ 6 両ソフトで検出なし 4 正常サンプルでの検出数 TopHat-Fusion 1 Chimerascan 27 Chimerascanの⽅が 既知融合遺伝⼦の検出 数は多いが、正常サン プルでの検出数も多い
  36. 36. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介 36Copyright © Amelieff Corporation All Rights Reserved. • ChimerDB (http://biome.ewha.ac.kr:8080/FusionGene/) – Sanger CGP, OMIM, PubMedなどの公開情報をまとめたデータ ベース 検出した融合遺伝⼦と照合することで、既知の融合遺伝⼦の情報をア ノテーションすることができる
  37. 37. ア ノ テ ー シ ョ ン 結 果 37Copyright © Amelieff Corporation All Rights Reserved. 1 2 3 4 5 6 7 8 9 10 11 MCF7 BCAS4 chr20 49411707 BCAS3 chr17 59430946 7 2 9 B SK-BR-3 TATDN1 chr8 125551265 GSDMB chr17 38066176 125 21 151 - (1) 融合遺伝⼦が検出されたサンプル名 (2) 融合遺伝⼦の左側の遺伝⼦名 (3) 左側の遺伝⼦がある染⾊体番号 (4) 左側の遺伝⼦のポジション (5) 融合遺伝⼦の右側の遺伝⼦名 (6) 右側の遺伝⼦がある染⾊体番号 (7) 右側の遺伝⼦のポジション (8) ブレイクポイント上のリード数 (9) ブレイクポイントを挟むペア数 (10) ⽚側のリードが融合遺伝⼦上にあるペア数 (11)chimerDBのアノテーション(A,B,Cの信頼性クラスで⽰される)
  38. 38. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介 38Copyright © Amelieff Corporation All Rights Reserved. http://54.84.12.177/PanCanFusV2/ • TCGA Fusion gene Data Portal – がんに関連する融 合遺伝⼦の情報を 検索できるサイト 遺伝⼦別や疾患別に検索 することが可能
  39. 39. 受 託 解 析 サ ー ビ ス : 融 合 遺 伝 ⼦ 解 析 39Copyright © Amelieff Corporation All Rights Reserved.

×