SlideShare a Scribd company logo
フ リ ー ソ フ ト で は じ め る
N G S 解 析 入 門
~公開データベース活用編~
Copyright © Amelieff Corporation. All Rights Reserved.
2
本 日 の テ ー マ
• NGSデータのSNV/Indel検出
• 公開データベース
– Variant database
– Disease curation
– Prediction database
– データベースの特徴
• データベース活用実践
– 「疾患関連の既知変異探索と新規変異探索」の例
N G S デ ー タ の S N V / I n d e l 検 出
Copyright © Amelieff Corporation. All Rights Reserved.
3
入力ファイル
リードのクリーニング
クオリティチェック
リファレンスゲノムへのマッピング
重複リードを除去
リアライメント、リキャリブレーション
マッピング結果のファイル
• Illumina CASAVA filter [Y] を除去
• クオリティ20未満の塩基が80%以上のリードを除去
• クオリティ20未満の末端をトリム
• 未知の塩基(N)が多いリード除去
• 配列長が短いリード除去
• 片側のみのリードを除去
ファイルの形式
フリーソフト
自社開発ツール
SNV / Indel 検出とフィルタリング
アノテーション付与
多型情報のファイル
Copyright © Amelieff Corporation. All Rights Reserved.
4
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
マッピングソフトウェア
・最新版 0.7.12(2014/12/28公開)
・BWA-SW & BWA-MEMアルゴリズム
 70bp~1Mbに対応。
 MEMはクオリティの高いシーケンスの時に高速かつ
高精度。70~100bpのイルミナシーケンス、454、
Ion Torrent、Sanger などで使用。
 SWはgapが多いときに感度が良い。
 Error rateは、100bpで2%以下、200bpで3%以下、
500bpで5%以下、 1000bp以上で10%以下が推奨。
• BWA-backtrackアルゴリズム
 100bp以上のイルミナシーケンス用に最適化。
 Error rateは、2%以下が対象。
BWA
Copyright © Amelieff Corporation. All Rights Reserved.
5
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
パッケージソフトウェア
・最新版 3.3-0(2014/10/23公開)
・DNAseqおよびRNAseqからSNV/Indel検出
 UnifiedGenotyperとHaplotypeCaller
 HaplotypeCallerはlocal de-novo assemblyを実施
 VQSR(Variant Quality Score Recalibration)を使用
して、VQSLODを付与。既知SNPを用いたエラーモ
デルによって、真の変異であるか評価。ガウス混合
モデルで推定した対数オッズ比。
・2倍体以外の生物種の変異検出に対応。
 「-ploidy」オプションの引数として、倍数を指定可能。
GATK
Copyright © Amelieff Corporation. All Rights Reserved.
6
N G S デ ー タ の S N V / I n d e l 検 出
リードがマッピング
されている様子
カバレージ
変異
BAM
VCF
・IGVによる可視化
・VCFファイル
:
Copyright © Amelieff Corporation. All Rights Reserved.
7
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
SnpEff
基本情報
ICGC
COSMIC
転写産物によって、
タンパク質へのインパ
クトが大きく異なる。
米国の直腸がんのプロジェクトで
0.46%の頻度で報告されている。
Functional impactが「Low」に
なっているが、どのように考えたらいいのか?
Copyright © Amelieff Corporation. All Rights Reserved.
8
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
ClinVar
HGVD, ESP, 1kgp
OMIM
IntOGen
さまざまな集団中で
Altアリルの頻度が高い。
疾患関連変異のデータベースに登録がない。
dbSNP
Copyright © Amelieff Corporation. All Rights Reserved.
9
N G S デ ー タ の S N V / I n d e l 検 出
dbSNPに登録されている変異は除外してもいいのだろうか?
サンプル数が増えて
同じ作業を繰り返している。
自動的に絞り込んでくれるシ
ステムを作れないだろうか?
どのデータベースが信頼できるのか?
疾患関連の既知の変異のみを
まずは見たい。
でも、新規の可能性がある
変異情報も蓄積したい。
・アノテーション情報の活用?
Copyright © Amelieff Corporation. All Rights Reserved.
10
公 開 デ ー タ ベ ー ス
Prediction database
Disease curation
Variant database
11
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html
 日本人のゲノム情報データベース Human Genetic Variation
Databaseは、2013年11月12日に公開。
 登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー
タベースに含まれていない日本人特異的。
 日本人1,208名のエクソームシーケンシングデータから発見されたアリ
ルやジェノタイプの頻度を公開。
443,967変異を収録
12
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
 2013.11.13公開データのサマリを示します。
[ Alt allele frequencyの分布 ][ Total allele countの分布 ]
データベースに含まれる1,208人の2,416本のアリルの
うち、各SNVにおいてジェノタイピングしたアリル数。
Altのアリル頻度の出現回数。
Copyright © Amelieff Corporation. All Rights Reserved.
13
公 開 デ ー タ ベ ー ス
・Disease curation
ClinVar
 論文
 臨床医学的に重要な変異と表現型の関連性についてのデータベース。
ClinVar: public archive of relationships among sequence variation and human phenotype
Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1
 0 - Uncertain significance,
1 - not provided
2 - Benign
3 - Likely benign
4 - probable-pathogenic,
5 - pathogenic
6 - drug-response
7 - histocompatibility
255 – other / confers sensitivity /
risk factor / association / protective 88,268変異を収録
※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
Copyright © Amelieff Corporation. All Rights Reserved.
14
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
[1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their
Functional Predictions
Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011.
[2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional
Predictions and Annotations
Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.
 論文
 ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、
SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction
scoreを公開。
 PhyloP によるconservation scoreを公開。
 遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、
liftOver tool を用いてhg19に変換。
 全てのscoreは高いほど、高度に保存されている、または、有害で
ある可能性が高い。
Copyright © Amelieff Corporation. All Rights Reserved.
15
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
 dbSNP V2.0では、prediction scoreにMutationAssessor と
FATHMM、conservation scoreにGERP++ と SiPhyを追加。
※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/
[ dbNSFP v2.0に登録されているscoreの割合 ]
prediction score conservation score
[prediction score と conservation scoreの樹形図]
UPGMA(非加重平均結合法)を用いてクラスタ解析。
Copyright © Amelieff Corporation. All Rights Reserved.
16
公 開 デ ー タ ベ ー ス
・データベースの特徴
1kgp
(39,619,602)ESP
(1,942,722)
HGVD
(443,967)
Variant database
1kgp独自の変異
ESP独自の変異
HGVD独自の変異
98.6%:
:
:
72.6%
65.7%
3つに共通する変異と、
HGVD独自の変異では、
Altアリル頻度の分布が異なる。
[ HGVDのAltアリル頻度 ]
COMMON
(78,023)
UNIQUE
(291,592)
Min. 0.0004 0.0004
1st Qu. 0.0023 0.0013
Median 0.0233 0.0017
Mean 0.1586 0.0125
3rd Qu. 0.2015 0.0033
Max. 1 1
UE
ICGC
(9,805,320)
COSMIC
(1,024,612)
ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
17
公 開 デ ー タ ベ ー ス
・データベースの特徴
ICGC独自の変異
COSMIC独自の変異
ClinVar独自の変異
Disease curation
96.7%:
:
:
67.9%
84.5%
0
2000
4000
6000
8000
10000
12000
COSMIC ∩ Clinvar ICGC ∩ Clinvar
CLNSIG=255
CLNSIG=6
CLNSIG=5
CLNSIG=4
CLNSIG=3
CLNSIG=2
CLNSIG=1
CLNSIG=0
ClinVarと共通する変異のうち、疾患関連の
インパクトがあるとされた(≥4の)変異の
割合は、COSMICが77.8%、ICGCが56.4%
ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
18
公 開 デ ー タ ベ ー ス
・データベースの特徴
HGVD とClinVarに共通する変異
HGVDのうち共通する変異の割合
ClinVarのうち共通する変異の割合
Variant database と Disease curation
5,176SNPs:
:
:
1.17%
5.86%
HGVD
(443,967)
さらにデータベースに閾値を設定すると…
• ClinVarで疾患関連のインパクトがあるとされた
(≥4の)変異は、1,743SNPs
• HGVDで「アリル頻度が5%未満」となる変異は、
3,303SNPs
• 「ClinVar」かつ「アリル頻度が5%未満」とな
る変異は、468SNPs
 driver gene / mutationを特定するソフトウェア。
 TCGAなどのExome-seqデータ(6,079 cases)を使用。
 多数のアルゴリズムで変異の有害性を評価してDriver Scoreを
付与。
Copyright © Amelieff Corporation. All Rights Reserved.
19
公 開 デ ー タ ベ ー ス
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features
Mao Y, et al., PLoS ONE 8(10): e77945. 2013.
 missense driver mutationの predictionソフトウェア。
 driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。
 COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、
driver mutationとpassenger mutationのトレーニングデータを作成。
 support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、
passenger、non-call)に分類。
CanDrA
DriverDB: an exome sequencing database for cancer driver gene identification
Cheng et al., Nucleic Acids Research, 2013.DriverDB
Copyright © Amelieff Corporation. All Rights Reserved.
20
公 開 デ ー タ ベ ー ス
 実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版
 cancer mutationのインパクトの評価
① non-synonymous mutationsを特定する。
SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM,
transFIC
② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive
selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。
MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver
Identification of oncogenic driver mutations (Chapter 3.6)
Tamborero et al., Experimental Medicine, 2014
実験医学
※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/
偶然よりも高い確率
で変異が蓄積される
機能的に影響を及ぼ
す変異に偏っている
特定の領域に蓄積する
タンパク質のリン酸化部
位に起きる傾向がある
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
Copyright © Amelieff Corporation. All Rights Reserved.
21
デ ー タ ベ ー ス 活 用 実 践
① nsSNVとssSNVを検索
② 1kgpとESPで、MAFが5%を超える変異を除外
③ prediction scoreが高い順にランク付け
④ conservation scoreが高い順にランク付け
⑤ 疾患関連の組織で発現していない遺伝子の変異を除外
⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、
GWASで報告のある遺伝子の変異を強調
⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調
⑧ 疾患関連のパスウェイにある遺伝子の変異を強調
dbNSFPが推奨しているフィルタリング方法
・「疾患関連の既知変異探索と新規変異探索」の例
Copyright © Amelieff Corporation. All Rights Reserved.
22
デ ー タ ベ ー ス 活 用 実 践
Variant classification
Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders
Yang et al., N Engl J Med 369, 2013.
・「疾患関連の既知変異探索と新規変異探索」の例
Copyright © Amelieff Corporation. All Rights Reserved.
23
デ ー タ ベ ー ス 活 用 実 践
・データベースは更新が必要
ClinVar dbSNP
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar
/release_notes/
http://www.ncbi.nlm.nih.gov/projects
/SNP/buildhistory.cgi
Date
Total
Submissions
1-Feb-15 156,999
1-Jan-15 149,013
1-Dec-14 148,008
1-Nov-14 144,117
1-Oct-14 143,601
1-Sep-14 143,114
1-Aug-14 127,557
: :
1-Aug-13 45,901
1-Jul-13 39,170
1-Jun-13 39,047
1-May-13 30,386
5-Apr-13 30,333
Build Date
142 19-Sep-14
141 21-May-14
140 20-Mar-14
139 25-Oct-13
138 25-Apr-13
137 26-Jun-12
136 26-Jan-12
135 12-Oct-11
: :
4 16-Dec-98
3 15-Dec-98
2 10-Dec-98
1 1-Dec-98
ICGC
Build Date
 release_18 21-Jan-15
 release_17 12-Sep-14
 release_16 15-May-14
 release_15.1 12-Feb-14
 release_15 4-Feb-14
 release_14 26-Sep-13
: :
 release_06 7-Jul-11
 release_05 5-Jun-11
 release_04 1-May-11
 release_03 6-Dec-10
 release_02 12-Aug-10
 release_01 13-Apr-10
https://dcc.icgc.org/repository
/legacy_data_releases
Copyright © Amelieff Corporation. All Rights Reserved.
24
デ ー タ ベ ー ス 活 用 実 践
・解析アルゴリズムのブラッシュアップが必要
PROVEAN(Protein Variation Effect Analyzer)
 タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化
 クエリは、アミノ酸配列(FASTA)とその変異パターン
 WEBフォームからも利用可能
※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
Copyright © Amelieff Corporation. All Rights Reserved.
25
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
 複数の変異やサンプルを解析したい時は、Linuxで実行可能
① 2つの入力ファイルを準備
② コマンド(命令文)を入力して実行
$ provean.sh -q P04637.fasta -v P04637.var
--save_supporting_set P04637.sss
タンパク質のアミノ酸配列
( ファイル名:P04637.fasta )
タンパク質のアミノ酸配列
(ファイル名:P04637.var)
・解析アルゴリズムのブラッシュアップが必要
LinuxというOSで
実行します。
Copyright © Amelieff Corporation. All Rights Reserved.
26
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
 複数の変異やサンプルを解析したい時は、Linuxで実行可能
③ 出力ファイル
Supporting Sequence Set
( ファイル名:P04637.sss )
SSSファイルのシーケンス
(ファイル名:P04637.sss.fasta)
・解析アルゴリズムのブラッシュアップが必要
Copyright © Amelieff Corporation. All Rights Reserved.
27
本 日 の 内 容
• さまざまな公開データベース
– Gene-based Annotation:シーケンスのターゲット領域や、
疾患関連遺伝子の情報。
– Region-based Annotation:染色体領域や遺伝子情報。
– Variant database:変異の頻度情報。
– Disease curation:疾患関連の変異情報。
– Prediction database:有害な変異を予測。
• 「必要なデータベースを選択し、組み合わせ、変異データを用途
によって分類して、活用または保存する」方法は、実際のデータ
と目的に最適化することをおすすめします。
• データベースと解析アルゴリズムはブラッシュアップが必要です。
Copyright © Amelieff Corporation. All Rights Reserved.
28
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

What's hot

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
sesejun
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめ
Naoki Hayashi
 
So you want to do a: RNAseq experiment, Differential Gene Expression Analysis
So you want to do a: RNAseq experiment, Differential Gene Expression AnalysisSo you want to do a: RNAseq experiment, Differential Gene Expression Analysis
So you want to do a: RNAseq experiment, Differential Gene Expression Analysis
University of California, Davis
 
Kogo 2013 RNA-seq analysis
Kogo 2013 RNA-seq analysisKogo 2013 RNA-seq analysis
Kogo 2013 RNA-seq analysis
Junsu Ko
 
Single-cell RNA-seq tutorial
Single-cell RNA-seq tutorialSingle-cell RNA-seq tutorial
Single-cell RNA-seq tutorial
Aaron Diaz
 
RNASeq - Analysis Pipeline for Differential Expression
RNASeq - Analysis Pipeline for Differential ExpressionRNASeq - Analysis Pipeline for Differential Expression
RNASeq - Analysis Pipeline for Differential Expression
Jatinder Singh
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
Hidehisa Arai
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
hagino 3000
 
Rnaseq basics ngs_application1
Rnaseq basics ngs_application1Rnaseq basics ngs_application1
Rnaseq basics ngs_application1
Yaoyu Wang
 
時系列分析入門
時系列分析入門時系列分析入門
時系列分析入門
Miki Katsuragi
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
 
Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?
jundoll
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
 

What's hot (20)

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
情報統計力学のすすめ
情報統計力学のすすめ情報統計力学のすすめ
情報統計力学のすすめ
 
So you want to do a: RNAseq experiment, Differential Gene Expression Analysis
So you want to do a: RNAseq experiment, Differential Gene Expression AnalysisSo you want to do a: RNAseq experiment, Differential Gene Expression Analysis
So you want to do a: RNAseq experiment, Differential Gene Expression Analysis
 
Kogo 2013 RNA-seq analysis
Kogo 2013 RNA-seq analysisKogo 2013 RNA-seq analysis
Kogo 2013 RNA-seq analysis
 
Single-cell RNA-seq tutorial
Single-cell RNA-seq tutorialSingle-cell RNA-seq tutorial
Single-cell RNA-seq tutorial
 
RNASeq - Analysis Pipeline for Differential Expression
RNASeq - Analysis Pipeline for Differential ExpressionRNASeq - Analysis Pipeline for Differential Expression
RNASeq - Analysis Pipeline for Differential Expression
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
Rnaseq basics ngs_application1
Rnaseq basics ngs_application1Rnaseq basics ngs_application1
Rnaseq basics ngs_application1
 
時系列分析入門
時系列分析入門時系列分析入門
時系列分析入門
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 

Viewers also liked

フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
Amelieff
 
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
Genaris Omics, Inc.
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
Genaris Omics, Inc.
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
Amelieff
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前にKosei ABE
 
NGS速習コース:UNIXの基礎の理解/Linux導入
NGS速習コース:UNIXの基礎の理解/Linux導入NGS速習コース:UNIXの基礎の理解/Linux導入
NGS速習コース:UNIXの基礎の理解/Linux導入
Takeru Nakazato
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
sesejun
 

Viewers also liked (13)

フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
 
NGS速習コース:UNIXの基礎の理解/Linux導入
NGS速習コース:UNIXの基礎の理解/Linux導入NGS速習コース:UNIXの基礎の理解/Linux導入
NGS速習コース:UNIXの基礎の理解/Linux導入
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 

Similar to フリーソフトで始めるNGS解析_第41・42回勉強会資料

CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
The University of Tokyo, Osaka University, RIKEN IMS
 
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
Maori Ito
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
 
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
Maori Ito
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
DNA Data Bank of Japan center
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
Yuki Yamada
 
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawaji
Hideya Kawaji
 
コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)
COSMO BIO
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Itoshi Nikaido
 
Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法
yayamamo @ DBCLS Kashiwanoha
 
パワポ資料作成の基礎(β版)
パワポ資料作成の基礎(β版)パワポ資料作成の基礎(β版)
パワポ資料作成の基礎(β版)
PPTpresentation11
 
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...
Shuji Suzuki
 
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
DNA Data Bank of Japan center
 
40th MTG in NIBIO
40th MTG in NIBIO40th MTG in NIBIO
40th MTG in NIBIO
Maori Ito
 
41st MTG in NIBIO
41st MTG in NIBIO41st MTG in NIBIO
41st MTG in NIBIO
Maori Ito
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
Dell TechCenter Japan
 
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きるkinosita1316
 

Similar to フリーソフトで始めるNGS解析_第41・42回勉強会資料 (20)

CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
 
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
 
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawaji
 
コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
 
Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法
 
パワポ資料作成の基礎(β版)
パワポ資料作成の基礎(β版)パワポ資料作成の基礎(β版)
パワポ資料作成の基礎(β版)
 
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...
 
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
 
40th MTG in NIBIO
40th MTG in NIBIO40th MTG in NIBIO
40th MTG in NIBIO
 
41st MTG in NIBIO
41st MTG in NIBIO41st MTG in NIBIO
41st MTG in NIBIO
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
 
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きる
 

フリーソフトで始めるNGS解析_第41・42回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る N G S 解 析 入 門 ~公開データベース活用編~
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 本 日 の テ ー マ • NGSデータのSNV/Indel検出 • 公開データベース – Variant database – Disease curation – Prediction database – データベースの特徴 • データベース活用実践 – 「疾患関連の既知変異探索と新規変異探索」の例
  • 3. N G S デ ー タ の S N V / I n d e l 検 出 Copyright © Amelieff Corporation. All Rights Reserved. 3 入力ファイル リードのクリーニング クオリティチェック リファレンスゲノムへのマッピング 重複リードを除去 リアライメント、リキャリブレーション マッピング結果のファイル • Illumina CASAVA filter [Y] を除去 • クオリティ20未満の塩基が80%以上のリードを除去 • クオリティ20未満の末端をトリム • 未知の塩基(N)が多いリード除去 • 配列長が短いリード除去 • 片側のみのリードを除去 ファイルの形式 フリーソフト 自社開発ツール SNV / Indel 検出とフィルタリング アノテーション付与 多型情報のファイル
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム マッピングソフトウェア ・最新版 0.7.12(2014/12/28公開) ・BWA-SW & BWA-MEMアルゴリズム  70bp~1Mbに対応。  MEMはクオリティの高いシーケンスの時に高速かつ 高精度。70~100bpのイルミナシーケンス、454、 Ion Torrent、Sanger などで使用。  SWはgapが多いときに感度が良い。  Error rateは、100bpで2%以下、200bpで3%以下、 500bpで5%以下、 1000bp以上で10%以下が推奨。 • BWA-backtrackアルゴリズム  100bp以上のイルミナシーケンス用に最適化。  Error rateは、2%以下が対象。 BWA
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム パッケージソフトウェア ・最新版 3.3-0(2014/10/23公開) ・DNAseqおよびRNAseqからSNV/Indel検出  UnifiedGenotyperとHaplotypeCaller  HaplotypeCallerはlocal de-novo assemblyを実施  VQSR(Variant Quality Score Recalibration)を使用 して、VQSLODを付与。既知SNPを用いたエラーモ デルによって、真の変異であるか評価。ガウス混合 モデルで推定した対数オッズ比。 ・2倍体以外の生物種の変異検出に対応。  「-ploidy」オプションの引数として、倍数を指定可能。 GATK
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 N G S デ ー タ の S N V / I n d e l 検 出 リードがマッピング されている様子 カバレージ 変異 BAM VCF ・IGVによる可視化 ・VCFファイル :
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. 7 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 SnpEff 基本情報 ICGC COSMIC 転写産物によって、 タンパク質へのインパ クトが大きく異なる。 米国の直腸がんのプロジェクトで 0.46%の頻度で報告されている。 Functional impactが「Low」に なっているが、どのように考えたらいいのか?
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 ClinVar HGVD, ESP, 1kgp OMIM IntOGen さまざまな集団中で Altアリルの頻度が高い。 疾患関連変異のデータベースに登録がない。 dbSNP
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. 9 N G S デ ー タ の S N V / I n d e l 検 出 dbSNPに登録されている変異は除外してもいいのだろうか? サンプル数が増えて 同じ作業を繰り返している。 自動的に絞り込んでくれるシ ステムを作れないだろうか? どのデータベースが信頼できるのか? 疾患関連の既知の変異のみを まずは見たい。 でも、新規の可能性がある 変異情報も蓄積したい。 ・アノテーション情報の活用?
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 公 開 デ ー タ ベ ー ス Prediction database Disease curation Variant database
  • 11. 11 公 開 デ ー タ ベ ー ス ・Variant database HGVD ※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html  日本人のゲノム情報データベース Human Genetic Variation Databaseは、2013年11月12日に公開。  登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー タベースに含まれていない日本人特異的。  日本人1,208名のエクソームシーケンシングデータから発見されたアリ ルやジェノタイプの頻度を公開。 443,967変異を収録
  • 12. 12 公 開 デ ー タ ベ ー ス ・Variant database HGVD  2013.11.13公開データのサマリを示します。 [ Alt allele frequencyの分布 ][ Total allele countの分布 ] データベースに含まれる1,208人の2,416本のアリルの うち、各SNVにおいてジェノタイピングしたアリル数。 Altのアリル頻度の出現回数。
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. 13 公 開 デ ー タ ベ ー ス ・Disease curation ClinVar  論文  臨床医学的に重要な変異と表現型の関連性についてのデータベース。 ClinVar: public archive of relationships among sequence variation and human phenotype Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1  0 - Uncertain significance, 1 - not provided 2 - Benign 3 - Likely benign 4 - probable-pathogenic, 5 - pathogenic 6 - drug-response 7 - histocompatibility 255 – other / confers sensitivity / risk factor / association / protective 88,268変異を収録 ※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. 14 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP [1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their Functional Predictions Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011. [2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional Predictions and Annotations Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.  論文  ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、 SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction scoreを公開。  PhyloP によるconservation scoreを公開。  遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、 liftOver tool を用いてhg19に変換。  全てのscoreは高いほど、高度に保存されている、または、有害で ある可能性が高い。
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP  dbSNP V2.0では、prediction scoreにMutationAssessor と FATHMM、conservation scoreにGERP++ と SiPhyを追加。 ※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/ [ dbNSFP v2.0に登録されているscoreの割合 ] prediction score conservation score [prediction score と conservation scoreの樹形図] UPGMA(非加重平均結合法)を用いてクラスタ解析。
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 公 開 デ ー タ ベ ー ス ・データベースの特徴 1kgp (39,619,602)ESP (1,942,722) HGVD (443,967) Variant database 1kgp独自の変異 ESP独自の変異 HGVD独自の変異 98.6%: : : 72.6% 65.7% 3つに共通する変異と、 HGVD独自の変異では、 Altアリル頻度の分布が異なる。 [ HGVDのAltアリル頻度 ] COMMON (78,023) UNIQUE (291,592) Min. 0.0004 0.0004 1st Qu. 0.0023 0.0013 Median 0.0233 0.0017 Mean 0.1586 0.0125 3rd Qu. 0.2015 0.0033 Max. 1 1 UE
  • 17. ICGC (9,805,320) COSMIC (1,024,612) ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 17 公 開 デ ー タ ベ ー ス ・データベースの特徴 ICGC独自の変異 COSMIC独自の変異 ClinVar独自の変異 Disease curation 96.7%: : : 67.9% 84.5% 0 2000 4000 6000 8000 10000 12000 COSMIC ∩ Clinvar ICGC ∩ Clinvar CLNSIG=255 CLNSIG=6 CLNSIG=5 CLNSIG=4 CLNSIG=3 CLNSIG=2 CLNSIG=1 CLNSIG=0 ClinVarと共通する変異のうち、疾患関連の インパクトがあるとされた(≥4の)変異の 割合は、COSMICが77.8%、ICGCが56.4%
  • 18. ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 18 公 開 デ ー タ ベ ー ス ・データベースの特徴 HGVD とClinVarに共通する変異 HGVDのうち共通する変異の割合 ClinVarのうち共通する変異の割合 Variant database と Disease curation 5,176SNPs: : : 1.17% 5.86% HGVD (443,967) さらにデータベースに閾値を設定すると… • ClinVarで疾患関連のインパクトがあるとされた (≥4の)変異は、1,743SNPs • HGVDで「アリル頻度が5%未満」となる変異は、 3,303SNPs • 「ClinVar」かつ「アリル頻度が5%未満」とな る変異は、468SNPs
  • 19.  driver gene / mutationを特定するソフトウェア。  TCGAなどのExome-seqデータ(6,079 cases)を使用。  多数のアルゴリズムで変異の有害性を評価してDriver Scoreを 付与。 Copyright © Amelieff Corporation. All Rights Reserved. 19 公 開 デ ー タ ベ ー ス ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features Mao Y, et al., PLoS ONE 8(10): e77945. 2013.  missense driver mutationの predictionソフトウェア。  driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。  COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、 driver mutationとpassenger mutationのトレーニングデータを作成。  support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、 passenger、non-call)に分類。 CanDrA DriverDB: an exome sequencing database for cancer driver gene identification Cheng et al., Nucleic Acids Research, 2013.DriverDB
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 公 開 デ ー タ ベ ー ス  実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版  cancer mutationのインパクトの評価 ① non-synonymous mutationsを特定する。 SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM, transFIC ② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。 MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver Identification of oncogenic driver mutations (Chapter 3.6) Tamborero et al., Experimental Medicine, 2014 実験医学 ※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/ 偶然よりも高い確率 で変異が蓄積される 機能的に影響を及ぼ す変異に偏っている 特定の領域に蓄積する タンパク質のリン酸化部 位に起きる傾向がある ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 デ ー タ ベ ー ス 活 用 実 践 ① nsSNVとssSNVを検索 ② 1kgpとESPで、MAFが5%を超える変異を除外 ③ prediction scoreが高い順にランク付け ④ conservation scoreが高い順にランク付け ⑤ 疾患関連の組織で発現していない遺伝子の変異を除外 ⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、 GWASで報告のある遺伝子の変異を強調 ⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調 ⑧ 疾患関連のパスウェイにある遺伝子の変異を強調 dbNSFPが推奨しているフィルタリング方法 ・「疾患関連の既知変異探索と新規変異探索」の例
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 デ ー タ ベ ー ス 活 用 実 践 Variant classification Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders Yang et al., N Engl J Med 369, 2013. ・「疾患関連の既知変異探索と新規変異探索」の例
  • 23. Copyright © Amelieff Corporation. All Rights Reserved. 23 デ ー タ ベ ー ス 活 用 実 践 ・データベースは更新が必要 ClinVar dbSNP ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar /release_notes/ http://www.ncbi.nlm.nih.gov/projects /SNP/buildhistory.cgi Date Total Submissions 1-Feb-15 156,999 1-Jan-15 149,013 1-Dec-14 148,008 1-Nov-14 144,117 1-Oct-14 143,601 1-Sep-14 143,114 1-Aug-14 127,557 : : 1-Aug-13 45,901 1-Jul-13 39,170 1-Jun-13 39,047 1-May-13 30,386 5-Apr-13 30,333 Build Date 142 19-Sep-14 141 21-May-14 140 20-Mar-14 139 25-Oct-13 138 25-Apr-13 137 26-Jun-12 136 26-Jan-12 135 12-Oct-11 : : 4 16-Dec-98 3 15-Dec-98 2 10-Dec-98 1 1-Dec-98 ICGC Build Date  release_18 21-Jan-15  release_17 12-Sep-14  release_16 15-May-14  release_15.1 12-Feb-14  release_15 4-Feb-14  release_14 26-Sep-13 : :  release_06 7-Jul-11  release_05 5-Jun-11  release_04 1-May-11  release_03 6-Dec-10  release_02 12-Aug-10  release_01 13-Apr-10 https://dcc.icgc.org/repository /legacy_data_releases
  • 24. Copyright © Amelieff Corporation. All Rights Reserved. 24 デ ー タ ベ ー ス 活 用 実 践 ・解析アルゴリズムのブラッシュアップが必要 PROVEAN(Protein Variation Effect Analyzer)  タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化  クエリは、アミノ酸配列(FASTA)とその変異パターン  WEBフォームからも利用可能 ※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
  • 25. Copyright © Amelieff Corporation. All Rights Reserved. 25 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ① 2つの入力ファイルを準備 ② コマンド(命令文)を入力して実行 $ provean.sh -q P04637.fasta -v P04637.var --save_supporting_set P04637.sss タンパク質のアミノ酸配列 ( ファイル名:P04637.fasta ) タンパク質のアミノ酸配列 (ファイル名:P04637.var) ・解析アルゴリズムのブラッシュアップが必要 LinuxというOSで 実行します。
  • 26. Copyright © Amelieff Corporation. All Rights Reserved. 26 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ③ 出力ファイル Supporting Sequence Set ( ファイル名:P04637.sss ) SSSファイルのシーケンス (ファイル名:P04637.sss.fasta) ・解析アルゴリズムのブラッシュアップが必要
  • 27. Copyright © Amelieff Corporation. All Rights Reserved. 27 本 日 の 内 容 • さまざまな公開データベース – Gene-based Annotation:シーケンスのターゲット領域や、 疾患関連遺伝子の情報。 – Region-based Annotation:染色体領域や遺伝子情報。 – Variant database:変異の頻度情報。 – Disease curation:疾患関連の変異情報。 – Prediction database:有害な変異を予測。 • 「必要なデータベースを選択し、組み合わせ、変異データを用途 によって分類して、活用または保存する」方法は、実際のデータ と目的に最適化することをおすすめします。 • データベースと解析アルゴリズムはブラッシュアップが必要です。
  • 28. Copyright © Amelieff Corporation. All Rights Reserved. 28 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク