新規医療開発に関わる統計学 (バイオインフォマティクス)

新規医療開発に関わる統計学
（バイオインフォマティクス）
坊農秀雅(ぼうのうひでまさ)
大学共同利用機関法人情報・システム研究機構
ライフサイエンス統合データベースセンター
(DBCLS)

本講義の内容
1. バイオインフォマティクスとは?!
2. NGSとは? できること!
3. NGSデータ解析の概要!
4. 具体的な解析例!
5. データの解釈!
6. データの再利用
2

1.バイオインフォマティクス
とは?

(かつての)バイオインフォマ
ティクス研究者の職種別分類
• アルゴリズム屋!
–方法を考える人!
–「NP完全」がキーワード!
• 実装屋!
–プログラムやツールを書く人!
• 解析屋!
–プログラムを使って実際に生データを相手に手を
動かす人
数学的
抽象的
生物的
具体的
Biologistの範疇
4

バイオインフォマティクスの範疇
シミュレーション
イメージ解析
!
パスウェイ解析
遺伝子発現解析
!
アミノ酸配列解析
塩基配列解析
さらに、臨床データ解析も
5

2. NGS(Next Generation
Sequencer)とは?
-NGSでできること

DNA塩基配列解読の超高速化
•かつてはSanger法
•最近は「次世代シーケンサー(NGS)」
‒Illumina: Sequence By Synthesis
• http://www.youtube.com/watch?v=womKﬁkWlxM

‒Life Technologies(現 ThermoFisher Scientiﬁc)
•ヌクレオチドがDNA鎖に取り込まれる過程でポリメラー
ゼによって放出される水素イオンを検出
• http://www.youtube.com/watch?v=MxkYa9XCvBQ

‒PacBio: 一分子・リアルタイム(SMRT®)検出
• http://www.youtube.com/watch?v=NHCJ8PtYCFc 7

MiSeq
•Illumina社のデスクトップ次世代シーケンサ
•群馬大学にも導入済み
•最新の v3 試薬だと1runで
‒300塩基(base)
‒x 5000万リード
‒= 15 Gb(参考: ヒトハプロイドゲノム約3Gb)
8

NGSでできること
• RNA転写量測定!
–RNAseq(transcriptome sequencing)!
• DNA結合タンパク質の結合配列の解析!
–ChIPseq(ヒストンや転写因子)!
• ChIPはChromatin immunoprecipitationの略!
• 多型解析!
–Exome(exon限定), Re-sequence!
• その他、塩基配列解読が伴うさまざまな応用
9

NGSからの生データ
•FASTQフォーマットのファイル
‒4行/readが基本単位
‒MiSeq v3
•5000万リードx4行
•=2億行
•ファイルサイズも4Gbyte/ﬁle超
‒FAT32フォーマットでは扱えない
•いわゆる「開く」ことが不可能
10
SRR001356.1 2023DAAXX:5:1:123:563 length=33
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC
+SRR001356.1 2023DAAXX:5:1:123:563 length=33
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I
@SRR001356.2 2023DAAXX:5:1:123:476 length=33
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG
+SRR001356.2 2023DAAXX:5:1:123:476 length=33
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III
@SRR001356.3 2023DAAXX:5:1:121:746 length=33
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT
+SRR001356.3 2023DAAXX:5:1:121:746 length=33
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

3. NGSによるデータ解析の概要
トランスクリプトーム解析
(RNAseq)

RNAseqとは？
• 「次世代シーケンサを利用して、サンプル中
の RNA の中身に関する情報を得るために
cDNA をシーケンシングする方法」!
–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳!
• Whole transcriptome shutgun sequencing
(WTSS) や!
• Transcriptome sequencingとも
12

RNAseq データ
解析の流れ1
予測転写単位ごとの
（推定）発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
FASTQ
1.tophat
(bowtie)
2.cufﬂinks
3.cummeRbund
13
遺伝子アノ
テーション
ゲノム .fa
ゲノムアノ
テーション
.gtf
ゲノムに対する多重配列アラインメント
.bam

種々のデータフォーマット
14
ファイルフォーマットファイル拡張子
1 FASTA .fa .fasta
2 FASTQ .fq .fastq
3 SRA/SRA-lite .sra .lite.sra
4 SAM/BAM .sam .bam
5 GTF(GFF) .gtf .gff
6 VCF .vcf

1. FASTA
• FASTAというプログラムで使われる配列データ形式!
–プレーンテキスト。ファイル拡張子: .fa .fasta など!
• 1行目に“>”で始まる1行のヘッダ行!
• 2行目以降に実際のシーケンス文字列
15
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]!
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV!
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG!
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL!
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX!
IENY
参考: http://ja.wikipedia.org/wiki/FASTA

2. FASTQ
• NGSデータの配列データ形式のデファクトスタンダード!
–プレーンテキスト。ファイル拡張子: .fq .fastq など!
• 1行目に“@”で始まる1行のヘッダ行!
• 2行目に実際の塩基配列!
• 3行目に”+”!
• 4行目に2行目に記述した配列のクオリティ値
16
@SEQ_ID!
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT!
+!
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
参考: http://ja.wikipedia.org/wiki/Fastq

3. SRA, SRA-lite
• FASTQ形式の代わりに使われている、NGS
配列データ配布フォーマット!
–配列拡張子: .sra .lite.sra !
• SRA-toolkitを使ってFASTQを生成できる!
–http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software
17
fastq-dump -A SRR233129 SRR233129.lite.sra

4. SAM/BAM
• ゲノムマッピングしたときに生成されるアラ
インメントのフォーマット!
–リファレンスゲノム配列に対するアラインメント!
• SAMはプレーンテキスト(ASCII)形式なのに
対して、BAMはバイナリ(binary)形式!
18
参考: http://genome.sph.umich.edu/wiki/SAM
1:497:R:-272+13M17D24M! 113! 1! 497! 37! 37M! 15! 100338662! 0! CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG! 0;==-==9;>>>>>=>>>>>>>>>>>=
19:20389:F:275+18M2D19M! 99! 1! 17644!0! 37M! =! 17919!314! TATGACTGCTAATAATACCTACACATGTTAGAACCAT! >>>>>>>>>>>>>>>>>>>><<>>><<>>4:
19:20389:F:275+18M2D19M! 147! 1! 17919!0! 18M2D19M! =! 17644!-314! GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT! ;44999;499<8<8<<<8<<><<<<><
9:21597+10M2I25M:R:-209! 83! 1! 21678!0! 8M2I27M! =! 21469!-244! CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT! <;9<<5><<<<><<<>><<><>><9>

5. GTF(GFF)
• General Transfer Format. GFF(General
Feature Format)のversion2!
• ゲノムアノテーションのフォーマット!
–例: ゲノム上のどこに遺伝子があるか
19
参考: http://asia.ensembl.org/info/website/upload/gff.html
X! Ensembl! Repeat!2419108! 2419128! 42! .! .! hid=trf; hstart=1; hend=21!
X! Ensembl! Repeat!2419108! 2419410! 2502! -! .! hid=AluSx; hstart=1; hend=303!
X! Ensembl! Repeat!2419108! 2419128! 0! .! .! hid=dust; hstart=2419108; hend=2419128!
X! Ensembl! Pred.trans.!2416676! 2418760! 450.19!-! 2! genscan=GENSCAN00000019335!
X! Ensembl! Variation! 2413425! 2413425! .! +! .! !
X! Ensembl! Variation! 2413805! 2413805! .! +! .

6. VCF
• Variant Call Format!
• 配列の多型を記述するフォーマット
20
参考: http://en.wikipedia.org/wiki/Variant_Call_Format
##ﬁleformat=VCFv4.0!
##ﬁleDate=20110705!
##reference=1000GenomesPilot-NCBI37!
##phasing=partial!
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">!
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">!
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">!
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">!
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">!
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">!
##FILTER=<ID=q10,Description="Quality below 10">!
##FILTER=<ID=s50,Description="Less than 50% of samples have data">!
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">!
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">!
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">!
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">!
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3!
2 4370 rs6057 G A 29 . NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.!
2 7330 . T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3!
2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4!
2 130237 . T . 47 . NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2!
2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

NGSに比べてマイクロアレイ
• 2000年前後に使われ初めて、ある程度（技術と
して）枯れてきた!
–参考: 公共データベースの登録数の推移!
–遺伝子発現バンク(GEO)目次 http://lifesciencedb.jp/geo/!
• 本もそれなりに出ている
21

マイクロアレイ解析の流れ
遺伝子アノ
テーション
Genespring
oligoprobeに対応する
遺伝子ごとの発現量
22

マイクロアレイのデータ形式の実際
• タブ区切りテキスト!
–数万(=スポットの数)行!
• (古い)Excelでも「開ける」!
–Excel2003の行数制限内!
• コマンドライン操作なしで中身が直接見れる
23

データ解析に必要なもの
マイクロアレイ NGS(RNAseq)
解析ソフト +++ +++
遺伝子
アノテーション
+++ +++
ゲノム
アノテーション
- ++
ゲノム配列 - ++
コマンドライ
ン操作
+ +++
計算機パワー + +++
24

マイクロアレイとの違い: RPKM
• Reads Per Kilobase per Million mapped reads!
• ノーマライズした遺伝子発現量!
–100万リード数マップされたとき、転写産物を
1000塩基長としたときのマップされたリード数!
• FPKMもほぼ同じ!
–Fragments Per Kilobase of exon per Million
mapped fragments!
– !
• Reference: Nat Methods, 5(7):621-628.
25

RNAseq データ解析の流れ2
• リファレンスゲノム配列が
ないとき!
–transcriptome の de novo
assembly!
• 「UniGeneを自分で作る」!
–現状、より膨大な計算時間が
• immature
• state-of-the-art
26

The cat way
• 理化学研究所の二階堂愛さんのブログ!
–http://cat.hackingisbelieving.org/lecture/

!
!
!
!
• オープンソースソフトウェア!
–Tuxedo suite!
• bowtie,tophat,cufﬂinks!
–R + Bioconductor
28
cuffdiff -p 24 ensembl_gene.gtf !
-L iPS_01,iPS_02,hESC_01,hESC_02,Fibroblast_01,Fibroblast_02!
-o results iPS_01.bam,iPS_2.bam hESC_1.bam,hESC_2.bam
Fibroblast_01.bam,Fibroblast_02.bam!
tophat -p 8 -r 100 -o output_dir/iPS_01 bowtie2_indexes/mm9 iPS_01_1.fastq

RNAseq データ
解析の流れ1
.bam
ゲノムアノ
テーション
.gtf
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
FASTQ
ゲノム .fa
29
遺伝子アノ
テーション
1.tophat
(bowtie)
2.cufﬂinks
3.cummeRbund

統計解析環境R
• Rを使ったトランスクリプトーム解析!
–(Rで)マイクロアレイデータ解析!
• http://www.iu.a.u-tokyo.ac.jp/~kadota/r.html

–(Rで)塩基配列解析

• http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html!
!
• トランスクリプトーム解析 by 門田幸二 from 共立出版

–http://www.kyoritsu-pub.co.jp/bookdetail/9784320123700
30

有償のソフトウェアの利用
•CLC Genomics workbench!
•Agilent!
–Avadis NGS!
–GeneSpring!
•TIBCO Spotﬁre
31

RNAseq データ
解析の流れ1
.bam
ゲノムアノ
テーション
.gtf
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
FASTQ
ゲノム .fa
1.tophat
(bowtie)
2.cufﬂinks
3.cummeRbund
32
遺伝子アノ
テーション

統合TVに動画チュートリアルが
• CLC Genomics Workbench でショートリー
ドのマッピングを行う!
–http://togotv.dbcls.jp/20110628.html
33

RNA-seq by Avadis NGS
• http://togotv.dbcls.jp/20111124.html 34

ChIP-seq by Avadis NGS
• http://togotv.dbcls.jp/20120626.html 35

GeneSpring
36
• https://www.youtube.com/user/GeneSpringTV

Spotﬁreによるcuffdiff出力の可視化
37
% cuffdiff -p 8 Caenorhabditis_elegans.WBcel215.69.gtf
-L N2,UV -o cuffdiff SRR454084.bam SRR454085.bam

RNAseq データ
解析の流れ1
.bam
ゲノムアノ
テーション
.gtf
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
FASTQ
ゲノム .fa
1.tophat
(bowtie)
2.cufﬂinks
3.cummeRbund
38
遺伝子アノ
テーション

発現解析
• 2つの状態を比べた時に遺伝子発現が!
–上がった遺伝子群!
–下がった遺伝子群!
–例: ヒト培養細胞で低酸素刺激して発現が2倍上
がった遺伝子100個中20が転写因子。これは有意?!
• ヒトには約三万個の遺伝子に約千ほどの転写因子。!
• 30,000 x 20/100 = 6,000 なので…!
• GSEA(Gene Set Enrichment Analysis)
40

DAVID
(Database for Annotation, Visualization
and Integrated Discovery)
41

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI
RefEx: 遺伝子発現
リファレンスデータセット
• 臓器ごとの発現比較を4つの実験手法と
BodyParts3Dで!
–正常組織・臓器における遺伝子発現のリファレンス!
–再利用可能で有用なパブリックデータの活用例!
• 「組織特異的遺伝子」検索機能の実装
46
EST
Classical Expressed Sequence Tags
GeneChip
Affymetrix’s microarray
CAGE
Cap Analysis of Gene Expression
RNAseq
Transcriptome Sequencing
http://RefEx.dbcls.jp/

RefExのデータはどこから?
•オリジナルは公共データベース!
–そこから使いやすく加工して提供!
!
•それ以外のデータも再利用したい?
50

6. データの再利用
公共NGSデータベース: SRA
公共遺伝子発現データベース
ゲノムブラウザからの利用
データ登録

SRA(Sequence Read Archive)
• NGSのデータベース(除くヒト個人のデータ)!
• NCBI/EBI/DDBJによって維持管理!
–DDBJはDRAとも呼称
52
Image generated by
http://sra.dbcls.jp/
NBDCヒトデータベース

http://humandbs.biosciencedbc.jp/

遺伝子発現データベース
• GEO(NCBI)とArrayExpress(EBI)!
–http://www.ncbi.nlm.nih.gov/geo/

–http://www.ebi.ac.uk/arrayexpress/

• RNAseqデータはこちらにも登録がある!
–Transcriptome analysisとも!
!
• 必要なデータを見つけづらい
54

UCSC Genome Browser!
は再利用可能データの宝庫
‘Track’を追加 56
http://genome.ucsc.edu/

多くのTrackは隠されている
57

カスタマイズしよう
58

‘default tracks’で元に戻せる
61

自分のデータもSRAへ登録
• 論文掲載の必須条件になっていることも!
• データを他の研究者に再利用してもらうこと
が研究の価値を高める上でとても大事!
!
• 日本だとDRA(DDBJ)へ!
• 日本語でのやりとり
62

DRA video tutorial
65
http://trace.ddbj.nig.ac.jp/dra/video.html

復習は統合TVで
66
•動画によるDBやツールのチュートリアル
‒ 各DBやツール名、
•統合データベース講演会AJACSの動画も
•YouTubeでも
•約750の動画
(アップデート込)
66
で検索
クリエイティブ・コモ
ンズ表示 2.1 日本

新規医療開発に関わる統計学 (バイオインフォマティクス)

Recommended

Recommended

More Related Content

More from Hidemasa Bono

More from Hidemasa Bono (8)