第30回 DDBJing	
  講習会	
  in	
  東京 2014	
  12/18	
  @JST東京本部	
  
	
   	
   	
   	
   	
    配布用資料	
  
メタゲノム解析と微生物統合データベース	
  森 宙史
Hiroshi Mori, Ph.D.
 hmori@bio.titech.ac.jp	
東京工業大学
 大学院生命理工学研究科
  生命情報専攻 黒川・中島・山田研	
1
16S rRNA gene amplicon sequencing analysis
(メタ16S解析)
DNA	
  extrac:on	
  
PCR	
  amplifica:on	
  
DNA	
  Sequencing	
  
Pre-­‐analysis	
  (Remove	
  Primer,	
  Chimera	
  etc.)	
  
Taxonomic	
  assignment	
  and	
  
Comparison	
  between	
  samples	
  
Sequence	
  clustering	
  with	
  species	
  level	
  	
  
by	
  CD-­‐HIT-­‐EST	
  or	
  UCLUST,	
  etc.	
  
TestSample2 SRR061008 SRR061006 SRR061003 SRR061004 SRR095659 SRR094400 SRR090399 TestSample1 SRR094717
0.00.20.40.60.81.0
Who’s	
  there?	
  
Togo	
  picture	
  gallery	
  by	
  DBCLS	
  is	
  	
  
licensed	
  under	
  a	
  Crea:ve	
  Commons	
  	
  
AYribu:on	
  2.1	
  Japan	
  license	
  (c)	
  
2
DNA	
  extrac:on	
  
DNA	
  Sequencing	
  
Assemble	
  
Metagenomic	
  reads	
Con:g	
  sets	
Gene	
  finding	
  
Gene	
  sets	
BLASTP	
  
Gene	
  Func:on	
  abundance	
  
Pathway	
  abundance	
  
Pathway	
  reconstruc:on	
  
Taxonomic	
  abundance	
  
Who’s	
  there?	
   What	
  are	
  they	
  doing?	
  
Sample1	
  
Metadata	
Sample2	
  
Metadata	
Compara:ve	
  
metagenomics	
  
MGA,	
  MetaGeneMark	
  
SOAPdenovo2,	
  Velvet,	
  
IDBA-­‐UD	
  etc.	
  
Metagenomic sequencing analysis
(メタゲノム解析)
Togo	
  picture	
  gallery	
  by	
  DBCLS	
  is	
  	
  
licensed	
  under	
  a	
  Crea:ve	
  Commons	
  	
  
AYribu:on	
  2.1	
  Japan	
  license	
  (c)	
  
3
DB名	
 環境メタゲノム	
  
サンプル数	
ヒトメタゲノム	
  
サンプル数	
MG-­‐RAST	
 14,188	
 3,291	
JGI	
  IMG/M	
 1,694	
 840	
INSDC	
  DRA/ERA/SRA	
 23,214	
 18,108	
Taxonomic	
  division	
 RefSeqのゲノム数	
Archaea	
 375	
Bacteria	
 24,119	
Fungi	
 289	
公開されているゲノム・メタゲノムのデータ数 (2014年6月時点)	
4
・ メタ16S・メタゲノム解析データ(塩基配列データ)から、容易に	
  
 系統組成および遺伝子機能組成の情報を抽出したい	
  
	
  
・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい	
  
その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか?	
  
	
  
その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?	
  
5
integrates	
  lots	
  of	
  data	
  related	
  to	
  microbes.	
Especially,	
  we	
  integrates	
  the	
  microbial	
  data	
  that	
  can	
  be	
  linked	
  to	
  genomes.	
Ortholog:	
  MBGD	
Genome:	
  GTPS/RefSeq	
Annota:on:	
  	
  
TogoAnnota:on	
Culture	
  Collec:on:	
  
NBRC/JCM	
Metadata:	
  	
  
INSDC	
  SRA	
  
Metagenome:	
  	
  
INSDC	
  SRA	
  
Taxonomy:	
  	
  
NCBI	
  Taxonomy	
  
hYp://microbedb.jp/	
	
  	
  	
  	
  	
  	
  	
  	
  	
  Gene	
 	
  	
  	
  	
  	
  	
  	
  	
  	
  Taxon	
  	
  	
  	
  	
  	
 	
  	
  	
  Environment	
Red	
  color	
  indicates	
  our	
  collaborators.	
6
MicrobeDB.jpを用いて出来ること	
1.  既存のゲノム中の各遺伝子の情報 (オーソログ、モデル微生
物での高精度アノテーション、系統プロファイル、環境プロファ
イル)	
  
2.  菌株保存機関に存在する菌株の情報 (生育培地、表現型情
報、遺伝子機能組成、環境プロファイル)	
  
3.  様々な環境中の細菌群集の情報 (系統組成、遺伝子機能組
成)	
  
4.  上記の情報がシームレスに連携	
  
   (exp.	
  高温環境に多く存在する遺伝子はどのような遺伝子か?	
  
      その遺伝子は、どの系統が主に持っているのか?)	
  
7
Metagenome/Microbes	
  Environmental	
  Ontology	
  	
  
(MEO)	
  Ver.	
  0.7	
  
797	
  terms	
BioPortal	
  hYp://bioportal.bioontology.org/ 	
  
で最新版を公開	
  
atmosphere	
  
(MEO:0000001)	
geosphere	
  
(MEO:0000002)	
hydrosphere	
  
(MEO:0000004)	
environment	
human	
  ac:vity	
  	
  
associa:on	
  
(MEO:0000003)	
organism	
  	
  
associa:on	
  
(MEO:0000005)	
・air	
  
• oxic	
  
• anoxic	
  
:	
  
・soil	
  
• forest	
  
• plain	
  
:	
  
・sea	
  
• lake	
  
• water	
  
:	
  
・rumen	
  
• mucus	
  
• rhizosphere	
  
:	
  
・bioreactor	
  
• farm	
  
• naKo	
  
:	
  
Collaborate	
  with	
  DBCLS	
  岡本忍、川島秀一	
  
8
公共塩基配列DB	
  	
  
(INSDC	
  SRA)	
	
  	
  	
  	
  	
メタゲノムDB	
NIG	
  Super	
  
Computer	
解析	
  
パイプ
ライン	
MeGAP-­‐
MicrobeDB.jp	
MeGAP	
メタゲノム配列データを取得	
  
大規模計算実行	
既存のメタ16S・	
  
メタゲノムの	
  
解析済み	
  
データを	
  
取得	
メタ16S・	
  
メタゲノム	
  
配列データ	
  
(fastq形式)	
ユーザ	
アップロード	
系統組成	
  
(Genus,	
  Family,	
  
	
  Order,	
  Class,	
  Phylum)	
遺伝子機能組成	
  
(ホモログ、代謝パスウェイ)	
MicrobeDB.jp中の	
  
既存メタ16S・	
  
メタゲノムデータとの	
  
比較解析結果	
MeGAPから得られた	
  
系統組成・	
  
ホモログ組成(tsv形式)	
9
10	
MeGAP	
  (MetaGenome	
  Annota:on	
  Pipeline)	
  	
  version	
  0.1	
  
	
  	
  	
  	
  	
  	
  	
  hYp://fs2.bio.:tech.ac.jp/megap/
配列の前処理	
  (目的:	
  高精度配列データの抽出)	
3’端のQuality	
  Trim	
  (Quality	
  value	
  <17)	
  
配列長でフィルタリング(<50	
  base)	
  
FASTQ	
  ファイル	
  
Qualityでフィルタリング	
  
Quality	
  Average	
  >25	
  
Nを含む配列除去	
ユーザがメタ16S	
  or	
  メタゲノム	
  
の情報を入力	
高精度	
  
メタゲノム配列データ	
高精度メタ16S	
  
配列データ	
11
メタ16S解析パイプライン	
  
UCHIME	
  Reference	
  mode	
  
でキメラを検出	
キメラ除去済みOTU	
  
OTU代表配列	
Reference	
  16S	
  rRNA	
  
	
  gene	
  database	
UCHIME	
  De	
  novo	
  mode	
  
でキメラを検出	
両modeでキメラとされた	
  
OTUをキメラと判定、	
  
そのOTUを構成する全リードを除去	
高精度メタ16S	
  
配列データ	
  
UCLUST	
  
Iden:ty	
  >97%,	
  coverage	
  >90%	
  
RDP	
  Classifierを用いてbootstrap	
  cutoff	
  >50%	
  
で各OTUの代表配列を系統アサインメント	
Genus-­‐Phylumレベルの系統組成	
 12
13	
系統組成
メタゲノム解析パイプライン	
  
高精度メタゲノム	
  
配列データ	
  
CLAST	
  Refseq	
  Prokaryote	
  
Genome	
  
Top	
  Hitのみ抽出	
  
各株の遺伝子ごとに	
  
Hit数を集計	
  
全体のリード数で補正	
  
OrthologごとにHit数を集計	
  
Strainレベルで	
  
Hit数を集計	
  
系統組成	
遺伝子機能組成	
  
代謝パスウェイ組成	
GPUを用いた	
  
塩基配列の類似性検索	
  
KEGG	
  Ortholog	
KEGG	
  Pathway	
(Yano	
  et	
  al.,	
  2014,	
  BMC	
  Bioinforma:cs)	
14
15	
MeGAP-­‐MicrobeDB.jp	
  version	
  0.1	
  
hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/
MicrobeDB.jp中の既存サンプルとの比較解析	
  
	
  	
  	
  	
  	
メタゲノムDB	
サンプルとの
距離行列計算	
階層的	
  
クラスタリング	
組成の	
  
可視化	
1-­‐Pearson相関係数	
  
Complete	
  Linkage法	
ユーザのサンプルのGenus組成・KO組成	
既存メタ16SサンプルのGenus組成	
  
既存メタゲノムサンプルのKO組成	
上記の各ステップはRで実行	
16	
類似した	
  
100サンプルを抽出
類似した100サンプルとのKO組成 (メタゲノム)	
  
17	
類似した100サンプルとのGenus組成 (メタ16S)	
  
Genus組成によるサンプル間階層的クラスタリングの結果 (メタ16S)	
  
18	
SRR047754
SRR056157
SRR171796
SRR170533
SRR056145
SRR055616
SRR049373
SRR046330
SRR046902
SRR041006
SRR170301
SRR055038
SRR054955
SRR056479
SRR044766
SRR056712
SRR044992
SRR048116
SRR090947
SRR044910
SRR056239
SRR045292
SRR055870
SRR055247
SRR055977
SRR056122
SRR047920
SRR048182
SRR201927
SRR201901
SRR170070
SRR050330
SRR048699
SRR044090
SRR044123
SRR051583
SRR046225
SRR041027
SRR040933
SRR170162
SRR170959
SRR048536
SRR043600
SRR045546
SRR047450
SRR044030
SRR043994
SRR172002
SRR048662
SRR171212
SRR044656
SRR041547
SRR046241
SRR045647
SRR045607
SRR049227
SRR044718
SRR328963
SRR328879
SRR048782
SRR049962
SRR046197
SRR044654
SRR090082
SRR090049
Test1.fastq
SRR408525
SRR170142
SRR051449
SRR051472
SRR172287
SRR328866
SRR172280
SRR046305
SRR048380
SRR044671
SRR328769
SRR328673
SRR056033
SRR047997
SRR044675
SRR048859
SRR048526
SRR048551
SRR408530
SRR047448
SRR044652
SRR044665
SRR044683
SRR048579
SRR048650
SRR048051
SRR041015
SRR047221
SRR047878
SRR048344
SRR044028
SRR043989
SRR170860
SRR043634
SRR091093
0.000.050.100.150.200.250.300.35
Cluster Dendrogram
hclust (*, "complete")
d_cor
Height
・ メタ16S・メタゲノム解析データから、容易に	
  
 系統組成および遺伝子機能組成の情報を抽出したい	
  
	
   	
   	
   	
   	
   	
   	
   	
    MeGAP	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  hYp://fs2.bio.:tech.ac.jp/megap/	
  
	
  
・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい	
  
	
   	
   	
   	
   	
   	
  	
  	
  	
  	
  MeGAP-­‐MicrobeDB.jp	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/	
	
  
その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか?	
  
	
  
その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?	
  
19	
まとめ
データの収集およびクオリティコントロール、
更新の自動化など持続可能なシステムの構築
データ生産者から継続的にデータを受け付ける窓口のシステムとして微生
物ゲノム自動アノテーションシステム「MiGAP」およびメタゲノム解析パ
イプライン「MeGAP」を利用し、MicrobeDB.jpと一体運用を実現する。
また、これまで手作業で実施してきたDBの更新作業を可能な限り自動化
し更新体制を強化する。
データ
生産者
微生物ゲノム
自動アノテーションシステム
メタゲノム解析パイプライン
メタデータの入力
RDFへの変換
ユーザのデータと
公共DB中のデータの統合
RefSeq SRA
公共DB中の
ゲノム・メタゲノムデータ
20
Acknowledgement
東京工業大学
黒川顕・山田拓司・山本希・鈴木真也
国立遺伝学研究所
中村保一・菅原秀明・神沼英里・藤澤貴智
基礎生物学研究所
内山郁夫・千葉啓和・西出浩世
21	
DBCLS (ライフサイエンス統合データベースセンター)
岡本忍・川島秀一・片山俊明・山本泰智

[DDBJing30] メタゲノム解析と微生物統合データベース