SlideShare a Scribd company logo
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構
データベース活用による
知のめぐりのよい細胞生物学
大学共同利用機関法人 情報・システム研究機構(ROIS)
ライフサイエンス統合データベースセンター(DBCLS)
坊農 秀雅
Online supplemental material: http://bit.ly/dbcls130515
こんな本にも関わってきました
2
低酸素(hypoxia)
3
代謝経路を制御するシグナル伝達経路
4
From Nat. Med. 11, 1047-1048 (2005)
mammal
C.elegans
orthologs homologs
比較ゲノム
5Nature 464, 670-671 (2010)より
kongetu
今月だと
6
http://genome.cshlp.org/
7
http://genome.cshlp.org/
content/23/5/749
8Nature 464, 670-671 (2010)より
DBCLS: Database Center for Life Science
• ライフサイエンス統合データベースセンター
‒ ライフサイエンス分野のデータベース統合化の拠点
‒ Since 2007
‒ @東京大学本郷キャンパス内
•が、東大の機関ではありません
9
バイオサイエンスデータベース
センター(NBDC)
•National Bioscience Database Center
‒Since 2011
•独立行政法人 科学技術振興機構(JST)の傘下
10http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用
NBDC web site
11
統合DBとは?
•安心してすぐに利用できるデータを提供
‒ 「ぐるなび」、「食べログ」、「クックパッド」
•公共DBとして外に出す際にデータを綺麗に
‒「分別回収→リサイクル」
•NBDC/DBCLS/DDBJ を中心に
日本中のさまざまな大学・研究機関が協力
ライフサイエンスデータの
ロジスティクス(流通業)
DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全く
わからない状態どころか、何が出回っているのかさえ実態がつかめないという
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
free! 14
就職しても登録なしで
sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html
統合TV (togoTV)
•動画によるDBやツールのチュートリアル
‒ 各DBやツール名、
•統合データベース講演会AJACSの動画も
•YouTubeでも
•約680の動画             
(アップデート込)
15
で検索
クリエイティブ・コモ
ンズ 表示 2.1 日本
16
統合TV(togoTV)
17
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
19
20
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
First author’sとは?
Nature, Science, Cell などに代表される
トップジャーナルに掲載された日本人を
著者とする生命科学分野の論文について
論文の著者自身の執筆による専門分野の
異なる生命科学研究者にむけた日本語に
よるレビューを、誰でも自由に閲覧・利
用できるようウェブ上にていち早く無料
で公開するサイト。DBCLS謹製。
22
クリエイティブ・コモンズ 表示 2.1 日本 23
24
ライフサイエンス領域融合レビュー
生命科学において注目される分野・学問
領域における最新の研究成果について、
第一線の研究者の執筆による日本語の
レビューを、だれでも自由に閲覧・利用
できるよう、無料で公開します。
25
New!
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
27
高血圧
28
29
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
31
32
33
Life
Science
Dictionary
のサイトにリンク
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
DNA DB overview
35
GGRNA
36
GGRNA検索例
37
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
GEO overview(目次)
• http://lifesciencedb.jp/geo/
39
RefEx
40
RefEx
liver specific genes
41
RefEx:
Specific gene(HIF1A)
42
43
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq vs マイクロアレイ
44
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseqとは?
• 「次世代シーケンサを利用して、サンプル中
の RNA の中身に関する情報を得るために 
cDNA をシーケンシングする方法」
–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳
• Whole transcriptome shutgun
sequencing(WTSS) や
• Transcriptome sequencingとも
45
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq データ
解析の流れ1
ゲノムに対する多重配列アラインメント
.bam
ゲノムアノ
テーション
.gtf
予測転写単位ごとの
(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC
+SRR001356.1 2023DAAXX:5:1:123:563 length=33
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I
@SRR001356.2 2023DAAXX:5:1:123:476 length=33
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG
+SRR001356.2 2023DAAXX:5:1:123:476 length=33
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III
@SRR001356.3 2023DAAXX:5:1:121:746 length=33
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT
+SRR001356.3 2023DAAXX:5:1:121:746 length=33
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
ゲノム .fa
1.tophat
(bowtie)
2.cufflinks
3.cummeRbund
46
遺伝子アノ
テーション
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ形式の実際(RNAseq)
• FASTQ形式
–4行/readが基本単位
–3000万read ->1億行超/file
• ファイルサイズも2Gbyte/file超
–FAT32フォーマットでは…
• いわゆる「開く」ことが不可能
→コマンドライン操作
SRR001356.1 2023DAAXX:5:1:123:563 length=33
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC
+SRR001356.1 2023DAAXX:5:1:123:563 length=33
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I
@SRR001356.2 2023DAAXX:5:1:123:476 length=33
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG
+SRR001356.2 2023DAAXX:5:1:123:476 length=33
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III
@SRR001356.3 2023DAAXX:5:1:121:746 length=33
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT
+SRR001356.3 2023DAAXX:5:1:121:746 length=33
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
47
% less SRR001356.fastq
% tophat -p8 -o tophat_out bowtie2/cel215 SRR001356.fastq
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq データ解析の流れ2
• 最近はgenomeがなくても
する方法も
–transcriptome の de novo
assembly
• 「UniGeneを自分で作る」
–現状、より膨大な計算時間が
• immature
• state-of-the-art 48
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
マイクロアレイ解析
遺伝子アノ
テーション
Genespring
oligoprobeに対応する
遺伝子ごとの発現量 49
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ形式の実際(マイクロアレイ)
• タブ区切りテキスト
–数万(=スポットの数)行
• (古い)Excelでも「開ける」
–Excel2003の行数制限内
• コマンドライン操作なしで中身が直接見れる
50
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
マイクロアレイ
• mature
• ある程度(技術として)
枯れてきた
• 本もそれなりに出ている
51
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ解析に必要なもの
マイクロアレイ RNAseq
解析ソフト
遺伝子
アノテーション
ゲノム
アノテーション
ゲノム配列
コマンドライ
ン操作
計算機パワー
+++ +++
+++ +++
- ++
- ++
+ +++
+ +++
52
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
結論
• 手堅く出した
いのなら
マイクロアレイ
• 出すのを試し
たいのなら
RNAseq
53
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
公共データベースのデータで
まずは練習を…
SRA(DRA) GEO
ArrayExpress
Genome
Metagenome
RNAseq
ChIPseq
microarray
(GeneChip,
Oligoarray)
• SRAxxxxx, SRPxxxxx,SRXxxxxx
• ERAxxxxx, ERPxxxxx,ERXxxxxx
• DRAxxxxx, DRPxxxxx,DRXxxxxx
• GSExxxxx
• E-xxx
command(control)+ F で検索 54
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
探し方例:
論文から
55
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
57
http://sra.dbcls.jp/
http://g86.dbcls.jp/togopic
© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAs(Survey of Read Archives)DBCLS SRA
SRAの統計値
58
© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAの統計値2
59
© 2011 DBCLS Licensed under CC 表示 2.1 日本
Search NGS data by disease
60
Search NGS data by publication
61
PUBLISHED OR NOT
公開されたデータを元にした論文はあるのか
62
19%
paper published
not published
NUMBER OF SUBMITTED STUDY
「論文を公開してから
データを公開する」
とは限らない
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
DDBJ
64
DOR
65
66
今日紹介する内容
•統合TV
•カタログ&コンテンツ
‒IntegbioDBカタログ
‒新着論文レビュー
‒領域融合レビュー
•検索
‒生命科学DB横断検索
‒Allie:略語検索エンジン
‒inMeXes -> LSD
‒DNA DB overview
•GGRNA (RefSeq search)
‒GEO overview
•RefEx
‒DBCLS SRA
•アーカイブ
‒DDBJ, DOR, DRA
‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
68
69
70
統合DB=ライフサイエンスデータの
「上水処理場」+「下水処理場」
•安心してすぐに利用できるデータを提供
‒ 「ミネラルウォーターを買わなくても飲用できるように」
•公共DBとして外に出す際にデータを綺麗に
‒「油を流しに捨てないで!」
ライフサイエンスの
「ライフライン」http://rise-eco.jp/recycle.html
•NBDC/DBCLS/DDBJ を中心に
日本中のさまざまな大学・研究機関が協力
72
LSQA http://qa.lifesciencedb.jp/
73
★http://bit.ly/dbcls130515
bono@dbcls.jp / bonohu
からスカイツリー方向を臨む

More Related Content

More from Hidemasa Bono

What was togofarm on earth?
What was togofarm on earth?What was togofarm on earth?
What was togofarm on earth?
Hidemasa Bono
 
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
Hidemasa Bono
 

More from Hidemasa Bono (8)

DDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa BonoDDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa Bono
 
新規医療開発に関わる統計学 (バイオインフォマティクス)
新規医療開発に関わる統計学 (バイオインフォマティクス)新規医療開発に関わる統計学 (バイオインフォマティクス)
新規医療開発に関わる統計学 (バイオインフォマティクス)
 
What was togofarm on earth?
What was togofarm on earth?What was togofarm on earth?
What was togofarm on earth?
 
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
 
バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)
 
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
 
Integrated database biology with well-curated and circulated knowledge
Integrated database biology with well-curated and circulated knowledgeIntegrated database biology with well-curated and circulated knowledge
Integrated database biology with well-curated and circulated knowledge
 
bonohu's presentation in Osaka.R#6
bonohu's presentation in Osaka.R#6bonohu's presentation in Osaka.R#6
bonohu's presentation in Osaka.R#6
 

Recently uploaded

Recently uploaded (7)

2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
On community support centres as a sales destination.pdf
On community support centres as a sales destination.pdfOn community support centres as a sales destination.pdf
On community support centres as a sales destination.pdf
 
Key points of the revision of the Inheritance Law Contribution and Special Co...
Key points of the revision of the Inheritance Law Contribution and Special Co...Key points of the revision of the Inheritance Law Contribution and Special Co...
Key points of the revision of the Inheritance Law Contribution and Special Co...
 
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
 
modul belajar bagasa jepang pemula -N5.pdf
modul belajar bagasa jepang pemula -N5.pdfmodul belajar bagasa jepang pemula -N5.pdf
modul belajar bagasa jepang pemula -N5.pdf
 
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
 
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 − 情報科学からのアプローチ −
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 −	情報科学からのアプローチ −〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 −	情報科学からのアプローチ −
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 − 情報科学からのアプローチ −
 

データベース活用による 知のめぐりのよい細胞生物学