DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
It has become essential to use literature databases as previously known information in bioscience studies. This lecture provides the overview and some actual usage examples of some databases including PubMed of NIH in US, and KEGG of Kyoto University Institute for Chemical Research.
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
It has become essential to use literature databases as previously known information in bioscience studies. This lecture provides the overview and some actual usage examples of some databases including PubMed of NIH in US, and KEGG of Kyoto University Institute for Chemical Research.
This document discusses metabolic network analysis and summarizes information from the KEGG database. It describes searching metabolic terms on Google and Google Scholar, keywords used in metabolic network analysis, and basic concepts in metabolic network reconstruction. It also provides an overview of the KEGG PATHWAY, MEDICUS, Mapper, and Expression databases and tools for mapping gene expression data onto metabolic pathways. The document concludes by assigning a report task analyzing gene expression data mapped to pathways using KEGG Expression and KegArray.
9. Why
bother
with
chemical
structures?
①
http://chemgarden.littlestar.jp/
10. • Metabolic
network
is
“small
world”.
– Jeong
et
al.,
Nature,
2000.
– Fell
and
Wagner,
Nature
Metabolic
Engineering,
2000.
• No,
it
is
not.
– Ma
and
Zeng,
Bioinforma4cs,
2003.
– Arita,
PNAS,
2004.
14. Why
bother
with
chemical
structures?
②
http://chemgarden.littlestar.jp/
15. :
:
:
:
:
:
:
:
1. oxidoreductases
2. transferases
3. hydrolases
4. lyases
5. Isomerases
6. ligases
1.1
1.2
1.3
1.4
1.5
1.3.1
1.3.2
1.3.3
1.3.5
1.3.1.1
1.3.1.2
1.3.1.3
1.3.1.69 zeatin reductase
Class Subclass Sub-subclass Complete EC number
IUBMB’s
Enzyme
List
(EC
numbers)
IUBMB = International Union of Biochemistry and Molecular Biology
16. EC
classificaTon
criteria
Class Subclass Sub-subclass Remarks
1. Oxidoreductases Functional groups
of reductants
Oxidants Which compounds are
reductants, or oxidants?
2. Transferases Transferred
groups
Transferred groups in detail From where to where?
3. Hydro-lases Hydrolyzed bond Hydrolyzed bond in detail Nucleases and
peptidases are classified
in much more detail.
4. Lyases Digested bond Types of products Some hydrolase-like
reactions
5. Isomerases Types of
isomeration (RS,
EZ, Redox, Transfer,
Elimation)
Types of reacting bonds, or
products
Any one-molecular
reactions.
6. Ligases Generated bond Types of substrate Multi-step reactions
17. SCOPEC
Thioesterase domain
of polypeptide,
polyketide and fatty
acid synthases
Aspartate aminotransferase-
like domain
NAD(P)-binding
Rossmann-fold domain
Phosphotransferases
on alcohol groups
Hydro-lyase
(Trans)glycosidases
Trypsin-like serine
proteases
Alkyl or aryl
transferase
Alcohol dehydrogenase
using NAD(P)+
P-loop containing
nucleoside triphosphate
hydrolases
O- or S-glycosidases
19. What
is
meant
by
being
“similar”?
• Enzyme
“proteins”
are
similar
• Enzyme
“reacTons”
are
similar
Sequence 3D
Globally Full-length Fold
Locally Motif Cavity
Reaction Substrates
Globally ? ?
Locally ? ?
20. Why
bother
with
chemical
structures?
http://chemgarden.littlestar.jp/
① 代謝経路の流れを考える必要
② 酵素「タンパク質」の類似性と酵素「反応」の類似性の区別
21. Genome
annotaTon
with
chemical
point
of
view
G
E
R
Genes
Enymes
Reactions
Organisms #1
G’
E’
R
#2
Similar
Similar
Identical
KEGG Orthology (KO)
G
E
R
Genes
Enzymes
Reactions
G’
E’
R’
Similar
Similar
Similar
Reaction Class (RC)
Genestoreactions
Reactionstogenes
Sequence similarity groups Reaction similarity groups
22. ケモインフォマティクスの基礎
• Chemical
data
storage
and
retrieval
– Chemical
file
formats
(SMILES,
Molfiles,
etc)
– Chemical
databases
• Virtual
screening
• QuanTtaTve
structure-‐acTvity
relaTonship
(QSAR)
25. 化学構造フォーマット
• Chemical
line
notaTons
– SMILES
…
Simplified molecular input line entry specification
– SLN
…
SYBYL
Line
NotaTon
– InChI
…
The
IUPAC
InternaTonal
Chemical
IdenTfier
• Chemical
table
files
– Molfiles,
SDF
– KCF
…
KEGG
Chemical
FuncTon
– Protein
Data
Bank
Format
• Chemical
XML
– CML
…
Chemical
Markup
Language
27. IUPAC命名法
• InternaTonal
Union
of
Pure
and
Applied
Chemistry
• 命名の基本:最も長い炭素直鎖に数詞をつけ
て命名する。
• ちょっとだけ詳しく:
– http://kusuri-jouhou.com/chemistry/
iupac.html
34. OpenBabel
• Free
soiware
mainly
used
for
converTng
chemical
file
formats.
• Available
for
Windows,
Unix,
and
Mac
OS.
• Distributed
under
the
GNU
GPL.
• hjp://openbabel.org/
44. MS
and
NMR
databases
• MassBank
– http://www.massbank.jp/ -MS
• Human
Metabolome
Database
– hjp://www.hmdb.ca/
-‐
both
MS
and
NMR
• Biological
MagneTc
Resonance
Data
Bank
– hjp://www.bmrb.wisc.edu/structgen/
-‐
NMR
• CHENOMX
– hjp://www.chenomx.com/
-‐
MS,
有料
• METLIN
– hjp://metlin.scripps.edu/
-‐
MS
• Fiehn
Lib
– hjp://fiehnlab.ucdavis.edu/Metabolite-‐Library-‐2007/
-‐
MS
45.
46.
47.
48. 最近の研究の紹介
Supervised
de
novo
reconstrucTon
of
metabolic
pathways
from
metabolome-‐scale
compound
sets
Bioinforma4cs,
29,
i135-‐144
(2013).
KCF-‐S:
KEGG
Chemical
FuncTon
and
Substructure
for
improved
interpretability
and
predicTon
in
chemical
bioinformaTcs
BMC
Systems
Biology,
in
press
(2013).