DDBJデータベースを
用いた配列の検索と解析
有田 正規
国立遺伝学研究所
DNA Data Bank of Japan (DDBJ)
GenBank, EMBL データベースと連携した、3極構造
の一つとして 1986 年に発足、翌年から稼働。
International Nucleotide Sequence Database
Collaborationという枠組みで
・次世代シーケンスデータ
・DNA配列
・生物試料(Biosample)、計画
情報(Bioproject)などを共有
DDBJ Submission
DNA配列の 「登録」 がとても重要な作業。
登録して 「アクセッション番号」 を受け取らないと、
論文を発表できない。(義務)
登録と特許とは別。登録内容は公開される。
ヒトゲノムは個人情報?
はい、個人情報です。必要に応じて、インフォームド
コンセントに基づいて、アクセス制限付きのデータ
ベースに登録します。
Japanese Genotype-phenotype Archive (JGA)
参考
• 改正個人情報保護法におけるゲノムデータ等の
取扱い (厚生労働省)
• 日本バイオインフォマティクス学会の提言
統計情報
画像ファイルなども
CC-BYライセンスで利用可
登録される生物種
SRA (short read archive)
次世代シーケンサのデータは、「アノテートしていな
い」情報として別に格納します。
X線結晶解析で初めて
立体構造がわかった
タンパク質
(Perutz, Kendrew 1959)
筋肉に酸素を運ぶミオグロビン
8本のアルファヘリックス
血液で酸素を運ぶヘモグロビン
アルファとベータ鎖が4量体を形成
テーマ:Globin
ヘモ、ミオグロビンの違い
いずれも、グロビンフォールドと
呼ばれる8本のαヘリックスを持つ。
ヘモグロビンは4量体
http://ptgl.uni-frankfurt.de/motif_overview.php
Hemoglobinを検索してみる
検索結果
5000件以上も見つかる
試しに、human alpha-1
chainをみてみる
ファイル形式を選べる
著者欄
著者が書いたコメントの
中身を読むと、アミノ酸
変異のある配列である
ことがわかる。
↑
タイトルだけからは
わからない!
中身には気をつけること。
この下に ↓、DNA配列情報
Human alpha-1 globin chain
検索の絞込み
ARSAでは高度な検索方法が使えます。
AND、OR、NOT の利用
“ ” でくくったフレーズ
ワイルドカード
配列解析につかうフォーマット
• GenBankフォーマット
30年以上続くテキスト形式のフォーマット
人が見てわかりやすい
• FASTAフォーマット
配列のみ。シンプルで、作業には便利
• XMLフォーマット
INSD標準タグによるGenBankフォーマットの翻訳
プログラム処理するときには便利
実習1.
ヒトの hemoglobin (alpha/beta chain) と、クジラの
myoglobin のDDBJエントリーを見つけ出し、
translation 欄のアミノ酸配列を抜き出してください。
ヒト: Homo sapiens
クジラ: Physeter catodon
>Homo_sapiens_hemoglobin_alpha
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLS
HGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNF
KLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
>Equus_caballus_hemoglobin_alpha
MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLS
HGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFK
LLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR
>Homo_sapiens_hemoglobin_beta
MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFLESFGDLST
PDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDP
ENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
>Physeter_catodon_myoglobin
MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLK
TEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKY
LEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
集めた配列のアラインメント
アライメントの標準ツールは Clustal W / Clustal O
EMBL-EBIのものが便利
論文用にはMUSCLE
やMEGAが優秀
ヒト、ウマ、クジラの比較
ヒトとウマのalpha鎖がとても似ていることがわかる。
構造や機能の予測
InterProScan など
アノテーションの信頼性
グロビンのようによく研究されていない場合、遺伝子
の注釈は
「間違えているかもしれない」
モデル生物種毎のデータベースや整備されたリソー
スを用いよう。多くのリソースはダウンロード可。
ゲノム情報の取得
TxSearchにて、系統樹の中から目的の生物を探しま
す。 クリックすると、NCBIのサイトに飛びます。
NCBIのサイトで
ダウンロード可
実習2.
ジャイアントパンダの全ゲノムシーケンス情報の、
DDBJアクセッション番号は何番から何番か?
発展. 読まれたパンダはオスかメスか?
ゲノムサイズはヒトと比べてどれくらいか?
実習2の答え
DDBJで ACTA01000000 をみればよい。
ACTA01000001 から ACTA01200592
スパコン環境の提供
国内の研究者なら
申請すれば誰でも
スパコン利用できます
(学生は指導教員の
承諾も必要)
新規ユーザ登録の部分から申請してください。
解析パイプラインの提供
まとめ
• DDBJはDNA配列3極構造の一つです
• 検索や解析システムを日本語で利用できます
• さまざまな情報について、NCBIやEBIへのポータル
としても利用できます
• 自分で解析するためのスパコン環境、解析パイプ
ラインも無償提供しています
チュートリアル等も充実しているのでごらんください。

[All-in-one2016] DDBJデータベースを用いた配列の検索と解析