SlideShare a Scribd company logo
今日の講義内容と課題(締切12月15日)	
1.  最強の検索エンジン	
–  Google	
2.  文献検索	
–  PubMed	
3.  特許の検索・閲覧	
–  IDPL	
4.  塩基配列を得る	
–  NCBI-Nucleo:de	
5.  配列類似性検索	
–  NCBI-BLAST	
6.  ゲノムブラウザ	
–  UCSC	Genome	Browser	
7.  遺伝子予測	
–  NCBI-GeneMark	
–  NCBI-Glimmer	
•  左記の1〜7の中から4つ選び、そ
れぞれ使ってみてください。	
•  その後、何を使ってどんな操作を
行ない、どんな結果が得られた
か、選んだ4つそれぞれについて
説明してください。	
•  maskot@bio.:tech.ac.jp	にメール
で提出してください。学籍番号と
氏名を明記すること。	
•  講義の感想も書いてくれると嬉し
いです(今後の講義の改善のた
め参考にします)。
序論
NIH	と	NLM	と	NCBI	
•  Na:onal	Ins:tutes	of	Health	(NIH)	-アメリカ国立衛生研究所	
–  合衆国で最も古い医学研究の拠点機関。	
•  Na:onal	Library	of	Medicine	(NLM)	
–  NIHの一部門。世界最大の医学図書館。医学及び関連科学に関する
700万冊以上の書籍、学術雑誌、技術報告書、写本、マイクロフィル
ム、写真、画像を所有。	
•  Na:onal	Center	for	Biotechnology	Informa:on	(NCBI)	
–  NLMの一部門。分子生物学やバイオインフォマティクスのデータベー
スの構築・運営、ソフトウェア開発を行う。配列データベースGenBank	、
一塩基多型 (SNP)	データベース dbSNP、ESTデータベースdbEST、文
献データベース MEDLINE	、PubMedなどを運営。	
–  各研究者が発表したゲノムデータのリアノテーションを NCBI	で独自
に行っており、その結果を Refseq	として公開。	
–  BLAST	による相同性検索サービスの提供。	
–  公開されているデータは基本的に無償で利用可能。
hWp://www.nlm.nih.gov/about/2014CJ.html
hWp://www.slideshare.net/chalkless/museomejp141030
hWp://www.slideshare.net/chalkless/mbsj2013ngsresource
hWp://www.slideshare.net/chalkless/museomejp141030
hWp://www.slideshare.net/chalkless/museomejp141030
hWp://www.slideshare.net/chalkless/museomejp141030
コンティグ con:g
公共NGSデータ検索サイト	DBCLS	SRA	hWp://sra.dbcls.jp/
まとめ	
•  配列データや文献データ、その他のデータの
増え方は半端ない。	
•  データを死蔵させず、有効活用することが大
事。	
•  そのためのデータベース。
Google	
最強の検索エンジン
hWps://www.google.co.jp/
どんなとき使う?	
•  どんなときも。	
•  とりあえず、ある遺伝子やタンパク質、疾患に
ついて知りたいとき。	
•  遺伝子のIDだけしか分かっていないとき。	
•  遺伝子名しか分かっていないとき。	
•  関連する論文を知りたいとき。	
•  論文に関連した講演資料を見たいとき。	
•  その他もろもろ。
検索結果とともに、その数が表示されている。GoogleはGoogle外部のサイト
を検索できるが、Googleのサーバーにキャッシュもしており、そのキャッシュ
にもアクセスできる。
論文だけ検索したければGoogle	Scholarを使うといい。 	
hWp://scholar.google.co.jp/
検索結果とその数が出てくる。またそれぞれの論文にはそれを引用している
論文の数が「Cited	by」として書かれてあり、その論文リストへリンクしてある。
発刊された時期を限定して検索したり、ダブルクオート(“)を使ってフレーズ
検索したりできる。
書籍だけ検索したい時は	Google	Books	
hWp://books.google.co.jp/
本のタイトルとページ数、表紙の絵などが表示される。
日付順に並べて最新情報を得たり。
検索キーワードがハイライトされたページを見ることができる。スクロールす
ると次のページも見れる。サイドバーには、さらに本の要約等の追加情報が
書いてある場合もある。
特許を検索するなら Google	Patents	
hWp://patents.google.co.jp
(Googleが指定した)重要な特許の順に検索結果が表示される。特許のタイト
ル、パテント番号、社名等。
特許の名前や要約、パテント番号、公開日、発明者や出願人等。さらに詳細
情報へのリンクも。
日本語、英語、中国語、その他の言語の特許もその原文が読める。
そのパテントを引用しているパテントや、関連しているパテント等。
画像を検索するなら Google	Images	
hWps://images.google.co.jp/
例えば、学名で検索してその生物種の写真を見たりするのに便利。
画像で画像を検索することもできます。似たような画像を探したり、出所不明
の画像の出自を探すのに便利
Googleは英文法チェックにも有効です。たとえば	“will	be	soon”	と	“will	soon	
be”	のどちらが自然な英語か調べたければ、検索して検索結果数を比較す
ると良い。ダブルクオート(”)でくくるのを忘れずに。
普通にGoogle検索をすると、ノンネイティブの英語も引っかかってくるので、検索語に
「site:uk」を付けるのがおすすめ。英国内のサイトだけで検索できます。(site:	の後に
任意のドメインを書けば、そのドメイン内だけで検索できます。)
で、”will	be	soon”	と	“will	soon	be”	の検索結果数を比べると、後者のほうが
多いようですね。
間に入る語が思いつかなかったり、バリエーションを知りたかったら、ワイル
ドカード「*」がおすすめ。
PDFだけ検索したいんだ、というときは filetype:pdf
パワーポイントファイルだけ検索したいんだ、というときは filetype:ppt
まとめ	
	
	
ググれ。	
	
		
	
(訳)	Google先生に問い合わせてみてはいかがでしょうか?
PubMed	
文献検索
hWp://www.ncbi.nlm.nih.gov/pubmed
どんなときに使う?	
•  論文を読みたいとき。	
•  読みたくないけど調べなきゃいけないとき。	
•  その分野でどのくらいどのような論文が出さ
れているか把握したいとき。
E	coli	で検索してみる。いちいち	Escherichia	coli	と入れなくても良い。	
論文タイトルをクリックすると論文のページに飛ぶ。
絞り込みのために	O157	を追加。検索結果数が減る。
さらに絞り込みのために genome	を追加。さらに検索結果数が減る。
さらに絞り込むために	complete	を追加。さらに検索結果数が減る。
下にスクロールすると、右側に「search	details」というフィールドが現れる。ここでは、
「E	coli	O157	genome	complete」などの検索語が実際にどのように処理されて検索さ
れたか見ることができる。また、これを編集して、より細かい条件で検索できる。
先のページの「See	more..」をクリックするとこうなる。「MeSH	Terms」とは、厳
密な検索が出来るようNCBIが準備した検索用語集。よく使われる語がフレー
ズ検索できるようになっている。
もしも、決まりきった検索を何度も繰り返し実行したいのなら、MyNCBIにアカ
ウントを作れば、定期的に自動的に検索してメールしてくれるんだそうです。
まとめ	
•  昔は図書館に通ってコピーしまくったのになぁ。
IDPL	
特許の検索・閲覧
hWp://www.inpit.go.jp/ipdl/service/
どんなときに使う?	
•  研究成果を事業展開したいとき。	
– 関連する特許情報を事前に調べることで、	
•  重複した研究開発の防止	
•  無駄な出願の防止	
•  製品開発時の紛争の防止	
•  特許制度は、最初の出願人に特許権を一定
期間与えることで、優れた発明と産業発展の
促進を図るもの。	
– 特許出願をしたければ論文発表前に。
先のページの「初心者向け簡易検索」をクリックするとこのページ。フィールド
に検索語を入れて「検索実行」。
例えば「タンパク質 構造解析」の検索結果。「一覧表示」を押すと一覧表示。
検索結果一覧には、公開番号/登録番号と発明の名称。公開番号をクリック
すると詳しい中身が見える。
詳しい中身の例。
まとめ	
•  特許が取れるほどの研究がしたい。
NCBI-Nucleo:de	
塩基配列を得る
どんなときに使うか?	
•  塩基配列データが欲しいとき。	
– 塩基配列データを伴う学術論文を雑誌に掲載す
る際には、その情報をNCBI,	EMBL-EBI,	DDBJのい
ずれかに提供して登録を依頼し、ID(アクセッショ
ン番号)を取得して論文中に明示することが求め
られる。	
– NCBIはその中のひとつで、世界中で実験的に求
められた塩基配列情報を高い網羅性をもって収
納している。
hWp://www.ncbi.nlm.nih.gov/
冒頭のテキストフィールドの左のプルダウンメニューから、Nucleo:de	を選択
する。(他にも色々選択できます)
遺伝子も検索できますが、ここでは con:g	を検索してみましょう。
検索結果の例です。リストアップされた青字のタイトルをクリックすると、それ
ぞれの配列の詳細ページに飛べます。
配列データの詳細。どんな情報が記述されているか、各自でよく見てみて下
さい。タイトルの左下の「FASTA」をクリックすると、配列検索によく用いられる
fasta	フォーマットが得られます。
これが実際の配列データ。テキストファイルとして手元のマシンに保存したい
場合、右上の「Send」をクリック。
右上の「Send」をクリックすると、このようなプルダウンメニューが現れます。
ファイルとして保存したければ「File」をクリック。
そうすると、何形式で保存するか聞かれます。Fasta形式を選択して「Create	
File」をクリック。
そうすると、このようなfasta形式のテキストファイルがダウンロードされます。
このようなfastaファイルを、今後この課題で使っていくことになります。
まとめ	
•  塩基配列が欲しかったら	NCBI	Nucleo:de	
•  アミノ酸配列が欲しかったら	NCBI	Protein	
•  今後、色んなデータベースを試用する前に、
サンプル配列が欲しいときに使ってみましょう。
NCBI-BLAST	
配列類似性検索
hWp://blast.ncbi.nlm.nih.gov/Blast.cgi
どんなときに使うか?	
•  機能未知の配列(遺伝子、遺伝子産物の全
長、あるいは断片)が新規に得られ、既知の
配列に類似な領域があるかどうかを調べたい
とき。	
•  生物種を限定せず広く検索することもできる
し、ゲノム計画が終了または進行中の特定の
生物種に限定して検索することもできる。
扉ページの「Basic	BLAST」→「nucleo:de	blast」をクリックすると、塩基配列を
クエリー(問い合わせ)とする画面。上の方にあるフィールドが塩基配列をコ
ピペする場所。ファイルアップロードも出来ます。
下までスクロールしてみると「BLAST」のボタン。これをクリックして実行。他に
もいろいろオプションはあるけど、とりあえずはデフォルト(初期設定のまま)
で使ってみましょう。
検索結果の例。画面下のカラフルな図は、問い合わせ配列がどこにどの程
度のスコアでヒットしたかが示される。
下にスクロールすると、ヒットした類似配列の表。デフォルトではE-valueの小
さい順に表示されるが、表示順は変更可能。
さらに下にスクロールすると、ここの配列とのアラインメントが表示されている。
その他にも関連情報へのリンクがたくさんあるので、ぽちぽちクリックしてみ
ましょう。
さてページの頭に戻って、上の真ん中あたりの「Download」をクリックすると、
text,	csv	など、いろんな形式でダウンロードできます。
Text	形式のダウンロード例
Hit	table	(text)	形式のダウンロード例
CSV	形式のダウンロード例
まとめ	
•  機能未知の配列があったら、ひとまず	BLAST
UCSC	Genome	Browser	
ゲノムブラウザ
hWp://genome.ucsc.edu/
どんなときに使うか?	
•  目的とする遺伝子の周辺のゲノム構造を閲
覧したいとき(使い方その1)。	
•  機能未知の遺伝子配列が得られた場合、
BLAT(BLASTより高速な配列検索プログラム)
で近縁種のゲノム上にマッピングして機能に
関する手がかりを得る(使い方その2)。
使い方その1	
目的とする遺伝子の周辺のゲノム構
造を閲覧したいとき
扉ページの「Genomes」をクリックすると、この画面。「Search	Term」に、たとえ
ば遺伝子名を入れて「Submit」クリックで検索。
例えば「ERBB2」で検索した結果。ヒットしたエントリーの「アノテーショントラック」一覧
が表示されるので、目的とする遺伝子を探してクリックする。アノテーションとは情報
の注釈付けのことで、そのひとまとめの単位が「トラック」と呼ばれる。
このひとまとめの図が「アノテーショントラック」。問い合わせた遺伝子は文字
色と背景色が逆転して表示される。画面左端のバーや、画面上の遺伝子構
造をクリックすると詳細情報が得られる。
「Downloads」クリックで画像をPDFとして保存可能。
得られたPDF画像の例。
画像の左端のバーをクリックして得られる、アノテーショントラックの詳細情
報。
画面中の遺伝子構造をクリックして得られる、遺伝子の詳細情報。
画像から下にスクロールすると、画像を表示するアノテーショントラックや表
示形式を変更するためのオプションが並んでいる。
これら様々なオプションを変更後、一番下にある「refresh」をクリックすると変
更した項目が画面に反映される。
これら様々なオプションを変更後、一番下にある「refresh」をクリックすると変
更した項目が画面に反映される。
変更された画面の例。いろいろ触ってみましょう。
使い方その2	
機能未知の遺伝子配列が得られた場
合、BLAT(BLASTより高速な配列検索プ
ログラム)で近縁種のゲノム上にマッピ
ングして機能に関する手がかりを得る
扉ページ上部の「Blat」をクリック。
扉ページ上部の「Blat」をクリックした後の画面。
テキストフィールドにfasta形式の塩基配列を入力して、「submit」をクリックし
て検索。
検索結果の例。アラインメントのスコアやヒットした領域の情報などとともに
「browser」(ゲノムブラウザ)「details」(アラインメント結果)という2つのリンク。
「details」をクリックした結果。ページ左側はナビゲーション用のリンク、右側の上部に
はクエリー配列、右側の下部にはアラインメント結果。マッチした塩基は青色の太文
字で示される。薄い青色はクエリー配列がゲノム配列のギャップの隣に位置すること
を示しており、スプライスサイトに対応する(ことが多い)。
スクロールダウンするか、左側の「together」をクリックすると、アラインメント
の詳細へ移動。
BLAT検索結果から「browser」をクリックすると、クエリー配列がマッチしたゲノ
ム領域が閲覧できる。
まとめ	
•  ゲノム解読された生物種のゲノム構造を眺め
ると、機能に関する手がかりが得られる(か
も)。
GeneMark	
遺伝子予測
hWp://exon.gatech.edu/GeneMark/
どんなときに使う?	
•  シーケンサーによって解読されたクローン断片
配列や、そのアセンブルによって得られたコン
ティグ配列、ゲノム配列糖から、タンパク質を
コードしている遺伝子領域を推定したいとき。	
•  他にも様々な遺伝子予測ソフトが存在する。1種
類のソフトだけで予測するのではなく、複数を併
用し、多くの方法で支持された領域を遺伝子領
域と見なす方法が一般的。
例えば扉ページの右のリストから GemMark.hmm	をクリックしたら、このペー
ジになる。原核生物、メタゲノム、真核生物の中から選択してクリック。
配列を入力する。教師セットとして用いる生物種を選ぶ「Select	species」では、できる
だけクエリの生物種と近いものを選択して「Start	GeneMark.hmm」をクリック。
出力結果の例。入力配列の先頭からの順番、予測された遺伝子の向き、開
始位置、終了位置などがリストされる。
真核生物の遺伝子予測も可能(だが精度は悪い)
出力結果の例。入力配列の先頭からの順番、予測されたエキソンの向き、
開始位置、終了位置などがリストされる。
NCBI-GeneMark	
遺伝子予測
hWp://www.ncbi.nlm.nih.gov/
genomes/MICROBES/genemark.cgi
どんなときに使う?	
•  シーケンサーによって解読されたクローン断片
配列や、そのアセンブルによって得られたコン
ティグ配列、ゲノム配列糖から、タンパク質を
コードしている遺伝子領域を推定したいとき。	
•  他にも様々な遺伝子予測ソフトが存在する。1種
類のソフトだけで予測するのではなく、複数を併
用し、多くの方法で支持された領域を遺伝子領
域と見なす方法が一般的。
使い方は基本的に他の遺伝子予測ソフトと同じ。
使い方は基本的に他の遺伝子予測ソフトと同じ。
使い方は基本的に他の遺伝子予測ソフトと同じ。
NCBI-Glimmer	
遺伝子予測
hWp://www.ncbi.nlm.nih.gov/
genomes/MICROBES/glimmer_3.cgi
どんなときに使う?	
•  シーケンサーによって解読されたクローン断片
配列や、そのアセンブルによって得られたコン
ティグ配列、ゲノム配列糖から、タンパク質を
コードしている遺伝子領域を推定したいとき。	
•  他にも様々な遺伝子予測ソフトが存在する。1種
類のソフトだけで予測するのではなく、複数を併
用し、多くの方法で支持された領域を遺伝子領
域と見なす方法が一般的。
使い方は基本的に他の遺伝子予測ソフトと同じ。
使い方は基本的に他の遺伝子予測ソフトと同じ。
今日の講義内容と課題(締切12月15日)	
1.  最強の検索エンジン	
–  Google	
2.  文献検索	
–  PubMed	
3.  特許の検索・閲覧	
–  IDPL	
4.  塩基配列を得る	
–  NCBI-Nucleo:de	
5.  配列類似性検索	
–  NCBI-BLAST	
6.  ゲノムブラウザ	
–  UCSC	Genome	Browser	
7.  遺伝子予測	
–  NCBI-GeneMark	
–  NCBI-Glimmer	
•  左記の1〜7の中から4つ選び、そ
れぞれ使ってみてください。	
•  その後、何を使ってどんな操作を
行ない、どんな結果が得られた
か、選んだ4つそれぞれについて
説明してください。	
•  maskot@bio.:tech.ac.jp	にメール
で提出してください。学籍番号と
氏名を明記すること。	
•  講義の感想も書いてくれると嬉し
いです(今後の講義の改善のた
め参考にします)。

More Related Content

More from Mas Kot

階層的クラスタリング入門の入門
階層的クラスタリング入門の入門階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
Mas Kot
 
機械学習入門の入門
機械学習入門の入門機械学習入門の入門
機械学習入門の入門
Mas Kot
 
生命化学情報学4
生命化学情報学4生命化学情報学4
生命化学情報学4
Mas Kot
 
生命化学情報学3
生命化学情報学3生命化学情報学3
生命化学情報学3
Mas Kot
 
生命化学情報学2
生命化学情報学2生命化学情報学2
生命化学情報学2
Mas Kot
 
生命化学情報学1
生命化学情報学1生命化学情報学1
生命化学情報学1
Mas Kot
 
天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス
Mas Kot
 
文献データベース Literature Databases
文献データベース Literature Databases文献データベース Literature Databases
文献データベース Literature Databases
Mas Kot
 
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
Mas Kot
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
Mas Kot
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
Mas Kot
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
Mas Kot
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
Mas Kot
 

More from Mas Kot (13)

階層的クラスタリング入門の入門
階層的クラスタリング入門の入門階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
 
機械学習入門の入門
機械学習入門の入門機械学習入門の入門
機械学習入門の入門
 
生命化学情報学4
生命化学情報学4生命化学情報学4
生命化学情報学4
 
生命化学情報学3
生命化学情報学3生命化学情報学3
生命化学情報学3
 
生命化学情報学2
生命化学情報学2生命化学情報学2
生命化学情報学2
 
生命化学情報学1
生命化学情報学1生命化学情報学1
生命化学情報学1
 
天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス
 
文献データベース Literature Databases
文献データベース Literature Databases文献データベース Literature Databases
文献データベース Literature Databases
 
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
 

バイオインフォ講義1