• Save
090525-homology search(ensembl, local)
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

090525-homology search(ensembl, local)

on

  • 3,481 views

 

Statistics

Views

Total Views
3,481
Views on SlideShare
3,470
Embed Views
11

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 11

http://www.slideshare.net 11

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

090525-homology search(ensembl, local) Presentation Transcript

  • 1. 相同性検索の自動化 と統計処理の基礎 2009/05/25 金子 聡子 kaneko.satoko(at)ocha.ac.jp 瀬々 潤 1
  • 2. 今日の内容 ・Ensemblから相同性検索 ・ローカル (各自のMacBook Pro上)でコマンドを使って相同性検索
  • 3. Ensemblから相同性検索 ・Ensemblを利用して相同性検索する(rat Olr1082のprimerを作成) PCRとprimer/PCR法 Ensemblのウェブサイトから検索 目的の遺伝子についての情報/Coding sequenceの取得 相同性検索 (BLAT)の実行/結果 ・用語解説(9):BLAST Primer-BLAST ・演習(mouse Makorin1遺伝子の数とその遺伝子構造について) Ensemblのannotationについて ・用語解説(10):processed (pseudo)gene, unprocessed (pseudo)gene 3
  • 4. Ensemblを利用して相同性検索する ラットの嗅覚受容体遺伝子 (olfactory receptor gene)の1つであるOlr1082のCDS配列を queryとして、ラットゲノム中に相同性のある配列を探す。 Olfactory receptor gene Olr1082 1 exon CDS 954bp (317a.a.) Reverse strand 954bp 嗅覚受容体遺伝子は、外界からの匂い分子と結合 する受容体をコードする遺伝子 数万種ともいわれる外界の匂い分子に対して、 ラットでは約1,500種類の嗅覚受容体を持っている と言われています。 相同性検索の結果から、 Olr1082を増幅するprimerを設計してみましょう。 http://nobelprize.org/nobel_prizes/medicine/laureates/2004/press.html 4
  • 5. PCRとprimer PCRとはPolymerase Chain Reactionの略で、 増幅したい遺伝子などの領域について、 DNA polymerase (DNA合成酵素)、鋳型 (genome DNA, cDNA)、primer、 塩基の材料 (dNTPs)の混合液を作り、 温度変化を繰り返すことにより増幅する反応のこと。 primer作成のポイント ・標的とする配列に特異的であること ・20mer程度の長さ ・GC%は50%以上 ・Tm値が55-65℃程度になるように ・primer同士の3'末端が相補的にならない ・primer自体がpalindromeを作らない (palindromeの例 TCCATGTATACGCCATGGA) などがある。 A T C A G T C G C T A A T C G C G 5 T A
  • 6. PCR法 PCR プログラム例 Denature: 95℃ (templateの2本鎖の解離) 30sec Annealing: 55-65℃ (1本鎖DNAへprimerのannealing) 30sec Extension: 72℃ (伸長反応) 1min/kb 以上の温度反応を30回繰り返す。 Figure 8-45b Molecular Biology of the Cell (© Garland Science 2008) 6
  • 7. Ensemblのウェブサイトから検索 http://www.ensembl.org/index.html Ensembl release 54 - May 2009 Search 「Rat」 for 「Olr1082」と入力して検索 7
  • 8. 目的の遺伝子についての情報 遺伝子の情報を表示し、「Export data」 から遺伝子のCDSを取得します。 8
  • 9. Coding sequenceの取得 1 遺伝子の情報を表示し、「Export data」 から遺伝子のCDSを取得します。 [Output]で[FASTA sequence]を選択し、Options for FASTA sequenceの項目は、 [Coding sequence]にのみチェックを入れ、[Next >]をクリックします。 9
  • 10. Coding sequenceの取得 2 [Text]を選択すると、新しいウィンドウにFASTA formatの配列が表示されます。 [HTML]は、遺伝子情報などが表示され ている枠の中に配列が表示されます。 [Compressed text (.gz)]は、長い配列を 扱うときに便利です。 10
  • 11. Coding sequenceの取得 3 [Text]を選択すると、新しいウィンドウにFASTA formatの配列が表示されます。 遺伝子のcdsとゲノム上の配列の両方が 表示されます。 Olr1082の場合は、exonがひとつの遺伝 子なので、cdsとゲノム上の配列は一致 しています。 >ENSRNOG00000031936:ENSRNOT00000048054 cds:KNOWN_protein_coding の配列をコピーしてCotEditorに貼付けて 「Macintosh HD/ユーザー/tg03/bin」に 「Olr1082.fasta」として保存します。 コピーはキーボードの 「 +C」 貼付け(ペースト)は、 「 +V」 11
  • 12. 相同性検索(BLAT)の実行 1 元の画面に戻って、右上にある「BLAST/BLAT」をクリックする。 BLAT (Blast Like Alignment Tool)とは 相同性検索のためのツールのひとつで、 query/databaseを4,11-mer (amino acid, DNA) に分割し、メモリ展開することにより 高速化されているため、大規模な検索に用いられる。 また、ESTやマイクロアレイのプローブをゲノムにマッピングするような相同性が高い検索 に向いている。 12
  • 13. 用語解説(9):BLAST BLAST (Basic Local Alignment Search Tool) 塩基配列やアミノ酸配列のalignmentを行うためのアルゴリズムのこと、 もしくはそのアルゴリズムを実装したプログラムのことである。 もっともよく使われるアルゴリズムのため「相同性検索をする」ことを 「BLASTをする」と表現することもあります。 プログラム名 query database memo Arg Ser Val 読み枠 blastn DNA DNA Thr Ser Gly Tyr Val Arg blastp アミノ酸 アミノ酸 5'-tacgtcaggta-3' blastx DNA アミノ酸 読み枠は全て調べる 3'-atgcagtccat-5' Met Gln Ser 読み枠は全て調べる tblastn アミノ酸 DNA Cys Ser Pro どちらもアミノ酸に翻訳 Ala Val His tblastx DNA DNA して比較 この他にPSI-BLAST (Position-Specific Iterated, 部位特異的に繰り返す)や Primer-BLAST (Primer3 and BLAST)などがあります。 13
  • 14. 相同性検索(BLAT)の実行 2 コピーした配列を枠の中に貼付けて 検索対象とする生物種が 「Rattus norvegicus」で (Select speciesは学名での表記です) 「dna database」に対して行うものであると 確認して、 Search Toolが「BLAT」であることを確認したら RUN 14
  • 15. 相同性検索(BLAT)の結果 view [Alignment Locations vs. Karyotype] ヒットした相同配列が染色体の どの辺りに位置しているかを示す 模式図です。 [Alignment Locations vs. Query] queryのどの位置にヒットした相同配列が あるかを示しています。 [Alignment Summary] queryと相同配列の詳細が表示されます 15
  • 16. 相同性検索(BLAT)の結果 Alignment Locations vs. Karyotype 一番上の表示から、表示する数やsortする項目を選ぶことができます。 染色体の模式図上では、queryとの相同性がある部分が矢印で示されています。 その中でも、一番にヒットした配列の位置が赤い四角で示されています。 16
  • 17. 相同性検索(BLAT)の結果 Alignment Locations vs. Query 相同性がある配列がqueryのどの部分に当たるかを模式的に示した図です。 該当する配列へのリンクはありません。 17
  • 18. 相同性検索(BLAT)の結果 Alignment Summary queryとヒットした配列の 統計的優位性を表すスコア alignmentができる範囲 (Stats Score, E-value)と の始まりと終わりと 一致する塩基のパーセンテージ queryに対する向き とヒットした配列の長さ ヒットした配列の乗っている染色体と 染色体での始まりと終わりの位置と向き [S] ヒットした相同配列 [A] queryとヒットした相同配列 HSP(連続した相同性の高い領域のこと) のAlignment 赤字:このalignmentでqueryと当たった部分 青字:他のalignmentでqueryと当たっている部分 [G] ヒットした相同配列 について向きを変えたり exonに該当する部分を マークしたりできる。 [S]+オプション。 18
  • 19. 相同性検索(BLAT)の結果 Alignment Summary つづき [C] ヒットした相同配列のContig view ヒットした相同配列が赤いバーで 示されている。 19
  • 20. 相同性検索(BLAT)の結果 primer作成について検討1 上から6つは、queryにした配列の全長に渡り相同性が高いhitを示している。 一番上は、queryとしたOlr1082自身ですので、それ以外のものの[A]を表示し、 Olr1082特異的な配列 (20bp程度の長さ)が存在するか、確認して下さい。 (primer作成のポイントは他にもありますが、一番重要なのは配列の特異性なので) 20
  • 21. 相同性検索(BLAT)の結果 primer作成について検討2 Olr1082の付近だけでも、相同性の高い配列が8カ所あります。 Ensembl geneで「Olr」と付いているように、これらは嗅覚受容体遺伝子です。 嗅覚受容体遺伝子は、このように近傍に重複していることが多いです。 結論: cdsの中に設計することは不可能 解決方法の一例: 遺伝子の外側の配列でOlr1082の付近にある配列を探す。 primer設計を支援し てくれるサイトがあ るので、次にそれを 紹介します。 21
  • 22. Primer-BLAST http://www.ncbi.nlm.nih.gov/tools/primer-blast/ primer作成支援ソフトとして定評のあったPrimer3とBLASTが組合わされたサイト。 目的の配列(accession, gi quot;GenInfo Identifierquot;, FASTA形 式)を貼付けもしくはファイルを選択 primerを作成する領域を指定できる。 既に作成済みのprimerの情報を入れ、 相性の良い方割れを作ることができる。 PCR産物の大きさの最小と最大を指定。 primer候補の数 primerのTm値の範囲を指定 (最小、最適、最大、ForwardとReverseの間の最大違い)。 22
  • 23. Primer-BLAST –parameter- Specificity check: primerの配列の特異性を調べる。 Organism: templateとして用いる生物(種、系統)を指定する。 Database: データベースの種類を選ぶ (templateをゲノムDNAにする場合はGenome、 転写産物の場合にはRefseq RNAなど目的に応じて) non-redundantの略 Primer specificity stringency: mismatchを許す程度を指定する。 Misprimed product size deviation: 予想される増幅領域の長さに加えて、ここで指定する長さの分 以上の産物について、対象外であることを Splice vairant handling: templateが転写産物の場合、splice variantも増幅する可能性を許す。 23
  • 24. Primer-BLAST –Advanced parameters- BLASTで検索にhitする配列の最大の数を指定。 BLASTのE-valueを指定。 表示するprimer pairの最大の数を指定。 PCR産物のTmを指定。 primerのサイズを指定(最短、最適、最長)。 primer配列中のGC含量を指定。 primerの3'末端から5bpに含まれるGかCの数について。 palindrome構造を避ける。 SNPを考慮に入れて設計する。 Repeat配列中にprimerを設計することを避ける。 単純な繰り返し配列などを避ける。 PCR反応液の組成について 24
  • 25. Primer-BLAST 結果 queryとした配列に対して 設計されたprimerの位置を示す模式図 primer pairの詳細情報 候補となるprimer pairの BLASTの結果 ここで、queryとした配列以外の 領域に相同性の高い配列があ るか確認します。 25
  • 26. Ensemblを利用して相同性検索する –演習- マウスゲノムから‘Makorin1’遺伝子について相同性検索をする。 *Makorin遺伝子とは、 RINGモチーフやzinc fingerモチーフをもつタンパクをコードする遺伝子です。 Makorin遺伝子の名前の由来:“Makor”+“in”で構成される造語で、 Makorとは、古ヘブライ語で“源”という意味を含む言葉で、 “in”は、Zinc Fingerからきており、またこの遺伝子は2つのRINGモチーフを持つことから The source of RINGという意味も込めて名付けられました (Gray et al. 2000 Genomics. 66:76-86.) マウスでは、6番染色体にあり、全長22.56kbで8つのexonを持つ遺伝子です。 Makorin1 22.56kb Reverse strand 8 exons, CDS 1446bp (481a.a.) Makorin1遺伝子のCDSと相同性の高い配列がマウスゲノム中に いくつ、どのような形で存在しているか確認して下さい。 26
  • 27. 演習 答え1 1) Search 「Mouse」 for 「Makorin」と入力して検索 2) 検索結果からMakorin1を探し出し、CDSを取得 「makorin.fasta」として [Macintosh HD/ユーザー/tg03/bin]に保存。 Makorin1として4つのtranscriptが報告されている。始めに示したMakorin1 遺伝子の定義にあてはまるCDSを選んで下さい。 27
  • 28. Ensemblのannotationについて ・Ensembl protein family: UniProtKB (SwissProt and TrEMBL)のアミノ酸配列について MCL (Markov CLustering)というアルゴリズムを用いてクラス分けしたもの ・Havana protein_coding Gene: Havana (Human And Vertebrate Analysis aNd Annotation) によりannotation, splice variantやpseudogeneにもannotationを付けている。 ・Ensembl protein_coding Gene: Ensemblによるannotation ・Vega gene: Vega (VErtebrate Genome Annotation)によるannotation manualでannotationを付けている。 28
  • 29. 演習 答え2 3) Makorin1のCDSをqueryとして、BLAT (Selected speciesをMus musculusに変更)を実行。 4) Makorin1と相同性の高い配列は、何番染色体に存在し、何カ所ありましたか? 5) 相同性の高い配列は、exon-intron構造を取っていますか? 29
  • 30. 用語解説(10):processed (pseudo)gene, unprocessed (pseudo)gene 遺伝子 a 遺伝子 a' unprocessed gene duplicated gene 遺伝子 a mRNAに転写されsplicingを受ける AAAAAA 逆転写されゲノムに再統合される AAAAAA 遺伝子 a'' processed gene pseudogeneとは、premature stop codonや挿入(insertion)や欠失(deletion)により タンパクをコードすることができない遺伝子のこと。 30
  • 31. 演習 答え3 マウスゲノムには、3つのタンパクをコードするMakorin遺伝子と4つの偽遺伝子が あります。 Chromosome Gene location Gene structure Makorin1 6 B1 exon-intron Makorin2 6 E3 exon-intron Makorin3 7C processed, intact Makorin1-p1 5 E2 processed, premature stop Makorin1-p2 3 G2 processed, fragmented Makorin1-p3 5F processed, fragmented Makorin1-p4 13 C1 processed, fragmented Makorin1とMakorin2の重複した時期は古いため (約4億年前に分岐した硬骨魚類でも Makorin2があることが確認されている)、アミノ酸の相同性は約20%程度である。 そのため、塩基配列についての相同性検索では、Makorin2の配列はhitしない。 31
  • 32. ローカルでBLAST ・ローカルでBLASTを用いて相同性検索を行う(BLASTN) FTPを利用するには BLASTのダウンロード データのダウンロード インデックスの作成/formatdbのオプション BLASTの実行/BLASTのオプションなど CotEditorでのalignment用のフォントの変え方 ・ BLAST 演習 (BLASTX) 32
  • 33. BLASTの準備 BLASTのプログラムやデータベースとしての配列は、容量が大きいためダウンロードする 際にはFTPを利用します。 FTPとはFile Transfer Protocolの略で ネットワーク上のコンピューター間でファイルの転送に用いられるプロトコル。 (プロトコルとは、互いに通信するための手順などの「約束事」のこと) ゲノムプロジェクトの際に各国間での配列情報のやりとりに使われました。 FTPを利用するには lftpをインストールします。 MacPortsが既にダウンロードされていることが前提です。 lftpとは、FTPを利用するためのプログラムのひとつです。 ターミナルに $sudo /opt/local/bin/port –d install lftp #管理者権限でlftpをインストールする (しばらくメッセージが流れます 10分から15分程度かかります) $which lftp #lftpを検索してパスを表示する opt/local/bin/lftp 33
  • 34. BLASTのダウンロード NCBI BLASTはftp://ftp.ncbi.nih.gov/blast/executable/release/[version number]で 配布されています。 2009年5月現在は2.2.20 OS毎に異なるファイルを配布しています。 今回はMacを使っているのでMacOSX版をダウンロードして下さい。 多くのファイルやデータは、アーカイブ(複数のファイルをひとつにまとめること)と 圧縮されて配布されるので、展開することが必要になります。 $cd $mkdir work #「work」というディレクトリを作る $mkdir work/blast #「work」ディレクトリの中に「blast」ディレクトリを作る $cd work/blast #「blast」ディレクトリに移動する $ lftp ftp://ftp.ncbi.nih.gov/ #NCBIのFTPサーバに接続 lftp > cd blast/executables/release/2.2.20 #BLASTのあるディレクトリに移動 lftp > mget blast-2.2.20-universal-macosx.tar.gz #BLASTを取得 lftp > quit #FTPサーバとの接続を終了 $ tar zxvf blast-2.2.20-universal-macosx.tar.gz #BLASTファイルを展開する 34
  • 35. データのダウンロード Ensemblではftp://ftp.ensembl.org/pub/current_fasta/[species name]/[dna, pep]/ にファイルがあります。 DNAのファイルは、ゲノムが大きい生物に関しては染色体毎に区切られています。 cd ~/work/blast #「blast」ディレクトリに移動する lftp ftp://ftp.ensembl.org/ #EnsemblのFTPサーバに接続 lftp> cd pub/current_fasta/mus_musculus/dna/ #mouseのDNAのあるディレクトリに移動 lftp> mget Mus_musculus.NCBIM37.54.dna.chromosome.6.fa.gz #DNAのファイル の取得 lftp> quit #FTPサーバとの接続を終了 $ gzip -d Mus_musculus.NCBIM37.54.dna.chromosome.6.fa.gz #ファイルを展開する 35
  • 36. インデックスの作成 検索対象 (データベース)の配列に索引(インデックス)を作成。 formatdbを利用します。 Mus_musculus.NCBIM37.54.dna.chromosome.6.fa という核酸のファイルのインデックスを 作成する。 $ ./blast-2.2.20/bin/formatdb –i Mus_musculus.NCBIM37.54.dna.chromosome.6.fa -p F -o T formatdbのオプション -i <Multi Fastaファイル名>:インデックスを作成するファイルを指定 -p [T/F]:Tの場合、入力ファイルはアミノ酸、Fの場合は核酸 -o [T/F]:インデックス作成の有/無 実行した際に起きたエラーなどは、formatdb.logに書かれる。 (核酸検索用のインデックスを作成) $ ./blast-2.2.20/bin/formatdb -i Mus_musculus.NCBIM37.54.dna.chromosome.6.fa -p F -o T (アミノ酸検索用のインデックスを作成) $ ./blast-2.2.20/bin/formatdb -i Mus_musculus.NCBIM37.54.pep.all.fa -p T -o T (オプション一覧を見る) $ ./blast-2.2.20/bin/formatdb --help 36
  • 37. BLASTの実行 BLASTはblastallというコマンドで実行します。 オプションでblastp、blastxなどを利用するか指定します。 「makorin.fasta」をBLASTと同じディレクトリに移動し、queryとしてデータベース 「Mus_musculus.NCBIM37.54.dna.chromosome.6.fa 」に対して「blastn」検索を実行し 「makorin.out」というファイルに保存 ここは改行は入っていません。 $ mv ~/bin/makorin.fasta ~/work/blast $ ./blast-2.2.20/bin/blastall -p blastn -d Mus_musculus.NCBIM37.54.dna.chromosome.6.fa -i makorin.fasta -o makorin.out BLASTのオプションなど (blastnの結果がターミナル上に表示されます) $ ./blast-2.2.20/bin/blastall -p blastn -d Mus_musculus.NCBIM37.54.dna.chromosome.6.fa -i makorin.fasta (tblastnの結果がターミナル上に表示されます) $ ./blast-2.2.20/bin/blastall -p tblastn -d Mus_musculus.NCBIM37.54.dna.chromosome.6.fa -i makorin.fasta 37
  • 38. CotEditorでのalignment用のフォントの変え方 デフォルトのフォントでは、 文字が揃わない。 メニューバーのフォーマットからフォント パネルを表示して、Courierを選択 すべてのフォントにして 下の検索画面にcourierと 入力すると出てくる。 38
  • 39. BLAST 演習 ・Rattus norvegicusのアミノ酸配列をダウンロードし、Olr1082のCDSをqueryとして BLASTを実行して下さい。 結果は、「Olr1082.blastx」として保存して下さい。 *format、BLASTの実行のところで注意が必要です。 作業をしているディレクトリの確認と queryとする「Olr1082.fasta」の移動も忘れずに。 ・E-valueが(1.0)e-100よりも小さい結果はいくつありましたか? アミノ酸データのダウンロード。 lftp ftp://ftp.ensembl.org/ #EnsemblのFTPサーバに接続 lftp> cd pub/current_fasta/rattus_norvegicus/pep/ lftp> mget Rattus_norvegicus.RGSC3.4.54.pep.all.fa.gz lftp> quit #FTPサーバとの接続を終了 $ gzip -d Rattus_norvegicus.RGSC3.4.54.pep.all.fa.gz 39
  • 40. まとめ ・ Ensemblのウェブサイトを使って相同性検索 ・ BLASTとデータベースとなる配列をダウンロードしてきて、 ローカルでBLAST検索を行いました。 次回は、EMBOSSを利用して相同性検索を行います。 40