More Related Content More from ocha_kaneko (7) 090525-homology search(ensembl, local)3. Ensemblから相同性検索
・Ensemblを利用して相同性検索する(rat Olr1082のprimerを作成)
PCRとprimer/PCR法
Ensemblのウェブサイトから検索
目的の遺伝子についての情報/Coding sequenceの取得
相同性検索 (BLAT)の実行/結果
・用語解説(9):BLAST
Primer-BLAST
・演習(mouse Makorin1遺伝子の数とその遺伝子構造について)
Ensemblのannotationについて
・用語解説(10):processed (pseudo)gene, unprocessed (pseudo)gene
3
4. Ensemblを利用して相同性検索する
ラットの嗅覚受容体遺伝子 (olfactory receptor gene)の1つであるOlr1082のCDS配列を
queryとして、ラットゲノム中に相同性のある配列を探す。
Olfactory receptor gene Olr1082 1 exon CDS 954bp (317a.a.)
Reverse strand 954bp
嗅覚受容体遺伝子は、外界からの匂い分子と結合
する受容体をコードする遺伝子
数万種ともいわれる外界の匂い分子に対して、
ラットでは約1,500種類の嗅覚受容体を持っている
と言われています。
相同性検索の結果から、
Olr1082を増幅するprimerを設計してみましょう。
http://nobelprize.org/nobel_prizes/medicine/laureates/2004/press.html 4
5. PCRとprimer
PCRとはPolymerase Chain Reactionの略で、
増幅したい遺伝子などの領域について、
DNA polymerase (DNA合成酵素)、鋳型 (genome DNA, cDNA)、primer、
塩基の材料 (dNTPs)の混合液を作り、
温度変化を繰り返すことにより増幅する反応のこと。
primer作成のポイント
・標的とする配列に特異的であること
・20mer程度の長さ
・GC%は50%以上
・Tm値が55-65℃程度になるように
・primer同士の3'末端が相補的にならない
・primer自体がpalindromeを作らない (palindromeの例 TCCATGTATACGCCATGGA)
などがある。 A
T C
A G
T C
G C
T A
A T
C G
C G
5
T A
6. PCR法
PCR プログラム例
Denature: 95℃ (templateの2本鎖の解離) 30sec
Annealing: 55-65℃ (1本鎖DNAへprimerのannealing) 30sec
Extension: 72℃ (伸長反応) 1min/kb
以上の温度反応を30回繰り返す。
Figure 8-45b Molecular Biology of the Cell (© Garland Science 2008)
6
11. Coding sequenceの取得 3
[Text]を選択すると、新しいウィンドウにFASTA formatの配列が表示されます。
遺伝子のcdsとゲノム上の配列の両方が
表示されます。
Olr1082の場合は、exonがひとつの遺伝
子なので、cdsとゲノム上の配列は一致
しています。
>ENSRNOG00000031936:ENSRNOT00000048054
cds:KNOWN_protein_coding
の配列をコピーしてCotEditorに貼付けて
「Macintosh HD/ユーザー/tg03/bin」に
「Olr1082.fasta」として保存します。
コピーはキーボードの
「 +C」
貼付け(ペースト)は、
「 +V」
11
13. 用語解説(9):BLAST
BLAST (Basic Local Alignment Search Tool)
塩基配列やアミノ酸配列のalignmentを行うためのアルゴリズムのこと、
もしくはそのアルゴリズムを実装したプログラムのことである。
もっともよく使われるアルゴリズムのため「相同性検索をする」ことを
「BLASTをする」と表現することもあります。
プログラム名 query database memo Arg Ser Val
読み枠
blastn DNA DNA Thr Ser Gly
Tyr Val Arg
blastp アミノ酸 アミノ酸 5'-tacgtcaggta-3'
blastx DNA アミノ酸 読み枠は全て調べる 3'-atgcagtccat-5'
Met Gln Ser
読み枠は全て調べる
tblastn アミノ酸 DNA Cys Ser Pro
どちらもアミノ酸に翻訳 Ala Val His
tblastx DNA DNA
して比較
この他にPSI-BLAST (Position-Specific Iterated, 部位特異的に繰り返す)や
Primer-BLAST (Primer3 and BLAST)などがあります。
13
14. 相同性検索(BLAT)の実行 2
コピーした配列を枠の中に貼付けて
検索対象とする生物種が
「Rattus norvegicus」で
(Select speciesは学名での表記です)
「dna database」に対して行うものであると
確認して、
Search Toolが「BLAT」であることを確認したら
RUN
14
15. 相同性検索(BLAT)の結果 view
[Alignment Locations vs. Karyotype]
ヒットした相同配列が染色体の
どの辺りに位置しているかを示す
模式図です。
[Alignment Locations vs. Query]
queryのどの位置にヒットした相同配列が
あるかを示しています。
[Alignment Summary]
queryと相同配列の詳細が表示されます
15
16. 相同性検索(BLAT)の結果
Alignment Locations vs. Karyotype
一番上の表示から、表示する数やsortする項目を選ぶことができます。
染色体の模式図上では、queryとの相同性がある部分が矢印で示されています。
その中でも、一番にヒットした配列の位置が赤い四角で示されています。
16
17. 相同性検索(BLAT)の結果 Alignment Locations vs. Query
相同性がある配列がqueryのどの部分に当たるかを模式的に示した図です。
該当する配列へのリンクはありません。
17
18. 相同性検索(BLAT)の結果 Alignment Summary
queryとヒットした配列の 統計的優位性を表すスコア
alignmentができる範囲 (Stats Score, E-value)と
の始まりと終わりと 一致する塩基のパーセンテージ
queryに対する向き とヒットした配列の長さ
ヒットした配列の乗っている染色体と
染色体での始まりと終わりの位置と向き
[S] ヒットした相同配列
[A] queryとヒットした相同配列 HSP(連続した相同性の高い領域のこと)
のAlignment 赤字:このalignmentでqueryと当たった部分
青字:他のalignmentでqueryと当たっている部分
[G] ヒットした相同配列
について向きを変えたり
exonに該当する部分を
マークしたりできる。
[S]+オプション。
18
19. 相同性検索(BLAT)の結果 Alignment Summary つづき
[C] ヒットした相同配列のContig view
ヒットした相同配列が赤いバーで
示されている。
19
20. 相同性検索(BLAT)の結果 primer作成について検討1
上から6つは、queryにした配列の全長に渡り相同性が高いhitを示している。
一番上は、queryとしたOlr1082自身ですので、それ以外のものの[A]を表示し、
Olr1082特異的な配列 (20bp程度の長さ)が存在するか、確認して下さい。
(primer作成のポイントは他にもありますが、一番重要なのは配列の特異性なので)
20
23. Primer-BLAST –parameter-
Specificity check: primerの配列の特異性を調べる。
Organism: templateとして用いる生物(種、系統)を指定する。
Database: データベースの種類を選ぶ
(templateをゲノムDNAにする場合はGenome、
転写産物の場合にはRefseq RNAなど目的に応じて) non-redundantの略
Primer specificity stringency: mismatchを許す程度を指定する。
Misprimed product size deviation: 予想される増幅領域の長さに加えて、ここで指定する長さの分
以上の産物について、対象外であることを
Splice vairant handling: templateが転写産物の場合、splice variantも増幅する可能性を許す。
23
24. Primer-BLAST –Advanced parameters-
BLASTで検索にhitする配列の最大の数を指定。
BLASTのE-valueを指定。
表示するprimer pairの最大の数を指定。
PCR産物のTmを指定。
primerのサイズを指定(最短、最適、最長)。
primer配列中のGC含量を指定。
primerの3'末端から5bpに含まれるGかCの数について。
palindrome構造を避ける。
SNPを考慮に入れて設計する。
Repeat配列中にprimerを設計することを避ける。
単純な繰り返し配列などを避ける。
PCR反応液の組成について
24
27. 演習 答え1
1) Search 「Mouse」 for 「Makorin」と入力して検索
2) 検索結果からMakorin1を探し出し、CDSを取得 「makorin.fasta」として
[Macintosh HD/ユーザー/tg03/bin]に保存。
Makorin1として4つのtranscriptが報告されている。始めに示したMakorin1
遺伝子の定義にあてはまるCDSを選んで下さい。
27
28. Ensemblのannotationについて
・Ensembl protein family: UniProtKB (SwissProt and TrEMBL)のアミノ酸配列について
MCL (Markov CLustering)というアルゴリズムを用いてクラス分けしたもの
・Havana protein_coding Gene: Havana (Human And Vertebrate Analysis aNd Annotation)
によりannotation, splice variantやpseudogeneにもannotationを付けている。
・Ensembl protein_coding Gene: Ensemblによるannotation
・Vega gene: Vega (VErtebrate Genome Annotation)によるannotation
manualでannotationを付けている。
28
30. 用語解説(10):processed (pseudo)gene,
unprocessed (pseudo)gene
遺伝子 a 遺伝子 a'
unprocessed gene
duplicated gene
遺伝子 a
mRNAに転写されsplicingを受ける
AAAAAA
逆転写されゲノムに再統合される
AAAAAA
遺伝子 a''
processed gene
pseudogeneとは、premature stop codonや挿入(insertion)や欠失(deletion)により
タンパクをコードすることができない遺伝子のこと。 30
31. 演習 答え3
マウスゲノムには、3つのタンパクをコードするMakorin遺伝子と4つの偽遺伝子が
あります。
Chromosome
Gene location Gene structure
Makorin1 6 B1 exon-intron
Makorin2 6 E3 exon-intron
Makorin3 7C processed, intact
Makorin1-p1 5 E2 processed, premature stop
Makorin1-p2 3 G2 processed, fragmented
Makorin1-p3 5F processed, fragmented
Makorin1-p4 13 C1 processed, fragmented
Makorin1とMakorin2の重複した時期は古いため (約4億年前に分岐した硬骨魚類でも
Makorin2があることが確認されている)、アミノ酸の相同性は約20%程度である。
そのため、塩基配列についての相同性検索では、Makorin2の配列はhitしない。
31
34. BLASTのダウンロード
NCBI BLASTはftp://ftp.ncbi.nih.gov/blast/executable/release/[version number]で
配布されています。 2009年5月現在は2.2.20
OS毎に異なるファイルを配布しています。
今回はMacを使っているのでMacOSX版をダウンロードして下さい。
多くのファイルやデータは、アーカイブ(複数のファイルをひとつにまとめること)と
圧縮されて配布されるので、展開することが必要になります。
$cd
$mkdir work #「work」というディレクトリを作る
$mkdir work/blast #「work」ディレクトリの中に「blast」ディレクトリを作る
$cd work/blast #「blast」ディレクトリに移動する
$ lftp ftp://ftp.ncbi.nih.gov/ #NCBIのFTPサーバに接続
lftp > cd blast/executables/release/2.2.20 #BLASTのあるディレクトリに移動
lftp > mget blast-2.2.20-universal-macosx.tar.gz #BLASTを取得
lftp > quit #FTPサーバとの接続を終了
$ tar zxvf blast-2.2.20-universal-macosx.tar.gz #BLASTファイルを展開する
34
39. BLAST 演習
・Rattus norvegicusのアミノ酸配列をダウンロードし、Olr1082のCDSをqueryとして
BLASTを実行して下さい。 結果は、「Olr1082.blastx」として保存して下さい。
*format、BLASTの実行のところで注意が必要です。
作業をしているディレクトリの確認と
queryとする「Olr1082.fasta」の移動も忘れずに。
・E-valueが(1.0)e-100よりも小さい結果はいくつありましたか?
アミノ酸データのダウンロード。
lftp ftp://ftp.ensembl.org/ #EnsemblのFTPサーバに接続
lftp> cd pub/current_fasta/rattus_norvegicus/pep/
lftp> mget Rattus_norvegicus.RGSC3.4.54.pep.all.fa.gz
lftp> quit #FTPサーバとの接続を終了
$ gzip -d Rattus_norvegicus.RGSC3.4.54.pep.all.fa.gz
39