SlideShare a Scribd company logo
1 of 36
Download to read offline
NGSを用いたジェノタイピングを	
  
様々な解析に用いるには?	
  
~高密度SNPデータ解析の処方箋~	
鐘ケ江 弘美	
  
	
  
東京大学大学院 農学生命科学研究科 	
  
生産・環境生物学専攻 生物測定学研究室	
2015/11/11	
 1
Molecular	
  Markers	
•  Simple	
  Sequence	
  Repeats	
  (SSR)	
  markers	
  	
  
遺伝子のマッピングやQTL解析、マーカー選抜など様々な解析に利用される	
  
共優性マーカー(codominant	
  maker)、mul=allelicマーカー	
  
再現性が高く、他の種でも利用可能	
  
	
  	
  
•  Single	
  Nucleo8de	
  Polymorphism	
  (SNP)	
  markers	
  
SSRマーカーと比較するとハイスループット	
  
連鎖地図やゲノミックセレクション、GWASに利用されている 	
  
	
  
•  Next	
  genera8on	
  sequencing	
  (NGS)	
  を使ったジェノタイピング	
  
RAD-­‐seq、GBS、low	
  depth	
  WGS	
  
一度に多くのSNPを得ることができる	
  
マーカーの偏りが少ない	
  
欠測も多い	
  
	
  
	
  
C	
A	
SNP	
2015/11/11	
 2
RAD-­‐seq	
  
	
  	
  	
  	
  
Genome	
  wide	
  resequence	
  
SNP	
  posi=on	
  
系統名	
3	
RAD-­‐seqでは欠測が多い	
SNP	
  posi=on	
  
系統名	
2015/11/11
GWAS	
  やゲノミックセレクションに利用する時の問題点	
High	
  coverage	
•  欠測が少ない	
•  コストが高い	
Low	
  coverage	
•  欠測が多い	
•  コストが低い	
•  遺伝子型の正確性
が低下する可能性	
2015/11/11	
 4
2015/11/11	
 5	
ゲノミックセレクション –出穂日の予測	
予測モデル	
  
y:出穂日	
  
y=f(x1,x2,x3,...,xk)	
出穂日予測	
  
y=f(x)	
	
  
	
C	
A	
SNP	
表現型(y)およびDNAマーカー多型を調査し、	
  
回帰分析を用いて、予測式f(x)を求めておく	
実際にはどこに遺伝子があるか分からないので、
高密度DNA多型を網羅的に予測に利用する	
出穂日(y)が未知の個体でも、	
  
DNAマーカー多型(x1,x2,x3,...,xk)から	
  
出穂日を予測できる。	
  
Togo	
  picture	
  gallery	
  by	
  DBCLS	
  is	
  
	
  Licensed	
  under	
  a	
  Crea=ve	
  Commons	
  表示 2.1	
  日本 (c)	
  
2015/11/11	
 6	
ゲノミックセレクション	
   	
  -­‐欠測が多い場合	
  
予測モデル	
  
y:出穂日	
  
y=f(x1,x2,x3,...,xk)	
出穂日予測	
  
y=f(x)	
	
  
	
C	
A	
SNP	
欠測があるマーカーは マーカー遺伝子型から
行列を計算できない	
  
	
  
	
  
	
  
	
欠測が多く、DNA多型が低密度	
  
DNA多型を網羅的に予測に利用できない	
出穂日の予測精度が低下	
  
Togo	
  picture	
  gallery	
  by	
  DBCLS	
  is	
  
	
  Licensed	
  under	
  a	
  Crea=ve	
  Commons	
  表示 2.1	
  日本 (c)	
  
検出力の低下	
x1	
  
x2	
  
x3	
  
…	
  
DNA多型	
  
y1	
  
y2	
  
y3	
  
…	
  
=	
 b	
  +	
  e	
出穂日	
  
GWAS	
  やゲノミックセレクションに利用する時の問題点	
High	
  coverage	
• 欠測が少ない	
• コストが高い	
Low	
  coverage	
• 欠測が多い	
• コストが低い	
• ジェノタイピングの正確性が
低下する可能性	
2015/11/11	
 7	
欠測した遺伝子型を補完し	
  
低コストでジェノタイピング	
  
2015/11/11	
 8	
マーカーセットが異なるデータを用いる場合	
setA	
 setB	
両方のセットで遺伝子型データのある
重なったマーカーしか利用できない	
2つのデータセットで共通していない
マーカーの遺伝子型を補完する
Imputa=onを行うことで、	
  
すべてのマーカーを利用できる	
setA	
 setB	
Imputa8onを行わない場合	
 Imputa8onを行う場合
欠測した遺伝子型の補完	
2015/11/11	
 9	
手作業で欠測を補完する場合	
C	
G	
遺伝子型が似ている系統の情報をもとに、補完	
  
	
  
-­‐>	
  多数の系統およびSNPマーカーを利用する場合、手作業では不可能
2015/11/11	
 10	
IMPUTATION ソフトウエア	
ソフトウエア名	
 URL	
Beagle	
 hWps://faculty.washington.edu/browning/beagle/
beagle.html	
Tassel	
 hWp://www.maizegene=cs.net/#!tassel/c17q9	
IMPUTE2	
 hWps://mathgen.stats.ox.ac.uk/impute/
impute_v2.html	
PLINK	
 hWp://pngu.mgh.harvard.edu/~purcell/plink/
pimputa=on.shtml	
minimac2	
 hWp://genome.sph.umich.edu/wiki/Minimac2
2015/11/11	
11	
遺伝子型の予測	
Step	
  2	
Step	
  1	
Step	
  3	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
マーカー	
マーカー	
マーカー	
サンプルで遺伝子型を	
  
共有している領域を特定	
  
ハプロタイプの情報から	
  
欠測している遺伝子型を補完	
ゲノムに存在する連鎖不平衡と	
  
ハプロタイプブロ ック構造を利用	
T C	
 C A G C G	
 T	
 C	
 G A G G A G C	
C C ・	
 A G C T C C G A G C ・	
 T C
T C ・	
 A G C G T C G A ・	
 G A G C
C C C A A C G T ・	
 G A G C G T C
A C C A	
 G C T C C ・	
 A G G G G T
C C C A G C T C C G A G	
 G ・	
 T T
T C C A G C G T C G ・	
 G G A G C
C C ・	
 A G C T C C G A G C ・	
 T C
T C ・	
 A G C G T C G A ・	
 G A G C
C C C A A C G T ・	
 G A G C G T C
A C C A G C T C C ・	
 A G G G G T
C C C A G C T C C G A G G ・	
 T T
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
品種A	
品種B	
品種C	
品種D	
品種E	
品種F
2015/11/11	
12	
リファレンスパネルを用いた遺伝子型の予測	
サンプル	
リファレンスパネル	
T ・	
 C A G C ・	
 ・	
 ・	
 G A G G A G ・	
C C C A G C ・	
 ・	
 ・	
 G A G C ・	
 T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T ・	
 C A G C ・	
 ・	
 ・	
 G A G G A G ・	
C C C A G C ・	
 ・	
 ・	
 G A G C ・	
 T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
サンプル	
リファレンスパネル	
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
サンプル	
リファレンスパネル	
Step	
  2	
Step	
  1	
Step	
  3	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
マーカー	
マーカー	
マーカー	
サンプルとリファレンスパネルの中の個体
で、遺伝子型を共有している領域を特定	
  
リファレンスパネルの遺伝子型と	
  
ハプロタイプの情報から	
  
欠測している遺伝子型を補完	
ゲノムに存在する連鎖不平衡と	
  
ハプロタイプブロ ック構造を利用	
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
2015/11/11	
 13	
リファレンスパネルを用いた遺伝子型の予測	
欠測を含むRAD-­‐seq	
ジェノタイピング	
  
されていないSNP	
リファレンスパネル	
ジェノタイピングされて
いないSNPの補完	
  
リファレンスパネル	
遺伝子型を補完した
サンプルデータ	
リファレンスパネルの遺伝子型に基づいて	
  
統計学的にサンプルの遺伝子型を予測	
遺伝子型を補完することにより、	
  
解析するSNP数を増やすことが可能	
T C C A G C ・	
 ・	
 ・	
 G A G G A G C
C C C A G C ・	
 ・	
 ・	
 G A G C G T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T ・	
 C A G C ・	
 C ・	
 G A G G A G ・	
C C ・	
 A G C T C C G A G C ・	
 T C
品種A	
品種B	
品種A	
品種B	
マーカー	
マーカー
2015/11/11	
 14	
リファレンスパネルの作成	
•  自前のデータだけでは、リファレンスパネルとして利用できる系統数が少ない	
  
	
  
•  公共データベースで公開されているゲノム配列を解析することで、系統数を
増やすことができる	
  
•  公開されたデータを使うことで、シーケンスにコストがかからない	
  
	
  
•  SNPの遺伝子型情報を利用してリファレンスパネルを作成	
  
データベース名	
 URL	
DRAsearch	
 hWps://trace.ddbj.nig.ac.jp/DRASearch/	
DBCLS	
  SRA	
 hWp://sra.dbcls.jp	
NCBI	
 hWp://www.ncbi.nlm.nih.gov/sra/	
DNAnexus	
 hWp://sra.dnanexus.com/	
公開されているゲノム配列を検索
2015/11/11	
 15	
公開されているゲノム配列を検索	
DBCLS	
  SRA	
検索結果を	
  
タブ区切りで	
  
保存可能	
下位を含めて、生物種で検索	
hWp://sra.dbcls.jp
imputa8onを行う前に、以下のようなマーカーを除去	
•  欠測率の高いマーカー	
  
•  分離比が歪んでいるマーカー	
  
•  実験サンプル間で不一致が多いマーカー	
  
•  MAFが非常に低いマーカー	
2015/11/11	
 16	
データのフィルタリング	
どのような条件でマーカーを除去するか?	
  
最適な条件はサンプルごとに異なるので、	
  
それぞれの研究に応じて適切な条件を用いる
2015/11/11	
 17	
Imputa8onに用いるソフトの選択の例	
家系情報の	
  
利用	
reference	
  
genome	
  
の利用	
マーカーの	
  
順序の利用	
連鎖地図は利用
できますか?	
全ゲノムシーケ
ンスは利用可能
ですか?	
R	
  
qtl	
家系情報を利用
しますか?	
Tassel	
Beagle	
R	
missForest	
Yes	
No	
Yes	
No	
Yes	
No	
どのソフトが適しているのか?はサンプルごとに異なる	
  
いくつかのソフトで解析し、最適なソフトを選択する
2015/11/11	
 18	
	
  R  missForest	
missForest:	
  Nonparametric	
  Missing	
  Value	
  Imputa8on	
  using	
  Random	
  Forest	
  
hWps://cran.r-­‐project.org/web/packages/missForest/missForest.pdf	
•  ノンパラメトリック	
  
•  mixed-­‐type	
  imputa=on	
  method	
  
•  random	
  forestを用いて、実測値から欠測値を予測	
  
	
  R  qtl	
hWp://www.rqtl.org/manual/qtl-­‐manual.pdf	
•  calc.genoprob	
  	
  :	
  Calculate	
  condi7onal	
  genotype	
  probabili7es	
  
地図距離に基づいて、欠測値を予測
imputa=on,genotype	
  calling,	
  genotype	
  phasing,	
  IBD	
  segment	
  detec=onを行う	
•  2015.11.11現在の最新版はBeagle	
  version	
  4.1	
  
•  hWp://faculty.washington.edu/browning/beagle/beagle.html	
  
•  Beagle	
  4.1の場合、Java	
  version	
  8が必要	
2015/11/11	
 19	
Beagleとは?	
HPからのBeagleのダウンロード	
hWps://faculty.washington.edu/browning/beagle/beagle.html#download	
wget	
  を使う方法	
wget	
  hWp://faculty.washington.edu/browning/beagle/beagle.21Oct15.abc.jar
•  vcfおよびvcf.gzを利用可能	
  
•  Beagleで利用するためにはGTあるいはGLのFORMATが必要	
2015/11/11	
 20	
Beagleの入力ファイル	
#CHROM	
POS	
ID	
 REF	
ALT	
QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
Chr01	
 236	
ss.3	
C	
 T	
 2256.5	
PASS	
 AC=2;AF=0.043	
 GT:AD:DP:GQ:PL	
 0/0:14,0:14:33:0,33,423	
 0/0:143,0:143:99:0,376,5016	
Chr01	
 284	
ss.6	
T	
 A	
 5219.94	
PASS	
 AC=6;AF=0.130	
 GT:AD:DP:GQ:PL	
 0/0:14,0:14:36:0,36,491	
 0/0:135,0:135:99:0,370,4920	
Chr01	
 871	
ss.
10	
 C	
 T	
 24370.1	
PASS	
 AC=32;AF=0.696	
 GT:AD:DP:GQ:PL	
 1/1:0,10:10:24:328,24,0	
 0/0:88,0:88:99:0,244,3212	
GT:	
  genotype,	
  encoded	
  as	
  allele	
  values	
  separated	
  by	
  either	
  of	
  /	
  or	
  |.	
  The	
  allele	
  
values	
  are	
  0	
  for	
  the	
  reference	
  allele	
  (what	
  is	
  in	
  the	
  REF	
  field),	
  1	
  for	
  the	
  first	
  allele	
  
listed	
  in	
  ALT,	
  2	
  for	
  the	
  second	
  allele	
  list	
  in	
  ALT	
  and	
  so	
  on.	
  
	
  
GL	
  :	
  genotype	
  likelihoods	
  comprised	
  of	
  comma	
  separated	
  floa=ng	
  point	
  log10-­‐scaled	
  
likelihoods	
  for	
  all	
  possible genotypes	
  given	
  the	
  set	
  of	
  alleles	
  defined	
  REF	
  and	
  ALT	
  
fields.	
GT FORMATの例 
2015/11/11	
 21	
Beagleの実行	
Format	
  GT	
  vcf	
  file	
java	
  -­‐jar	
  beagle.21Oct15.abc.jar	
  gt="test.sorghum.Nov11.abc.vcf.gz"	
  out="out.gt"	
データサイズが大きい場合は、染色体ごとにvcfファイルを分けて、実行する	
Format	
  GL	
  vcf	
  file	
java	
  -­‐jar	
  beagle.21Oct15.abc.jar	
  gl="test.21Oct15.abc.vcf.gz"	
  out="out.gl"	
test.sorghum.Nov11.abc.vcf.gz	
  
phytozome	
  sorghum	
  v.2.1 SNP数 3,699,951	
  	
  	
  22系統 のサイズを小さくしたvcf	
  file	
  
gt=で入力するvcf	
  fileを指定、 out=で出力ファイルを指定 	
  
	
リファレンスパネルを利用した欠測の補完	
  
java	
  -­‐jar	
  beagle.21Oct15.abc.jar	
  ref=ref.21Oct15.abc.vcf.gz	
  gt=target.21Oct15.abc.vcf.gz	
  
out=out.ref	
ref=でリファレンスパネルのvcf	
  fileを指定	
gl=で入力するvcf	
  fileを指定
2015/11/11	
 22	
Beagleの実行結果	
#CHROM	
POS	
 ID	
 REF	
 ALT	
 QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
 Ajabsido	
SC35	
 SC971	
 SC265	
 SC283	
Chr01	
 236	
ss.3	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
Chr01	
 284	
ss.6	
 T	
 A	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 1|1:2	
 0|0:0	
Chr01	
 871	
ss.10	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 1|1:2	
 0|0:0	
 1|1:2	
 0|1:1	
 1|1:2	
 1|1:2	
 0|1:1	
出力ファイル out.gt.vcf.gz ファイルを解凍	
gunzip	
  out.gt.vcf.gz	
imputa=on前の入力ファイルは 0/0,0/1,1/1	
  
imputa=on後の出力ファイルは 0|0,0|1,1|1	
  
	
  
GT:	
  0がREF	
  alleleで、1がALT	
  allele	
  
0/0はREFのホモ	
  
0/1はREFとALTのヘテロ	
  
1/1はALTのホモ 	
	
	
  
|	
  	
  	
  はphasedを示す	
  
/	
   は unphasedを示す	
  
2015/11/11	
 23	
Beagleの実行結果	
#CHROM	
POS	
 ID	
 REF	
 ALT	
 QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
 Ajabsido	
SC35	
 SC971	
 SC265	
 SC283	
Chr01	
 236	
ss.3	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
Chr01	
 284	
ss.6	
 T	
 A	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 1|1:2	
 0|0:0	
Chr01	
 871	
ss.10	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 1|1:2	
 0|0:0	
 1|1:2	
 0|1:1	
 1|1:2	
 1|1:2	
 0|1:1	
marker	
 RTx430	
 Tx642	
 Ajabsido	
 SC35	
 SC971	
 SC265	
 SC283	
Chr01:236	
 0	
 0	
 0	
 0	
 0	
 0	
 0	
Chr01:284	
 0	
 0	
 0	
 0	
 0	
 2	
 0	
Chr01:871	
 2	
 0	
 2	
 1	
 2	
 2	
 1	
imputa8on後のvcfファイル	
0/0はREFのホモ	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
   	
  	
  -­‐>	
  	
  	
  	
  0	
  
0/1はREFとALTのヘテロ	
   	
  	
  -­‐>	
  	
  	
  	
  1	
  
1/1はALTのホモ 	
	
   	
   	
  	
  -­‐>	
  	
  	
  	
  2	
GWASやゲノミックセレクションなど、様々な解析に用いるためにスコア化
2015/11/11	
 24	
Tasselとは?	
hWp://www.maizegene=cs.net/#!tassel/c17q9	
Trait	
  Analysis	
  by	
  aSSocia0on,	
  Evolu0on	
  and	
  Linkage	
•  作物の解析に最適化	
  
•  欠測の補完だけではなく、様々な機能がある	
  
•  コマンドラインからだけではなく、充実したGUIから簡単に解析可能
HPからのダウンロード	
  	
  
	
  java	
  1.8	
  	
  
	
2015/11/11	
 25	
Tasselのダウンロード	
hWp://www.maizegene=cs.net/#!tassel/c17q9	
ここからOSに合わせてダウンロード	
YouTubeでの解説
2015/11/11	
 26	
Tasselの入力ファイル	
メニューのDataからLoadを選択  → Make	
  Best	
  Guess	
  
	
  vcf	
  fileを入力ファイルとして利用 	
YouTubeでの解説	
vcf	
  fileだけでなく、Hapmapや
Plinkなどのファイルを利用可能	
  
2015/11/11	
 27	
Tassel 遺伝子型データの表示	
Major	
  alleleとMinor	
  alleleを色分けして表示させることで、データの確認が可能	
  
2015/11/11	
 28	
Tassel 染色体ごとに分けたファイルを作成	
Dataから	
  
Separateを選択	
  
	
  
元のファイルの下に	
  
染色体ごとに分けた	
  
ファイルが作成される
2015/11/11	
 29	
Tassel データのフィルタリング	
Filter	
  → Filter	
  Genotype	
  Table	
  Sitesを選択	
MAFでフィルタリング	
sequence	
  
fileを選択	
YouTubeでの解説	
Filter	
  → Taxa	
  Names
系統名を	
  
検索しながら	
  
フィルタリングが可能	
  
2015/11/11	
 30	
Tassel LD	
  plotの作成	
Step	
  1	
 Step	
  2	
Step	
  3	
 Step	
  4	
Analysis	
  →	
  Linkage	
  Disequilibriumを選択	
Result	
  フォルダにLDの結果が表示される	
Result	
  →	
  LD	
  plot	
LD	
  plot	
  が表示される
2015/11/11	
 31	
Tassel Phenotype の欠測を補完	
欠測を補完する方法を選択	
hWps://bitbucket.org/tasseladmin/tassel-­‐5-­‐source/wiki/UserManual/NumericalImpute/NumericalImpute	
Impute	
  →	
  Numerial	
  Imputeを選択	
元のファイルの下に	
  
Imputed	
  ファイルが作成される
2015/11/11	
 32	
Tassel Genotype の欠測を補完	
Impute	
  By	
  FILLIN	
  
Impute	
  BY	
  FSFHap	
  
Tasselには2種類のImpute方法	
  
	
  
集団に合わせて使い分ける	
  
Fast,	
  Inbred	
  Line	
  Library	
  Imputa=oN	
  
generalized	
  approach	
impute	
  missing	
  data	
  in	
  full	
  sib	
  families	
  (bi-­‐parental	
  families)
2015/11/11	
 33	
Tassel -­‐	
  Impute	
  By	
  FILLIN	
  
hWps://bitbucket.org/tasseladmin/tassel-­‐5-­‐source/wiki/UserManual/FILLIN/FILLIN より引用	
Beagleとは異なり、欠測を埋められないマーカーがある
•  Inbred	
  の両親と後代のImputa=on	
  
•  欠測率が高く、ヘテロ率の高いGBSデータ用に開発	
  
	
  
•  親の遺伝子型と後代の遺伝子型データが必要	
	
  
•  ヘテロの両親のF1には利用できない	
  
•  両親の遺伝子型が正確である場合にはこれを利用した方が良い	
  
	
  
	
2015/11/11	
 34	
Tassel -­‐	
  Impute	
  BY	
  FSFHap	
  
hWps://bitbucket.org/tasseladmin/tassel-­‐5-­‐source/wiki/UserManual/FSFHapImputa=on/FSFHapImputa=on
2015/11/11	
 35	
Genotype-­‐Imputa8on	
  Accuracy	
  
hWps://ciedeakin.files.wordpress.com/2013/12/glaubitzswarts_gbs20140213.pdfy  より引用
2015/11/11	
 36	
Genotype-­‐Imputa8on	
  Accuracy	
  
•  正確に遺伝子型を補完することができなければ、その後の解析に影響する	
  
	
  
•  遺伝子型に矛盾がないか?を確認することでimputa=onの正確性を調べることが
可能	
  
	
  
•  既知の遺伝子型をマスクすることで、遺伝子型の正確性を解析 	
   	
  
	
  既知の遺伝子型と補完された遺伝子型を比較	
  
	
  
•  Tasselの場合はすべての遺伝子型を補完することができない	
  
	
  このため、Tasselで遺伝子型を予測したのち、補完できなかった遺伝子型を
	
  Beagleを用いて補完する方法もある	
  
	
  
•  BeagleとTasselを両方用いて、一致する遺伝子型だけを利用することで正確性が
高くなる	
  
	
  
•  Inbredに関してはTasselの方が優れているが、ヘテロな集団の場合はBeagleの方
が適している	
  
	
  

More Related Content

What's hot

2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層智啓 出川
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)MasanoriSuganuma
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷Eiji Sekiya
 
JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料Morpho, Inc.
 
Introduction to OpenCL (Japanese, OpenCLの基礎)
Introduction to OpenCL (Japanese, OpenCLの基礎)Introduction to OpenCL (Japanese, OpenCLの基礎)
Introduction to OpenCL (Japanese, OpenCLの基礎)Takahiro Harada
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造Takuya Akiba
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) 智啓 出川
 
adversarial training.pptx
adversarial training.pptxadversarial training.pptx
adversarial training.pptxssuserc45ddf
 
GANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムGANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムHirosaji
 

What's hot (20)

2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
 
明日使えないすごいビット演算
明日使えないすごいビット演算明日使えないすごいビット演算
明日使えないすごいビット演算
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料
 
Introduction to OpenCL (Japanese, OpenCLの基礎)
Introduction to OpenCL (Japanese, OpenCLの基礎)Introduction to OpenCL (Japanese, OpenCLの基礎)
Introduction to OpenCL (Japanese, OpenCLの基礎)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
AlphaGoのしくみ
AlphaGoのしくみAlphaGoのしくみ
AlphaGoのしくみ
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
 
adversarial training.pptx
adversarial training.pptxadversarial training.pptx
adversarial training.pptx
 
GANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムGANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズム
 

NGSを用いたジェノタイピングを様々な解析に用いるには?

  • 1. NGSを用いたジェノタイピングを   様々な解析に用いるには?   ~高密度SNPデータ解析の処方箋~ 鐘ケ江 弘美     東京大学大学院 農学生命科学研究科   生産・環境生物学専攻 生物測定学研究室 2015/11/11 1
  • 2. Molecular  Markers •  Simple  Sequence  Repeats  (SSR)  markers     遺伝子のマッピングやQTL解析、マーカー選抜など様々な解析に利用される   共優性マーカー(codominant  maker)、mul=allelicマーカー   再現性が高く、他の種でも利用可能       •  Single  Nucleo8de  Polymorphism  (SNP)  markers   SSRマーカーと比較するとハイスループット   連鎖地図やゲノミックセレクション、GWASに利用されている      •  Next  genera8on  sequencing  (NGS)  を使ったジェノタイピング   RAD-­‐seq、GBS、low  depth  WGS   一度に多くのSNPを得ることができる   マーカーの偏りが少ない   欠測も多い       C A SNP 2015/11/11 2
  • 3. RAD-­‐seq           Genome  wide  resequence   SNP  posi=on   系統名 3 RAD-­‐seqでは欠測が多い SNP  posi=on   系統名 2015/11/11
  • 4. GWAS  やゲノミックセレクションに利用する時の問題点 High  coverage •  欠測が少ない •  コストが高い Low  coverage •  欠測が多い •  コストが低い •  遺伝子型の正確性 が低下する可能性 2015/11/11 4
  • 5. 2015/11/11 5 ゲノミックセレクション –出穂日の予測 予測モデル   y:出穂日   y=f(x1,x2,x3,...,xk) 出穂日予測   y=f(x)   C A SNP 表現型(y)およびDNAマーカー多型を調査し、   回帰分析を用いて、予測式f(x)を求めておく 実際にはどこに遺伝子があるか分からないので、 高密度DNA多型を網羅的に予測に利用する 出穂日(y)が未知の個体でも、   DNAマーカー多型(x1,x2,x3,...,xk)から   出穂日を予測できる。   Togo  picture  gallery  by  DBCLS  is    Licensed  under  a  Crea=ve  Commons  表示 2.1  日本 (c)  
  • 6. 2015/11/11 6 ゲノミックセレクション    -­‐欠測が多い場合   予測モデル   y:出穂日   y=f(x1,x2,x3,...,xk) 出穂日予測   y=f(x)   C A SNP 欠測があるマーカーは マーカー遺伝子型から 行列を計算できない         欠測が多く、DNA多型が低密度   DNA多型を網羅的に予測に利用できない 出穂日の予測精度が低下   Togo  picture  gallery  by  DBCLS  is    Licensed  under  a  Crea=ve  Commons  表示 2.1  日本 (c)   検出力の低下 x1   x2   x3   …   DNA多型   y1   y2   y3   …   = b  +  e 出穂日  
  • 7. GWAS  やゲノミックセレクションに利用する時の問題点 High  coverage • 欠測が少ない • コストが高い Low  coverage • 欠測が多い • コストが低い • ジェノタイピングの正確性が 低下する可能性 2015/11/11 7 欠測した遺伝子型を補完し   低コストでジェノタイピング  
  • 10. 2015/11/11 10 IMPUTATION ソフトウエア ソフトウエア名 URL Beagle hWps://faculty.washington.edu/browning/beagle/ beagle.html Tassel hWp://www.maizegene=cs.net/#!tassel/c17q9 IMPUTE2 hWps://mathgen.stats.ox.ac.uk/impute/ impute_v2.html PLINK hWp://pngu.mgh.harvard.edu/~purcell/plink/ pimputa=on.shtml minimac2 hWp://genome.sph.umich.edu/wiki/Minimac2
  • 11. 2015/11/11 11 遺伝子型の予測 Step  2 Step  1 Step  3 品種A 品種B 品種C 品種D 品種E 品種F マーカー マーカー マーカー サンプルで遺伝子型を   共有している領域を特定   ハプロタイプの情報から   欠測している遺伝子型を補完 ゲノムに存在する連鎖不平衡と   ハプロタイプブロ ック構造を利用 T C C A G C G T C G A G G A G C C C ・ A G C T C C G A G C ・ T C T C ・ A G C G T C G A ・ G A G C C C C A A C G T ・ G A G C G T C A C C A G C T C C ・ A G G G G T C C C A G C T C C G A G G ・ T T T C C A G C G T C G ・ G G A G C C C ・ A G C T C C G A G C ・ T C T C ・ A G C G T C G A ・ G A G C C C C A A C G T ・ G A G C G T C A C C A G C T C C ・ A G G G G T C C C A G C T C C G A G G ・ T T 品種A 品種B 品種C 品種D 品種E 品種F T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T 品種A 品種B 品種C 品種D 品種E 品種F
  • 12. 2015/11/11 12 リファレンスパネルを用いた遺伝子型の予測 サンプル リファレンスパネル T ・ C A G C ・ ・ ・ G A G G A G ・ C C C A G C ・ ・ ・ G A G C ・ T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T ・ C A G C ・ ・ ・ G A G G A G ・ C C C A G C ・ ・ ・ G A G C ・ T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T サンプル リファレンスパネル T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T サンプル リファレンスパネル Step  2 Step  1 Step  3 品種A 品種B 品種C 品種D 品種E 品種F 品種A 品種B 品種C 品種D 品種E 品種F 品種A 品種B 品種C 品種D 品種E 品種F マーカー マーカー マーカー サンプルとリファレンスパネルの中の個体 で、遺伝子型を共有している領域を特定   リファレンスパネルの遺伝子型と   ハプロタイプの情報から   欠測している遺伝子型を補完 ゲノムに存在する連鎖不平衡と   ハプロタイプブロ ック構造を利用 T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C
  • 13. 2015/11/11 13 リファレンスパネルを用いた遺伝子型の予測 欠測を含むRAD-­‐seq ジェノタイピング   されていないSNP リファレンスパネル ジェノタイピングされて いないSNPの補完   リファレンスパネル 遺伝子型を補完した サンプルデータ リファレンスパネルの遺伝子型に基づいて   統計学的にサンプルの遺伝子型を予測 遺伝子型を補完することにより、   解析するSNP数を増やすことが可能 T C C A G C ・ ・ ・ G A G G A G C C C C A G C ・ ・ ・ G A G C G T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T ・ C A G C ・ C ・ G A G G A G ・ C C ・ A G C T C C G A G C ・ T C 品種A 品種B 品種A 品種B マーカー マーカー
  • 14. 2015/11/11 14 リファレンスパネルの作成 •  自前のデータだけでは、リファレンスパネルとして利用できる系統数が少ない     •  公共データベースで公開されているゲノム配列を解析することで、系統数を 増やすことができる   •  公開されたデータを使うことで、シーケンスにコストがかからない     •  SNPの遺伝子型情報を利用してリファレンスパネルを作成   データベース名 URL DRAsearch hWps://trace.ddbj.nig.ac.jp/DRASearch/ DBCLS  SRA hWp://sra.dbcls.jp NCBI hWp://www.ncbi.nlm.nih.gov/sra/ DNAnexus hWp://sra.dnanexus.com/ 公開されているゲノム配列を検索
  • 15. 2015/11/11 15 公開されているゲノム配列を検索 DBCLS  SRA 検索結果を   タブ区切りで   保存可能 下位を含めて、生物種で検索 hWp://sra.dbcls.jp
  • 16. imputa8onを行う前に、以下のようなマーカーを除去 •  欠測率の高いマーカー   •  分離比が歪んでいるマーカー   •  実験サンプル間で不一致が多いマーカー   •  MAFが非常に低いマーカー 2015/11/11 16 データのフィルタリング どのような条件でマーカーを除去するか?   最適な条件はサンプルごとに異なるので、   それぞれの研究に応じて適切な条件を用いる
  • 17. 2015/11/11 17 Imputa8onに用いるソフトの選択の例 家系情報の   利用 reference   genome   の利用 マーカーの   順序の利用 連鎖地図は利用 できますか? 全ゲノムシーケ ンスは利用可能 ですか? R   qtl 家系情報を利用 しますか? Tassel Beagle R missForest Yes No Yes No Yes No どのソフトが適しているのか?はサンプルごとに異なる   いくつかのソフトで解析し、最適なソフトを選択する
  • 18. 2015/11/11 18  R  missForest missForest:  Nonparametric  Missing  Value  Imputa8on  using  Random  Forest   hWps://cran.r-­‐project.org/web/packages/missForest/missForest.pdf •  ノンパラメトリック   •  mixed-­‐type  imputa=on  method   •  random  forestを用いて、実測値から欠測値を予測    R  qtl hWp://www.rqtl.org/manual/qtl-­‐manual.pdf •  calc.genoprob    :  Calculate  condi7onal  genotype  probabili7es   地図距離に基づいて、欠測値を予測
  • 19. imputa=on,genotype  calling,  genotype  phasing,  IBD  segment  detec=onを行う •  2015.11.11現在の最新版はBeagle  version  4.1   •  hWp://faculty.washington.edu/browning/beagle/beagle.html   •  Beagle  4.1の場合、Java  version  8が必要 2015/11/11 19 Beagleとは? HPからのBeagleのダウンロード hWps://faculty.washington.edu/browning/beagle/beagle.html#download wget  を使う方法 wget  hWp://faculty.washington.edu/browning/beagle/beagle.21Oct15.abc.jar
  • 20. •  vcfおよびvcf.gzを利用可能   •  Beagleで利用するためにはGTあるいはGLのFORMATが必要 2015/11/11 20 Beagleの入力ファイル #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Chr01 236 ss.3 C T 2256.5 PASS AC=2;AF=0.043 GT:AD:DP:GQ:PL 0/0:14,0:14:33:0,33,423 0/0:143,0:143:99:0,376,5016 Chr01 284 ss.6 T A 5219.94 PASS AC=6;AF=0.130 GT:AD:DP:GQ:PL 0/0:14,0:14:36:0,36,491 0/0:135,0:135:99:0,370,4920 Chr01 871 ss. 10 C T 24370.1 PASS AC=32;AF=0.696 GT:AD:DP:GQ:PL 1/1:0,10:10:24:328,24,0 0/0:88,0:88:99:0,244,3212 GT:  genotype,  encoded  as  allele  values  separated  by  either  of  /  or  |.  The  allele   values  are  0  for  the  reference  allele  (what  is  in  the  REF  field),  1  for  the  first  allele   listed  in  ALT,  2  for  the  second  allele  list  in  ALT  and  so  on.     GL  :  genotype  likelihoods  comprised  of  comma  separated  floa=ng  point  log10-­‐scaled   likelihoods  for  all  possible genotypes  given  the  set  of  alleles  defined  REF  and  ALT   fields. GT FORMATの例 
  • 21. 2015/11/11 21 Beagleの実行 Format  GT  vcf  file java  -­‐jar  beagle.21Oct15.abc.jar  gt="test.sorghum.Nov11.abc.vcf.gz"  out="out.gt" データサイズが大きい場合は、染色体ごとにvcfファイルを分けて、実行する Format  GL  vcf  file java  -­‐jar  beagle.21Oct15.abc.jar  gl="test.21Oct15.abc.vcf.gz"  out="out.gl" test.sorghum.Nov11.abc.vcf.gz   phytozome  sorghum  v.2.1 SNP数 3,699,951      22系統 のサイズを小さくしたvcf  file   gt=で入力するvcf  fileを指定、 out=で出力ファイルを指定    リファレンスパネルを利用した欠測の補完   java  -­‐jar  beagle.21Oct15.abc.jar  ref=ref.21Oct15.abc.vcf.gz  gt=target.21Oct15.abc.vcf.gz   out=out.ref ref=でリファレンスパネルのvcf  fileを指定 gl=で入力するvcf  fileを指定
  • 22. 2015/11/11 22 Beagleの実行結果 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01 236 ss.3 C T . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0 Chr01 871 ss.10 C T . PASS . GT:DS 1|1:2 0|0:0 1|1:2 0|1:1 1|1:2 1|1:2 0|1:1 出力ファイル out.gt.vcf.gz ファイルを解凍 gunzip  out.gt.vcf.gz imputa=on前の入力ファイルは 0/0,0/1,1/1   imputa=on後の出力ファイルは 0|0,0|1,1|1     GT:  0がREF  alleleで、1がALT  allele   0/0はREFのホモ   0/1はREFとALTのヘテロ   1/1はALTのホモ   |      はphasedを示す   /   は unphasedを示す  
  • 23. 2015/11/11 23 Beagleの実行結果 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01 236 ss.3 C T . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0 Chr01 871 ss.10 C T . PASS . GT:DS 1|1:2 0|0:0 1|1:2 0|1:1 1|1:2 1|1:2 0|1:1 marker RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01:236 0 0 0 0 0 0 0 Chr01:284 0 0 0 0 0 2 0 Chr01:871 2 0 2 1 2 2 1 imputa8on後のvcfファイル 0/0はREFのホモ                                  -­‐>        0   0/1はREFとALTのヘテロ      -­‐>        1   1/1はALTのホモ        -­‐>        2 GWASやゲノミックセレクションなど、様々な解析に用いるためにスコア化
  • 24. 2015/11/11 24 Tasselとは? hWp://www.maizegene=cs.net/#!tassel/c17q9 Trait  Analysis  by  aSSocia0on,  Evolu0on  and  Linkage •  作物の解析に最適化   •  欠測の補完だけではなく、様々な機能がある   •  コマンドラインからだけではなく、充実したGUIから簡単に解析可能
  • 25. HPからのダウンロード      java  1.8     2015/11/11 25 Tasselのダウンロード hWp://www.maizegene=cs.net/#!tassel/c17q9 ここからOSに合わせてダウンロード YouTubeでの解説
  • 26. 2015/11/11 26 Tasselの入力ファイル メニューのDataからLoadを選択  → Make  Best  Guess    vcf  fileを入力ファイルとして利用  YouTubeでの解説 vcf  fileだけでなく、Hapmapや Plinkなどのファイルを利用可能  
  • 27. 2015/11/11 27 Tassel 遺伝子型データの表示 Major  alleleとMinor  alleleを色分けして表示させることで、データの確認が可能  
  • 28. 2015/11/11 28 Tassel 染色体ごとに分けたファイルを作成 Dataから   Separateを選択     元のファイルの下に   染色体ごとに分けた   ファイルが作成される
  • 29. 2015/11/11 29 Tassel データのフィルタリング Filter  → Filter  Genotype  Table  Sitesを選択 MAFでフィルタリング sequence   fileを選択 YouTubeでの解説 Filter  → Taxa  Names 系統名を   検索しながら   フィルタリングが可能  
  • 30. 2015/11/11 30 Tassel LD  plotの作成 Step  1 Step  2 Step  3 Step  4 Analysis  →  Linkage  Disequilibriumを選択 Result  フォルダにLDの結果が表示される Result  →  LD  plot LD  plot  が表示される
  • 32. 2015/11/11 32 Tassel Genotype の欠測を補完 Impute  By  FILLIN   Impute  BY  FSFHap   Tasselには2種類のImpute方法     集団に合わせて使い分ける   Fast,  Inbred  Line  Library  Imputa=oN   generalized  approach impute  missing  data  in  full  sib  families  (bi-­‐parental  families)
  • 33. 2015/11/11 33 Tassel -­‐  Impute  By  FILLIN   hWps://bitbucket.org/tasseladmin/tassel-­‐5-­‐source/wiki/UserManual/FILLIN/FILLIN より引用 Beagleとは異なり、欠測を埋められないマーカーがある
  • 34. •  Inbred  の両親と後代のImputa=on   •  欠測率が高く、ヘテロ率の高いGBSデータ用に開発     •  親の遺伝子型と後代の遺伝子型データが必要   •  ヘテロの両親のF1には利用できない   •  両親の遺伝子型が正確である場合にはこれを利用した方が良い     2015/11/11 34 Tassel -­‐  Impute  BY  FSFHap   hWps://bitbucket.org/tasseladmin/tassel-­‐5-­‐source/wiki/UserManual/FSFHapImputa=on/FSFHapImputa=on
  • 35. 2015/11/11 35 Genotype-­‐Imputa8on  Accuracy   hWps://ciedeakin.files.wordpress.com/2013/12/glaubitzswarts_gbs20140213.pdfy  より引用
  • 36. 2015/11/11 36 Genotype-­‐Imputa8on  Accuracy   •  正確に遺伝子型を補完することができなければ、その後の解析に影響する     •  遺伝子型に矛盾がないか?を確認することでimputa=onの正確性を調べることが 可能     •  既知の遺伝子型をマスクすることで、遺伝子型の正確性を解析       既知の遺伝子型と補完された遺伝子型を比較     •  Tasselの場合はすべての遺伝子型を補完することができない    このため、Tasselで遺伝子型を予測したのち、補完できなかった遺伝子型を  Beagleを用いて補完する方法もある     •  BeagleとTasselを両方用いて、一致する遺伝子型だけを利用することで正確性が 高くなる     •  Inbredに関してはTasselの方が優れているが、ヘテロな集団の場合はBeagleの方 が適している