8. Reuter JA, Spacek DV and Snyder MP Mol Cell 2015 May 21;58(4):586-97
データ量の飛躍的な増大→解析手法の開発
Development of NGS platform
9. 次世代シーケンスデータ
ゲノム長: G
リード数 : N
リード長: L
カバー率 = (N × L) / G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATG
GCATGCCGCAT
GCATCGATCGAGC
paired end
single end
ゲノム
リード
10. SRA Sequence Read Archive
raw sequence dataが登録されているデータベース
https://www.ncbi.nlm.nih.gov/sra
13. Dataのダウンロード→FASTQに変換
Windows PowerShell X
> prefetch.exe SRR6887399
> fastq-dump.exe SRR6887399.sra
prefetchを実行するとユーザフォルダ下に
ncbi/public/sraフォルダが作成され、その中に.sra
ファイルがダウンロードされるので、fastq-dump
でfastqフォーマットに変換する。
今回使用しているデータ
SRR687399
EGFR mutant lung cancer cell
scRNA-seqデータ
single end