Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)

1,031 views

Published on

第三回NGS現場の会(2013年9月)で発表したポスター資料です

Published in: Technology
  • Be the first to comment

ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)

  1. 1. 4.   実験結果   3.   提案⼿手法2.   ⽂文法圧縮    (Grammar  Compression) 1.   研究背景 ゲノムデータストレージのための次世代データ圧縮法 丸⼭山  史郎郎(i    ⽥田部井  靖⽣生(ii 5.   今後の予定   同種の個別個別のゲノム配列はとても良く似ている。
 ヒトゲノムの場合は99.9〜99.99%は同じと言われる(1。
 (1) M. Cargill et al., “Characterization of single-nucleotide polymorphisms in 
 coding regions of human genes”, Nature Genetics 22, 231 - 238 (1999). 異なる部分は
 ほんの一部のみ! Mさんのゲノム配列 Tさんのゲノム配列 ゲノム集合に有効なデータ圧縮法 Relative Lempel-Ziv法 (RLZ法)(2 → リファレンス配列との差分を取る戦略 
 メモリ上でのランダムアクセスをサポート
 (2) S. Kuruppu et al., “Relative Lempel-Ziv Compression of Genomes 
 for Large-Scale Storage and Retrieval”, SPIRE2010. 関連研究 0 5 10 15 20 25 30 gzip bzip2 ppmdi Re-Pair (CFG) LZMA (LZ77) 出芽酵⺟母菌36個体に 対する圧縮率率率[%] LZ77(窓長制限なし)型や文法(CFG)型の圧縮法が有効 → 共通した長い部分文字列を捕える性質があるため Re-PairやLZMAの問題点 1. 入力サイズに比例したメモリ使用量 2. LZMAについては圧縮時間も問題 ヒトゲノム(約3Gバイト/人)のよう な大規模データには適用困難 (※) http://pizzachili.dcc.uchile.cl/repcorpus/statistics.pdfからの引用 (※) リファレンス配列に対して高速検索可能な索引構造
 (Suffix/LCP Array)を付加する リファレンス配列との共通部分(差分)を検索して符号化 (1, 7) (9, 16) 一致長 一致開始位置 ゲノム集合全体をリファレンスとして利用できる
 現実的なデータ圧縮は可能か? 圧縮対象ゲノム: 圧縮率はリファレンス配列の選び方に依存する。 入力文字列を一意に導出する文脈自由文法を構成するデータ圧縮法 X1 X1 X1 X3 X3 X2 X4 X5 X6 X1 X1 X1 X3 X3 X1 X7 X5 X8 ゲノム配列A ゲノム配列B 木構造(構文木)表現 木構造表現の
 共通ノードを集約 文法(CFG)表現 X1 → X2 → X3 → X4 → X5 → X6 → X7 → X8 → X1 X3 X2 X3 X1 X4 X5 X3 X1 X7 X5 どのように木構造を作るか、どのように文法表現を符号化(バイナリ化) するかで様々な種類の圧縮法が存在する。(Re-Pair, Sequitur等) 圧縮文字列処理 文法圧縮は圧縮データを復元せずに〇〇することに適している。 e.g., パターン検索、特徴的パターンマイニング、q-gram統計計算、
     ランダムアクセス/部分文字列復元など。 完全オンライン文法圧縮(Fully-Online Grammar Compression)(3 (3) S. Maruyama, Y. Tabei, H. Sakamoto and K. Sadakane, “Fully-Online Grammar Compression”, SPIRE2013 accepted. -  完全オンライン性 -  オンラインで文法変換と符号化を同時 に実行可能な初の文法圧縮 -  低圧縮処理コスト -  共通部分文字列の検索を行わずに
 長い共通部分文字列を集約する
 性質を持つ -  省メモリスペース -  圧縮データサイズに比例
 データが圧縮しやすければしやすいほど、
 少ないメモリ領域で動作 -  ランダムアクセス機能をサポート -  圧縮処理の途中であっても圧縮済みデータ
 から任意の部分のみを高速復元可能 次々に生成・追加される冗長データを逐次圧縮しながら高効率で保存する用途に適している。 ユーザー NGS 圧縮ゲノムDB ゲノム配列読み取り アセンブル処理 T T T T X1 → X2 → X3 → X4 → X5 → X1 X2 X3 X1 差分を格納 圧縮処理 圧縮DB(文法)情報を参照 圧縮データサイズ 圧縮処理時間 部分文字列復元時間 考察 -  圧縮サイズ - Real/Simulation共に高圧縮率を達成。 -  圧縮処理時間 - 大規模データについて現実的な時間で圧縮できることを確認。 - zipやbzip2よりも2-3倍ほど遅いが、実装の工夫により改善可能。 -  部分文字列復元時間 - 0.8μ秒/文字と高速。圧縮データと意識せずに扱うことが可能。 -  エンジニアリングによる圧縮処理の高速化 -  メモリ使用量の改良(固定メモリ動作) -  データ圧縮による処理の高速化 -  パターン検索 -  類似ゲノム配列計算 -  アノテート付きデータの効率の良い保存 (i)  Preferred  Infrastructure,  Inc.      (ii)  JST  湊離離散構造処理理系プロジェクト 0 50000 100000 150000 200000 250000 300000 020000400006000080000 size (MB) compressedsize(MB) FOLCA bzip2 zip 0 50000 100000 150000 200000 250000 300000 020000400006000080000100000120000140000 size (MB) compressiontime(sec) FOLCA bzip2 zip -  Real (7人分、合計 約22Gバイト) -  リファレンスゲノム配列7種 -  Simulation (100人分、合計 約300Gバイト) -  wgsimを利用してシミュレーションゲノムを生成 -  オリジナルゲノムはhg19 -  シーケンシングエラーは0に設定(違いは変異のみ) Real Simulation Simulation データセット 比較手法 -  FOLCA (提案手法) -  zip (LZ77型) -  bzip2 (BW変換型) 復復元⻑⾧長 FOLCA bzip2 zip 10 8.21E-06 153.69 38.67 100 1.96E-05 153.69 38.67 1000 3.25E-04 153.69 38.67 10000 2.00E-03 153.69 38.67 100000 10.41E-02 153.69 38.67 1000000 0.50 153.69 38.67 10000000 2.18 153.69 38.67 100000000 11.37 153.69 38.67 ※ bzip2, zipは参考として1個体分(3Gバイト)の
 復元時間を記載 データ⻑⾧長が短くなった 分だけ⾼高速化 圧縮データ上での処理 データサイズが⼤大きいと 全部⾒見見るだけでも⼤大変 生データ上での処理 5000 10000 15000 20000 010002000300040005000 size (MB) compressedsize(MB) FOLCA bzip2 zip

×