SlideShare a Scribd company logo
1 of 1
4.   実験結果  
3.   提案⼿手法2.   ⽂文法圧縮    (Grammar  Compression)
1.   研究背景
ゲノムデータストレージのための次世代データ圧縮法
丸⼭山  史郎郎(i    ⽥田部井  靖⽣生(ii
5.   今後の予定  
同種の個別個別のゲノム配列はとても良く似ている。

ヒトゲノムの場合は99.9〜99.99%は同じと言われる(1。

(1) M. Cargill et al., “Characterization of single-nucleotide polymorphisms in 

coding regions of human genes”, Nature Genetics 22, 231 - 238 (1999).	
異なる部分は

ほんの一部のみ!	
Mさんのゲノム配列	
Tさんのゲノム配列	
ゲノム集合に有効なデータ圧縮法	
Relative Lempel-Ziv法 (RLZ法)(2
→ リファレンス配列との差分を取る戦略 

メモリ上でのランダムアクセスをサポート

(2) S. Kuruppu et al., “Relative Lempel-Ziv Compression of Genomes 

for Large-Scale Storage and Retrieval”, SPIRE2010.	
関連研究	
0
5
10
15
20
25
30
gzip bzip2 ppmdi Re-Pair
(CFG)
LZMA
(LZ77)
出芽酵⺟母菌36個体に
対する圧縮率率率[%]
LZ77(窓長制限なし)型や文法(CFG)型の圧縮法が有効
→ 共通した長い部分文字列を捕える性質があるため
	
Re-PairやLZMAの問題点	
1. 入力サイズに比例したメモリ使用量
2. LZMAについては圧縮時間も問題	
ヒトゲノム(約3Gバイト/人)のよう
な大規模データには適用困難	
(※) http://pizzachili.dcc.uchile.cl/repcorpus/statistics.pdfからの引用	
(※)	
リファレンス配列に対して高速検索可能な索引構造

(Suffix/LCP Array)を付加する
リファレンス配列との共通部分(差分)を検索して符号化
(1, 7) (9, 16) 一致長
一致開始位置
ゲノム集合全体をリファレンスとして利用できる

現実的なデータ圧縮は可能か?
圧縮対象ゲノム:	
圧縮率はリファレンス配列の選び方に依存する。
入力文字列を一意に導出する文脈自由文法を構成するデータ圧縮法	
X1	
 X1	
 X1	
X3	
 X3	
X2	
X4	
 X5	
X6	
X1	
 X1	
 X1	
X3	
 X3	
X1	
X7	
 X5	
X8	
ゲノム配列A	
 ゲノム配列B	
木構造(構文木)表現	
木構造表現の

共通ノードを集約	
文法(CFG)表現	
X1 → 	
X2 → 	
X3 → 	
X4 → 	
X5 → 	
X6 → 	
X7 → 	
X8 → 	
X1	
X3	
X2	
X3	
X1	
X4	
X5	
X3	
X1	
X7	
X5	
どのように木構造を作るか、どのように文法表現を符号化(バイナリ化)
するかで様々な種類の圧縮法が存在する。(Re-Pair, Sequitur等)	
圧縮文字列処理	
文法圧縮は圧縮データを復元せずに〇〇することに適している。
e.g., パターン検索、特徴的パターンマイニング、q-gram統計計算、

    ランダムアクセス/部分文字列復元など。	
完全オンライン文法圧縮(Fully-Online Grammar Compression)(3
(3) S. Maruyama, Y. Tabei, H. Sakamoto and K. Sadakane, “Fully-Online Grammar Compression”, SPIRE2013 accepted.	
-  完全オンライン性
-  オンラインで文法変換と符号化を同時
に実行可能な初の文法圧縮
-  低圧縮処理コスト
-  共通部分文字列の検索を行わずに

長い共通部分文字列を集約する

性質を持つ
-  省メモリスペース
-  圧縮データサイズに比例

データが圧縮しやすければしやすいほど、

少ないメモリ領域で動作
-  ランダムアクセス機能をサポート
-  圧縮処理の途中であっても圧縮済みデータ

から任意の部分のみを高速復元可能
次々に生成・追加される冗長データを逐次圧縮しながら高効率で保存する用途に適している。
ユーザー	
 NGS	
圧縮ゲノムDB	
ゲノム配列読み取り
アセンブル処理	
T	
T	
T	
T	
X1 → 	
X2 → 	
X3 → 	
X4 → 	
X5 → 	
X1	
X2	
X3	
 X1	
差分を格納	
 圧縮処理	
圧縮DB(文法)情報を参照
圧縮データサイズ
 圧縮処理時間
 部分文字列復元時間
考察	
-  圧縮サイズ
- Real/Simulation共に高圧縮率を達成。
-  圧縮処理時間
- 大規模データについて現実的な時間で圧縮できることを確認。
- zipやbzip2よりも2-3倍ほど遅いが、実装の工夫により改善可能。
-  部分文字列復元時間
- 0.8μ秒/文字と高速。圧縮データと意識せずに扱うことが可能。
-  エンジニアリングによる圧縮処理の高速化
-  メモリ使用量の改良(固定メモリ動作)
-  データ圧縮による処理の高速化
-  パターン検索
-  類似ゲノム配列計算
-  アノテート付きデータの効率の良い保存
(i)  Preferred  Infrastructure,  Inc.      (ii)  JST  湊離離散構造処理理系プロジェクト
0 50000 100000 150000 200000 250000 300000
020000400006000080000
size (MB)
compressedsize(MB)
FOLCA
bzip2
zip
0 50000 100000 150000 200000 250000 300000
020000400006000080000100000120000140000
size (MB)
compressiontime(sec)
FOLCA
bzip2
zip
-  Real (7人分、合計 約22Gバイト)
-  リファレンスゲノム配列7種
-  Simulation (100人分、合計 約300Gバイト)
-  wgsimを利用してシミュレーションゲノムを生成
-  オリジナルゲノムはhg19
-  シーケンシングエラーは0に設定(違いは変異のみ)
Real	
 Simulation	
 Simulation	
データセット	
比較手法	
-  FOLCA (提案手法)
-  zip (LZ77型)
-  bzip2 (BW変換型)
復復元⻑⾧長	
 FOLCA	
 bzip2	
 zip	
10	
 8.21E-06	
 153.69	
 38.67	
100	
 1.96E-05	
 153.69	
 38.67	
1000	
 3.25E-04	
 153.69	
 38.67	
10000	
 2.00E-03	
 153.69	
 38.67	
100000	
 10.41E-02	
 153.69	
 38.67	
1000000	
 0.50	
 153.69	
 38.67	
10000000	
 2.18	
 153.69	
 38.67	
100000000	
 11.37	
 153.69	
 38.67	
※ bzip2, zipは参考として1個体分(3Gバイト)の

復元時間を記載	
データ⻑⾧長が短くなった
分だけ⾼高速化
圧縮データ上での処理
データサイズが⼤大きいと
全部⾒見見るだけでも⼤大変
生データ上での処理
5000 10000 15000 20000
010002000300040005000
size (MB)
compressedsize(MB)
FOLCA
bzip2
zip

More Related Content

Viewers also liked

Презентация для владельца недвижимости
Презентация для владельца недвижимостиПрезентация для владельца недвижимости
Презентация для владельца недвижимостиMarketing HOUSE
 
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персоналаRHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персоналаYury Stelmakh
 
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420. Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420. TCenter500
 
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...TCenter500
 
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων    παροιμίες-αποφθέγματα για τις γυναίκεςεργασια μαθητων    παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκεςEleni Kots
 
CPM2013-tabei201306
CPM2013-tabei201306CPM2013-tabei201306
CPM2013-tabei201306Yasuo Tabei
 

Viewers also liked (9)

Fff
FffFff
Fff
 
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagorasTasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
 
Презентация для владельца недвижимости
Презентация для владельца недвижимостиПрезентация для владельца недвижимости
Презентация для владельца недвижимости
 
Coquisart jfk2011
Coquisart jfk2011Coquisart jfk2011
Coquisart jfk2011
 
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персоналаRHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
 
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420. Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
 
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
 
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων    παροιμίες-αποφθέγματα για τις γυναίκεςεργασια μαθητων    παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
 
CPM2013-tabei201306
CPM2013-tabei201306CPM2013-tabei201306
CPM2013-tabei201306
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (9)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)

  • 1. 4.   実験結果   3.   提案⼿手法2.   ⽂文法圧縮    (Grammar  Compression) 1.   研究背景 ゲノムデータストレージのための次世代データ圧縮法 丸⼭山  史郎郎(i    ⽥田部井  靖⽣生(ii 5.   今後の予定   同種の個別個別のゲノム配列はとても良く似ている。
 ヒトゲノムの場合は99.9〜99.99%は同じと言われる(1。
 (1) M. Cargill et al., “Characterization of single-nucleotide polymorphisms in 
 coding regions of human genes”, Nature Genetics 22, 231 - 238 (1999). 異なる部分は
 ほんの一部のみ! Mさんのゲノム配列 Tさんのゲノム配列 ゲノム集合に有効なデータ圧縮法 Relative Lempel-Ziv法 (RLZ法)(2 → リファレンス配列との差分を取る戦略 
 メモリ上でのランダムアクセスをサポート
 (2) S. Kuruppu et al., “Relative Lempel-Ziv Compression of Genomes 
 for Large-Scale Storage and Retrieval”, SPIRE2010. 関連研究 0 5 10 15 20 25 30 gzip bzip2 ppmdi Re-Pair (CFG) LZMA (LZ77) 出芽酵⺟母菌36個体に 対する圧縮率率率[%] LZ77(窓長制限なし)型や文法(CFG)型の圧縮法が有効 → 共通した長い部分文字列を捕える性質があるため Re-PairやLZMAの問題点 1. 入力サイズに比例したメモリ使用量 2. LZMAについては圧縮時間も問題 ヒトゲノム(約3Gバイト/人)のよう な大規模データには適用困難 (※) http://pizzachili.dcc.uchile.cl/repcorpus/statistics.pdfからの引用 (※) リファレンス配列に対して高速検索可能な索引構造
 (Suffix/LCP Array)を付加する リファレンス配列との共通部分(差分)を検索して符号化 (1, 7) (9, 16) 一致長 一致開始位置 ゲノム集合全体をリファレンスとして利用できる
 現実的なデータ圧縮は可能か? 圧縮対象ゲノム: 圧縮率はリファレンス配列の選び方に依存する。 入力文字列を一意に導出する文脈自由文法を構成するデータ圧縮法 X1 X1 X1 X3 X3 X2 X4 X5 X6 X1 X1 X1 X3 X3 X1 X7 X5 X8 ゲノム配列A ゲノム配列B 木構造(構文木)表現 木構造表現の
 共通ノードを集約 文法(CFG)表現 X1 → X2 → X3 → X4 → X5 → X6 → X7 → X8 → X1 X3 X2 X3 X1 X4 X5 X3 X1 X7 X5 どのように木構造を作るか、どのように文法表現を符号化(バイナリ化) するかで様々な種類の圧縮法が存在する。(Re-Pair, Sequitur等) 圧縮文字列処理 文法圧縮は圧縮データを復元せずに〇〇することに適している。 e.g., パターン検索、特徴的パターンマイニング、q-gram統計計算、
     ランダムアクセス/部分文字列復元など。 完全オンライン文法圧縮(Fully-Online Grammar Compression)(3 (3) S. Maruyama, Y. Tabei, H. Sakamoto and K. Sadakane, “Fully-Online Grammar Compression”, SPIRE2013 accepted. -  完全オンライン性 -  オンラインで文法変換と符号化を同時 に実行可能な初の文法圧縮 -  低圧縮処理コスト -  共通部分文字列の検索を行わずに
 長い共通部分文字列を集約する
 性質を持つ -  省メモリスペース -  圧縮データサイズに比例
 データが圧縮しやすければしやすいほど、
 少ないメモリ領域で動作 -  ランダムアクセス機能をサポート -  圧縮処理の途中であっても圧縮済みデータ
 から任意の部分のみを高速復元可能 次々に生成・追加される冗長データを逐次圧縮しながら高効率で保存する用途に適している。 ユーザー NGS 圧縮ゲノムDB ゲノム配列読み取り アセンブル処理 T T T T X1 → X2 → X3 → X4 → X5 → X1 X2 X3 X1 差分を格納 圧縮処理 圧縮DB(文法)情報を参照 圧縮データサイズ 圧縮処理時間 部分文字列復元時間 考察 -  圧縮サイズ - Real/Simulation共に高圧縮率を達成。 -  圧縮処理時間 - 大規模データについて現実的な時間で圧縮できることを確認。 - zipやbzip2よりも2-3倍ほど遅いが、実装の工夫により改善可能。 -  部分文字列復元時間 - 0.8μ秒/文字と高速。圧縮データと意識せずに扱うことが可能。 -  エンジニアリングによる圧縮処理の高速化 -  メモリ使用量の改良(固定メモリ動作) -  データ圧縮による処理の高速化 -  パターン検索 -  類似ゲノム配列計算 -  アノテート付きデータの効率の良い保存 (i)  Preferred  Infrastructure,  Inc.      (ii)  JST  湊離離散構造処理理系プロジェクト 0 50000 100000 150000 200000 250000 300000 020000400006000080000 size (MB) compressedsize(MB) FOLCA bzip2 zip 0 50000 100000 150000 200000 250000 300000 020000400006000080000100000120000140000 size (MB) compressiontime(sec) FOLCA bzip2 zip -  Real (7人分、合計 約22Gバイト) -  リファレンスゲノム配列7種 -  Simulation (100人分、合計 約300Gバイト) -  wgsimを利用してシミュレーションゲノムを生成 -  オリジナルゲノムはhg19 -  シーケンシングエラーは0に設定(違いは変異のみ) Real Simulation Simulation データセット 比較手法 -  FOLCA (提案手法) -  zip (LZ77型) -  bzip2 (BW変換型) 復復元⻑⾧長 FOLCA bzip2 zip 10 8.21E-06 153.69 38.67 100 1.96E-05 153.69 38.67 1000 3.25E-04 153.69 38.67 10000 2.00E-03 153.69 38.67 100000 10.41E-02 153.69 38.67 1000000 0.50 153.69 38.67 10000000 2.18 153.69 38.67 100000000 11.37 153.69 38.67 ※ bzip2, zipは参考として1個体分(3Gバイト)の
 復元時間を記載 データ⻑⾧長が短くなった 分だけ⾼高速化 圧縮データ上での処理 データサイズが⼤大きいと 全部⾒見見るだけでも⼤大変 生データ上での処理 5000 10000 15000 20000 010002000300040005000 size (MB) compressedsize(MB) FOLCA bzip2 zip