Submit Search
Upload
ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)
•
1 like
•
1,251 views
S
Shirou Maruyama
Follow
第三回NGS現場の会(2013年9月)で発表したポスター資料です
Read less
Read more
Technology
Report
Share
Report
Share
1 of 1
Recommended
Burtin force vitesse et kinésithérapie JFK2011
Burtin force vitesse et kinésithérapie JFK2011
Pierre Trudelle
PhD Certificate
PhD Certificate
Dr Aly Salama
Fiesta De Las Colectividades
Fiesta De Las Colectividades
dkbariloche
대신리포트_모닝미팅_151016
대신리포트_모닝미팅_151016
DaishinSecurities
How can i configure my email on outlook 2007
How can i configure my email on outlook 2007
Wazafny Shokran
Долгие версты войны
Долгие версты войны
Светлана Агапова
лекция 5
лекция 5
Эльмира Нигматулина
New Kidz Profile
New Kidz Profile
New Kidz
Recommended
Burtin force vitesse et kinésithérapie JFK2011
Burtin force vitesse et kinésithérapie JFK2011
Pierre Trudelle
PhD Certificate
PhD Certificate
Dr Aly Salama
Fiesta De Las Colectividades
Fiesta De Las Colectividades
dkbariloche
대신리포트_모닝미팅_151016
대신리포트_모닝미팅_151016
DaishinSecurities
How can i configure my email on outlook 2007
How can i configure my email on outlook 2007
Wazafny Shokran
Долгие версты войны
Долгие версты войны
Светлана Агапова
лекция 5
лекция 5
Эльмира Нигматулина
New Kidz Profile
New Kidz Profile
New Kidz
Fff
Fff
NickyNicks121
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Rafael Alvarez Alonso
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Marketing HOUSE
Coquisart jfk2011
Coquisart jfk2011
Pierre Trudelle
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Yury Stelmakh
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
TCenter500
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
TCenter500
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
Eleni Kots
CPM2013-tabei201306
CPM2013-tabei201306
Yasuo Tabei
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
More Related Content
Viewers also liked
Fff
Fff
NickyNicks121
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Rafael Alvarez Alonso
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Marketing HOUSE
Coquisart jfk2011
Coquisart jfk2011
Pierre Trudelle
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Yury Stelmakh
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
TCenter500
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
TCenter500
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
Eleni Kots
CPM2013-tabei201306
CPM2013-tabei201306
Yasuo Tabei
Viewers also liked
(9)
Fff
Fff
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Coquisart jfk2011
Coquisart jfk2011
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
CPM2013-tabei201306
CPM2013-tabei201306
Recently uploaded
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
Recently uploaded
(9)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)
1.
4. 実験結果 3.
提案⼿手法2. ⽂文法圧縮 (Grammar Compression) 1. 研究背景 ゲノムデータストレージのための次世代データ圧縮法 丸⼭山 史郎郎(i ⽥田部井 靖⽣生(ii 5. 今後の予定 同種の個別個別のゲノム配列はとても良く似ている。 ヒトゲノムの場合は99.9〜99.99%は同じと言われる(1。 (1) M. Cargill et al., “Characterization of single-nucleotide polymorphisms in coding regions of human genes”, Nature Genetics 22, 231 - 238 (1999). 異なる部分は ほんの一部のみ! Mさんのゲノム配列 Tさんのゲノム配列 ゲノム集合に有効なデータ圧縮法 Relative Lempel-Ziv法 (RLZ法)(2 → リファレンス配列との差分を取る戦略 メモリ上でのランダムアクセスをサポート (2) S. Kuruppu et al., “Relative Lempel-Ziv Compression of Genomes for Large-Scale Storage and Retrieval”, SPIRE2010. 関連研究 0 5 10 15 20 25 30 gzip bzip2 ppmdi Re-Pair (CFG) LZMA (LZ77) 出芽酵⺟母菌36個体に 対する圧縮率率率[%] LZ77(窓長制限なし)型や文法(CFG)型の圧縮法が有効 → 共通した長い部分文字列を捕える性質があるため Re-PairやLZMAの問題点 1. 入力サイズに比例したメモリ使用量 2. LZMAについては圧縮時間も問題 ヒトゲノム(約3Gバイト/人)のよう な大規模データには適用困難 (※) http://pizzachili.dcc.uchile.cl/repcorpus/statistics.pdfからの引用 (※) リファレンス配列に対して高速検索可能な索引構造 (Suffix/LCP Array)を付加する リファレンス配列との共通部分(差分)を検索して符号化 (1, 7) (9, 16) 一致長 一致開始位置 ゲノム集合全体をリファレンスとして利用できる 現実的なデータ圧縮は可能か? 圧縮対象ゲノム: 圧縮率はリファレンス配列の選び方に依存する。 入力文字列を一意に導出する文脈自由文法を構成するデータ圧縮法 X1 X1 X1 X3 X3 X2 X4 X5 X6 X1 X1 X1 X3 X3 X1 X7 X5 X8 ゲノム配列A ゲノム配列B 木構造(構文木)表現 木構造表現の 共通ノードを集約 文法(CFG)表現 X1 → X2 → X3 → X4 → X5 → X6 → X7 → X8 → X1 X3 X2 X3 X1 X4 X5 X3 X1 X7 X5 どのように木構造を作るか、どのように文法表現を符号化(バイナリ化) するかで様々な種類の圧縮法が存在する。(Re-Pair, Sequitur等) 圧縮文字列処理 文法圧縮は圧縮データを復元せずに〇〇することに適している。 e.g., パターン検索、特徴的パターンマイニング、q-gram統計計算、 ランダムアクセス/部分文字列復元など。 完全オンライン文法圧縮(Fully-Online Grammar Compression)(3 (3) S. Maruyama, Y. Tabei, H. Sakamoto and K. Sadakane, “Fully-Online Grammar Compression”, SPIRE2013 accepted. - 完全オンライン性 - オンラインで文法変換と符号化を同時 に実行可能な初の文法圧縮 - 低圧縮処理コスト - 共通部分文字列の検索を行わずに 長い共通部分文字列を集約する 性質を持つ - 省メモリスペース - 圧縮データサイズに比例 データが圧縮しやすければしやすいほど、 少ないメモリ領域で動作 - ランダムアクセス機能をサポート - 圧縮処理の途中であっても圧縮済みデータ から任意の部分のみを高速復元可能 次々に生成・追加される冗長データを逐次圧縮しながら高効率で保存する用途に適している。 ユーザー NGS 圧縮ゲノムDB ゲノム配列読み取り アセンブル処理 T T T T X1 → X2 → X3 → X4 → X5 → X1 X2 X3 X1 差分を格納 圧縮処理 圧縮DB(文法)情報を参照 圧縮データサイズ 圧縮処理時間 部分文字列復元時間 考察 - 圧縮サイズ - Real/Simulation共に高圧縮率を達成。 - 圧縮処理時間 - 大規模データについて現実的な時間で圧縮できることを確認。 - zipやbzip2よりも2-3倍ほど遅いが、実装の工夫により改善可能。 - 部分文字列復元時間 - 0.8μ秒/文字と高速。圧縮データと意識せずに扱うことが可能。 - エンジニアリングによる圧縮処理の高速化 - メモリ使用量の改良(固定メモリ動作) - データ圧縮による処理の高速化 - パターン検索 - 類似ゲノム配列計算 - アノテート付きデータの効率の良い保存 (i) Preferred Infrastructure, Inc. (ii) JST 湊離離散構造処理理系プロジェクト 0 50000 100000 150000 200000 250000 300000 020000400006000080000 size (MB) compressedsize(MB) FOLCA bzip2 zip 0 50000 100000 150000 200000 250000 300000 020000400006000080000100000120000140000 size (MB) compressiontime(sec) FOLCA bzip2 zip - Real (7人分、合計 約22Gバイト) - リファレンスゲノム配列7種 - Simulation (100人分、合計 約300Gバイト) - wgsimを利用してシミュレーションゲノムを生成 - オリジナルゲノムはhg19 - シーケンシングエラーは0に設定(違いは変異のみ) Real Simulation Simulation データセット 比較手法 - FOLCA (提案手法) - zip (LZ77型) - bzip2 (BW変換型) 復復元⻑⾧長 FOLCA bzip2 zip 10 8.21E-06 153.69 38.67 100 1.96E-05 153.69 38.67 1000 3.25E-04 153.69 38.67 10000 2.00E-03 153.69 38.67 100000 10.41E-02 153.69 38.67 1000000 0.50 153.69 38.67 10000000 2.18 153.69 38.67 100000000 11.37 153.69 38.67 ※ bzip2, zipは参考として1個体分(3Gバイト)の 復元時間を記載 データ⻑⾧長が短くなった 分だけ⾼高速化 圧縮データ上での処理 データサイズが⼤大きいと 全部⾒見見るだけでも⼤大変 生データ上での処理 5000 10000 15000 20000 010002000300040005000 size (MB) compressedsize(MB) FOLCA bzip2 zip