More Related Content
PPT
PDF
PDF
Response Summarizer: An Automatic Summarization System of Call Center Convers... PDF
PDF
PDF
PPTX
PDF
Viewers also liked
PDF
PDF
3D Volumetric Data Generation with Generative Adversarial Networks PDF
DQN with Differentiable Memory Architectures PDF
PPTX
PDF
IPAB2017 深層学習を使った新薬の探索から創造へ PDF
Bayesian Dark Knowledge and Matrix Factorization PDF
Generation of 3D-avatar animation from latent representations PDF
PDF
実世界の人工知能@DeNA TechCon 2017 PDF
Similar to Prosym53
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP PPT
Algorithm 速いアルゴリズムを書くための基礎 PDF
PDF
PDF
PDF
PDF
PDF
アルゴリズムのお勉強 アルゴリズムとデータ構造 [素数・文字列探索・簡単なソート] PDF
PFI Christmas seminar 2009 PDF
KEY
Algebraic DP: 動的計画法を書きやすく PDF
KEY
PDF
PDF
Data-Intensive Text Processing with MapReduce ch4 PDF
PDF
PDF
PDF
AtCoder Beginner Contest 009 解説 PDF
More from Preferred Networks
PPTX
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」) PDF
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57 PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」) PDF
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3 PDF
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会 PDF
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2 PDF
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55 PDF
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2 PDF
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co... PDF
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張 PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2 PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2 PDF
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke... PDF
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k... PDF
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」) PDF
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub... PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演 PDF
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50 PDF
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher... PDF
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る Prosym53
- 1.
逆サフィックスリンクを用いた プログラミングシンポジウム
2012/01/06〜08
塩基配列の曖昧検索 Preferred Infrastructure
概要 許容誤差 d が小さい場合は,パターンの近傍を
検索クエリに対し編集距離が一定以下の部分列を検 Suffix Array を用いて列挙する。その際、ある Suffix
索するアルゴリズム(曖昧検索)を実装し、塩基配列 の先頭に別の文字をつけたものの Suffix Array 上で
を曖昧検索するデモを構築した。 の位置を前計算し、インデックスとして保持する。
デモ画面 保持するインデックス
dna4 インデックス
文字数が 4 種である事を用いてビット単位で圧縮し
たインデックス
suffix array インデックス
fm インデックス
「ある Suffix の先頭に(文字列中にあるとは限らな
い)別の一文字をつけた文字列」の Suffix Array 中
での位置を前計算したインデックス
その他最適化
システム全体像 分割が均等になるように最初に分割の幅とそれぞれ
の許容誤差を決めてから再帰処理を行う
文章長を考慮して,パターンの最適な分割幅を調節
する
ノードでの許容誤差を徐々に増やしながら探索する
事で特殊ケースを除き検索を高速化できる.
フロントサーバーがクエリを受けつける。バックサ 実験
ーバーはインデックスを持ち、曖昧検索を行う。
文字列 4 種類(A, G, C, T)に限定し、ヒトの全染色体
問題設定 (約 32 億 5400 万塩基)に対し検索を行う。
文章 T,検索クエリ q、許容誤差 d が与えられたと 実験 1(パターン長一定,許容誤差率を変化)
き、T の部分列で、q との編集距離が d 以下のものを
列挙せよ。
前提知識 1:Suffix Array
文章 T の Suffix 全体をソートして並べたもの
例:T = abracadabra$の場合
実験 2(許容誤差率一定,パターン長を変化)
前提知識 2:分割統治法
配列 T に関する問題を、配列を 2 つに再帰的に分割
し、それぞれの配列に対する小問題として再帰的に問
題を解く。(例:クイックソート)
結果
誤差 20%以内ならば 10000 塩基程度でも 100 秒以
内に全列挙を行う事ができた
許容誤差率に対し指数関数的に検索時間が増加した
今後の展望
複数の生物種の塩基配列での相同検索
アルゴリズム概要 メタゲノム検索
許容誤差 d が大きい場合、パターンを分割し,そ 参考文献
れぞれに対して許容誤差(d-1)/2 の解を再帰的に求
める(鳩の巣原理)。それらのうち全体で d 以下 [1] Myers: A fast bit-vector algorithm for approximate
string matching based on dynamic programming. Journal
のもの返す。 of the ACM, 46(3): 395-415 1999.
逆サフィックスリンクを用いた塩基配列の曖昧検索 1