Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bloom filter

9,508 views

Published on

A description of Bloom filter

Published in: Technology, Business
  • Be the first to comment

Bloom filter

  1. 1. よく分かる BloomFilter
  2. 2. BloomFilter って? <ul><li>Bloomさんが1970年に発明したデータ構造 </li></ul><ul><li>データの集合を保持し、登録および既登録チェックが行える </li></ul><ul><li>登録にかかる時間・メモリ効率が共にO(1) </li></ul>
  3. 3. すごいじゃん! <ul><li>でも代償は大きい・・・ </li></ul><ul><li>今そこを詳しく話してもピンと来ないと思うので図を使って説明します </li></ul>
  4. 4. まず集合って? <ul><li>ダブったデータを保持しないデータ構造 </li></ul><ul><li>登録するときにダブるかどうか判定して、ダブるなら登録しない </li></ul><ul><li>普通のデータ構造(配列・線形リスト・木)でも簡単に実現可能 </li></ul>
  5. 5. で、Bloom Filterは? <ul><li>いきなりハッシュ関数やビット列を持ち出すとやる気が削がれるのでイメージ先行で話します </li></ul>
  6. 6. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た
  7. 7. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た
  8. 8. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  9. 9. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  10. 10. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  11. 11. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  12. 12. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  13. 13. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た ガンガン重ね書き!
  14. 14. Bloom Filterは? これらの集合を保持したい ぶ る う む ふ い る た 完成!
  15. 15. どうやって使うの? ぶ る う む ふ い る た 検証対象の上に重ねて使います
  16. 16. どうやって使うの? ぶ る う む ふ い る た 検証対象の上に重ねて使います 検証対象の文字 う る と ら せ ぶ ん
  17. 17. どうやって使うの? 検証対象の文字 う る と ら せ ぶ ん <ul><li>フィルタにすっぽり覆われてしまった文字は登録済み </li></ul><ul><li>(の疑いあり </li></ul><ul><li>下の赤い文字が 1 ピクセルでも見えるなら絶対に未登録 </li></ul>済 済 済 未 済 未 未 ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た
  18. 18. どうやって使うの? 検証対象の文字 う る と ら せ ぶ ん <ul><li>このように既登録・未登録のデータを判定する </li></ul><ul><li>ブルームフィルタが真っ黒なほど誤判定の確率が上がる </li></ul><ul><li>つまり、大量に登録したブルームフィルタほど精度が悪い </li></ul><ul><li>でも、登録済みの物を誤って未登録と見なす事だけはない </li></ul>済 済 済 未 済 未 未 ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た ぶ る う む ふ い る た
  19. 19. その他 <ul><li>ブルームフィルタに割くビット数を増やせば精度が向上 </li></ul><ul><ul><li>使用メモリ量と精度がトレードオフ </li></ul></ul><ul><li>登録済みデータは消せません </li></ul><ul><ul><li>何故ならどこまでがその文字だったのか切り分け出来ないから </li></ul></ul><ul><ul><li>どうしても消したいならフィルタ丸ごと消して再登録 </li></ul></ul><ul><ul><li>全部のピクセルについて登録時に書き込まれた回数をカウントすればデータ削除可能な BloomFilter に </li></ul></ul><ul><ul><ul><li>もちろんメモリ効率は悪くなる </li></ul></ul></ul>
  20. 20. 世の中では… <ul><li>遠い所にデータを保存する場合、データを保存しているかどうか判断する手がかりに使える </li></ul><ul><ul><li>存在しない場合にアクセスしなくなるので HDD やネットワークの負荷を低減させる </li></ul></ul><ul><ul><ul><li>偽陽性が出てもアクセスした時に見つからないだけ </li></ul></ul></ul><ul><li>検証が高速・高メモリ効率なので応用範囲は夢いっぱい </li></ul><ul><li>今回は説明のため文字の情報を例に挙げましたが、実態はハッシュ関数の結果をビットフィールドに論理和で上書きしていくアルゴリズムです </li></ul><ul><li>詳しい実装は世の中にあるソースコードを読んで下さい </li></ul>

×