Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
Rによるデータサイエンス:12章「時系列」
Nagi Teramo
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
Rで計量時系列分析~CRANパッケージ総ざらい~
Takashi J OZAKI
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
Hiroshi Nakagawa
1
of
31
Top clipped slide
Ibisml2011 06-20
Dec. 6, 2011
•
0 likes
1 likes
×
Be the first to like this
Show More
•
894 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Report
Technology
Business
Yasuo Tabei
Follow
Researcher, Software Developer at Japan Science and Technology Agency
Advertisement
Advertisement
Advertisement
Recommended
LCA and RMQ ~簡潔もあるよ!~
Yuma Inoue
10.7K views
•
34 slides
第8章 ガウス過程回帰による異常検知
Chika Inoshita
4.6K views
•
40 slides
プログラミングコンテストでのデータ構造 2 ~動的木編~
Takuya Akiba
45K views
•
30 slides
プログラミングコンテストでの動的計画法
Takuya Akiba
89K views
•
59 slides
論文紹介:The wavelet matrix
Yuki Igarashi
1.9K views
•
69 slides
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
sleepy_yoshi
12.2K views
•
87 slides
More Related Content
Slideshows for you
(19)
Rによるデータサイエンス:12章「時系列」
Nagi Teramo
•
26.1K views
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
•
14.1K views
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
•
15.5K views
Rで計量時系列分析~CRANパッケージ総ざらい~
Takashi J OZAKI
•
58.4K views
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
•
11.2K views
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
•
131.3K views
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
•
17.3K views
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
Hiroshi Nakagawa
•
10.2K views
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
sleepy_yoshi
•
4.4K views
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
•
1.3K views
Rパッケージ“KFAS”を使った時系列データの解析方法
Hiroki Itô
•
19.6K views
演習発表 Sari v.1.2
Lutfiana Ariestien
•
383 views
Binary indexed tree
HCPC: 北海道大学競技プログラミングサークル
•
13.9K views
はじめてのパターン認識 第6章 後半
Prunus 1350
•
7.4K views
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
•
2.5K views
PRML 6.1章 カーネル法と双対表現
hagino 3000
•
4.9K views
クラシックな機械学習の入門 3. 線形回帰および識別
Hiroshi Nakagawa
•
11.2K views
Clustering _ishii_2014__ch10
Kota Mori
•
1.8K views
パターン認識と機械学習6章(カーネル法)
Yukara Ikemiya
•
29.3K views
Viewers also liked
(20)
DCC2014 - Fully Online Grammar Compression in Constant Space
Yasuo Tabei
•
1.1K views
Sketch sort sugiyamalab-20101026 - public
Yasuo Tabei
•
632 views
Gwt presen alsip-20111201
Yasuo Tabei
•
631 views
Sketch sort ochadai20101015-public
Yasuo Tabei
•
1.4K views
GIW2013
Yasuo Tabei
•
1.1K views
Kdd2015reading-tabei
Yasuo Tabei
•
1.1K views
Mlab2012 tabei 20120806
Yasuo Tabei
•
2.8K views
Dmss2011 public
Yasuo Tabei
•
588 views
Lp Boost
Yasuo Tabei
•
3.5K views
SPIRE2013-tabei20131009
Yasuo Tabei
•
4.9K views
CPM2013-tabei201306
Yasuo Tabei
•
4.5K views
WABI2012-SuccinctMultibitTree
Yasuo Tabei
•
4.3K views
Gwt sdm public
Yasuo Tabei
•
2.6K views
Lgm saarbrucken
Yasuo Tabei
•
1.2K views
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
Yasuo Tabei
•
8.3K views
Scalable Partial Least Squares Regression on Grammar-Compressed Data Matrices
Yasuo Tabei
•
4.4K views
Lgm pakdd2011 public
Yasuo Tabei
•
995 views
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
•
9.3K views
ウェーブレット木の世界
Preferred Networks
•
54.2K views
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
•
46.6K views
Advertisement
Similar to Ibisml2011 06-20
(20)
RMQ クエリ処理
HCPC: 北海道大学競技プログラミングサークル
•
4.1K views
Ruby科学データ処理ツールの開発 NArrayとPwrake
Masahiro Tanaka
•
8.7K views
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
•
6.4K views
形式手法とalloyの紹介
Daisuke Tanaka
•
7.5K views
プログラミングコンテストでのデータ構造
Takuya Akiba
•
103.2K views
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
Toru Tamaki
•
22 views
Rで実験計画法 前編
itoyan110
•
28.9K views
Jokyo20130218
y-kobayashi
•
4.7K views
textsearch_jaで全文検索
Akio Ishida
•
3.1K views
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
Haruka Ozaki
•
2.2K views
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
•
2.6K views
充足可能性問題のいろいろ
Hiroshi Yamashita
•
6.8K views
R language definition3.1_3.2
Yoshiteru Kamiyama
•
907 views
実践QBVH
Shuichi Hayashi
•
9.6K views
Cvim tutorial2 03_06_wk77_110220-0546
Wataru Kishimoto
•
1.1K views
NArray and scientific computing with Ruby - RubyKaigi2010
Masahiro Tanaka
•
2.4K views
文字列曖昧検索によるマルウェアバイナリ解析
Preferred Networks
•
4.6K views
200604material ozaki
RCCSRENKEI
•
341 views
10分で分かるr言語入門ver2.9 14 0920
Nobuaki Oshiro
•
3.4K views
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
•
5.9K views
Recently uploaded
(20)
ペンタエリスリトール市場.pdf
HinaMiyazu
•
3 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
7 views
JSTQB_テストマネジメントとレビュープロセス.pdf
akipii Oga
•
160 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
•
24 views
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
415 views
Kubernetes超入門
Takashi Suzuki
•
5 views
ChatGPT + LlamaIndex 0 .6 による チャットボット の実装
Takanari Tokuwa
•
45 views
社内ソフトスキルを考える
infinite_loop
•
82 views
AIEXPO_CDLE名古屋紹介
KotaMiyano
•
3 views
JSONEncoderで詰まった話
とん とんぼ
•
65 views
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
54 views
触感に関わる共感覚的表現と基本6感情の対応関係の検証
Matsushita Laboratory
•
12 views
Windows ChatGPT Bing AI.pptx
Atomu Hidaka
•
6 views
ヘッドレス化したbaserCMS5とその機能
Ryuji Egashira
•
10 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
統計学の攻略_推測統計学の考え方.pdf
akipii Oga
•
191 views
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
766 views
オレオレになりがちなテスト計画を見直した話
terahide
•
34 views
☀️【卡尔顿大学毕业证成绩单留学生首选】
15sad
•
2 views
PCベース制御による集中制御.pdf
ssusercd9928
•
19 views
Advertisement
Ibisml2011 06-20
2011年6月20日 第五回情報論的学習理論と機械学習研究会 (IBISML)
ウェーブレット木による バイナリコードの高速検索 田部井 靖生, 津田 宏治 科学技術振興機構, 産業技術総合研究所 1
発表の流れ • 背景
近傍検索法の必要性 • 本発表で用いるデータ構造 ウェーブレット木 • バイナリコードの検索(提案法) 幾何制約を取り入れたウェーブレット 木による検索 • 実験 既存手法との比較 (転置インデックス) 8000万画像 2
ε-近傍検索 • クエリデータ点の距離ε以内の点をデータ ベースから検索する
入力: n データベース点 {xi }n i=1 d , クエリデータ点 xq d , 距離閾値ε 出力:クエリデータ点 xq から距離ε以内の データベース点 3
近傍検索の必要性 • あらゆる手法のもととなるタスク
例) semi-supervised learning, spectral clustering, ROI detection in images, etc • 2つの研究の方向性 1. 空間分割による索引に基づく検索法 cover tree(ICML,06), spill tree(NIPS05) etc 高次元データに対しては有効ではない(NIPS,09) 2. locality sensitive codeを用いた検索法 コンパクトにデータを保持することが可能 エラーと速度のトレードオフをコントロールす ることが困難 4
手法の概要 • 幾何制約を取り入れたlocality sensitive
codeの高速検索 エラー制御 Shift-invariant kernel based hashing (NIPS,09) • ウェーブレット木(SODA,03)による索引 two dimensional range searchに幾何制約を取り入 れる 探索空間の枝刈り 5
発表の流れ • 背景
近傍検索法の必要性 • 本発表で用いるデータ構造 ウェーブレット木 • バイナリコードの検索法(提案法) 幾何制約を取り入れたウェーブレッ ト木による検索 • 実験 8000万画像 6
ウェーブレット木 (SODA,03) • 整数配列のself-index
A 1 3 6 8 2 5 7 1 2 7 4 5 • 高速な配列上の操作 連続した区間内の値cの出現回数 値cのi番目の出現位置 連続した区間内の最大値,最小値,k番目に大きい値, 出現位置 etc • 区間の長さに関して定数時間, 約nlogsビット のメモリ(n:配列長,s:整数の最大値) • 2次元Arange intersection: ms の範囲内で, n個の区間で共通す mi t る要素を求める 7
配列上のRange Intersection • 長さNの配列
A, 1 Ai M i j k " A 1 3 6 8 2 5 7 1 2 7 4 5 • Range Intersection: rint(A,[i,j],[k,l]) A[i,j]とA[k,l]の共通要素を求める ナイーブ法=2つの区間を連結してソート • 配列のインデックス(ウェーブレット木)を使 い, 高速に解く 8
部分配列上の木: 下半分:左の子 上半分:右の子
[1,8] 1 3 6 8 2 5 7 1 7 2 4 5 [1,4] [5,8] 1 3 2 1 2 4 6 8 5 7 7 5 [1,2] [3,4] [5,6] [7,8] 1 2 1 2 3 4 6 5 5 8 7 7 1 1 2 2 3 4 5 5 6 7 7 8 9
それぞれの要素が下半分(0) または上半分(1)かを記憶
[1,8] 0 0 1 1 0 1 1 0 1 0 0 1 [1,4] [5,8] 0 1 0 0 0 1 0 1 0 1 1 0 [1,2] [3,4] [5,6] [7,8] 0 1 0 1 0 1 1 0 0 1 0 0 1 2 3 4 5 6 7 8 10
ランク辞書によりビット
配列をインデックス • 定数時間でランク操作が可能 rankc (B, i) : B[1..i] のc {0, 1} の個数を返す • 代表的な手法: rank9sel (Vigna,08) ✴ 例) B=0110011100 i 1 2 3 4 5 6 7 8 9 10 rank1 (B, 8) = 5 011001110 0 rank0 (B, 5) = 3 011001110 0 11
ランク辞書の実装
• 長さnのビット配列 B を 長さ B = log2 n の大ブロックに 分割 RL RL:大ブロックの1の個数 RS • R のそれぞれのブロック L を長さ s = log2 n/2 の小ブ ロックに分割 Rs:小ブロックの1の個数 rank1 (B, i) = RL [i/ ] + Rs [i/s] + (remaining rank) • 時間:O(1) メモリ:n+o(n) bits 12
区間の定数時間分割 • ランク操作により, 区間の分割は定数時
間で行うことができる 左の子: rank0, 右の子: rank1 • ナイーブ法: 全区間の要素の総和に線形時間 [1,8] Aroot 1 3 6 8 2 5 7 1 7 2 4 5 rank0 rank1 [1,4] [5,8] Aleft 1 3 2 1 2 4 Aright 6 8 5 7 7 5 13
枝刈りによるrange intersection
の高速計算 Pruned [1,8] 1 3 6 8 2 5 7 1 7 2 4 5 [1,4] [5,8] 1 3 2 1 2 4 6 8 5 7 7 5 [1,2] [3,4] [5,6] [6,8] 1 2 1 2 3 4 6 5 5 8 7 7 1 1 2 2 3 4 5 5 6 7 7 8 solution!! 14
Two dimensional range
intersection • 長さNの配列 A, 1 Ai M i j k " A 1 3 6 8 2 5 7 1 2 7 4 5 • Two dimensional range intersection: trint(A,[i,j],[k,l],[ms,mt]) A[i,j]とA[k,l]の共通要素をms Ai mtの範囲内 で求める 探索空間の枝刈りが可能 15
Two dimensional range
intersection 2 A[i] 3 Pruned// [1,8] 1 3 6 8 2 5 7 1 7 2 4 5 [1,4] [5,8] 1 3 2 1 2 4 6 8 5 7 7 5 [1,2] [3,4] [5,6] [6,8] 1 2 1 2 3 4 6 5 5 8 7 7 1 1 2 2 3 4 5 5 6 7 7 8 solu3on!!/ 16
発表の流れ • 背景
近傍検索法の必要性 • 本発表で用いるデータ構造 ウェーブレット木 • バイナリコードの検索(提案法) 幾何制約を取り入れたウェーブレッ ト木による検索 • 実験 8000万画像 17
バイナリコードの類似度検索 xi=(1.2,-0.9,2,3,4,...)
• ベクトルデータ Xi=100011... • バイナリコード(SIHK) 10 00 11... • ブロック分割 1-10, 2-00, 3-11,... • Bag-of-words表現 • Semi-conjunctive query クエリQに対して, 少なくともkワードを共有す るデータXiをデータベースからすべて求める |Xi Q| k 18
Shift-invariant kernel based
hashing (NIPS,09) • ベクトルデータ x d をバイナリs {0, 1}へ射影 s = sign(cos(r x + ) + ) T r d N (0, ) :正規分布 からのランダムベクトル , : 一様分布U[-1,1], U[0,2π]からの乱数 • 2つのベルトルx,yの (x) = 2 cos(rT x + ) の内積の期 待値 Er, [ (x) (y)] がtransition invariant kernel k(x,y)=k(x-y)の近似(Rahimi and Recht,07) • L回繰り返してバイナリコード(文字列)へ射影 • 元の空間のユーグリッド距離を文字列のハミン グ距離で保つ • データのコンパクトな表現 19
転置インデックス,配列,ウェーブレット木 ワード
識別子 • データベースを転置インデック 1-00 1,3,6,8 に格納 1-01 2,5,7 • すべての行を連結し, 配列に格納 1-10 2,7 • ウェーブレット木により 1-11 4,5 配列を索引付ける 2-00 2,6,8 • Semi-conjunctive query = Extension of range intersection A 1 3 6 8 2 5 7 2 7 4 5 26 8 6 配列中少なくともk回現れる 識別子を発見する ウェーブレット木 20
幾何制約
• クエリーqに対して, 距離ε 以内の点は, 第一主成分の座 h6 標hiもε以内 q h4 h5 ε is = min{i|hq hi } ie = min{i|hi hq + } h3 hq h2 h1 • is i ieかつ |Xi Q| k を満たすiをすべて求める hq hi hq + (Extension of two dimensional range intersecion) 21
2種類のエラー • I*:クエリqに対して, 距離ε以内の
データベース中の点xiの集合 I = {i| (xi , q) , is i ie } • I: クエリQに対して, k個のワードを共有 するデータベース中の点Xiの集合 I = {i||Xi Q| k, is i ie } • False positive rate: Fp = |I I |/|I| • False negative rate: Fn = |I I|/|I | 22
False negative rateの上限 •
False negative rateは以下のように抑え ることができる b Fn 1 p0 (1 k p0 ) b k p0 = (1 p) k=0 • pは近傍に対する非衝突確率の上限 8 1 exp( 2 /2) p= 2 m=0 4m2 1 • False negative rateをできるだけ小さく するようにパラメータを決定できる 23
時間とメモリ • クエリあたりの検索時間: O(τb)
τ:たどったノード数 b:ブロックの個数(L/l) • メモリ:(1+α)Nlogn+MlogN ビット N: すべてのワードの個数 M:配列中の最大整数 n:データ点の数 • 転置インデックスのメモリ:Nlognビット • 転置インデックスと比較して約60%のオー バーヘッド 24
発表の流れ • 背景
近傍検索法の必要性 • 本発表で用いるデータ構造 ウェーブレット木 • バイナリコードの検索(提案法) 幾何制約を取り入れたウェーブレット 木による検索 • 実験 既存手法との比較 (転置インデックス) 8000万画像 25
実験 • Tiny image
dataset (Torralba et al., 08) 約8000万データ, 386次元 • 500万データを用いて, 従来法 (転置インデックス) と比較 コード長 L=128,256,1024ビット ブロック長 =1,4,16 距離の閾値ε 0.01,から0.5の値 ブロックマッチの個数の閾値kは, false negative rateの上限が0.001にできるだけ近く なるように決める • false negative rate一定のもとで, false positive rateと速度の変化をみる 26
27
コード長L=256, ブロック長=4, 距離の閾値ε=0.1の検索時間
202秒 7秒 28
メモリ
28G 29
構築時間
4h 30
まとめ • 高速かつメモリー効率の良いバイナリ コードの検索法 •
第一主成分による制約を入れてsemi- conjunctive queryを効率的に解く • ウェーブレット木による索引 • バイナリコードへの変換は shift-invariant kernel based hashing を用いる • 8000万画像にも適応可能 31
Advertisement