úloha 13

Lokálne obrázkové deskriptory typu SIFT

Marián Labuda

Argumentácia
Problematiku lokálnych obrázkových deskriptorov typu SIFT som si vybral preto, lebo sa týkali mojej
bakalárskej práce, kde som im venoval dostatok priestoru a ich podrobné štúdium bolo potrebné k lepšiemu
pochopeniu problematiky vyhľadávania podobnosti medzi podobnými obrázkami. SIFT je jedna z
najznámejších metód extrakcie a získania lokálnych obrázkových deskriptorov. Využitie lokálnych
obrázkových deskriptorov je napríklad v spomínanom vyhľadávaní podobností medzi obrázkami, prípadne v
robotickom mapovaní, tvorbe panorám, 3D modelov a iných dôležitých uplatneniach. Tento odborný text je
výňatok z mojej bakalárskej práce.

Anotácia

Práca sa zaoberá popisom techniky extrakcie a vizualizácie lokálnych obrázkových deskriptorov typu SIFT.
Na začiatku kapitoly práca stručne popisuje spôsob extrakcie deskriptorov. Následne možnosť porovnávania
dvoch deskriptorov založenom na vektorovej vzdialenosti. V závere je demonštratívna ukážka spôsobu
zobrazenia deskriptorov.

Kľúčové slová
lokálne deskriptory, SIFT, škálový priestor

3 Deskriptory typu SIFT
Deskriptor je vektor popisujúci pixle obrázka, ktorý vznika extrakciou črty. Pre výpočet vzdialenosti
(vzájomnej podobnosti) medzi dvoma deskriptormi sa najčastejšie používa vzájomná korelácia
(cross-correlation) alebo Euklidovská vzdialenosť. Tento výpočet je z hľadiska časovej náročnosti pre
veľa-rozmerne vektory náročný, avšak pre porovnávanie dvoch snímkov nevyhnutný. Porovnávanie
podobnosti obrázkov sa uskutočňuje na základe určitej prahovej hodnoty podobnosti. Pre zníženie
výpočtovej zložitosti sa môžu deskriptory filtrovať, napríklad na základe vymedzenia množstva deskriptorov
určeného plochou zobrazenia. Mnohé metódy generovania čŕt sú náchylne na nepresnosti spojene so
zmenami intenzity a so zmenou afinného zobrazenia. Afinným zobrazením sa rozumie posunutie, rotácia,
zmena mierky, pripadne kombinácie týchto funkcii. Lowe navrhol a neskor ešte podrobnejšie rozpracoval
metódu získania čŕt známu pod názvom SIFT (scale-invariant feature transform), čo sa voľne prekladá ako
škálovo-invariantná transformácia čŕt. Tento prístup transformuje obrázok do početnej kolekcie vektorov
lokálnych čŕt, z ktorých každý je invariantný voči posunutiu, rotácii, skresleniu, zmene mierky, zmene
intenzity osvetlenia ako aj 3D projekcii. Proces získania deskriptorov typu SIFT pozostáva z detekcie
extrémov škaloveho priestoru pomocou rozdielu dvoch Gaussovych funkcii (Difference-of-Gaussians),
lokalizácie kľučovych bodov (keypoint), priradenia orientácie a zo zostavenia vysledneho deskriptora
kľučoveho bodu. Nasledujúce podkapitoly sa venujú algoritmu nájdenia deskriptorov typu SIFT tak, ako ho
navrhol David Lowe.

3.1 Detekcia extrémov škálového priestoru
Pre získanie oblasti, ktoré je možne opakovane priradiť k jednému objektu pod rôznymi uhlami pohľadu, je
za potreby nájsť stabilne kľúčové body skrz všetky škály v škálovom priestore. Lowe uvádza, že jedinou
možnou metódou preskúmania škaloveho priestoru je pomocou Gaussovej funkcie. Škalovy priestor obrazu
je definovaný ako funkcia L(x, y, σ), ktorá vznikne konvolúciou škálovo-mennej Gaussovej funkcie G(x, y,
σ) so vstupným obrázkom I(x, y): L(x, y, σ) = G(x, y, σ) ∗ I(x, y),
1 2 2
− x  y  / 2 2

kde ∗ je konvolúcia v x a y a Gx, y ,= 2
e
2 

Pre získanie stabilných kľučovych bodov v škálovom priestore sa vyberú miesta, kde sa nachadzaju maxima
a minima Difference-of-Gaussians funkcie. Tento výpočet sa dá dosiahnuť pomocou postavenia takzvanej
pyramídy. Medzi každou úrovňou pyramídy sa obrázok prevzorkuje (resample). Tento postup zaručí nájdenie
kľučovych bodov, ktoré sú čiastočne stabilne pre charakteristiku obrázka. Difference-of-Gaussians sa
vypočíta ako rozdiel dvoch Gaussovych funkcii susedných škál, ktoré sa vzájomne líšia multiplikatívnou
konštantou k:
Dx, y , =Gx , y, k−Gx, y , Ix ,y) =Lx ,y ,k −Lx ,y ,.

3.1.1 Detekcia lokálnych extrémov
Lowe ďalej uvádza, že na zistenie lokálneho maxima a minima D(x, y, σ) je potrebne porovnať každý bod
snímky s jeho susedmi v aktuálnej škále a v škále bezprostredne nasledujúcej a predchádzajúcej. Tento bod
sa vyberie len v prípade, že je väčší alebo menši ako všetci jeho susedia. Časová náročnosť tohto výpočtu je
nízka najmä pre skoré odstránenie mnohých bodov už počas niekoľkých krokov.

3.2 Lokalizácia kľúčových bodov
Počas detekcie extrémov nájdeme príliš veľa kľučovych bodov. Niektoré z nich sú nestabilne a je potrebne
ich odstrániť, pretože by neposkytovali dostatočne uspokojivé výsledky. Nestabilné kľúčové body sú tie,
ktoré máju nedostatočný kontrast a z toho dôvodu sú náchylnejšie na šum, alebo sa nachadzaju pozdĺžne
popri hranách.

3.3 Určenie orientácie kľúčového bodu
Každému stabilnému kľúčovému bodu je možne priradiť jednu alebo viac orientácii. Tieto orientácie sú
založené na gradientoch a magnitúdach. Ako prvý sa zostaví histogram pozostávajúci z gradientov a
magnitúd každého pixela v okolí kľučoveho bodu. Histogram sa skladá z 36 košíkov (bins), ktoré pokrývaju
rozsah 360°. Vrcholy (peaks) v histograme odpovedajú dominantným smerom lokálnych gradientov.
Kľučový bod s orientáciou vznikne pomocou výberu najväčšieho gradientu, ktorý je potrebný aj na neskoršie
zaručenie invariancie deskriptoru voči rotácii. V prípade existencie viacerých dominantných gradientov
vznikne viac kľučovych bodov na rovnakom mieste, ale s odlišnou orientáciou. Tento prípad nastáva
približne v 15 % a výrazne spresňuje porovnávanie.

3.4 Lokálny deskriptor typu SIFT
Predchádzajúce operácie priradili každému kľúčovému bodu jeho polohu v obrázku, škálu a orientáciu a
zaručili invarianciu voči týmto vlastnostiam. Konečným krokom získania deskriptora je vypočítanie jeho
zvyšných zložiek. Deskriptor vznikne ako vektor obsahujúci hodnoty všetkých položiek histogramu
orientácii. Prvý krok potrebný na získanie vektora je vytvorenie okna o veľkosti 16×16 pixlov okolo
kľučoveho bodu. Následne sa z neho vytvori okno rozdelene na 4x4 oblasti, z ktorých každá ma 8 košíkov
orientácie Z toho vyplýva, že vektor každého kľučoveho bodu bude mať 128 položiek (4×4×8). Nakoniec sa
vektor črty upraví tak, aby sa znížili rušivé efekty zmeny osvetlenia. Jedným zo spôsobov ako to dosiahnuť
je použitie normalizácie na jednotkovú dĺžku, čim vznikne afínna invariancia na zmenu osvetlenia.

Obrázok 1. Zobrazenie lokálnych deskriptorov typu SIFT v nástroji na zobrazenie
lokálnych deskriptorov.

Zoznam použitej literatúry
LOWE, D. G.: Object recognition from local scale-invariant features. International Conference
on Computer Vision [online]. 1999. S. 1150-1157. [cit. 2. november 2011]. Dostupné z <http://
www.cs.ubc.ca/~lowe/papers/iccv99.pdf>.

LOWE, D. G.: Distinctive image features from scale-invariant keypoints. International Journal
of Computer Vision [online]. Vol. 60. 2004. S. 91-110. [cit. 2. november 2011]. Dostupné
z <http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf>.

LABUDA, Marián. Nástroj pro vizualizaci obrázkových deskriptorů [online]. 2012 [cit. 2012-12-19].
Bakalářská práce. Masarykova univerzita, Fakulta informatiky. Vedoucí práce Vlastislav Dohnal. Dostupné
z: <http://is.muni.cz/th/359322/fi_b/>.

úloha 13

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

úloha 13