20100919 computer vision_konushin_lecture03

Классифицируем изображение…

Модель «сумки слов» в анализе текстов
• Представление документа без порядка: частоты слов из
словаря Salton & McGill (1983)

US Presidential Speeches Tag Cloud
http://chir.ag/phernalia/preztags/

Распознавание текстур

• Текстура является повторением набора базовых
элементов или текстонов
• Для стахостических текстур важны сами текстоны, а не их
пространственное расположение

Julesz, 1981; Cula & Dana, 2001; Leung & Malik 2001; Mori, Belongie & Malik, 2001;
Schmid 2001; Varma & Zisserman, 2002, 2003; Lazebnik, Schmid & Ponce, 2003

Распознавание текстур

histogram

Universal texton dictionary

Julesz, 1981; Cula & Dana, 2001; Leung & Malik 2001; Mori, Belongie & Malik, 2001;
Schmid 2001; Varma & Zisserman, 2002, 2003; Lazebnik, Schmid & Ponce, 2003

Сумка слов для распознавания объектов

face, flowers, building
, , g

• Хорошо работает для распознавания изображений

• VideoGoogle

Схема метода «сумки слов»
1. Извлечение особенностей

2. Обучить “визуальный словарь”
у у р

у у р
3. Квантуем особенности по словарю

у у р
3. Квантуем особенности по словарю
4. Описываем картинку частотами «визуальных
визуальных
слов»
5. Классифицируем по этому вектор-признаку
ф ру у р р у


• Регулярная сетка
• Vogel & Schiele, 2003
• Fei-Fei & Perona, 2005
,


,
• Характерные точки
• Csurka et al. 2004
• Sivic et al. 2005


,
• Характерные точки
• Csurka et al. 2004
• Sivic et al. 2005
• Другие методы
• Случайный выбор (Vidal-Naquet & Ullman, 2002)
• Сегменты (Barnard et al. 2003)


Вычисление
В
SIFT Нормализация
[Lowe’99]
области

Найденные области
[Mikojaczyk and Schmid ’02]
02]
[Mata, Chum, Urban & Pajdla, ’02]
[Sivic & Zisserman, ’03]

Slide credit: Josef Sivic


…

Неупорядоченный набор особенностей!

2. Обучение словаря

…


…

Кластеризация



Визуальный
… словарь

Кластеризация


Кластеризация K-cредними
• Минимизируем сумму квадратов Евклидовых
расстояний между точками xi и ближайшими
центрами кластеров mk

D( X , M ) = ∑ ∑ (x − m )
cluster k point i in
i k
2

cluster k
• Алгоритм:
• Случайно инициализируем K центров кластеров
• Повторяем до сходимости:
• Назначаем каждую точку ближайшему центру
• Пересчитываем центр каждого кластера как среднее всх
назначенных точек

От кластеризации к квантизации
• Кластеризация является обычным методов
обучения визуального словаря или «кодовой
книги» (codebook)
• Обучение без учителя
• Центр каждого кластера становится кодовым вектором
Ц
• Словарь можно обучить на отдельной выборке
• Если обучающая выборка достаточно представительна,
представительна
тогда словарь может стать «универсальным»

• К
Квантуем особенности с помощью словаря
б
• Сопоставляем каждый дескриптор ближайшему слову из
словаря
• «Кодовая книга» = «Визуальный словарь»
• «Кодовый вектор» = «Визуальное слово»

Пример словаря

Fei-Fei et al. 2005

Примеры визуальных слов

Sivic et al. 2005

Визуальные словари
• Как выбрать размер словаря?
• Маленький: слова не могут описать все особенности
• Большой: переобучение
• Вычислительная сложность
• Деревья словарей
(Nister & Stewenius, 2006)
• Approximate nearest-neighbour
nearest neighbour
• Хеширование

3. Описание изображения
частоты
ч ы

…..
слова

Классификация изображений

• Как мы будем различать изображение, если
представление изображения в виде сумки слов
б
уже получено?

Классификатор – ближайший сосед

• Назначаем объекту метку ближайшего
прецедента из обучающей выборки

from Duda et al.

Диаграмма вороного для разбиения пространства признаков
на 2 класса Source: D. Lowe

К ближайших соседей
• Для каждой точки найти k ближайших точек из
обучающей выборки
• Метки k точек голосуют за метку
• Работает неплохо при наличии большой обучающей
выборки и хорошей ф
б й функции б
близости
k=5

Source: D. Lowe

Функции сравнения гистограмм

N
• L1 distance D (h1 , h2 ) = ∑ | h1 (i ) − h2 (i ) |
i =1

• χ2 distance
D(h1 , h2 ) = ∑
N
(h1 (i) − h2 (i) ) 2

i =1 h1 (i ) + h2 (i )
• Quadratic d s a ce (c oss b )
Quad a c distance (cross-bin)

D(h1 , h2 ) = ∑ Aij (h1 (i ) − h2 ( j )) 2

i, j

Jan Puzicha, Yossi Rubner, Carlo Tomasi, Joachim M. Buhmann: Empirical Evaluation of
Dissimilarity Measures for Color and Texture. ICCV 1999

Earth Mover’s Distance
• Каждое изображение описывается «подписью» S,
состоящей из набора центров {mi } и весов {wi }
• Центр - это кодовые слова или даже отдельные
особенности (если квантизации не требуется)
• Earth Mover’s Distance:

f ij d (m1i , m2 j )
EMD( S1 , S 2 ) = ∑
i, j f ij
где поток fij - это решение транспортной задачи
(поток)

Y. Rubner, C. Tomasi, and L. Guibas: A Metric for Distributions with Applications to
Image Databases. ICCV 1998

Решающие деревья
• Classification trees
• Двоичное дерево
• Узлы:
• Помечены некоторымр π 0 (x )
предикатом true false
f l
π : X → bool
π 1 (x ) y = +1
• Связи:
С true false
f l
• Помечены
⎧ true ⎫ y = +1 y = −1
⎨ ⎬
• Листья: ⎩ false ⎭
• Помечены ответами из Y

Пример решающего дерева

3 4

2 5 1 4

2 3 5
6
1 7 6 7

Slide by Victor Lempitsky

Переобучение и обрезка дерева

B

A

C D


От дерева к лесу

1. Yali Amit, Donald G
1 Y li A it D ld Geman: Sh
Shape quantization and recognition with randomized t
ti ti d iti ith d i d trees.
Neural Computation, 1997.
2. Leo Breiman: Random forests. Machine Learning, 2001.

Решающий лес - применение


Решающий лес - обучение

function Node = Обучение Вершины( {(x y)} Level)
Обучение_Вершины( {(x,y)}, {
if {y} одинаковые или Level == maxLevel
return Создать_Лист(Распределение y);
{tests} = Создать_N_Случайных_Разбиений({(x,y)},N);
test = Выбрать лучшее разбиение из({tests});
Выбрать_лучшее_разбиение_из({tests});
{(x0,y0)} = {(x,y) | test(x) = 0};
{(x1,y1)} = {(x,y) | test(x) = 1};
LeftChild = Обучение_Вершины( {(x0,y0)}, Level+1);
RightChild = Обучение Вершины( {(x1 y1)} Level+1);
Обучение_Вершины( {(x1,y1)},
return Создать_Вершину(test, LeftChild, RightChild);
}

//Обучение леса
function main() {
{X,Y} = Прочитать_Обучающие_Данные();
for i = 1 to N
{Xi,Yi} Случайное_Подмнжество({X,Y}));
{Xi Yi} = Случайное Подмнжество({X Y}));
TreeRoot_i = Обучение_Вершины({Xi,Yi});
end
}


Решающий лес – свойства

1.
1 Один из самых эффективных алгоритмов классификации
2. Вероятностное распределение на выходе
3. Применим для высоких размерностей пространства
признаков
4. Высокая скорость обучения и тестирования
5. Относительная простота реализации

Caruana, R Ni l
C R., Niculescu-Mizil, A A empirical comparison of
Mi il A.: An ii l i f
supervised learning algorithms, 2006

Добавляем положение
• Расширение «сумки слов»
• Локально-неупорядоченное представление на нескольких уровнях

level 0

Lazebnik, Schmid & Ponce (CVPR 2006)


level 0 level 1



level 0 level 1 level 2


Сортировка результата

• Используем афинно-
инвариантные особенности
• По одной особенности можно
вычислить преобразование
• RANSAC, LO-RANSAC
• Количество инлаеров дает
«качество» модели
• Поднимаем выше изображения,
д р ,
которые дают много инлаеров

Случайные окна для классификации

- случайные окна
й

- нормализация

Признаки –
р
интенсивности
пикселей (цвета)

Raphaël Marée, Pierre Geurts, Justus H. Piater, Louis Wehenkel:
Random Subwindows for Robust Image Classification. CVPR 2005

Возможные тесты

I(p) τ I(p) I(q) + τ
p
p
q

Σp A I(p) τ Σp A I(p) Σ p B I(p) + τ
A
• Интегральные
изображения для
быстрого A B
подсчета

Устойчивость к повороту

• Случайным образом поворачиваем каждое окно
перед нормализацией размера

Результат работы

• Размер выборки = 100.000
• Глубина = максимум
• К
Количество тестов = 1 (“extremely-randomized d i i t
1 (“ t l d i d decision trees”) ”)
• 10 деревьев в лесу
• всего 6 минут на обучение!!!!
• 100 окон (2000 тестов) на классификацию картинки – realtime
• Сравнимая с другими методами точность работы!

Learning realistic human actions from movies

I. Laptev, M. Marszałek, C. Schmid and B. Rozenfeld; "Learning realistic
human actions from movies“ CVPR 2008

Аннотация по сценарию

• Сценарии есть для более 500 фильмов
www.dailyscript.com, www.movie-page.com, www.weeklyscript.com …
d il i t i kl i t

• Субтитры (со временем) есть почти для всех фильмов
• Можем сопоставить на основе этой информации

… subtitles movie script
1172 …
01:20:17,240
01 20 1 240 --> 01 20 20 43
01:20:20,437 RICK
Why weren't you honest with me? Why weren't you honest with me? Why
Why'd you keep your marriage a secret? did you keep your marriage a secret?

1173 01:20:17
01:20:20,640 --> 01:20:23,598 Rick sits down with Ilsa.
01:20:23
lt wasn't my secret, Richard. ILSA
Victor wanted it that way
way.
Oh, it wasn't my secret, Richard.
1174 Victor wanted it that way. Not even
01:20:23,800 --> 01:20:26,189 our closest friends knew about our
marriage.
g
Not even our closest friends …
knew about our marriage.
…

Оценка качества
• Аннотация действий текстом
• Автоматические сопоставление сценария и
видео
• Необходимо проверять соответствие
Пример ошибки

A black car pulls up, t
bl k ll two army
officers get out.
a: - качество сопоставления

Извлечение действий из сценария
• Large variation of action expressions in text:

GetOutCar “… Will gets out of the Chevrolet. …”
действий “… Erin exits her new truck…”

Потенциальн
“…About to sit down, he freezes…”
ая ошибка:

• => Классификация текста с учителем

Набор данных из кино
vies
12 mov
20 different
movvies
d

• Обучить классификатор по автоматической разметке
• Сравнить работы с ручной разметкой

Схем метода

Мешок STIP + многоканальный SVM
[Schuldt 04, Niebles’06 Zhang 07]
[Schuldt’04 Niebles 06, Zhang’07]

Набор S
б STIP-патчей

Histogram of visual words

HOG & HOF Multi-channel
patch SVM
descriptors Classifier

STIP

• Space-time corner detector
[Laptev,
[Laptev IJCV 2005]

• Dense scale sampling (no explicit scale selection)

STIP: Дескриптор
Патчи по окрестностям

Histogram of Histogram
oriented spatial of optical •
grad. (HOG)
d flow (HOF)
Public code available at
www.irisa.fr/vista/actions

3x3x2x4bins HOG 3x3x2x5bins HOF
descriptor descriptor

«Мешок слов»
We use global spatio-temporal grids
In the spatial domain:
p
1x1 (standard BoF)
2x2, o2x2 (50% overlap)
h3x1 (horizontal) v1x3 (vertical)
(horizontal),
3x3
In the temporal domain:
t1 (standard BoF) t2 t3
BoF), t2,

•••

Распознавание в кино

Figure: Example results for action classification trained on the
automatically annotated data We show the key frames for test
data.
movies with the highest confidence values for true/false pos/neg


Note the suggestive FP: hugging or answering the phone
Note th di lt FN: tti
N t the dicult FN getting out of car or handshaking
t f h d h ki


Table: Average precision (AP) for each action class of
our test set. We compare results for clean (annotated)
and automatic training data. We also show results for a
g
random classifier (chance)

20100919 computer vision_konushin_lecture03

20100919 computer vision_konushin_lecture03

Recommended

Recommended

More Related Content

What's hot

What's hot (10)

Viewers also liked

Viewers also liked (8)

Similar to 20100919 computer vision_konushin_lecture03

Similar to 20100919 computer vision_konushin_lecture03 (20)

More from Computer Science Club

More from Computer Science Club (20)

20100919 computer vision_konushin_lecture03