20100919 computer vision_konushin_lecture01

Распознавание изображений

Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik

• Н.с. в Лаборатории компьютерной
графики и мультимедиа ВМК МГУ имим.
М.В. Ломоносова
• И.о. м.н.с. НИИ Нормальной физиологии
РАМН им. П.К. Анохина
• С/к «Компьютерное зрение» (год), ВМК
• С/к «Анализ изображений и видео»
(год), ШАД Яндекс

• Задавать вопросы по ходу можно и
нужно!
!

Задача компьютерного зрения
• Понять, что запечатлено на изображении

Мы видим Компьютер видит

Задача компьютерного зрения

• Понять, что запечатлено на изображении
• Вариант:
• принятие решений о реальных физических объектах и
сценах, основываясь на воспринимаемых изображениях
• Что это в действительности обозначает?
• Зрение - источник семантической информации о мире
• Зрение - источник метрической информации о
трехмерном мире

Семантическая информация

22.12.2010 Slide 5
Slide credit: Fei-Fei, Fergus & Torralba

Классификация сцены
• outdoor
• city
• t ffi
traffic
•…

22.12.2010 Slide 6
slide credit: Fei-Fei, Fergus

Поиск и локализация объектов

sky
building

flag

face
banner
wall
street lamp
bus bus

22.12.2010 cars
Slide credit: Fei-Fei, Fergus & Torralba Slide 7

Качественная информация об объектах

slanted

non-rigid moving
i id i
object

vertical

rigid moving rigid moving
object object
22.12.2010
horizontal Slide 8
slide credit: Fei-Fei, Fergus

Метрическая информация

Multi-view stereo for
Real-time stereo Structure from motion community photo collections
yp

NASA Mars Rover

Pollefeys et al. Goesele et al.

Почему зрение – это сложно?

Точка наблюдения

Michelangelo 1475 1564
Mi h l l 1475-1564

slide credit: Fei-Fei, Fergus & Torralba

Разное освещение

image credit: J. Koenderink

Масштаб


Деформация формы

Xu, Beihong 1943
X B ih


Перекрытие

Magritte, 1957


Внутриклассовая изменчивость


Локальная неоднозначность


Сложности или возможности?
• Изображение запутывает, но дает много подсказок
• Наша задача – интерпретировать подсказки

Image source: J. Koenderin

Цвет

22.12.2010 Slide 21

Тени и освещение

Source: J. Koenderink

Отбрасываемые тени


Группировка: положение

Image credit: Arthus-Bertrand (via

Глубина: линейная перспектива

Упорядочивание по глубине


Глубина: воздушная перспектива

Резюме

• Зрение изначально нечеткая задача
• Разные 3D сцены дают одно и то же 2D изображение
• Необходимы априорные знания о структуре и свойствах мира

Image source: F. D

Начало
• Работы Дэвида Марра, 1970х
• «Primal sketch»
• Низкоуровневые («low-level») свойства изображения:
направленные края, отрезки и т.д.
• «2.5D sketch»
• Упорядочивание по глубине (бинокулярное стерое), учёт
текстуры и т.д.
е с р
• «3D model»
• Распознавание объектов и представление о 3х мерном
мире

Зрение человека

• Д
Данные (D t )
(Data)
• Устройство глаза
• Данные в жизни
• Признаки (Features)
• Low-level vision
Low level
• (?) Стерео, группировка, форма
• Mid-level vision
• Распознавание (Классификация)
• High-level vision

Камера-обскура

Камера-обскура:
• Захватывает пучок лучей, проходящих через одну точку
• Точка называется Центр проекции (фокальная точка / focal
point)
• Изображение формируется на картинной плоскости (Image
plane)
Slide by Steve Seitz

Цифровая камера - дискретизация

Человеческий глаз

cone

rod

Глаз как камера!
• Хрусталик – «линза», меняет форму под действием мышц
ру ф р у
• Зрачок - дырка (апертура), диаметр управляется радужкой
– Радужка – цветная пленка с радиальными мышцами
• М
Матрица - К
Клетки-фоторецепторы на сетчатке
ф


Цветные фотографии??

Что такое цвет?
Цвет – это психологическое свойство нашего зрения,
возникающее при наблюдении объектов и света, а не
физические свойства объектов и света (S Palmer Vision
(S. Palmer,
Science: Photons to Phenomenology)
Цвет – это результат взаимодействия света, сцены и нашей
зрительной системы

Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik

Восприятие цвета
M L
Power

S

Wavelength

Палочки и колбочки (3 вида) – фильтры спектра
• Спектр света умножается на кривую отклика
фоторецептора, производится интегрирование по всем
длинам волн
– Каждая колбочка даёт 1 число

• В: Как же мы можем описать весь спектр 3мя числами?
• О: Мы и не можем! Большая часть информации теряется.
ф р ц р
– Два разных спектра могут быть неотличимы
» Такие спектры называются метамеры

Спектры некоторых объектов

metamers

Slide by S. Lazebnik

Трихроматическая теория
В экспериментах по сопоставлению цвета
большинству людей достаточно 3х основных
цветов, чтобы сопоставить любой цвет
• Основные цвета должны быть независимы
Для одного и того же спектра, и одних и тех же
основных цветов, люди выбирают одинаковые
веса
• Исключения: цветовая слепота
Трихроматическая теория
• Трех чисел оказывается достаточно, чтобы описать цвет
• История восходит к 18у веку (Томас Юнг)


Первые цветные фотографии
Сергей Прокудин-Горский (1863-1944)
Фотографии Российской империи(1909-
р ф р (
1916)

Lantern
projector
http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii
http://www.loc.gov/exhibits/empire/ Slide by А.Efros

Цветное цифровое изображение

Байеровский шаблон

Демозаикинг (оценка
пропущенных
значений цвета)

Source: Steve Seitz

Плотность палочек и колбочек

pigment
cone molecules

rod

Палочки и колбочки распределены неравномерно
• Палочки измеряют яркость, колбочки цвет
• Fovea – маленькая область(1 or 2°) в центре визуального поля с
( ) ц р у
наибольшей плотностью колбочек и без палочек
• На периферии все больше палочек подсоединены к одному нейрону

Что мы на самом деле видим

Адаптация зрительной системы
Чувствительность зрительной системы меняется в
зависимости от доминантной освещенности
наблюдаемой сцены (Баланс белого)
б й (Б б )
• Механизм плохо изучен
Адаптация к разным уровням освещенности
• Размер зрачка регулирует объем света, попадающий на
сетчатку
• Р
Размер резко меняется при входе в здание с ярко
освещенной солнцем улицы
Ц
Цветовая адаптация
• Клетки сетчатки меняю свою чувствительность
• Пример: если доля красного в освещении повышается,
понижается чувствительность клеток, отвечающий за
клеток
красный, пока вид сцены не придет к норме
• Мы лучше адаптируемся при яркой освещенности, при
освещении свечой все остается в желтых тонах

http://www.schorsch.com/kbase/glossary/adaptation.html Slide by S. Lazebnik

Баланс белого
• Когда мы смотрим на фотографию или монитор, глаза
адаптируются к освещению в комнате, а не к освещению сцены на
фотографии
• Если баланс белого неточен, цвета фотографии кажутся
неестественными

incorrect white balance correct white balance

http://www.cambridgeincolour.com/tutorials/white-balance.htm Slide by S. Lazebnik

Постоянство яркости


Постоянство яркости

http://web.mit.edu/persci/people/adelson/checkershadow_illusion.html

Данные - продолжение
• Сколько нам нужно данных для обучения
алгоритмов?
• Сколько есть классов объектов?
• Сколько изображений?
• Что мы про них будем знать?

Сколько всего классов объектов?

1500-3000
1500 3000 основных существительных, ~10 подкатегорий
10 й

Biederman 1987

OBJECTS

ANIMALS PLANTS INANIMATE

NATURAL MAN-MADE
….. VERTEBRATE

MAMMALS BIRDS

TAPIR BOAR GROUSE CAMERA

10 в степени
Число картинок на диске: 104

Число картинок, виденных за 10 лет:
Ч 108
(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)

Число картинок,
виденных всем человечеством: 1020
106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 =
1f
from htt //
http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx
b /A ti l /2002/H M P l H E Li d E th

Число картинок во вселенной: 10243
1081 atoms * 1081 * 1081 =

Число всех картинок 32x32 : 107373
256 32*32*3 ~ 107373

Slide by Antonio Torralba

Доступные данные

Number
of
pictures

1020 Human Click Limit
(all humanity t ki
( ll h it taking
one picture/second
COREL during 100 years)
1015 Lena
a dataset in one picture

1010
2 billion

105

40.000
100

1972 1996 2007 2020? Time

Slide by Antonio Torralba

Крошки-картинки (Tiny images)

A. Torralba, R. Fergus, W. T.
A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset for
non-parametric object and scene recognition IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.

Примеры изображений

Отдельные объекты

Распознавание человеком

80 Million Tiny Images
http://people.csail.mit.edu/torralba/tinyimages/

Поиск по громадной коллекции
SSD метрика для сравнения изображений

DSSD =
2
∑ ( I1 ( x , y , c ) − I 2 ( x , y , c )) 2
x , y ,c

Для ускорения поиска используем индексацию
по первым 19 главным компонентам всей
коллекции 80М изображений

DSSD = ∑ ( v1 ( n ) − v2 ( n )) 2
ˆ2
n

Отдельно расчет, сколько
приблизительных M изображений нужно
выбрать, чтобы найти N 50 точных
б б й N=50
ближайших (график)
Выбираем 16000 по приближенной
р р
метрики, внутри сравниваем точно

Более сложные метрики

Dwarp = min ∑ ( I1 ( x, y , c ) − Tθ I 2 ( x, y , c )) 2
2
p
θ
x , y ,c

Результат улучшенной метрики

Анализ коллекции

Вероятность найти соседа, с Вероятность того, что
корреляцией больше 0.8 или изображения отнесены к
0.9 в зависимости от одной категории в
размера коллекции зависимости от корреляции

Поиск лиц на основе коллекции

Caltech 101 & 256
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
http://www.vision.caltech.edu/Image_Datasets/Caltech256/

Griffin, Holub, Perona,
2007

Fei-Fei, Fergus, Perona, 2004

PASCAL (2005-2009)
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Классы 2008 :
Человек: человек
Животные: птица, кошка, корова, собака, лошадь, оцва
ц , , р , , д , ц
Транспорт: самолет, велосипед, лодка, автобус, машина,
мотоцикл, поезд
Помещения: бутылка кресло, стол, растение в горшке,
бутылка, кресло стол горшке
монитор, диван

The PASCAL Visual Object Classes Challenge
(2005-2009)

• Основные конкурсы
• Классификация: Для каждого из 20 классов, определить
присутствие/отсутствие объекта этого класса в изображении
/ б б
• Поиск: Определить рамку и метку каждого объекта из 20
классов в изображении
р

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

The PASCAL Visual Object Classes Challenge
(2005-2009)

• Новые конкурсы
• Семантическая
сегментация:
попиксельная
аннотация области
объектов и фона
• Человек: Пометить
рамкой и меткой
каждую часть тела
(
(голову, ру , ступни)
у, руки, у )

LabelMe
http://labelme.csail.mit.edu/

Russell, Torralba, Murphy, Freeman, 2008

Mechanical Turk

Workers

Task: Dog?

Broker Answer: Yes
Pay: $0 01
$0.01
Is this a dog?
o Yes www.mturk.com
o No Task
as

$0.01

Life of a Turker
1. Go to mturk.com
2. Find a HIT
3. Accept it
4. Do work
5. Submit work
6. Wait for approval
7. Get paid

Life of a Requester
1. Design the task interface
2. Prepare data
p
3. Publish HITs
4. Wait for assignments
5. Approve(Reject) assignments
6. Post more HITs

Annotation language
• Common annotation types
• Polygons
• Bounding boxes
• Segmentations
• Stick fi
Sti k figure/graphs
/ h
• Recursion

QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.

Require qualification
• Qualification is a test that a worker has to pass to work on the tasks

Please read the detailed instructions to learn how to
perform the task. Please confirm that you understand the
instructions by answering the following questions:

Which of the following checboxes are correct for this
annotation?

No people
(there are people in the image)

> 20 people
(there are more than 20 people of appropriate size)

Small heads
(there are unmarked small heads in the image)

Task: Put a box around every head

Ideal task properties
• Easy cognitive task
Good: Where is the car? (bounding box)
Good: How many cars are there? (3)
Bad: How many cars are there? (132)
• Low amount of input required
Good: few clicks or a couple words
Bad: detailed outlines of all objects (100s of control points)
“Sometimes, Mturk hits requiring many words are not worth the effort to
complete ” From Singapore
complete. From Singapore
• Well-defined task
Good: Locate the corners of the eyes.
Bad: L b l j i t locations (l
B d Label joint l ti (low resolution, close-up i
l ti l images) )
• Concise definition
Good: 1-2 paragraphs, fixed for all tasks
Good: Lots of images
Bad: 300 pages annotation manual
Bad: Similarly-looking, but different tasks

M
ar
20
08
N (I
ov pe

0
10
20
30
40
50
60
70
80
90

20 iro
08 tis
(I )
pe
M iro
ay
tis
20 )
09
Au (R
g os
20 s)
09
N (R
ov os
20 s)
Fe 09
b
Who are the Turkers?

20 (R
10 os
s)
M (I
ay pe
20 iro
10 tis
)
(J
oh
n
Le
)
US
India
US

Other
India
Other

Income level comparison

• Turk pay ~ $2/hr
• Minimum salary in India ~ $6/day
• Maximum work week in India ~ 48 hrs

2*48*48 = $4608 per worker
Average annual earnings in India - $
$1733

20100919 computer vision_konushin_lecture01

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

More from Computer Science Club

More from Computer Science Club (20)

20100919 computer vision_konushin_lecture01