20100919 computer vision_konushin_lecture01

  • 2,132 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
2,132
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
7
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Распознавание изображений Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik
  • 2. • Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имим. М.В. Ломоносова • И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина• С/к «Компьютерное зрение» (год), ВМК• С/к «Анализ изображений и видео» (год), ШАД Яндекс• Задавать вопросы по ходу можно и нужно! !
  • 3. Задача компьютерного зрения• Понять, что запечатлено на изображении Мы видим Компьютер видит
  • 4. Задача компьютерного зрения • Понять, что запечатлено на изображении • Вариант: • принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях • Что это в действительности обозначает? • Зрение - источник семантической информации о мире • Зрение - источник метрической информации о трехмерном мире
  • 5. Семантическая информация22.12.2010 Slide 5 Slide credit: Fei-Fei, Fergus & Torralba
  • 6. Классификация сцены• outdoor• city• t ffi traffic•…22.12.2010 Slide 6 slide credit: Fei-Fei, Fergus
  • 7. Поиск и локализация объектов sky buildingflag face banner wall street lamp bus bus 22.12.2010 cars Slide credit: Fei-Fei, Fergus & Torralba Slide 7
  • 8. Качественная информация об объектах slanted non-rigid moving i id i object vertical rigid moving rigid moving object object22.12.2010 horizontal Slide 8 slide credit: Fei-Fei, Fergus
  • 9. Метрическая информация Multi-view stereo forReal-time stereo Structure from motion community photo collections yp NASA Mars Rover Pollefeys et al. Goesele et al.
  • 10. Почему зрение – это сложно?
  • 11. Точка наблюденияMichelangelo 1475 1564Mi h l l 1475-1564 slide credit: Fei-Fei, Fergus & Torralba
  • 12. Разное освещение image credit: J. Koenderink
  • 13. Масштаб Slide credit: Fei-Fei, Fergus & Torralba
  • 14. Деформация формыXu, Beihong 1943X B ih Slide credit: Fei-Fei, Fergus & Torralba
  • 15. Перекрытие Magritte, 1957 slide credit: Fei-Fei, Fergus & Torralba
  • 16. Маскировка
  • 17. Движение
  • 18. Внутриклассовая изменчивость slide credit: Fei-Fei, Fergus & Torralba
  • 19. Локальная неоднозначность slide credit: Fei-Fei, Fergus & Torralba
  • 20. Сложности или возможности?• Изображение запутывает, но дает много подсказок• Наша задача – интерпретировать подсказки Image source: J. Koenderin
  • 21. Цвет22.12.2010 Slide 21
  • 22. Тени и освещение Source: J. Koenderink
  • 23. Отбрасываемые тени Source: J. Koenderink
  • 24. Группировка: положение Image credit: Arthus-Bertrand (via
  • 25. Глубина: линейная перспектива
  • 26. Текстура
  • 27. Упорядочивание по глубине Source: J. Koenderink
  • 28. Глубина: воздушная перспектива
  • 29. Резюме• Зрение изначально нечеткая задача • Разные 3D сцены дают одно и то же 2D изображение • Необходимы априорные знания о структуре и свойствах мира Image source: F. D
  • 30. Начало• Работы Дэвида Марра, 1970х• «Primal sketch» • Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д.• «2.5D sketch» • Упорядочивание по глубине (бинокулярное стерое), учёт текстуры и т.д. е с р• «3D model» • Распознавание объектов и представление о 3х мерном мире
  • 31. Зрение человека
  • 32. Зрение человека• Д Данные (D t ) (Data) • Устройство глаза • Данные в жизни• Признаки (Features) • Low-level vision Low level• (?) Стерео, группировка, форма • Mid-level vision• Распознавание (Классификация) • High-level vision
  • 33. Камера-обскураКамера-обскура: • Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal point) • Изображение формируется на картинной плоскости (Image plane) Slide by Steve Seitz
  • 34. Цифровая камера - дискретизация
  • 35. Человеческий глаз cone rodГлаз как камера! • Хрусталик – «линза», меняет форму под действием мышц ру ф р у • Зрачок - дырка (апертура), диаметр управляется радужкой – Радужка – цветная пленка с радиальными мышцами • М Матрица - К Клетки-фоторецепторы на сетчатке ф Slide by Steve Seitz
  • 36. Цветные фотографии??
  • 37. Что такое цвет?Цвет – это психологическое свойство нашего зрения, возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Vision (S. Palmer, Science: Photons to Phenomenology)Цвет – это результат взаимодействия света, сцены и нашей зрительной системы Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik
  • 38. Восприятие цвета M L Power S WavelengthПалочки и колбочки (3 вида) – фильтры спектра • Спектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн – Каждая колбочка даёт 1 число • В: Как же мы можем описать весь спектр 3мя числами? • О: Мы и не можем! Большая часть информации теряется. ф р ц р – Два разных спектра могут быть неотличимы » Такие спектры называются метамеры Slide by Steve Seitz
  • 39. Спектры некоторых объектов metamers Slide by S. Lazebnik
  • 40. Трихроматическая теорияВ экспериментах по сопоставлению цвета большинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет • Основные цвета должны быть независимыДля одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса • Исключения: цветовая слепотаТрихроматическая теория • Трех чисел оказывается достаточно, чтобы описать цвет • История восходит к 18у веку (Томас Юнг) Slide by S. Lazebnik
  • 41. Первые цветные фотографииСергей Прокудин-Горский (1863-1944)Фотографии Российской империи(1909- р ф р ( 1916) Lantern projector http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii http://www.loc.gov/exhibits/empire/ Slide by А.Efros
  • 42. Лев Толстой
  • 43. Цветное цифровое изображениеБайеровский шаблон Демозаикинг (оценка пропущенных значений цвета) Source: Steve Seitz
  • 44. «Фишка» глаза
  • 45. Плотность палочек и колбочек pigment cone molecules rodПалочки и колбочки распределены неравномерно • Палочки измеряют яркость, колбочки цвет • Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у наибольшей плотностью колбочек и без палочек • На периферии все больше палочек подсоединены к одному нейрону Slide by Steve Seitz
  • 46. Что мы на самом деле видим
  • 47. Движения глаз
  • 48. Адаптация зрительной системыЧувствительность зрительной системы меняется в зависимости от доминантной освещенности наблюдаемой сцены (Баланс белого) б й (Б б ) • Механизм плохо изученАдаптация к разным уровням освещенности • Размер зрачка регулирует объем света, попадающий на сетчатку • Р Размер резко меняется при входе в здание с ярко освещенной солнцем улицыЦЦветовая адаптация • Клетки сетчатки меняю свою чувствительность • Пример: если доля красного в освещении повышается, понижается чувствительность клеток, отвечающий за клеток красный, пока вид сцены не придет к норме • Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонах http://www.schorsch.com/kbase/glossary/adaptation.html Slide by S. Lazebnik
  • 49. Баланс белого• Когда мы смотрим на фотографию или монитор, глаза адаптируются к освещению в комнате, а не к освещению сцены на фотографии• Если баланс белого неточен, цвета фотографии кажутся неестественными incorrect white balance correct white balance http://www.cambridgeincolour.com/tutorials/white-balance.htm Slide by S. Lazebnik
  • 50. Постоянство яркости Slide by S. Lazebnik
  • 51. Постоянство яркости http://web.mit.edu/persci/people/adelson/checkershadow_illusion.html Slide by S. Lazebnik
  • 52. Данные - продолжение• Сколько нам нужно данных для обучения алгоритмов?• Сколько есть классов объектов?• Сколько изображений? • Что мы про них будем знать?
  • 53. Сколько всего классов объектов? 1500-3000 1500 3000 основных существительных, ~10 подкатегорий 10 й Biederman 1987
  • 54. OBJECTS ANIMALS PLANTS INANIMATE NATURAL MAN-MADE….. VERTEBRATE MAMMALS BIRDS TAPIR BOAR GROUSE CAMERA
  • 55. 10 в степениЧисло картинок на диске: 104Число картинок, виденных за 10 лет:Ч 108(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)Число картинок,виденных всем человечеством: 1020106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 =1f from htt // http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx b /A ti l /2002/H M P l H E Li d E thЧисло картинок во вселенной: 102431081 atoms * 1081 * 1081 =Число всех картинок 32x32 : 107373256 32*32*3 ~ 107373 Slide by Antonio Torralba
  • 56. Доступные данные Number of pictures1020 Human Click Limit (all humanity t ki ( ll h it taking one picture/second COREL during 100 years)1015 Lena a dataset in one picture1010 2 billion105 40.000100 1972 1996 2007 2020? Time Slide by Antonio Torralba
  • 57. Крошки-картинки (Tiny images)A. Torralba, R. Fergus, W. T.A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset fornon-parametric object and scene recognition IEEE Transactions on PatternAnalysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
  • 58. Примеры изображений
  • 59. Примеры изображений
  • 60. Сегментация
  • 61. Отдельные объекты
  • 62. Распознавание человеком
  • 63. 80 Million Tiny Images http://people.csail.mit.edu/torralba/tinyimages/
  • 64. 80 Million Tiny Images
  • 65. Поиск по громадной коллекцииSSD метрика для сравнения изображений DSSD = 2 ∑ ( I1 ( x , y , c ) − I 2 ( x , y , c )) 2 x , y ,cДля ускорения поиска используем индексациюпо первым 19 главным компонентам всейколлекции 80М изображений DSSD = ∑ ( v1 ( n ) − v2 ( n )) 2 ˆ2 nОтдельно расчет, сколькоприблизительных M изображений нужновыбрать, чтобы найти N 50 точных б б й N=50ближайших (график)Выбираем 16000 по приближенной р рметрики, внутри сравниваем точно
  • 66. Более сложные метрики Dwarp = min ∑ ( I1 ( x, y , c ) − Tθ I 2 ( x, y , c )) 2 2 p θ x , y ,c
  • 67. Результат улучшенной метрики
  • 68. Анализ коллекцииВероятность найти соседа, с Вероятность того, чтокорреляцией больше 0.8 или изображения отнесены к0.9 в зависимости от одной категории вразмера коллекции зависимости от корреляции
  • 69. Поиск лиц на основе коллекции
  • 70. Caltech 101 & 256 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ http://www.vision.caltech.edu/Image_Datasets/Caltech256/ Griffin, Holub, Perona, 2007 Fei-Fei, Fergus, Perona, 2004
  • 71. PASCAL (2005-2009) http://pascallin.ecs.soton.ac.uk/challenges/VOC/Классы 2008 :Человек: человекЖивотные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , цТранспорт: самолет, велосипед, лодка, автобус, машина,мотоцикл, поездПомещения: бутылка кресло, стол, растение в горшке, бутылка, кресло стол горшкемонитор, диван
  • 72. The PASCAL Visual Object Classes Challenge(2005-2009)• Основные конкурсы • Классификация: Для каждого из 20 классов, определить присутствие/отсутствие объекта этого класса в изображении / б б • Поиск: Определить рамку и метку каждого объекта из 20 классов в изображении р http://pascallin.ecs.soton.ac.uk/challenges/VOC/
  • 73. The PASCAL Visual Object Classes Challenge (2005-2009)• Новые конкурсы • Семантическая сегментация: попиксельная аннотация области объектов и фона • Человек: Пометить рамкой и меткой каждую часть тела ( (голову, ру , ступни) у, руки, у )
  • 74. LabelMe http://labelme.csail.mit.edu/ Russell, Torralba, Murphy, Freeman, 2008
  • 75. Mechanical Turk Workers Task: Dog? Broker Answer: Yes Pay: $0 01 $0.01Is this a dog? o Yes www.mturk.com o No Task as $0.01
  • 76. Life of a Turker1. Go to mturk.com2. Find a HIT3. Accept it4. Do work5. Submit work6. Wait for approval7. Get paid
  • 77. Life of a Requester1. Design the task interface2. Prepare data p3. Publish HITs4. Wait for assignments5. Approve(Reject) assignments6. Post more HITs
  • 78. Annotation language• Common annotation types • Polygons • Bounding boxes • Segmentations • Stick fi Sti k figure/graphs / h• Recursion QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture.
  • 79. Require qualification• Qualification is a test that a worker has to pass to work on the tasks Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions: Which of the following checboxes are correct for this annotation? No people (there are people in the image) > 20 people (there are more than 20 people of appropriate size) Small heads (there are unmarked small heads in the image) Task: Put a box around every head
  • 80. Ideal task properties• Easy cognitive task Good: Where is the car? (bounding box) Good: How many cars are there? (3) Bad: How many cars are there? (132)• Low amount of input required Good: few clicks or a couple words Bad: detailed outlines of all objects (100s of control points) “Sometimes, Mturk hits requiring many words are not worth the effort to  complete ” From Singapore complete. From Singapore• Well-defined task Good: Locate the corners of the eyes. Bad: L b l j i t locations (l B d Label joint l ti (low resolution, close-up i l ti l images) )• Concise definition Good: 1-2 paragraphs, fixed for all tasks Good: Lots of images Bad: 300 pages annotation manual Bad: Similarly-looking, but different tasks
  • 81. M ar 20 08N (I ov pe 0 10 20 30 40 50 60 70 80 90 20 iro 08 tis (I ) pe M iro ay tis 20 ) 09 Au (R g os 20 s) 09 N (R ov os 20 s)Fe 09 b Who are the Turkers? 20 (R 10 os s)M (I ay pe 20 iro 10 tis ) (J oh n Le ) US India US Other India Other
  • 82. Income level comparison• Turk pay ~ $2/hr• Minimum salary in India ~ $6/day• Maximum work week in India ~ 48 hrs 2*48*48 = $4608 per worker Average annual earnings in India - $ $1733