CV2011-2. Lecture 04. Semantic image segmentation

1,313 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,313
On SlideShare
0
From Embeds
0
Number of Embeds
355
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

CV2011-2. Lecture 04. Semantic image segmentation

  1. 1. Семантическая сегментация и контекст http://courses.graphicon.ru/main/vision2 Many slides adopted from A.Torralba, A. Efros,
  2. 2. Общая информация Этот курсподготовлен ичитается при поддержке
  3. 3. Выделение объектов ЗданиеФлаг Лицо Текст Автобус Автобус Slide credit: Fei-Fei, Fergus & Torralba Slide 3
  4. 4. Уменьшение сложностиСегментация (разделениеизображения) Категоризация (разделение мира на категории)Сырые пиксели изображения Представление (пр. текстура, уменьшенное разрешение) Три пути уменьшения сложности изображения Slide by Alexey Efros
  5. 5. Успехи скользящего окна Машины лица пешеходыSchneiderman & Kanade ‘00 Viola & Jones ‘04 Schneiderman & Kanade ‘00 Скользящее окно – это Dalal & Triggs ‘05 вид сегментации! Ferrari et al ‘07 Slide by Alexey Efros
  6. 6. Ограничения скользящего окна Slide by Alexey Efros
  7. 7. Пространственная поддержка модель• Пространственная поддержка (Spatial Support) – Какие пиксели учитывать?• Алгоритм распознавания – Какие признаки и т.д. учитывать?Вторую задачу решить проще, если решена первая Slide by Alexey Efros
  8. 8. Насколько важна поддержка? Classify Эталонная разметка Сравним подходы Classify Ограничивающий прямоугольник Slide by Alexey Efros
  9. 9. Насколько важна поддержка?База MSRC: 591 картинок 23 класса объектов +Попиксельные маски объектов Slide by Alexey Efros
  10. 10. Насколько важна поддержка? Признаки * Классификатор Boosted Decision Tree*D. Hoiem, A.A. Efros, and M. Hebert Geometric Context from a Single Image ICCV 2005.
  11. 11. Насколько важна поддержка? 0.655 0.765 Для большинства объектов выбор правильной области дляпространственной поддержки повышает качество распознавания
  12. 12. Распознавание и сегментация Небо Строения Автомобиль Автомобиль Переходим от задачи выделения объектов скользящим окном к совместной задаче сегментации и распознавания объектов «Семантическая сегментация»
  13. 13. Общая схема Изображение Границы Сегментация Распознавание Person Car#1 Car#2 Road ... Теория ПрактикаИзображение Края Сегментация Распознавание ? Slide by Alexey Efros
  14. 14. Автоматическая сегментацияКак лучше всего воспользоваться имеющимися методамисегментации? • Просто возьмём и сегментируем изображение – надеемся, что будет несколько хороших сегментов • Пересегментация – Пикселы с поддержкой -- “Суперпиксели” – Более «безопасны», чем крупные сегменты X.Ren, J.Malik Learning a Classification Model for Segmentation. ICCV 03
  15. 15. Стандартная сегментация • Посмотрим, насколько хорошо работают имеющиеся методы сегментацииNormalized Cuts Mean Shift Efficient Graph Based Felzenszwalb & Shi & Malik Comaniciu & Meer Huttenlocher Slide by Alexey Efros
  16. 16. Оценка качества сегментации .825 Сегмент #1Эталон .892 Сегмент t #2 Мера – нормализованное перекрытие в [0,1] Slide by Alexey Efros
  17. 17. Оценка качества сегментации Эталон Mean Shift FH NCuts.659 .567 .841 Slide by Alexey Efros
  18. 18. Оценки Логарифмическая шкала числа сегментовTomasz Malisiewicz, Alexei A. Efros. Improving Spatial Support for Objects via Multiple Segmentations, BMVC 2007 Slide by Alexey Efros
  19. 19. Проблемы сегментацииНи один из вариантов сегментации не дает правильнойпространственной поддержки Суп сегментацийD. Hoiem, A.A. Efros, and M. Hebert, "Automatic Photo Pop-up", ACM SIGGRAPH 2005
  20. 20. Как быть?• Построим много вариантов сегментации• Будем менять параметры методов NCuts (33 segmentations) K = 3,6,9,12,15,18,21,24,27,30,50 image size = 100%, 50%, 37% FH (24 segmentations) sigma = .5, .1,1.5, 2 k = 200, 500, 1000 min_range = 50, 100 Mean Shift (33 segmentations) spatial_band = 5,7,9 range_Band = 1,3,5,7,9,11,13,15,17,19,21 Slide by Alexey Efros
  21. 21. Суп сегментаций ЭталонMean Shift (33) FH (24) NCuts (33) .659.804 .567 .816 .841 .862 Slide by Alexey Efros
  22. 22. Численные оценкиПочему получается неидеально? Slide by Alexey Efros
  23. 23. Взглянем подробнее Эталон Реальная разметка Slide by Alexey Efros
  24. 24. Объединим сегменты• Пронумеруем все пары/троийки/и т.д. соседних сегментов• Это можно сделать быстро, если есть граф смежности Slide by Alexey Efros
  25. 25. Пример Mean Shift FH NCuts .815 .792 .830 Slide by Alexey Efros
  26. 26. Численные результаты Slide by Alexey Efros
  27. 27. Суперпиксели• Верхней границей объединения сегментов будет использование суперпикселей• Возьмём NCuts и K=200 (Ren & Malik 2003)• Рассмотрим все варианты объединения• На практике слишком долго Superpixel Limit .917Superpixel Limit .932 Superpixel Limit .825
  28. 28. Численные результаты Slide by Alexey Efros
  29. 29. Прямоугольные окна• Сравним с «лучшим» прямоугольным окном• На практике получить сложно Rectangular Limit .682Rectangular Limit .909 Rectangular Limit .616
  30. 30. Численные оценки Slide by Alexey Efros
  31. 31. Скользящее окно• Построим «суп сегментов» из скользящих окон, как в VJ• 10 масштабов от 24x24, с шагом 1.25• Часто используется на практике Square .555 Square .495 Square .301 Slide by Alexey Efros
  32. 32. Сравнение Slide by Alexey Efros
  33. 33. Какая сегментация лучше? Slide by Alexey Efros
  34. 34. Какая сегментация лучше? Slide by Alexey Efros
  35. 35. Выводы• Правильная пространственная поддержка важна для распознавания• Несколько сегментаций лучше, чем одна• Mean-Shift лучше FH и NCuts, но комбинация всех лучше всего• Объединение сегментов повышает качество в не зависимости от метода• “Суп сегментов” большой, но не катастрофически большой Slide by Alexey Efros
  36. 36. На пути к разбору изображенияB. C. Russell, A. A. Efros, J. Sivic, W. T. Freeman, and A. Zisserman,Using Multiple Segmentations to Discover Objects and their Extent inImage Collections, CVPR 2008 Slide by Alexey Efros
  37. 37. Задача• Дано: много данных с метками, какой есть объект на изображении.• Найти: множество объектов и их границы• Определение: Объект, это визуальный образ, который часто повторяется Slide by Alexey Efros
  38. 38. Подход Идея #1: Все сегментации плохие, но отдельные сегменты в некоторых сегментациях хорошие [Hoiem et al, 2005]Images Multiple segmentations Cars Buildings Slide by Alexey Efros
  39. 39. Подход Идея #2: Все хорошие сегменты похожи, но каждый плохой сегмент плох по своему [Tolstoy, 1886]Images Multiple segmentations Cars Buildings Slide by Alexey Efros
  40. 40. Схема 1) Посмтроим множество сегментаций для каждого изображения 2) Найдем кластеры похожих сегментов 3) Оценим сегменты по похожести на кластерImages Multiple segmentations Cars Buildings Slide by Alexey Efros
  41. 41. Детали• Каждый сегмент – «документ», объекты(кластеры) – «понятия»• Опишем каждый сегмент мешком слов (гистограммой частот)• С помощью специальных методов (Probabilistic Latent Semantic Analysis) можем выделить кластеры
  42. 42. Качество сегментовКласс машинаКласс машинаБелым показываем KL-дивергенцию Slide by Alexey Efros
  43. 43. База MSRC4,325 images23 object classes Slide by Alexey Efros
  44. 44. База MRSC4,325 images23 object classesLearn 25 topics6 topics shownEach topic shownby top 25segments Slide by Alexey Efros
  45. 45. База LabelMe1,554 imagesCars, buildings,roads, streetscenes Slide by Alexey Efros
  46. 46. База LabelMe1,554 imagesLearn 20 topics4 topics shownEach topicshown by top25 segments Slide by Alexey Efros
  47. 47. База Calteh4 Faces 435 Motorbikes 800 Airplanes 800 Cars (rear) 1155 Background 900 Total: 4090 Slide by Alexey Efros
  48. 48. База Calteh44,090 images4 object classes+ bg imagesLearn 10 topics4 topics shownEach topicshown by top25 segments Slide by Alexey Efros
  49. 49. Идём дальше...
  50. 50. Тест
  51. 51. Тест
  52. 52. Тест
  53. 53. Что изображено на картинках? 1 2
  54. 54. Что изображено на картинках? Chance ~ 1/30000
  55. 55. Кто спрятался? BanksyПусть картинка и бессмыслена, но часть принципов контекставыполняется – слон не торчит из стены, нормального размера и т.д.
  56. 56. Картинка от Joan SteinerЧеловек не может «отключить» контекст, даже когда изображения высокого разрешения и все детали видны. Сложно определить истинную природу объектов, составляющий сцену.
  57. 57. Зачем контекст нужен?• Изменяет интерпретацию объекта (или функцию)• По контексту определяются «внештатные» ситуации
  58. 58. Важность контекстаОбъекты одной формы и вида могут иметь разное назначение Slide by Alexey Efros
  59. 59. История• Когнитивная психология • Palmer 1975 • Biederman 1981 • …• Компьютерное зрение • Noton and Stark (1971) • Hanson and Riseman (1978) • Barrow & Tenenbaum (1978) • Ohta, kanade, Skai (1978) • Haralick (1983) • Strat and Fischler (1991) • Bobick and Pinhanez (1995) • Campbell et al (1997)
  60. 60. «Базовый метод»• Опирается на целый ряд стандартных методов, реализуя неплохой метод семантической сегментации Brian Fulkerson, Andrea Vedaldi, Stefano Soatto. Class Segmentation and Object Localization with Superpixel Neighborhoods, CVPR 2009
  61. 61. Схема методаИзображение Сегментация CRF Распознавание ?• Сегментация изображения на суперпиксели• Вычисление признаков и вероятностная классификация каждого сегмента• Задание CRF (условного случайного поля) на графе смежности на суперпикселях• Вывод в поле с помощью альфа-расширения • Оптимизация «энергии»
  62. 62. Условное случайное поле (СRF)• Случайное поле Y называется Условным случайным полем по X над графом G, если для каждого y выполняется условие Марковости: P( y i | yV {i} , X )  P( yi | y Si , X } где Si – множество соседних вершин к vi в графе G• Из эквивалентности МСП и поля Гиббса: 1 1  U ( Y |X ) T P(Y | X )  e Z• Argmax задача для метрических полей: arg max P(Y | X )  arg min(  ln ( yi | X )   ( yi , y j | X )) Y Y• Все потенциалы глобально обусловлены данными!• Нет правдоподобия, напрямую апостериорные вероятности
  63. 63. CRF для сегментации• Запишем задачу семантической сегментации в виде CRF: arg max P(Y | X )  arg min (  ln ( yi | X )   ( yi , y j | X )) Y Y• Y – разметка суперпикселей• X - признаки• Унарные потенциалы: • Вероятностные выходы классификатора класса объекта по признакам, вычисленным на суперпикселе (с дополнениями)• Парные потенциалы: • Расширенная модель Поттса, т.е. штраф за разные метки, взвешенный пропорционально различию соседних суперпикселей
  64. 64. Шаг 1 – признаки сегмента• Построение словаря визуальных слов • Плотный выбор фрагментов из изображения • Вычисление SIFT дескриптора для каждого фрагмента • Построение словаря кластеризацией k-средних• Квантование всех пикселей изображений из обучающей выборки по словарю
  65. 65. Шаг 2 – унарные потенциалы• Обучение унарный потенциалов • Унарные потенциалы задаются калиброванным классификатором SVM• Построение обучающей выборки для обучения классификатора • Сегментация изображений (MeanShift, QuickShift, TurboPixel) • Вычисление метки класса для сегментов из обучающей выборки изображений • Вычисление «мешка слов» для каждого сегмента• Обучение классификатора • Шкалирование по Платту (Platt-scaling)
  66. 66. Шаг 3• Разметка изображения • Сегментация изображения • Построение УСП (графа смежности) • Вычисление унарного потенциала • Вычисление гистограммы частот слов («мешка слов») • Классификация сегментов • Вычисление парного потенциала где L – длина общей границы, норма – расстояние средних цветов • Вывод в полученном УСП • Альфа-расширение
  67. 67. Результат
  68. 68. Ограничения подхода• В нашей модели мы учитываем только зависимости между соседними сегментами• При этом учитываем только «похожесть»• Можно задать более сложный граф, с большим количеством связей • Но при этом модель получается очень сложной. Трудно обучать, трудно строить вывод.• Поэтому дополнительные зависимости от контекста «прячут» внутрь имеющихся параметров модели• Иногда систему можно провести декомпозицию всей задачи на отдельные части, решать их отдельно, и затем объединить для финального вывода• Сейчас исследуют более сложные модели
  69. 69. Объединение признаков• Построим граф смежности сегментов D• Будем объединять гистограммы частот слов соседних регионов (N=1, N=2)• Обучим классификатор аналогично• Мотивация: • Менее разреженные гистограммы • Больше пространственная поддержка • Должно лучше классифицироваться!
  70. 70. Визуализация• Расширение области «пространственной поддержки» повышает качество
  71. 71. Результаты у авторов
  72. 72. Замечание• “Stuff” vs “Things”• «Субстанции» и «Вещи»• Вещи – четко локализованы в пространстве и имеют характерную форму • Часто хорошо ищутся скользящим окном• Субстанции удобно искать с помощью классификации суперпикселей • «Стандартный» подход
  73. 73. Поиск с контекстом Scene S g Scene gist features• Можем классифицировать сцену по глобальным признакам K. Murphy, A.Torralba, W.Freeman. Using the forest to see the trees: a graphical model relating features, objects and scenes. NIPS 2003
  74. 74. Использование контекста Scene S Ncar P(Ncar | S = street) 0.2 0.15 0.1 0.05 0 01 5 N g P(Ncar | S = park) 0.8 Scene 0.6 gist 0.4 features 0.2 0 0 01 5 5 10 N 15• Оценим количество объектов «машина» в сцене, в зависимости от категории сцены
  75. 75. Использование контекста Scene S Ncar Zcar P(Ncar | S = street) 0.2 0.15 0.1 0.05 01 0 5 N g Scene gist features• Можем обучить вероятность положения «машины» напрямую из признаков изображения• «Неявное» моделирование плана сцены
  76. 76. Использование контекста Обучим детектор машин car Fi p(d | F=1) = N(d | m1, s1) p(d | F=0) = N(d | m0, s0) dcari xcari N=4• x – положение «машины»• d – «надежность» обнаружения
  77. 77. Использование контекста Scene S Ncar Zcar car Fi g Scene dcari xcari gist features M=4• Общая модель обнаружения с контекстом
  78. 78. Результаты
  79. 79. Результаты• «Не верь глазам своим»• Машина вне контекста отвергается
  80. 80. Геометрический контекстD. Hoiem, A.Efros, M.Hebert Putting objects in perspective. IJCV2008
  81. 81. «Опора» объектаИзображение «Земля» Вертикальные Небо стены• Будем рассматривать область под объектом поиска – «опору»• Для этого потребуется семантическая сегментация уличной сцены на «землю», «стены» и «небо»
  82. 82. Геометрический контекст Image World• Калибровка камеры позволяет оценить размеры объекта взависимости от его положения относительно земли и наоборот• Достаточно знать высоту камеры, линию горизонта и угол обзораТочка обзора - линия горизонта, высота камеры
  83. 83. Контекст: камераИсходное изображение Слабая априорная информация о горизонте
  84. 84. Контекст: камераИсходное изображение Слабая априорная информация о горизонте
  85. 85. Контекст: камера Положение и размер Уточнение горизонта объекта
  86. 86. Контекст: камера Ограничения на Горизонт положение и размер объекта
  87. 87. Контекст: камера Положение и размер Уточнение горизонта объекта
  88. 88. Контекст: камера Положение и размер Уточнение горизонта объекта
  89. 89. Использование контекста Image P(surfaces) P(viewpoint)P(object) P(object | P(object | surfaces) viewpoint)
  90. 90. Использование контекста Image P(surfaces) P(viewpoint) P(object | surfaces,P(object) viewpoint)
  91. 91. Взаимодействие частей Объекты Камера Поверхности
  92. 92. Тестовые данные• База LabelMe: 422 images • 923 Cars at least 14 pixels tall • 720 Peds at least 36 pixels tall
  93. 93. Результаты• База LabelMe: 422 images • 923 Cars at least 14 pixels tall • 720 Peds at least 36 pixels tall• Каждый элемент контекста увеличивает точность Пешеходы Машины Детектор объектов из [Murphy-Torralba-Freeman 2003]
  94. 94. Результаты Car: TP / FP Ped: TP / FP Initial: 2 TP / 3 FP Final: 7 TP / 4 FP Local Detector from [Murphy-Torralba-Freeman 2003]
  95. 95. Объекты в контекстеAndrew Rabinovich, Andrea Vedaldi, Carolina Galleguillos, Eric Wiewiora, Serge Belongie, Objects in Context, ICCV2007
  96. 96. Схема методаИзображение Сегментация CRF Распознавание ? arg max P(Y | X )  arg min (  ln ( yi | X )   ( yi , y j | X )) Y YМожем расширить «парные потенциалы»
  97. 97. «Co-occurrence matrix» • Матрица совместного появления объектов • Диагональные элементы – частоты появления объектов в обучающей выборке • Внедиагональные элементы = количество совместных появлений объектов • Φ(ci,cj) можно обучить по этой таблицы
  98. 98. Обучение
  99. 99. Результаты
  100. 100. Поисковые запросы• Воспользуемся поиском для оценки частоты совместного появления объектов
  101. 101. СравнениеСравнение совместной встречаемости объектов,вычисленное через запросы в Google и разметку
  102. 102. Матрицы ошибок
  103. 103. Взаимное положениеРассчитаем ещё вероятность взаимного расположения объектов через bbox и центры
  104. 104. ПримерВыберем несколько стандартных взаимныхрасположений объектов
  105. 105. Расчеты• Три признака – расположение по вертикали, и перекрытие bbox-ов объектов
  106. 106. Матрицы
  107. 107. Результат
  108. 108. Резюме• Развитие методов распознавания идёт по нескольким путям: • Уточнение пространственной поддержки • Учет контекста и взаимодействия объектов • Объеденинении всей информации через единую функцию энергии
  109. 109. На следующей лекции• Сегментация и отслеживание в видео

×