Детектирование объектов переднего плана в видео

Детектирование объектов
переднего плана в видео
Александр Новиков
Video Group
CS MSU Graphics & Media Lab

CS MSU Graphics & Media Lab (Video Group)
www.compression.ru/video/
Only for
Maxus 
Содержание
 Введение
 Обработка пространственно-временных срезов
 Проверка условий 3D-геометрии сцены
 Распространение пространственной и цветовой
информации
 Использование информации о смене цветов
на областях открытия
 Заключение
2

Only for
Maxus 
Постановка задачи
Задача — выделить объекты переднего плана в видео
Проблемы:
 Движение камеры
 Необходимость сохранения временной целостности
 Изменение внешнего вида объекта во времени
3F. Liu, M. Gleicher, “Learning color and locality cues for moving
object detection and segmentation”, IEEE CVPR, 2009
Кадр последовательности Выделенный объект

Only for
Maxus 
Применения
 Редактирование видео
 Слежение за объектами
 Удаление объектов
 Конвертация 2D видео в 3D
4

Only for
Maxus 
 Обработка пространственно-временных
срезов
5

Only for
Maxus 
Пространственно-
временные срезы (1)
 Пространственно-временные
срезы — это изображения,
получаемые при перемещении
в (x,t) [(y,t)] измерениях
при фиксированном y [x]
 Срезы разделяются на
 — горизонтальные,
фиксирован y=i
 — вертикальные,
фиксирован x=j
6
),(H txiy
),(V tyjx
Ch.-W. Ngo, T.-Ch. Pong, H.-J. Zhang, “Motion Analysis
and Segmentation Through Spatio-Temporal Slices Processing”,
IEEE ToIP, 2003
Горизонтальный срез видео
t

Only for
Maxus 
Пространственно-
временные срезы (2)
Структура
пространственно-
временных срезов
позволяет определить
вид и направление
движения камеры
7
IEEE ToIP, 2003
t

Only for
Maxus 
Идея метода
1) Разбиение видео на участки с однородным
движением камеры и классификация:
 Отсутствие движения
 Панорамирование
 Приближение/отдаление
 Сложное движение
2) Восстановление фона сцены
3) Background subtraction и выделение движущихся
объектов
8
IEEE ToIP, 2003

Only for
Maxus 
Структура среза H в точке представляется
матрицей Г
9
Алгоритм
Локальная структура срезов







ttxt
xtxx
JJ
JJ
Г









wtx
ttt
wtx
txxt
wtx
xxx
ttxx
ttxxttxx
ttxx
,
,
,
2
),(HˆJ
),(Hˆ),(HˆJ
),(HˆJ
t
G
x
G
tx






H)(
Hˆ,
H)(
Hˆ — частные производные срезов,
__сглаженных фильтром Гаусса
w — окно 3x3 с центром в некотором пикселе
IEEE ToIP, 2003

Only for
Maxus 
 Вычисляется локальная ориентация ϕ в окне w
 c — мера того, насколько точно
ϕ оценивает локальную
ориентацию,
с = 1 — точная направленность
Алгоритм
Локальная направленность
10
xxtt
xt
JJ
J2
tan
2
1 1

 
















2
,
2
,
2
0,
2 







otherwise
]1,0[,
)J(J
J4)J(J
2
22



 cc
ttxx
xtttxx
IEEE ToIP, 2003

Only for
Maxus 
Алгоритм
Гистограмма направленностей
 Строится двумерная гистограмма локальных
направленностей
 На кадрах [k,k+N] выделяется доминирующая
траектория {ϕ}, если для них выполняется
11





 
,0
,),(
),ˆ( i x
iytxc
tM 
T
t
tp
Nk
kt
Nk
kt








 ),M(
)(  ),M(max)(
2/2/
ttp 
 

IEEE ToIP, 2003
TN, — константы, в статье 15 и 0.6
 ˆ),( iytx
otherwise

Only for
Maxus 
 Неподвижная камера
 Панорамирование
 Отдаление/приближение
 Иначе — сложное
движение
t
y
ϕ
Алгоритм
Классификация движения камеры
12
],[ aa  
1
),M(
),M(
0
0





t
t
t
t




aa   ,
0a
t
y
ϕ
IEEE ToIP, 2003
2

2

2


2



Only for
Maxus 
Алгоритм
Выделение фона на срезах
 Дискретизация гистограммы
 Выделение на срезах пикселей с движением
близким к основному (LoS — layer of support)
13
]90,45(
]45,25(
]25,5(
]5,5[
)5,25[
)25,45[
)45,90[
7
6
5
4
3
2
1







 

ki t
ik t

 ),M()N(





 

)N(maxargˆ k
k
otherwise
txLoS iy





ˆ
,0
,1
),(

t
y
IEEE ToIP, 2003

Only for
Maxus 
Алгоритм
Восстановление панорамы фона
 Пиксели с LoS = 1 считаются принадлежащими фону
 Для каждого кадра t выбирается сдвиг
где — выбранный для кадра t срез с наибольшим
количеством текстурной информации
14













 1)1()(
)1()(
maxargHˆ
H
iyiy
iyiy
tntn
tCtC
iy
  
x
iyiyiy txLoStxctС ),(),()(   
x
iyiy txLoStn ),()(
iyHˆ
},)1,(Hˆ),(Hˆmed{minarg)( iyiy
xd
tdxtxtd  
IEEE ToIP, 2003

Only for
Maxus 
Алгоритм
Color back-projection
 По LoS для фона инвертированием вычисляется LoS
для переднего плана
 Строится дискретизованная гистограмма C цветов
пикселей со значениями LoS переднего плана = 1
 Передний план F вычисляется по формуле:
15
IEEE ToIP, 2003
),()),(Rˆ)),((Сˆ(
2
1
),F( tXImagetXtXImagetX 
Сˆ
),(Rˆ tX — нормализованная карта разницы |Image-Background|
— нормализованная гистограмма C

Only for
Maxus 
Результаты (1)
Background subtraction
16
IEEE ToIP, 2003

Only for
Maxus 
Color back-projection
17
IEEE ToIP, 2003

Only for
Maxus 
Выводы
Достоинства:
 Скорость работы
 Восстановление фона
Недостатки:
 Отсутствие временной целостности
 Недостаточно точная сегментация
18
IEEE ToIP, 2003

Only for
Maxus 
19

Only for
Maxus 
Схема работы алгоритма
1) Восстановление структуры сцены по движению
2) Оценка движения и глубины
 При фиксированной сегментации оцениваются движение
и области открытия
 Строится карта глубины и карта ошибок геометрии
3) Выделение фона и переднего плана
4) Повторение второго и третьего шагов k (2-3) раз
5) Matting границ выделенных объектов
20
G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao,
“Moving object extraction with a hand-held camera”, IEEE ICCV,
2007

Only for
Maxus 
Алгоритм
Structure From Motion
 Выполняется поиск 3D-feature points
 Для каждого кадра вычисляются матрицы камеры
21
)( tttt
X TXRKu 
ttt
TRK ,, — матрицы камеры для кадра t
t
Xu — проекция 3D-точки X на кадр t
G. Zhang, X. Qin, W. Hua, T.-T. Wong, P.-A. Heng, H. Bao,
“Robust metric reconstruction from challenging video sequences”,
IEEE CVPR, 2007
Вставленные объекты демонстрируют определенную геометрию сцены

Only for
Maxus 
Оценка движения и поиск областей закрытия
выполняется решением задачи минимизации
Алгоритм
Оценка движения (1)
22





1
1
,11,
,
)),(),((minarg
n
t
tttt
od
odEodE
 





t
ifi
tt
Nj
tttttt
DQjisimodE )()],()([),( 1,1,1,1,
)(
),,(),(
1,
1,1,
DQ
jisim
tt
tttt


— условия соответствия данных, гладкости поля motion-
векторов и соответствия 3D-feature points
iN — множество 8 пикселей, соседних с i-м
)(1,
io tt
i
 — индикатор принадлежности пикселя i области открытия
при переходе от кадра t к t+1
)(1,
id tt 
— motion-вектор пикселя i при переходе с кадра t к t+1
2007

Only for
Maxus 
 





t
ifi
tt
Nj
ttt,ttt
DQjisimodE )()],()([),( 1,1,11,
Алгоритм
Условие соответствия данных:
23
1
,0
,0
,
},),(min{
),(
)(
1,
11,
11,
1,
1,
1,



















tt
i
t
i
t
i
tt
i
t
i
t
i
tt
i
o
o
tt
d
tt
d
tt
o
o
o
i
i
im 




21
21
1,
)()(
)()(
)(
ifif
ifif
i
tt
d
tt
tt
d








2007
do  , — константы, в статье 0.5 и 400 соответственно
)(it
i — индикатор принадлежности пикселя i кадра t переднему
плану
)(if t
— цвет пикселя i кадра t
i — пиксель кадра t +1 соответствующий i-тому по dt,t+1

Only for
Maxus 
Условие гладкости поля motion-векторов:
1, tt
iW
Алгоритм
24
1,1,1,1,1,1,
),(),( 
 tt
i
tt
iw
tt
j
tt
io
tt
ss
tt
Wooojijis 
1
121,1,
1,
,0
},)()(min{
),( 







 
 t
j
t
i
t
j
t
is
tttt
tt
s
jdid
ji



— 1, если для пикселя f t(i) нет соответствующего по dt+1,t
///пикселя в f t+1, 0 — иначе
),(1,
jitt
s

 — мера сонаправленности векторов dt,t+1(i) и dt,t+1(j)
s
wos  ,, — балансирующие коэффициенты, 0.1, 0.21 и 0.6 в статье
— ограничение сверху, 4 в статье
2007
 





t
ifi
tt
Nj
ttt,ttt
DQjisimodE )()],()([),( 1,1,11,

Only for
Maxus 
Условие соответствия 3D-feature points:
— проекция 3D-точки X на кадр t
Алгоритм
25
2007
t
Xu
)(X
D
— множество кадров, на которых X имеет
соответствующую feature point
— коэффициент, берется большим, в статье равен 100
  



DX Xff
t
X
t
X
t
X
tt
D
tt
tt
uuudQ
)(,
211,1,
1
)()(


D — множество всех 3D-feature points
 





t
ifi
tt
Nj
ttt,ttt
DQjisimodE )()],()([),( 1,1,11,

Only for
Maxus 
 Трек — последовательность пикселей видео,
связанных по векторам движения
 Связь между пикселями i и i′ разрывается, если:
 Хотя бы один из них отмечен как область открытия
 Ошибка согласованности optical flow
выше некоторого предела (2.0 в статье)
27
Алгоритм
Карта глубины и карта ошибок (1)
)()()( ,11,1,
ididie tttttt
flow
 
2007
Красные стрелки —
motion-векторы
Синим отмечены
пиксели трека
Кадр 1 Кадр 2 Кадр 3

Only for
Maxus 
Алгоритм
Карта глубины и карта ошибок (2)
 Все пиксели трека p от кадра fl до fr должны соответствовать одной
3D-точке Xp
 Xp оценивается минимизацией среднеквадратического отклонения (RMSE)
 Карта глубины для кадров берется из z координат точек треков,
для всех пикселей записывается RMSE в карту ошибок
28
t
px
)( t
p
ttt
p TXRKx 
t
p
tt
p
t
p
t
p Xzyx TR],,[ 



r
lt
t
p
ttt
p
X
Xx
lrp
2
)T(RK
1
1
minarg
t

2007

Only for
Maxus 
 Большое значение ошибки — пиксель находится
на объекте переднего плана
 Проблема — карта ошибок зашумлена на границах
объектов
Алгоритм
29
Кадр
2007
Полученная карта глубины Карта ошибок
Ярче — дальше Ярче — больше

Only for
Maxus 
В случае слежения камеры за объектом строится
неверная карта глубины, и по карте ошибок нельзя
выделить объект
Алгоритм
30
Полученная карта глубины Карта ошибокКадр
Ярче — дальше Ярче — больше
2007

Only for
Maxus 
Алгоритм
3D-warping
Выполняется 3D-warping кадров 2l
соседних кадров на текущий с
использованием карты глубины
Красным отмечены точки, не имеющие проекции
31
Различия между полученными
кадрами и текущим позволяют
выявить движущиеся объекты
2007

Only for
Maxus 
Разделение на фон и передний план выполняется
минимизацией функции энергии по α:
Алгоритм
Сегментация
34
2007
   

n
t fi Nj
t
SS
t
TT
t
B
t
i
jiGiGiLE
1
)),()()(()( 
t
L
t
SG
t
TG
— функция правдоподобия данных
— условие пространственной гладкости
— условие временной гладкости
ST  , — балансирующие коэффициенты
iN — множество 8 соседних с i-м пикселей

Only for
Maxus 
37
Кадр последовательности Выделенный объект переднего плана
2007

Only for
Maxus 
38
2007
Кадр последовательности Выделенный объект переднего плана

Only for
Maxus 
Выводы
 Высокая точность сегментации
 Восстановление фона за объектами
 Очень низкая скорость работы
 Основан на Structure From Motion
39
2007

Only for
Maxus 
 Распространение пространственной
и цветовой информации
40

Only for
Maxus 
41
Идея метода
 Выделить кадры со значительными областями
с движением, отличным от глобального
 Выделить на них двигающиеся части объектов
переднего плана (подобъекты)
 Собрав информацию о цвете и расположении
подобъектов, распространить их во времени
F. Liu, M. Gleicher, “Learning color and locality cues for moving

Only for
Maxus 
Алгоритм
Motion cues
Motion cue – разница между локальным движением
и глобальным смещением камеры
 Оценка движения
 Глобального (ищутся feature points алгоритмом SIFT,
устанавливаются соответствия и строится
преобразование) — mo(x,y)
 Локального (optical flow) — mg(x,y)
 Вычисление motion cues
2
2
),(),(),( yxmyxmyxmc go 

Only for
Maxus 
Алгоритм
Выделение ключевых кадров
Ключевым называется кадр, на котором объект, либо
его часть совершает заметное движение, отличное
от глобального
Критерии:
 Большое количество пикселей с движением, отличным
от глобального
 Их компактное расположение
43
maxSpanyxmcyx  )),(|),Var(( 
  minAreayxmc )),(( 
— константы
,,minAreamaxSpan

Only for
Maxus 
Алгоритм
Выделение движущихся подобъектов (1)
Для каждого кадра строится функция правдоподобия
для произвольного распределения меток “фон”
и “движущийся объект”
На основании информации о цвете:
44
  

},,1{
),ψ(),,1|p(
Mi Nj
jii
i
llMil

 )
)),d((
exp(),ψ(
ji
ll
ll
ji
ji




— множество 8 пикселей, соседних с i-м
),d( ji — разница по цвету между пикселями i и j
il — метка i-го пикселя (-1 — движущийся объект, 1 — фон)
, — константы
iN

Only for
Maxus 
Алгоритм
На основании информации о движении:
45
),(p}),,1,{|p(
},,1{
m i
Mi
ii lmcMilI 



))(exp()|(pm miiii mcllmc 
m — константа
М — количество пикселей в изображении
— множество 8 пикселей, соседних с i-м
il — метка i-го пикселя (-1 — движущийся объект, 1 — фон)
iN

Only for
Maxus 
Алгоритм
 Объединяя информацию о цвете и движении, получим
функцию правдоподобия
 Для каждого ключевого кадра находится набор меток
li, её максимизирующий
 Выделяются подобъекты — движущиеся на конкретном
ключевом кадре части объектов
46
   

Ii Ii Nj
jiii
i
lllmc ),ψ()|(pI)|P(L m
— множество всех меток
— множество всех пикселей кадра
L
I

Only for
Maxus 
Алгоритм
Ключевые кадры и motion cues
Motion cues
Key frames

Only for
Maxus 
Алгоритм
Ключевые кадры и подобъекты
Key frames
Moving sub-objects

Only for
Maxus 
 Функция близости пикселя с цветом
c к цветовой модели
 Функция правдоподобия
сегментации с точки зрения
цветовой модели
 Строится распределение цветов в виде Gaussian Mixture Model (GMM)
Алгоритм
Близость по цвету
49
  nigG if ,,1, 
)(max)(affic cgc j
Gg fj

)))((log(affiexp()|(p cc ciiii cllc 
с — константа
Распределение
цветов объектов

Only for
Maxus 
Алгоритм
Удаление фоновых компонент из GMM
 Из-за ошибок выделения
подобъектов в GMM могли
появиться компоненты gi,
связанные с фоном
 Вычисляется мера близости
компоненты GMM к фону
сцены
 Из GMM исключаются все gi
со значениями близости,
превышающими порог

Only for
Maxus 
 Вводится мера пространственной близости точки к выделенным
подобъектам и пространственная функция правдоподобия сегментации
 Вводится обновлённая функция правдоподобия, и еще раз выполняется
сегментация ключевых кадров
Алгоритм
Пространственная близость
)
2
)()(
exp(max
2
1
)(affi 22s

ji
T
ji
Fj
i
t
xxxx
x



)))((log(affiexp()|(p ss si
t
iii
t
xllx 
s, — константы
F — движущийся объект
)|(logp)|(logp)|(logp)|(logp scm ii
t
sii
t
cii
t
ii
t
lxlclmclf  
cs  , — балансирующие коэффициенты

Only for
Maxus 
Алгоритм
Распространение пространственной
Для каждого ключевого кадра k:
 Распространить пространственную информацию
на кадры k+1, k+2, … следующим образом:
1. Инициализировать пространственную функцию
правдоподобия на кадре t+1 функцией кадра t
2. Выделить движущиеся объекты обновленной функцией
правдоподобия
3. По выделенным объектам обновить пространственную
информацию и функцию правдоподобия кадра t+1
4. Если кадр t+1 ключевой и выделенные на шаге 2 объекты
покрывают выделенные ранее, удалить кадр из ключевых
 Аналогично распространить на кадры k-1, k-2, …

Only for
Maxus 
Кадры последовательности
Результаты сегментации

Only for
Maxus 

Only for
Maxus 
Выводы
 Качество сегментации
 Временная целостность выделенных объектов
 Время работы
 Проблемы при близости объектов к фону по цвету
55

Only for
Maxus 
 Использование информации о смене
цветов на областях открытия
56

Only for
Maxus 
T-Junctions
T-Junction — это фигура из двух отрезков,
формирующих букву T, расположенная на местах
резкой смены градиентов на изображении
57N. Apostoloff, A. W. Fitzgibbon, “Learning spatiotemporal T-
junctions for occlusion detection”, IEEE CVPR, 2005
t
y
Пример выделенных T-Junctions. Заметим, что красные отрезки лежат на фоне
сцены, зеленые — на движущихся объектах

Only for
Maxus 
Алгоритм
Поиск T-Junctions
 Первым шагом выполняется поиск T-Junctions,
которые выступают как индикаторы областей
открытия
 Таким образом получены спаренные пробы
пикселей из переднего плана и фона
58
t
y
N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using
spatiotemporal T-junctions”, BMVC, 2007

Only for
Maxus 
Алгоритм
Использование цветовой информации
По выделенным T-Junctions строятся GMM-модели
 Распределения цветов фона и переднего плана сцены
 Смены цвета на областях открытия
59
Модель областей закрытия: каждый
столбец соответствует одному варианту
смены цвета

Only for
Maxus 
Разделение на фон и передний план происходит
минимизацией для каждого кадра функции энергии:
— условие соответствия модели смены цветов пикселей
///на областях открытия
Алгоритм
Сегментация
60
VWUE 
U — отвечает за близость выделенных объектов по цвету
///к цветовой модели
V — условие пространственной гладкости
W

Only for
Maxus 
61
Кадр последовательности
Сегментация без условия
смены цветов
Сегментация с использованием
всех условий

Only for
Maxus 
62N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using
Исходное видео Результат сегментации

Only for
Maxus 
63
Исходное видео
Результат сегментации

Only for
Maxus 
Выводы
Достоинство:
 Скорость работы
 Интересная идея решения задачи
 Основное движение должно быть горизонтальным
 Проблемы с временной целостностью
64

Only for
Maxus 
65

Only for
Maxus 
Дальнейшие планы (1)
Алгоритм:
1. Оценка движения
2. Построение гистограммы векторов ME
3. Кластеризация гистограммы (Mean-shift)
4. Наибольший кластер — фон, остальные — движущиеся объекты
66
Визуализация гистограммы (высоты соответствуют
количеству векторов с направлением)
Ортогональная проекция гистограммы
(белые – векторы движения фона,
синие – переднего плана)

Only for
Maxus 
67

Only for
Maxus 
Решить проблемы:
 Разбиения на чрезмерно большое количество
кластеров (пространственным объединением
кластеров)
 Отсутствия временной целостности
68

Only for
Maxus 
Литература
1. Ch.-W. Ngo, T.-Ch. Pong, H.-J. Zhang, “Motion Analysis and Segmentation
Through Spatio-Temporal Slices Processing”, IEEETransactions on Image
Processing, vol. 2, 2003
2. G. Zhang, X. Qin, W. Hua, T.-T. Wong, P.-A. Heng, H. Bao, “Robust metric
reconstruction from challenging video sequences”, IEEE CVPR, 2007
3. G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao, “Moving object
extraction with a hand-held camera”, IEEE ICCV, 2007
4. F. Liu, M. Gleicher, “Learning color and locality cues for moving object detection
and segmentation”, IEEE CVPR, 2009
5. N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using spatiotemporal
T-junctions”, BMVC, 2007
6. N. Apostoloff, A. W. Fitzgibbon, “Learning spatiotemporal T-junctions for
occlusion detection”, IEEE CVPR, 2005
7. V. Kolmogorov, R. Zabih, “What energy functions can be minimized via graph
cuts”, IEEE ECCV, 2002
69

Only for
Maxus 
Лаборатория компьютерной
графики и мультимедиа
Видеогруппа — это:
 Выпускники в аспирантурах Англии,
Франции, Швейцарии (в России в МГУ и
ИПМ им. Келдыша)
 Выпускниками защищено 5 диссертаций
 Наиболее популярные в мире сравнения
видеокодеков
 Более 3 миллионов скачанных фильтров
обработки видео
70

Детектирование объектов переднего плана в видео

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Детектирование объектов переднего плана в видео

Similar to Детектирование объектов переднего плана в видео (17)

Детектирование объектов переднего плана в видео