Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Методы сопоставления видео

1,297 views

Published on

Published in: Technology
  • Be the first to comment

Методы сопоставления видео

  1. 1. Методы сопоставления видео Глазистов Иван CS MSU Graphics & Media Lab (Video Group)
  2. 2. Оглавление  Введение  Где используются методы сопоставления видео?  Основные подходы к описанию видео  Алгоритмы сопоставления  Заключение, планы 2 CS MSU Graphics & Media Lab (Video Group)
  3. 3. Где используются методы сопоставления видео?  Поиск дубликатов в базе фильмов  Генерация сценариев для быстрого просмотра  Поиск фрагментов в базе 3 CS MSU Graphics & Media Lab (Video Group)
  4. 4. Оглавление  Введение  Алгоритмы сопоставления  Алгоритм GMLabVideoGroup  Сопоставление строк  Иерархический метод  Поиск оптимального сопоставления в графе  Заключение, планы 5 CS MSU Graphics & Media Lab (Video Group)
  5. 5. Алгоритм GMLabVideoGroup Основные этапы: 1. Описание видео: a. Разбиение видео на сцены b. Построение дерева сцен 2. Сравнение фильмов 6 CS MSU Graphics & Media Lab (Video Group)
  6. 6. Алгоритм GMLabVideoGroup Разбиение на сцены 1. Каждый кадр описываемой последовательности разбивается на блоки 32x32 пиксела 2. Для каждого блока строится гистограмма распределения яркости Н ( x, y, t )  {hk ( x, y), k  1, m}, где ( x, y)  координата блока в кадре, m  64  колличество уровней яркости в гистограмме. 7 CS MSU Graphics & Media Lab (Video Group)
  7. 7. Алгоритм GMLabVideoGroup Разбиение на сцены 3. Вычисляется мера разности соседних кадров dH ( x, y, t  1)  {hk ( x, y, t  1)  hk ( x, y, t ), k  1, m}, Diff (t  1)   S (G(dH (t  1))), где G()  низкочастотный фильтр, S ( H )  m x, y  hk . k 1 H (t ) : H (t  1) : dH (t  1) : G(dH (t  1)) : CS MSU Graphics & Media Lab (Video Group)
  8. 8. Алгоритм GMLabVideoGroup Разбиение на сцены 4. Для более устойчивой работы в условиях стабильно высоких разностей кадров массив обрабатывается высокочастотным фильтром: F  {1,1,1,1,8,1,1,1,1}. 5. Определение смен сцены: Если F ( Diff (ti ))  Th, тогда ti  положение смены сцены. Th  некоторый порог. При построении дерева учитываются только разности, 9 удовлетворяющие этому условию. CS MSU Graphics & Media Lab (Video Group)
  9. 9. Алгоритм GMLabVideoGroup Построение дерева сцен 9000000 8000000 7000000 difference 6000000 1. Находится максимальное 5000000 4000000 3000000 2000000 значение в массиве 1000000 0 -1000000 0 20 40 60 80 100 frames разностей 2. Строится вершина дерева pos = 38 diff = 1,12 3. Для правой и левой частей массива применяется п.1 CS MSU Graphics & Media Lab (Video Group)
  10. 10. Алгоритм GMLabVideoGroup Сравнение фильмов Основные этапы: 1. Позиционирование короткого фильма более длинном 2. Построение оценки разности 3. Выбор наилучшего сопоставления 4. Построение дерева наилучшего кандидата 5. Обратный поиск 6. Усреднение оценок прямого и обратного поиска 11 CS MSU Graphics & Media Lab (Video Group)
  11. 11. Сравнение фильмов Позиционирование 1. Позиционирование короткого фильма более длинном D1 D a) Выбирается доминирующая смена сцены D2 D3 b) Составляется вектор сцен кандидатов (обход в ширину) D4 D5 D6 D7 Если D  Di  Th, то сцена помечается как кандидат c) Для каждой сцены кандидата координаты смен сцен сопоставляются и выполняется п.2 12 CS MSU Graphics & Media Lab (Video Group)
  12. 12. Сравнение фильмов Оценка разности D D’ D’’ 2. Построение оценки разности a) Находится смещение дочерней по отношению к доминирующей смены сцены(D’) в длинном фильме b) Производится поиск близких по координате и силе смен сцены, начиная D1 D’ с корня c) Выбирается лучший кандидат по следующей мере: D2 D3 Diff ( D' , Di )  ( D' Di ) 2   (t 'ti ) 2 , где t '  предположительное положение D’. D4 D5 D6 D7 ti  положение   коэффициент, выравнивающий влияние положения и силы вершины кандидата 13 CS MSU Graphics & Media Lab (Video Group)
  13. 13. Сравнение фильмов Оценка разности D D’ D’’ d) Та же самая процедура повторяется для всех вершин короткого фильма, глубина которых <5 e) Если не найдено близких вершин полагаем, что искомая вершина лежит на границе Found nothing SD_difference Pos_threshold f) Если найдено <3 вершин, то полагаем, что поиск неуспешен SD_threshold g) Вычисляем разность: D’ t’ Diff ( D, D1 )   Diff ( D'k , Dik ). Position k 14 CS MSU Graphics & Media Lab (Video Group)
  14. 14. Сравнение фильмов Обратный поиск 3. Выбор наилучшего сопоставления 4. Построение дерева наилучшего кандидата a) «Разбор» дерева длинного фильма b) Получения массива смен сцены c) Построение поддерева 5. Обратный поиск 6. Усреднение оценок прямого и обратного поиска Оценка разности окончательно: Diff (Vi ,V j )  (min ( Diff ( D, Dk ))  min (CrossDiff ( D1 , D's ))) / 2. k s 15 CS MSU Graphics & Media Lab (Video Group)
  15. 15. Алгоритм GMLabVideoGroup Характеристики алгоритма Время построения индекса: O(l ), l  длина фильма. Скорость поиска: O(m log( m)), m  max( p, q), p, q  колличества сцен в сравниваемых фрагментах Ограничения: Корректно работает только с достаточно большими видео, не справляется с перемонтированным видео 16 CS MSU Graphics & Media Lab (Video Group)
  16. 16. Алгоритм GMLabVideoGroup Результаты Алгоритм тестировался на базе из ~900 фильмов, разбитых на 5 групп. Размер групп фильмов и их описаний Размер группы Размер индекса Размер после Номер группы (Mb) (Mb) сжатия (Mb) 1 7170 4,6 0,86 2 870 1,0 0,18 3 2690 0,9 0,18 4 3050 2,5 0,43 5 480 0,74 0,05 Объединенная 13900 9,74 1,7 группа 17 CS MSU Graphics & Media Lab (Video Group)
  17. 17. Алгоритм GMLabVideoGroup Результаты Group 2 1 0.9 0.8 0.7 Precision 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall 18 CS MSU Graphics & Media Lab (Video Group)
  18. 18. Алгоритм GMLabVideoGroup Результаты Group 3 1 0.9 0.8 0.7 Precision 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall 19 CS MSU Graphics & Media Lab (Video Group)
  19. 19. Алгоритм GMLabVideoGroup Результаты Group 4 1 0.9 0.8 0.7 Precision 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall 20 CS MSU Graphics & Media Lab (Video Group)
  20. 20. Алгоритм GMLabVideoGroup Результаты United Group 1 0.9 0.8 0.7 Precision 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 Recall 21 CS MSU Graphics & Media Lab (Video Group)
  21. 21. Оглавление  Введение  Алгоритмы сопоставления  Алгоритм GMLabVideoGroup  Сопоставление строк  Иерархический метод  Поиск оптимального сопоставления в графе  Заключение, планы 22 CS MSU Graphics & Media Lab (Video Group)
  22. 22. Сопоставление строк Основная идея: Представить видеопоследовательность в виде строки символов и свести задачу сопоставления видео к задаче сопоставления строк Основная проблема: Грамотный выбор весовой функции для сопоставления строк "Detection of video sequences using compact signatures ", 23 T.C. Hoad and J. Zobel, ACM Transactions on Information Systems (TOIS), 24(1):1-50, January 2006. CS MSU Graphics & Media Lab (Video Group)
  23. 23. Сопоставление строк Предложено четыре метода: 1. Представление фильма в виде массива длин сцен 2. Видео - массив покадровых изменений яркости 3. Сохранение длины вектора глобального движения от кадра к кадру 4. Комбинированный метод У всех методов есть общая часть – алгоритм сопоставления строк "Detection of video sequences using compact signatures ", 24 T.C. Hoad and J. Zobel, ACM Transactions on Information Systems (TOIS), 24(1):1-50, January 2006. CS MSU Graphics & Media Lab (Video Group)
  24. 24. Сопоставление строк Стратегия поиска sip k  Вычисление меры сходства: string1 siq n Sim(Vq ,V p )  max ( Sc( s , s ik )) q p string2 i k i 1 На каждом шаге алгоритма окно поиска сдвигается на 1 кадр 25 CS MSU Graphics & Media Lab (Video Group)
  25. 25. Сопоставление строк Весовая функция sip k  Обозначение:   k ( s iq  s p ), j string1 1. Бинарная весовая функция siq string2 20, s  s ik q p Sc( siq , s ipk )   i ,   5, иначе  2. Линейная весовая функция 3 Sc( siq , s ipk )  20   ,  2 3. Categorical scoring  13,   0  8,   1,2  Sc( si , s ik )   q p  3  3,4   7,   4  26 CS MSU Graphics & Media Lab (Video Group)
  26. 26. Сопоставление строк Весовая функция sip k  Обозначение:   k ( s iq  s p ), j string1 4. Кубическая весовая функция siq string2 20  (  10) 3 Sc( siq , s ipk )   , 50 5. Mean-weighted scoring 2(2   ) n Sc( s , s ik )  mq   s qi . q p i , mq i 1 27 CS MSU Graphics & Media Lab (Video Group)
  27. 27. Сопоставление строк Длина сцены Алгоритм: 1. Построение для каждого кадра 48-уровневой гистограммы распределения яркости 2. Сравнение гистограмм: dH (t  1)  {hk (t  1)  hk (t ), k  1, m}, m Diff (t  1)  S (dH (t  1))   | hk (t  1)  hk (t ) |. k 1 3. Применение адаптивного порога (не описан) 4. Получение описание фильма вектором длин сцен "Detection of video sequences using compact signatures ", 28 T.C. Hoad and J. Zobel, ACM Transactions on Information Systems (TOIS), 24(1):1-50, January 2006. CS MSU Graphics & Media Lab (Video Group)
  28. 28. Сопоставление строк Длина сцены  Недостатки: a) «Грубое сопоставление» фрагментов b) Применимо только достаточно «длинных» фильмов c) Более чувствителен к ошибкам детектора сцен, чем GMLabVideoGroup  Достоинства: a) Стабильная работа с искаженным видео b) Короткое описание фильма (~5kb/h) c) Быстрый поиск (O( p(q  p))) 29 "Detection of video sequences using compact signatures ", T.C. Hoad and J. Zobel, ACM Transactions on Information Systems (TOIS), 24(1):1-50, January 2006. CS MSU Graphics & Media Lab (Video Group)
  29. 29. Сопоставление строк Изменения яркости (Color-shift Signature) Алгоритм:  Строится гистограмма распределния яркости для каждого кадра  Сохраняется разность гистограмм соседних кадров "Detection of video sequences using compact signatures ", T.C. Hoad and J. Zobel, ACM Transactions on Information 30 CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
  30. 30. Сопоставление строк Информация о движении (Centroid Signature) 2. Информация о движении  Находятся средние координаты 5% самых светлых/темных пикселов  Сохраняется евклидова разность векторов соседних кадров "Detection of video sequences using compact signatures ", T.C. Hoad and J. Zobel, ACM Transactions on Information 31 CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
  31. 31. Сопоставление строк Комбинированный метод "Detection of video sequences using compact signatures ", T.C. Hoad and J. Zobel, ACM Transactions on Information CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
  32. 32. Сопоставление строк Методы покадрового описания видео  Недостатки: a) Чувствительность к искажениям видео b) Длинное описание фильма c) Медленный поиск  Достоинства: a) Возможность поиска коротких фрагментов b) Достоверность поиска 33 CS MSU Graphics & Media Lab (Video Group)
  33. 33. Сопоставление строк Результаты Тестовый набор: База данных: 170 минут (1,9 Gb) broadcast-видео. Работа проверялась на 18 запросах, имеющих в базе много дубликатов 1. Тестирование весовых функций 34 CS MSU Graphics & Media Lab (Video Group)
  34. 34. Сопоставление строк Результаты 2. Тестирование indecision-points 35 CS MSU Graphics & Media Lab (Video Group)
  35. 35. Оглавление  Введение  Алгоритмы сопоставления  Алгоритм GMLabVideoGroup  Сопоставление строк  Иерархический метод  Поиск оптимального сопоставления в графе  Заключение, планы 36 CS MSU Graphics & Media Lab (Video Group)
  36. 36. Иерархический метод Выбор Построение Разбиение на Запрос сцены ключевых глобальных кадров характеристик Построение Уточненный Результат локальных Сужение поиска поиск характеристик Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo 37 “Practical Elimination of Near-Duplicates from Web Video Search” ACM International Conference on Multimedia, Sep. 2007 CS MSU Graphics & Media Lab (Video Group)
  37. 37. Иерархический метод Построение глобальных характеристик 1 n VS  ( s1 , s2 ,..., sm ), si   hij , n j 1 m R(Vi | V j )  d (VS i ,VS j )   (x k 1 k  yk ) 2 . Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo Practical Elimination of Near-Duplicates from Web Video Search 38 ACM International Conference on Multimedia, Sep. 2007 CS MSU Graphics & Media Lab (Video Group)
  38. 38. Иерархический метод Уточненный поиск Va – фильм-запрос, n – длина фильма в базе, Va – фильм из базы, df – разность длин двух видео, w – размер окна поиска. Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo Practical Elimination of Near-Duplicates from Web Video Search 40 ACM International Conference on Multimedia, Sep. 2007 CS MSU Graphics & Media Lab (Video Group)
  39. 39. Иерархический метод Тестирование  Размер базы 12970 фильмов  База построена на основе 24 YouTube-запросов  При тестировании для каждого фильма-запроса строились графики Recall/Precision для разных значений порога сходства фильмов Precision – процент неправильно определенных пар. Recall – процент определенных правильно фильмов от общего колличества похожих фильмов в группе в группе Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo Practical Elimination of Near-Duplicates from Web Video Search 41 ACM International Conference on Multimedia, Sep. 2007 CS MSU Graphics & Media Lab (Video Group)
  40. 40. Иерархический метод Выводы  Недостатки: a) Нестабильность при работе с искаженным видео b) Может искать только близкие по длине фрагменты c) Медленный поиск  Достоинства: a) В теории может искать незначительно перемонтированные фрагменты Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo 42 Practical Elimination of Near-Duplicates from Web Video Search ACM International Conference on Multimedia, Sep. 2007 CS MSU Graphics & Media Lab (Video Group)
  41. 41. Оглавление  Введение  Алгоритмы сопоставления  Алгоритм GMLabVideoGroup  Сопоставление строк  Иерархический метод  Поиск оптимального сопоставления в графе  Заключение, планы 43 CS MSU Graphics & Media Lab (Video Group)
  42. 42. Поиск оптимального сопоставления в графе Алгоритм: 1. Разбиение на сцены 2. Выделение ключевых кадров на основе анализа движения 3. Для каждого ключевого кадра строится гистограмма распределения яркости «Clip-based Similarity Measure 44 for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA CS MSU Graphics & Media Lab (Video Group)
  43. 43. Поиск оптимального сопоставления в графе 4. Строится мера сходства сцен: 1 ˆ Sim( si , s j )  { ( si , s j )   ( si , s j )} 2  (si , s j )  max Intersect (rip , rjq ), p {1, 2,..},q {1, 2,..} ˆ  ( si , s j )  второе по величине значение этого максимума 5. Строится двудольный граф сопоставления двух фильмов X  {x1 , x2 ,.., x p }, Y  { y1 , y2 ,.., yq }  описания двух фильмов G( X , Y , E )  двудольный граф, E  {( xi , y j ) | Sim( xi , y j )  Th} «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA 45 CS MSU Graphics & Media Lab (Video Group)
  44. 44. Поиск оптимального сопоставления в графе 6. Выделение однозначного двудольного подграфа 1) M  {} 2) Если перебраны все вершины X ,то в M содержется искомый граф 3) Пусть xi  X - ещѐ не рассмотренная вершина X . Тогда A  {xi }, B  {}  два разных множества. 4) Пусть N ( A) Y  множество вершин, в которые можно попасть из вершин в A. Если N ( A)  B, то помечаем вершину x i как обработанную и переходим на п.2, иначе на п.5. 5) Находим вершину y j  N ( A) B. «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA 46 CS MSU Graphics & Media Lab (Video Group)
  45. 45. Поиск оптимального сопоставления в графе 6) Если ( z, y j )  M , то A  A  {z}, B  B { y j } и переходим на п.4, иначе на п.7 7) M  M  P( xi , y j ) , отмечаем xi и переходим на п.2. X1 Y1 X1 Y1 X1 Y1 X2 Y2 X2 Y2 X2 Y2 X3 Y3 X3 X3 Y3 Y3 A={X1,X3} B={Y2} N(A)={Y2,Y3} 47 CS MSU Graphics & Media Lab (Video Group)
  46. 46. Алгоритм Optimal Matching 7. Построение оптимального графа 1) Инициализация меток вершин l ( xi )  max( wij ), i  1, p; l ( y j )  0, j  1, q 2) Построение максимального графа Gl  ( X , Y , E ), E  {( xi , y j ) | l ( xi )  l ( y j )  wij } И однозначного графа M на основе Gl 3) Если M содержит все вершины X , то оптимальный граф построен, иначе на п.4 4) Выбираем xi  X , xi  M , A  {xi }, B  {} 48 «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA CS MSU Graphics & Media Lab (Video Group)
  47. 47. Алгоритм Optimal Matching 5) Если NGl ( A)  B, то идем на п.9, иначе на п.6 6) Находим y j  NGl ( A) B. 7) Если ( z, y j )  M , то A  A  {z}, B  B { y j } и переходим на п.5, иначе на п.8 8) M  M  P( xi , y j ) и переходим на п.3. 9) Вычисляем a  min xi A, y j NGl {l ( xi )  l ( y j )  wij }, l (v)  a, v  A  lˆ(v)  l (v)  a, v  B, вычисляем на основе lˆ Glˆ , Elˆ .  l (v), иначе  10) l  lˆ, G  G . Переход на п.6. lˆ l «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, 49 CS MSU Graphics & Media Lab (Video Group) October 15–16, 2004, New York, New York, USA
  48. 48. Построение меры сходства фильмов 8. Построение меры сходства 1) Оценка на основе суммы весов ребер графа: SimOM ( XY )  w ij , p 2) Учет порядка сцен  0, i  0 or j  0  C[ p, q] C[i, j ]   C[i  1, j  1]  1, i, j  0, ( xi , y j )  M , Sim DP  . max{ C[i, j  1], C[i  1, j ]}i, j  0, ( x , y )  M p  i j 2| M | 3) Interference factor SimIF ( X , Y )  pq . Мера сходства: Sim( X , Y )   Sim ( X , Y ). i i OM , DP , IF i 50 «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA CS MSU Graphics & Media Lab (Video Group)
  49. 49. Результаты Размер базы: 21 час видео (19929 смен сцены) Некоторые результаты: «Clip-based Similarity Measure for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04, October 15–16, 2004, New York, New York, USA CS MSU Graphics & Media Lab (Video Group)
  50. 50. Результаты CS MSU Graphics & Media Lab (Video Group)
  51. 51. Выводы  Недостатки: a) Большая вычислительная сложность (O(( p  q) 4 )  O( pq)  O(1)) b) Наличие искажений может помешать корректному сравнению ключевых кадров c) Достаточно большой размер описаний фильмов  Достоинства: a) Возможность поиска перемонтированных фрагментов CS MSU Graphics & Media Lab (Video Group)
  52. 52. Планы По алгоритму:  Построение локальных характеристик вблизи смены сцены  Построить более адекватную оценку вероятности сопоставления, учитывать: 1. Колличество сопоставленных смен сцены (достоверность) 2. Плотность смен сцены 3.Характеристики БД  Искать N самых сильных смен сцены, а не N самых первых По программе:  Провести рефакторинг  Исправить кое-какие баги 54 CS MSU Graphics & Media Lab (Video Group)
  53. 53. Вопросы ? 55 CS MSU Graphics & Media Lab (Video Group)

×