Методология поиска и идентификации нечетких дубликатов видеоизображений

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ
(национальный исследовательский университет)» (МАИ)

Факультет №8
Прикладная математика и физика

Распространяется: на правах рукописи.

Методология поиска и идентификации нечетких
дубликатов видеоизображений

При содействии интернет-кинотеатра TVzavr

Автор: И. К. Никитин

Дата: 10 сентября 2012

Москва 2012 г.

1

СОДЕРЖАНИЕ
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1. Постановка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.Нечеткие дубликаты . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.Классификация видео . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.Поиск видео . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Предполагаемое решение . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.Термины . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.Нечеткие дубликаты . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Наивный подход . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Определение перемены сцен . . . . . . . . . . . . . . . . . . 10
2.2.3 Сравнение звука . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.4 Сравнение внутри сцен . . . . . . . . . . . . . . . . . . . . . 14
2.2.5 Дальнейшее развитие . . . . . . . . . . . . . . . . . . . . . . 16
2.3.Классификация видео . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Наивный подход . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2 Улучшения наивного подхода . . . . . . . . . . . . . . . . . 19
2.3.3 Проблемы наивного подхода . . . . . . . . . . . . . . . . . . 20
2.3.4 На основе определения нечетких дубликатов . . . . . . . . . 21
2.3.5 Дальнейшее развитие . . . . . . . . . . . . . . . . . . . . . . 22
2.4.Поиск по видео . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Список использованных источников . . . . . . . . . . . . . . . . . . 25

2

ВВЕДЕНИЕ
Мы живем в мире информационных технологий, которые прочно вошли
в нашу жизнь. Мы пользуемся современными средствами связи. Компьютер
превратился в неотъемлемый элемент нашей жизни не только на рабочем ме-
сте, но и в повседневной жизни. Быстрое развитие новых информационных
технологий свидетельствует о всевозрастающей роли компьютерной техники
в мировом информационном пространстве.
С каждым днем увеличивается число пользователей Интернета. Все боль-
ше сетевые технологии оказывают влияние на развитие самой науки и техни-
ки. Существует достаточно широкий круг задач, где требуется анализ, аудио-
визуальных моделей реальности. Это в равной степени относится и к статиче-
ским изображениям, и к видео. В частности, для многих военных и граждан-
ских приложений, необходимо наличие возможности поиска нечетких дуб-
ликатов видео. Для мирного применения, это может быть дополнительная
группировка подсказок в выдаче поисковиков (проблема поисковых сниппе-
тов), поиск неправомерных публикаций видео-файлов (поиск «пиратского»
контента), сокращение объема хранимой и передаваемой информации.

3

Для военного применения можно тоже перечислить несколько вариантов.

1) Сравнение видео-потока с камеры и записанного в качестве образца.
Это позволит более эффективно использовать оптические регистрато-
ры для беспилотных летательных аппаратов. Причем, при достижении
достаточного качества сравнения, и надлежащих пространственно вре-
менных характеристик, для некоторых задач, можно будет отказаться
от радионавигации, заменить ее оптической.

2) Отслеживание и определение сходных объектов и явлений с видео-
регистратора спутника.

Если для набора объектов можно попарно сравнить их на неравенство, то из
этого набора можно сформировать классы эквивалентности объектов. Про-
блема классификации видео имеет большее число приложений, чем преды-
дущая. Ее частные решения могут быть применены в задачах описанных вы-
ше. Кроме того, классификация видео, полезно для автоматизированного со-
ставления каталогов. А при некоторой затрате ручного труда, для создания
полноценных категорий видео.
С определением нечетких дубликатов и классификацией видео связана
более широкая проблема поиска по видео. На данный момент существует
большое число, «видео поисковиков», но они обычно занимаются анализом
текстовой информации, которая сопровождает видео.
Исходная проблема поиска, на основе данных самого видео пока не нашла
своего кардинального решения.

4

1. ПОСТАНОВКА
Во введение были обозначены основные направления исследовательской
работы. Таким образом есть три связанные проблемы:

• определение нечетких дубликатов;

• классификация видео;

• поиск по видео.

.
Определение нечетких дубликатов
.

Классификация видео
.

Поиск по видео
.

Рис. 1.1. Основные направления исследовательской работы

1.1. НЕЧЕТКИЕ ДУБЛИКАТЫ
Даны два произвольныx видео файла или потока. Нужно выяснить явля-
ются ли они дубликатами друг друга. Здесь, под словом дубликат понимается
не формализуемое условие: «На этих файлах изображено одно и то же?».
Возможна, и другая постановка этой задачи. Дан набор видео, для нового
добавляемого в этот набор видео нужно определить, есть ли дубликат этого
нового видео в наборе или нет.
Понятие «нечеткий дубликат» является устоявшимся термином в задачах
информационного поиска и обычно употребляется применительно к доку-
ментам и изображениям. Нечеткость в данном случае интерпретиру-ется как
неполное или частичное совпадение документов или изображений. [8]

5

.
.
Нечеткие дубликаты

Естественные
. Искуственные
.

Рис. 1.2. Нечеткие дубликаты

Нечеткие дубликаты бывают двух типов: естественные и искусственные.
Естественные нечеткие дубликаты видео — совокупности одних и тех же
сцен видео, полученные при схожих условиях. Искусственные нечеткие дуб-
ликаты видео — видео полученные на основе одного и того же исходного
видео.
Наиболее простым является определение искусственных нечетких дубли-
катов. Однако, сложность определяется тем, что они могут иметь различное
представление (файл, поток), видео может иметь различную длину, частоту
кадров, может быть сжато различными методами, и, вообще говоря, иметь
вставки.
Что касается вставок в видео, то задачу можно расширить поиском фраг-
ментов видео, и определением процентного соотношения этих фрагментов.

1.2. КЛАССИФИКАЦИЯ ВИДЕО
Дан набор видео, нужно разбить этот набор видео на классы эквивалент-
ности. Если такое разбиение уже существует, то каждое новое видео требу-
ется отнести к тому или иному классу. В простейшем случае, классифика-
цию видео можно построить на основе определения нечетких дубликатов.
Однако, на основании методов определения нечетких дубликатов всего ско-
рее удастся провести более сложную классификацию.
Сама по себе задача классификации видео не зависит от задачи определе-
ния нечетких дубликатов. Более того, задача определения дубликатов может
быть решена с помощью задачи классификации.

6

1.3. ПОИСК ВИДЕО
Есть база данных видео. И есть запрос в эту базу данных. Нужно выдать
все видео удовлетворяющих этому запросу в порядке релевантности.
Сам по себе запрос может представлять из себя:

• текстовую характеристику искомого видео;

• некоторый видео файл или его фрагмент

Понятно, что задачу поиска видео в общем виде решить невозможно, но в
работе будет предпринята попытка решить его в некотором частном случае.
Мы будем опираться на результаты решения предыдущих задач.
Если запрос является некоторой характеристикой видео, то тогда нужно
эти характеристики как-то выделять и связывать, с неформальными пред-
ставлениями человека, составившего запрос.

7

2. ПРЕДПОЛАГАЕМОЕ РЕШЕНИЕ

2.1. ТЕРМИНЫ
Сцена — совокупность кадров и звукового сигнала, внутри однородной об-
ласти спектр видео сигнала, которой значительно отличается от сосед-
них областей, и, возможно, отличается спектр ее звукового сигнала.

«Символ» — набор заданных характеристик кадра, и набор соответствую-
щих доверительных интервалов для каждой из характеристик.

[(X1 , D1 ), (X2 , D2 ), ..., (XN , DN )]

Xi — по сути является математическим ожиданием; Di — дисперсия.

ffmpeg — набор свободных библиотек с открытым исходным кодом, ко-
торые позволяют записывать, конвертировать и передавать цифровые
аудио- и видеозаписи в различных форматах. Он включает libavcodec —
библиотеку кодирования и декодирования аудио и видео и libavformat
— библиотеку мультиплексирования и демультиплексирования в ме-
диаконтейнер.

Если не оговорено противное, то когда мы говорим «кадры», то подразу-
меваем именно несущие кадры, без компенсации движения (так называемые
I-фреймы), если работа производиться со сжатым видео. Если видео не сжа-
то, все его кадры являются несущими.

8

2.2. НЕЧЕТКИЕ ДУБЛИКАТЫ
2.2.1. НАИВНЫЙ ПОДХОД
Опишем предполагаемый подход для задачи определения нечетких дуб-
ликатов во второй формулировке задачи. Для определения похожих файлов,
будем последовательно проводить следующие операции. Для всех исходных
файлов вычислим :

• контрольные суммы;

• продолжительность;

• разделения сцен на основе ffmpeg;

• огрубленные версии файлов на основе вейвлет анализа (для каждо-
го вейвлета и заранее опереледеленного списка, ддя каждого уровня
огрубления)

На этапе загрузки для нового файла вычисляются контрольные суммы и
продолжительность и сравниваются с этими характеристиками для исходных
файлов. Обозначим

• новое видео — (N F );

• исходные файлы — (SSF ) = ((SF1 ), (SF2 ), ...(SFn ));

На основании сравнения (N F ) попадет в одну из трех групп:

G0 Не определено.

G1 Уникальный.

G2 Похож на один из (SSF ) с некоторой вероятностью, по некоторой при-
чине.;

G3 Одинаков с каким-то из (SSF ).

Если для (N F ) и одного из (SSF ), совпадут контрольные суммы, то счи-
таем (N F ) одинаковыми ← G3 ; иначе, G0 .

9

Если длинна (N F ) совпала с одним из (SSF ), то ролик (N F ) помечается,
как похожий ← G2 ; иначе, G0 .
Если для (N F ) и одного из (SSF ), совпадут количества сцен, продол-
жительность каждой i-той сцены, то фильмы считаются одинаковыми ← G3 ;
иначе, G0 .
Если для (N F ) и одного из (SSF ), количества сцен будут отличаться не
более чем на 5%, продолжительность каждой i-той сцены будет тоже отли-
чаться не более чем 5%, то фильмы считаются похожими ← G2 . иначе, G0 .
Далее для (N F ) из G0 и (SSF ) начинаем сравнивать огрубления. Начина-
ем с самого грубого. Если огрубленные (N F ) и (SSF ) не совпали, то ← G1 ,
Если совпали, фильм попадает в G2 , и продолжаем далее. Уменьшаем огруб-
ление и продолжаем далее. Если на последнем уровне огрубления совпали,
то фильм считается в G3 .
Богатое поле исследований — как проводить вейвлет анализ. Можно для
всех кадров фильмов. А можно проводить сравнения отдельных сцен, делать
выводы о похожести на основе количества похожих сцен. Но лучше исполь-
зовать оба варианта анализа. На этапе деления сцен могут возникнуть ошиб-
ки. Боле того, для (N F ) и сравниваемого в данный момент (SFi ), возможно
надо будет менять продолжительность всего ролика или сцены (обрезать не
более 5% c начала и с конца по очередности). Последнее связано с тем, что
огрубления вейвлетов не смогут отловить изменения линейного монтажа ро-
лика. Т.е. возможна ситуация, когда ролики являются одинаковыми но (N F )
«на несколько секунд» короче. Основная проблема здесь заключается в том,
как можно поймать эти самые «несколько секунд».
В результате всех сравнений мы получили 3 группы фильмов 1-2. Причем,
фильмы из групп G1 и G2 , могут потребовать дополнительного анализа.
Для дополнительного анализа предлагается использовать модификации
«наивного метода» классификации видео. Т.е. выделять сцены для (N F ) и
(SSF ), для каждой сцены выделять наборы характеристик и на основе дове-
рительных интервалов сравнивать сцены. А на основании похожих и различ-
ных сцен делать выводы о похожести схожести и различия роликов.
Для похожести сцен, для всех (SSF ) попытаться вычислить попарное
сходство всех сцен. И потом уже делать выводы, что сцены из (N F ) похо-
жи на них. Это позволит минимизировать ошибки полученные на предыду-

10

щих этапах Например, мы получили, что для сцены A и похожи c вероят-
ностью p1 , и B и похожи c вероятностью p2 . Про A и C похожи c вероятно-
стью p3 . Но мы можем сделать вывода, что A и тоже похожи c вероятностью
max(p3 , F (p1 , p2 )). В простейшем случае F (p1 , p2 ) = p1 · p2 .
Подход, поиска дубликатов видео, основанный на выделении сцен был
также предложен в [7]. Однако в этой работе авторы строили дерево пере-
мены сцен, на основе их значимости. Далее для каждого видео производили
сравнение таких деревьев.

2.2.2. ОПРЕДЕЛЕНИЕ ПЕРЕМЕНЫ СЦЕН
На наш взгляд, выделение точек перемены сцен внутри видео файла
или потока является ключевым моментом, для поиска нечетких дубликатов.
Это особенно становится понятно в случае искусственных нечетких дубли-
катов. Видео может быть подвернуто совершенно любым преобразованиям,
но при этом оно сохранит, то явление или объект, что не нем изображены. В
данном случае, очень важно каким методом было получено разделение сцен.
Чаще всего используют три варианта для разделения:

• сравнение гистограмм яркости кадров;

• сравнение спектров кадров (на основании дискретного косинус-
преобразования);

• сравнение векторов движения кадров.

В наивном подходе описанном выше предполагалось, что деление на сце-
ны будет производиться при помощи ffmpeg. Однако, для деления сцен в
ffmpeg вектора движения не учитываются. Это создает некоторые трудно-
сти для определения перемен сцен. Кроме того, как показали эксперименты
(см. таблицы 2.1 и 2.2), некоторые перемены сцен ffmpeg пропускает для ис-
кусственных дубликатов, закодированных по-разному.
Для одного и того же файла сжатого различными кодеками или с разны-
ми битрейтами распознанные сцены могут значительно отличаться. Понятно,
что некоторые перемены сцен могут быть распознаны ошибочно, а некото-
рые вообще не распознаны. Для объяснения природы таких явлений, нужно

11

точно понимать, какой алгоритм используется в ffmpeg и в чем его особен-
ности. Это тема для отдельного исследования. Возможно, имело бы смысл
разработать свой детектор сцен, и сравнить его с существующими.

Рис. 2.3. Пример выделения сцен на основе ffmpeg

Для анализа сходства файлов на основе перемены сцен, предполагается
использовать нечеткий поиск образца. На данный момент брать и оценивать
длины интервалов различных видео относительно друг друга. Если размер
текущего интервала одного видео значительно отличается от интервала дру-
гого видео, то текущий интервал первого видео рассматривается вместе со
следующим.

Таблица 2.1. Временные отметки перемены сцен для видео закодированного
различными кодеками. Замеры проводились при низкой чувствительности.

Отметки в секундах

n vp6f h264
1 0.094 0.04
2 1.654 1.6
3 6.574 6.52
4 11.654 11.6
5 14.254 14.2

Подобный алгоритм применяется в математической лингвистике для вы-
равнивания предложений в параллельных корпусах текста — гипотеза Гейла-
Чеча. Впервые он был предложен в [3]. На основании этого подхода, можно
предложить и более сложные методы поиска сходства перемены сцен в видео.
Основная проблема предложенного алгоритма является то, что он жадный, и
может потребовать значительных вычислительных ресурсов.

12

Таблица 2.2. Временные отметки перемены сцен для видео закодированного
различными кодеками. Замеры проводились при высокой чувствительности.

Отметки в секундах

n cinepak indeo5 h264
1 0.0666667 0.0666667 0.0666667
2 0.133333 0.133333 0.133333
3 11.3333 — —
4 73.8667 — —
5 74 74 74
6 74.0667 74.0667 74.0667
7 74.3333 74.3333 74.3333
8 74.4 74.4 74.4
9 78.9333 — —
10 87.9333 — 87.9333
11 88 88 88
12 88.0667 88.0667 88.0667
13 88.1333 88.1333 88.1333
14 88.2667 88.2667 88.2667
15 88.3333 — —
16 88.4 88.4 88.4
17 88.4667 88.4667 88.4667
18 94.4667 94.4667 94.4667
19 94.5333 94.5333 94.5333
20 — 101.133 101.133
21 101.4 — 101.4
22 101.667 101.667 101.667
23 101.733 101.733 101.733
24 101.8 101.8 101.8
26 — — 112

Номера строк таблицы 2.2 — просто номера строк таблицы,
они не имеют отношения к нумерации сцен.

13

Тем более в случае лингвистики, нам известно, что два рассматриваемых
текста являются переводами друг-друга (эквивалентами с точностью до язы-
ка). В случае с видео нам этот факт как раз требуется установить.
С временными отрезками перемены сцен связана, еще и то, что исходный
файл может быть ускорен или замедлен. В этом случае абсолютное сравне-
ние временных отрезков становится бесполезным. В данном случае кажется
логичным, использовать относительные единицы измерений. Однако, возни-
кает вопрос, что брать за начало отсчета.
На данный момент кажется правильным использовать 2 варианта:

• длина всех отрезков относительно всех, для таблицы 2.1 (для обоих ва-
риантов) это будет представлять матрицу
 
1.0000 0.3171 0.3071 0.6000
 
3.1538 1.0000 0.9685 1.8923
S=
3.2564
,
 1.0325 1.0000 1.9538
1.6667 0.5285 0.5118 1.0000

• длина отрезков относительно некоторых, например трех предыдущих.

Как видно, из приведенной выше матрицы численное сравнение таких
матриц, . для видео со значительным числом сцен может оказаться, весьма
затратным по ресурсам. Потому был предложен второй вариант. Оба вари-
анта поиска дубликатов будут работать и в случае, если одно видео является
частью другого (только если они имеют общие две или более сцен).
Важно отметить, что определять сцены можно не только на основе визу-
альной информации. Очень хорошим источником информации о переходе от
сцене к сцене может служить звук. Определять переходы можно с помощью
методов изложенных выше. Особенно интересным с нашей точки зрения яв-
ляется сравнение спектров на определенных временных отрезках и отноше-
ние пикового сигнала к шуму.

2.2.3. СРАВНЕНИЕ ЗВУКА
Сравнение звука двух видео можно рассматривать как самостоятельный
способ определения нечетких дубликатов файлов. Проблема состоит в том,

14

что для каждого конкретного приложения придется анализировать свой ча-
стотный диапазон. Тем более в случае космических приложений этот метод
окажется неприменим. Рассмотрим частные приложения.

ОПРЕДЕЛЕНИЕ «ПИРАТСКИХ» ВИДЕО
Видео может содержать человеческий голос, причем звуковой дубляж мо-
жет быть сделан разными актерами, на разных языках. Потому основываться
лучше на музыке, взрывах, тишине и пр. Для более правильного определе-
ния, нужно будет убрать сигналы, с частотами из диапазона голоса челове-
ка. Далее можно применять методы описанные выше: сравнивать спектры с
определенным шагом и проводить вейвлет анализ.

АВИАЦИОННОЕ ПРИМЕНЕНИЕ
Видео может содержать любые звуки. Наверно более интересны тут будут
звуки из заданного набора шумов (звуки того или иного вида техники, звуки
того или иного географического объекта). Подходы сходные с предыдущим
приложением, но вырезать частоты определенного спектра всего скорее не
придется. А после приближенного сравнения всего скорее потребуется более
детальное сопоставление.

2.2.4. СРАВНЕНИЕ ВНУТРИ СЦЕН
До этого в рассуждениях мы полагались на гипотезу, что для двух видео
являющихся нечеткими дубликатами, разделение на сцены совпадает, и мала
вероятность проявления такого совпадения для видео не являющимися дуб-
ликатами.
Искусственно можно подобрать (создать) пример противоречащий этой
гипотезе. Таким образом, можно придти к выводу, что сравнения длинны
сцен видео может оказаться недостаточно.
Сравнение внутри сцен можно проводить на основе вейвлет анализа кад-
ров и звука, как было предложено в наивном подходе. Однако, для сравнения
изображений существуют методы на основе знакового представления, пред-
ложенного в [8]. Суть этого подхода заключается в том, что любое изобра-

15

жение (статическое) можно представить матрицей значений {−1, 0, 1}. Если
яркость текущего пикселя изображения ярче чем предыдущего, ему присва-
ивается 1, если не изменилась, — 0, темнее — −1. Обход ведется по восьми
направлениям. После введения функции расстояния основанной на относи-
тельной энтропии, можно отличать кадры друг от друга.
Изображение внутри сцены не должно сильно меняться. Для сравнения
внутри сцен можно предложить сравнивать первые кадры сцен. Как вариант
сравнивать на основе знакового представления.
Для повышения качества сравнения, можно расширить набор набор кад-
ров, и сравнивать n привольных кадров сцены. Продолжая эту идею, можно
придти к понятию «общего кадра». Над набором кадров сцены вычисляет-
ся среднее значение яркости каждого пикселя эти значения складываются и
образуют так называемый «общий кадр».
Далее проводить сравнение для сцены только общих кадров.
Мы умышленно здесь не пытаемся определять семантику кадров, зани-
маться распознаванием того, что на них изображено. На данный момент в
общем случае это не представляется возможным. Существующие методы
распознавания образов достаточно затратны по ресурсам, и имеют высокую
неустойчивость.

16

2.2.5. ДАЛЬНЕЙШЕЕ РАЗВИТИЕ
Дальнейшее развитие этого направления исследования нам представля-
ется следующим образом.

1) Выяснить каким образом происходит практически применимое разде-
ление видео на сцены, при необходимости реализовать свой алгоритм.
Протестировать варианты предложенные другими авторами и свой на
реальных примерах

2) Разработать алгоритм нечеткого поиска по образцу для сравнения длин
сцен различных видео.

3) Реализовать сравнение сцен на основе знакового представления изоб-
ражений, реализовать сравнение сцен на основе вейвлет-анализа и про-
вести сравнение обоих методов.

4) Проверить возможность сравнения видео на основе их звукового сиг-
нала. Будем пытаться сделать это для одного из частных случаев — для
определения искусственных нечетких дубликатов.

5) Проверить суммарную работоспособность алгоритмов и методов из
предыдущих пунктов.

17

2.3. КЛАССИФИКАЦИЯ ВИДЕО
Задача классификации видео сама по себе не зависит от задачи опреде-
ления нечетких дубликатов. Более того, задача определения нечетких дубли-
катов может быть решена на основе классификации. В данном случае, она
сводится к «поиску ближайшего соседа» в некотором пространстве характе-
ристик. Для этого удобно было бы использовать диаграммы Вороного, как это
было предложено в [1]. Также после введения некоторой метрики оценивать
близость через сравнение с некоторым малым числом ε.
Существует больше количество работ, посвященных классификации ви-
део. Но в большинстве из них рассматриваются некоторые частные случае
проблемы. Ниже мы покажем наивный подход классификации видео, не свя-
занный с проблемой определения нечетких дубликатов.

2.3.1. НАИВНЫЙ ПОДХОД
Предложенный подход в равной степени подходит для классификации ви-
део целиком и отдельных сцен видео.

ОБУЧЕНИЕ
Сцены будем делить явно на основании определений. Далее для набора
сцен из набора фильмов, будем пытаться вычислить

X1 — Спектры кадров.

X2 — Огрубленные формы кадров (на основе вейвлет-анализа).

...

Xn — Другие параметры могут потребовать дополнительного исследова-
ния.

Возможно вместо списка [X1 ], [X2 ], ..., [XN ] имеет смысл рассматривать
средние значения по кадрам. Это эффективнее в последствии, но может при-
вести к сильным ошибкам. Примечания:

18

1) Не факт, что все кадры сцен будут обладать надлежащим качеством.
Возможны значительные артефакты, которые могут как-то влиять на
внешнее отображение кадров. Потому тут мы говорим, что будем ис-
пользовать вейвлеты.

2) Для простоты, на начальном этапе, имеет смысл сигнал RGB перело-
жить в стандартные координаты видео YUV. Где Y — яркость изобра-
жения.

3) На основании примечания б, Характеристикой сцены (Xk ) может быть
набор пикселей (в координате Y) кадра. Тогда интервалом может значе-
ние PSNR (отношение максимального сигнала к шуму) для двух кадров,

Для всех сцен, всех фильмов ищем наиболее близкие по характеристи-
кам. У нас получится большой граф. Задав доверительный интервал. На ос-
новании этого графа мы сможем построить классы эквивалентности сцен.
Далее для всех классов эквивалентности просматриваем вручную все сце-
ны в них и задаем тематику. Если класс был выделен ошибочно (человек
не смог определить тематику), то помечаем его как ошибочный, и далее не
рассматриваем. Если оказалось много ошибочных классов эквивалентности,
то нам будет нужно изменить размер доверительного интервала. Задача ка-
жется похожей, на задачу классификацию документов. Сцены — докумен-
ты. Множества [X1 ], [X2 ], ..., [XN ] — слова. Только с текстовыми докумен-
тами у нас одно измерение. А тут может быть несколько (правда с погреш-
ностью). Для каждого класса эквивалентности вычленим интервалы значе-
ний [I1], [I2], ..., [IN ]. Это и будет характеристикой классов эквивалентности
сцен.

ЭКСПЛУАТАЦИЯ
Есть набор сцен некоторого фильма. Нам нужно отнести их к одному
из классов эквивалентности. Для каждой сцены вычисляем характеристики.
[X1 ], [X2 ], ..., [XN ] Смотрим попадают ли характеристики в интервалы одно-
го из классов, если да, то сцены получают соответствующий класс. Если не
попали ни в какой. то эти сцены попадают в множество для дальнейшего обу-
чения системы.

19

2.3.2. УЛУЧШЕНИЯ НАИВНОГО ПОДХОДА
1) Обучение и применение системы можно делать в несколько шагов. На
этапе обучение и применение можно вычислять точные, усредненные
характеристики сцен, максимальные и минимальные. Помнить все че-
тыре класса характеристик. При составлении классов эквивалентности
вычислять интервалы значений характеристик как и в наивном случае,
и вычислять огрубленные интервалы, ((минимальное среди сцен клас-
са), (максимальное сцен класса)) На этапе применение сначала про-
верять попадание внутрь этого (min, max). Проверок в среднем будет
больше, но это сэкономить нам время в худшем случае.

2) Как и в рамках классической классификации документов, можно вос-
пользоваться частотной информации о характеристиках сцен. Для двух
кадров разных сцен считается, что характеристики «условно равны» ес-
ли они отличаются не более чем доверительный интервал. Считаем, что
это один и тот же символ. Можно попытаться найти как часто такой
символ встречается внутри одной и той же сцены. На основании та-
ких частот можно построить другие классы эквивалентности. На этапе
применения будет анализировать сцену сначала на основании первых
классов эквивалентности, потом на основании классов эквивалентно-
сти по частотам. Важно отметить, что ни для первых ни для вторых
классов, мы не пытаемся учитывать порядок этих «символов».

3) Использовать итеративный алгоритм максимизации правдоподобия.
Пока не очень понятно, как его можно адаптировать к этой задачи. Как
минимум для него нужно получить множество «символов», которое у
нас заведомо с ошибками. После чего сопоставлять последовательно-
сти таких «символов», и вычислять эквивалентность цепочек симво-
лов. Совсем будет хорошо, если его удаться применить, для автомати-
ческой подстройки доверительных интервалов.

20

2.3.3. ПРОБЛЕМЫ НАИВНОГО ПОДХОДА
Самым сложным, в этой задаче, является проблема выделения «симво-
лов». Каким-то образом нужно задавать характеристики и доверительные ин-
тервалы их изменения. Для качественного их определения, нужно некоторое
число экспериментов. Самое простое, что можно использовать, описано в на-
ивном варианте системы. Это спектры каждого кадра сцены. Был упомянут
вейвлет анализ. Всего скорее придется еще подбирать параметры вейвлетов.
В данном случае в огрубления на основе разных вейвлетов могут выступать
как разные характеристики.
Доверительные интервалы для каждой характеристики, возможно, при-
дется подбирать отдельно. Более того, возможно адаптивный подбор интер-
валов, при изменении характеристик кадров. Например, если характеристики
изменяются от кадра к кадру сильнее, чем ранее, то доверительный интервал
можно увеличить.
Из-за сложности выделения символов и возможных ошибок ставится по
сомнение улучшение 2. В рамках одной сцены при одних доверительных ин-
тервалах может не оказаться одинаковых «символов», с другой стороны, мо-
жет сложиться ситуация, что все «символы» внутри сцены одинаковы.
Для адекватной работы системы, тематики используемых сцен придется
жестко ограничивать заданным набором. Для другого набора тем, довери-
тельные интервалы, в общем случае, придется подбирать заново вручную.

21

2.3.4. НА ОСНОВЕ ОПРЕДЕЛЕНИЯ НЕЧЕТКИХ
ДУБЛИКАТОВ
Если задача определения нечетких дубликатов, окажется решенной в
должной мере, способами описанными выше, то задача классификации ви-
део, будет решена простым введением классов эквивалентности на основе
неравенства. Однако, видео тогда можно будет разбивать на классы различ-
ными способами.

1) По функции количества и продолжительности сцен от времени видео.
Например можно выделить:

• удельное число перемены сцен на единицу времени;
• средняя продолжительность сцен;
• продолжительность сцен в начале, середине или конце видео.

2) По яркости отдельных сцен, и видео целиком.

3) По спектру характеристика отдельных сцен, и видео целиком.

4) По звуку видео.

Впоследствии при дополнительном исследовании можно выяснить, как
выделенные классы связаны с категориям видео, выделяемыми человеком.
С коммерческой точки зрения, как мне кажется будет интереснее созда-
вать группы «похожих» фильмов, которые не будут попадать под обычную
категоризацию, проведенную человеком.
В результате сравнения сцен при определении нечетких дубликатов, как
побочный эффект, могут быть выявлены признаки сцен. Эти признаки сцен
можно использовать, для классификации сцен независимой от классифика-
ции фильмов. Кроме того, классификация сцен видео может быть получена
и на основе классификации самих видео, на основании того в каких видео
были встречены похожие сцены.

22

2.3.5. ДАЛЬНЕЙШЕЕ РАЗВИТИЕ
Для дальнейшей проработки классификации видео необходимо дополни-
тельное изучение литературы, посвященной этому вопросу. Развитие пред-
ставляется в двух независимых направлениях.

1) Разработка системы классификации на основе выделения «символов».
Слабые стороны и проблемы этого подхода были описаны выше.

2) Разработка системы классификации видео, с опорой на определение
нечетких дубликатов.

3) Объединить оба подхода, на основе сферы применения. Первое для
классификации сцен внутри видео, второе для классификации самих
видео.

Не исключено, что в процессе исследования наивный метод классифика-
ции для сцен видео будет заменен, на что-то менее сомнительное.

23

2.4. ПОИСК ПО ВИДЕО
В работе [1] на страницах 19-21 описана возможная архитектура такого
видео-поисковика. В текущем исследовании это является максимальной за-
дачей. Решение двух предыдущих задач являются необходимым условием
создания такого поисковика.

Рис. 2.4. Схема поисковой системы по видео, взята из [1]

Для составления поискового индекса понадобится некоторое компактное
представление видео. Это компактное представление может быть получе-
но на основе методов поиска нечетких дубликатов и классификации сцен.
В частности одним из уровней компактного представления является относи-
тельные длины отрезков сцен, и знаковое представление внутренних кадров
сцен. Наличие некоторых классов видео в примитивных случаях может све-
сти поиск по видео к поиску по бинарному дереву. Это не является полноцен-
ным поиском по видео, но он может пригодится в некоторых приложениях.
В любом случае наличие классов видео значительно упростят поиск. Кро-
ме того, если для классов была человеком создана категоризации, то катего-
рия присвоенная классу может выступать как дополнительная характеристи-
ка видео в этом классе. А значит по этим характеристикам можно осуществ-
лять поиск.

24

3. ЗАКЛЮЧЕНИЕ
Были поставлены три возможные задачи исследования и описаны воз-
можные пути их решения. Возможно, в процессе работы некоторые из пред-
ложенных подходов будут отвергнуты, но на данный момент они кажутся
наиболее приемлемыми.
Все три задачи рассмотренные в реферате могут быть решены через друг
друга. Самой сложной кажется задача поиска по видео, но ее сложность за-
ключается в отсутствии достаточной формализации проблемы, и недоста-
точной проработке составляющих. Задачи классификации видео, сцен ви-
део и поиска нечетких дубликатов видео представляются эквивалентными
по сложности. Проблема оценки состоит в недостаточном на данный момент
количестве экспериментальных данных.
На момент написания реферата оказалась наиболее проработана тема
нечеткого поиска дубликатов видео. Мы свели поиск нечетких дубликатов к
лингвистической проблеме выравнивания предложений. Это особенно важно
с учетом предыдущей (дипломной) работы посвященной проблеме машинно-
го перевода. Сама по себе возможность такого сведения, и наличие решения
проблемы в другой области науки дает веские основания полагать о связан-
ности этих областей. Мы считаем, что гипотеза Гейла-Чеча не единственное,
утверждение, которое будет позаимствовано из лингвистики в процессе вы-
полнения работы.

25

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Cheung Sen-Ching. Efficient video similarity measurement and search : Ph. D.
thesis / Sen-Ching Cheung. –– University of California, Berkeley, 2002. ––
AAI3082139. 17, 23

2. Chum Ondřej et al. Scalable near identical image and shot detection //
Proceedings of the 6th ACM international conference on Image and video
retrieval. –– CIVR ’07. –– New York, NY, USA : ACM, 2007. –– P. 549–556.

3. Gale William A., Church Kenneth W. A program for aligning sentences in
bilingual corpora // Proceedings of the 29th annual meeting on Association for
Computational Linguistics. –– ACL ’91. –– Stroudsburg, PA, USA : Association
for Computational Linguistics, 1991. –– P. 177–184. 11

4. Shen Heng Tao et al. Statistical summarization of content features for fast near-
duplicate video detection // Proceedings of the 15th international conference
on Multimedia. –– MULTIMEDIA ’07. –– New York, USA : ACM, 2007. ––
P. 164–165.

5. Yang Jun et al. Harmonium Models for Video Classification // Stat. Anal. Data
Min. –– 2008. –– feb. –– Vol. 1, no. 1. –– P. 23–37.

6. Zhao Wan-Lei, Wu Xiao, Ngo Chong-Wah. On the Annotation of Web Videos
by Efficient Near-Duplicate Search // Trans. Multi. –– 2010. –– aug. –– Vol. 12,
no. 5. –– P. 448–461.

7. Глазистов И. В. Паршин А. Е. Алгоритм поиска дубликатов в базе видеопо-
следовательностей на основе сопоставления иерархии смен сцен. –– 2010.
10

8. Гончаров А. В. Разработка и исследование модели знакового представ-
ления данных в задачах распознавания образов : Диссертация к. т. наук:
05.13.17 / А. В. Гончаров ; Научно-конструкторское бюро вычислительных
систем. –– Таганрог, 2010. 4, 14

Методология поиска и идентификации нечетких дубликатов видеоизображений

Recommended

Recommended

More Related Content

Similar to Методология поиска и идентификации нечетких дубликатов видеоизображений

Similar to Методология поиска и идентификации нечетких дубликатов видеоизображений (20)

Методология поиска и идентификации нечетких дубликатов видеоизображений