Обзор алгоритмов для решения задачи доставки медиа контента Саша Петров [email_address]
План <ul><li>Информационный поиск </li></ul><ul><li>Информационная фильтрация </li></ul>
План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></...
Информационный поиск <ul><li>Поиск документов неструктурированной природы, которые удовлетворяют информационным нуждам в б...
Критерии Информационного поиска <ul><li>Статистический </li></ul><ul><ul><li>Количество слов в документе, количество совме...
Типы Информационного поиска <ul><ul><li>Natural language processing </li></ul></ul><ul><ul><li>Cross-language information ...
План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></...
Индексирование <ul><li>Процесс описания документов для увеличения скорости и точности информационного поиска </li></ul><ul...
Индексирование <ul><li>Текстовое описание </li></ul><ul><ul><li>Text-based indexing and retrieval </li></ul></ul><ul><li>С...
Индексируемые типы данных <ul><li>Тексты  (doc, ps, pdf) </li></ul><ul><li>Сжатые типы данных ( zip, cab, rar ) </li></ul>...
План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></...
Индексирование изображений <ul><li>Текстовое </li></ul><ul><ul><li>Теги </li></ul></ul><ul><ul><li>Описания </li></ul></ul...
Поиск изображений по содержанию <ul><li>Цвет </li></ul><ul><ul><li>Гистограмма цвета для изображения </li></ul></ul><ul><l...
План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></...
Информационный поиск по музыке <ul><li>Индексирование полуавтоматическим образом </li></ul><ul><li>Методы поиска </li></ul...
Алгоритм поиска по мелодии <ul><li>Индексирование </li></ul><ul><ul><li>Разбиваем песню на куски по 6 секунд </li></ul></u...
Алгоритм поиска по мелодии <ul><li>Self-organizing map (SOM)  для кластеризации музыки </li></ul><ul><ul><li>нейронная сет...
Проект &quot;Islands of Music&quot; <ul><li>Визуализация результатов  SOM </li></ul><ul><ul><li>359 кусков мелодий </li></...
Проект &quot;Islands of Music&quot;
План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></...
Индексация видео <ul><li>Текстовая информация </li></ul><ul><li>Индексирование по содержанию </li></ul><ul><ul><li>Обработ...
Пример поиска видео по содержанию <ul><li>Дополнительные грамматики </li></ul><ul><ul><li>объекты </li></ul></ul><ul><ul><...
M. Petkovi´c, R. van Zwol, H.E. Blok, W. Jonker, P.M.G. Apers , Content-based Video Indexing for the Support of Digital Li...
План <ul><li>Информационный поиск </li></ul><ul><li>Индексирование </li></ul><ul><li>Примеры </li></ul><ul><li>Информацион...
Информационная фильтрация <ul><li>Удаление нежелательной информации </li></ul><ul><ul><li>Spam   filtering </li></ul></ul>...
Особенности информационной фильтрации <ul><li>Динамическая природа данных </li></ul><ul><li>Актуальность информации </li><...
Рекомендационные системы <ul><li>активные   системы информационной фильтрации </li></ul><ul><li>добавляют к информационном...
Рекомендационные системы <ul><li>Предсказания на основе </li></ul><ul><ul><li>Интересов пользователя </li></ul></ul><ul><u...
Рекомендационные системы <ul><li>Явный сбор информации </li></ul><ul><ul><li>Опрос пользователя </li></ul></ul><ul><li>Нея...
Коллаборативная фильтрация <ul><li>“ Collaborative filtering (CF) is the process of filtering for information or patterns ...
Рекомендационный системы по содержанию <ul><li>Content-based recommended systems </li></ul><ul><li>Рекомендуют контент бли...
Рекомендационный системы по содержанию <ul><li>Проблемы </li></ul><ul><ul><li>Не все типы контента поддерживаются </li></u...
Репутационные системы <ul><li>Рекомендационная система, в которой оцениваются сами сущности системы, а не внешние объекты ...
Mixed approach <ul><li>CBF + CF </li></ul><ul><ul><li>Предсказания </li></ul></ul><ul><ul><ul><li>Оцененный контент </li><...
Спасибо за внимание
<ul><li>mailto:sanya.petrov@gmail.com </li></ul><ul><li>Презентация на  Slideshare </li></ul>
Upcoming SlideShare
Loading in...5
×

Algorithms overview for content discovery and distribution (on russian)

1,219

Published on

Published in: Technology, Business
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,219
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide
  • Transcript of "Algorithms overview for content discovery and distribution (on russian) "

    1. 1. Обзор алгоритмов для решения задачи доставки медиа контента Саша Петров [email_address]
    2. 2. План <ul><li>Информационный поиск </li></ul><ul><li>Информационная фильтрация </li></ul>
    3. 3. План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></ul><ul><ul><li>Примеры </li></ul></ul><ul><li>Информационная фильтрация </li></ul>
    4. 4. Информационный поиск <ul><li>Поиск документов неструктурированной природы, которые удовлетворяют информационным нуждам в больших коллекциях. </li></ul>
    5. 5. Критерии Информационного поиска <ul><li>Статистический </li></ul><ul><ul><li>Количество слов в документе, количество совместных упоминаний в документе и т.д. </li></ul></ul><ul><li>Семантический </li></ul><ul><ul><li>Использование смысла поискового запроса чтобы подобрать близкие по значению результаты </li></ul></ul><ul><li>Контекстный / Структурированный </li></ul><ul><ul><li>Использование специального словаря, в котором закодированы соответствия между термами запроса или использование знания о контексте и структуре документа. (Например, ID 3) </li></ul></ul>
    6. 6. Типы Информационного поиска <ul><ul><li>Natural language processing </li></ul></ul><ul><ul><li>Cross-language information retrieval (CLIR) </li></ul></ul><ul><ul><li>Speech retrieval (speech retrieval is a special case of information retrieval in which the information is in spoken form) </li></ul></ul><ul><ul><li>Image and multimedia retrieval </li></ul></ul><ul><ul><li>Music information retrieval </li></ul></ul><ul><ul><li>… </li></ul></ul>
    7. 7. План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></ul><ul><ul><li>Примеры </li></ul></ul><ul><li>Информационная фильтрация </li></ul>
    8. 8. Индексирование <ul><li>Процесс описания документов для увеличения скорости и точности информационного поиска </li></ul><ul><li>Индекс – множество пар (документ, описание) </li></ul><ul><li>Этапы индексирования </li></ul><ul><ul><li>Сбор данных </li></ul></ul><ul><ul><li>Разбор данных </li></ul></ul><ul><ul><li>Хранение данных </li></ul></ul>
    9. 9. Индексирование <ul><li>Текстовое описание </li></ul><ul><ul><li>Text-based indexing and retrieval </li></ul></ul><ul><li>Содержание ( автоматическое индексирование ) </li></ul><ul><ul><li>Content-based indexing and retrieval </li></ul></ul>
    10. 10. Индексируемые типы данных <ul><li>Тексты (doc, ps, pdf) </li></ul><ul><li>Сжатые типы данных ( zip, cab, rar ) </li></ul><ul><li>Мета-данные (rdf, ID3) </li></ul><ul><li>Музыкальные файлы ( MP3 ) </li></ul><ul><li>Изображения ( jpeg, gif ) </li></ul><ul><li>Видео (MPEG-*) </li></ul>
    11. 11. План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></ul><ul><ul><li>Примеры </li></ul></ul><ul><ul><ul><li>Поиск изображений </li></ul></ul></ul><ul><ul><ul><li>Поиск музыки </li></ul></ul></ul><ul><ul><ul><li>Поиск видео </li></ul></ul></ul><ul><li>Информационная фильтрация </li></ul>
    12. 12. Индексирование изображений <ul><li>Текстовое </li></ul><ul><ul><li>Теги </li></ul></ul><ul><ul><li>Описания </li></ul></ul><ul><li>Содержание </li></ul><ul><ul><li>Цвет </li></ul></ul><ul><ul><li>Текстуры </li></ul></ul><ul><ul><li>Фигуры </li></ul></ul>
    13. 13. Поиск изображений по содержанию <ul><li>Цвет </li></ul><ul><ul><li>Гистограмма цвета для изображения </li></ul></ul><ul><li>Текстура </li></ul><ul><ul><li>Яркость пар соседних пикселей </li></ul></ul><ul><ul><ul><li>контрастность </li></ul></ul></ul><ul><ul><ul><li>непрерывность </li></ul></ul></ul><ul><ul><ul><li>направленность </li></ul></ul></ul><ul><li>Фигура </li></ul><ul><ul><li>Распознавание линий </li></ul></ul><ul><ul><li>На основе эталонного изображения </li></ul></ul><ul><ul><li>Набросок пользователя </li></ul></ul><ul><li>Примеры </li></ul><ul><ul><li>IBM QBIC ( DB2 ) </li></ul></ul>http://www.owlnet.rice.edu/~elec301/Projects02/artSpy/patmac/mcolhist.gif
    14. 14. План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></ul><ul><ul><li>Примеры </li></ul></ul><ul><ul><ul><li>Поиск изображений </li></ul></ul></ul><ul><ul><ul><li>Поиск музыки </li></ul></ul></ul><ul><ul><ul><li>Поиск видео </li></ul></ul></ul><ul><li>Информационная фильтрация </li></ul>
    15. 15. Информационный поиск по музыке <ul><li>Индексирование полуавтоматическим образом </li></ul><ul><li>Методы поиска </li></ul><ul><ul><li>По названию ( Title search ) </li></ul></ul><ul><ul><li>По мелодии ( Melody search ) </li></ul></ul><ul><ul><ul><li>Обработка аудиоданных (MP3, CDA, MIDI) </li></ul></ul></ul><ul><ul><li>По жанру </li></ul></ul>
    16. 16. Алгоритм поиска по мелодии <ul><li>Индексирование </li></ul><ul><ul><li>Разбиваем песню на куски по 6 секунд </li></ul></ul><ul><ul><li>Используем эти куски для индексирования </li></ul></ul><ul><ul><li>6 секунд достаточно для человека, чтобы узнать мелодию </li></ul></ul><ul><ul><li>Хотим получить статическое представление </li></ul></ul><ul><ul><ul><li>Вектор </li></ul></ul></ul><ul><ul><ul><li>Преобразование Фурье </li></ul></ul></ul>
    17. 17. Алгоритм поиска по мелодии <ul><li>Self-organizing map (SOM) для кластеризации музыки </li></ul><ul><ul><li>нейронная сеть </li></ul></ul><ul><ul><li>без учителя </li></ul></ul><ul><ul><li>визуализация результатов </li></ul></ul>Andreas Rauber, Elias Pampalk, Dieter Merkl, Content-based Music Indexing and Organization
    18. 18. Проект &quot;Islands of Music&quot; <ul><li>Визуализация результатов SOM </li></ul><ul><ul><li>359 кусков мелодий </li></ul></ul><ul><ul><li>23 часа </li></ul></ul><ul><li>«1» </li></ul><ul><ul><li>Музыка с сильными ударными . </li></ul></ul><ul><ul><li>Bomfunk MCs , Eiel 65 , Jennifer Lopez. </li></ul></ul><ul><li>« 2 » </li></ul><ul><ul><li>Рок музыка </li></ul></ul><ul><ul><li>Red Hot Chili Peppers. </li></ul></ul><ul><li>«3» </li></ul><ul><ul><li>Более агрессивная музыка </li></ul></ul><ul><ul><li>Limp Bizkit, Papa Roach, Korn. </li></ul></ul><ul><li>«4» </li></ul><ul><ul><li>Менее агрессивная музыка </li></ul></ul><ul><ul><li>Guano Apes and K's Choice. </li></ul></ul><ul><li>« 5 » </li></ul><ul><ul><li>Концертная музыка и музыка к к / ф </li></ul></ul><ul><ul><li>Star Wars theme. </li></ul></ul><ul><li>«6» </li></ul><ul><ul><li>Классическая музыка </li></ul></ul>Andreas Rauber, Elias Pampalk, Dieter Merkl, Content-based Music Indexing and Organization
    19. 19. Проект &quot;Islands of Music&quot;
    20. 20. План <ul><li>Информационный поиск </li></ul><ul><ul><li>Определение </li></ul></ul><ul><ul><li>Индексирование </li></ul></ul><ul><ul><li>Примеры </li></ul></ul><ul><ul><ul><li>Поиск изображений </li></ul></ul></ul><ul><ul><ul><li>Поиск музыки </li></ul></ul></ul><ul><ul><ul><li>Поиск видео </li></ul></ul></ul><ul><li>Информационная фильтрация </li></ul>
    21. 21. Индексация видео <ul><li>Текстовая информация </li></ul><ul><li>Индексирование по содержанию </li></ul><ul><ul><li>Обработка видео </li></ul></ul><ul><ul><li>Распознавание объектов (шаблонов) </li></ul></ul><ul><ul><li>Зависит от видео формата </li></ul></ul><ul><ul><ul><li>MPEG-7 </li></ul></ul></ul><ul><ul><ul><ul><li>Кодирование при помощи 4-х уровней </li></ul></ul></ul></ul>
    22. 22. Пример поиска видео по содержанию <ul><li>Дополнительные грамматики </li></ul><ul><ul><li>объекты </li></ul></ul><ul><ul><li>движения </li></ul></ul><ul><li>Пример алгоритма </li></ul><ul><ul><li>Создание специальных Feature Detectors Engine ( FED ) </li></ul></ul><ul><ul><ul><li>Движения в большом теннисе </li></ul></ul></ul><ul><ul><ul><li>Разбивает видео на части </li></ul></ul></ul>
    23. 23. M. Petkovi´c, R. van Zwol, H.E. Blok, W. Jonker, P.M.G. Apers , Content-based Video Indexing for the Support of Digital Library Search
    24. 24. План <ul><li>Информационный поиск </li></ul><ul><li>Индексирование </li></ul><ul><li>Примеры </li></ul><ul><li>Информационная фильтрация </li></ul><ul><ul><li>Recommender systems </li></ul></ul><ul><ul><ul><li>Content-based recommender systems </li></ul></ul></ul><ul><ul><ul><li>Collaborative recommender systems </li></ul></ul></ul><ul><ul><ul><ul><li>Reputation systems </li></ul></ul></ul></ul><ul><ul><ul><li>Mixed approach </li></ul></ul></ul>
    25. 25. Информационная фильтрация <ul><li>Удаление нежелательной информации </li></ul><ul><ul><li>Spam filtering </li></ul></ul><ul><li>Добавление релевантной информации </li></ul><ul><ul><li>Рекомендационные системы </li></ul></ul><ul><li>Типы </li></ul><ul><ul><li>Полу-автоматизированные </li></ul></ul><ul><ul><li>Автоматизированные </li></ul></ul>
    26. 26. Особенности информационной фильтрации <ul><li>Динамическая природа данных </li></ul><ul><li>Актуальность информации </li></ul><ul><li>Большие объемы данных </li></ul><ul><li>Неструктурированность данных </li></ul><ul><li>Поддержка актуального профиля пользователя </li></ul>
    27. 27. Рекомендационные системы <ul><li>активные системы информационной фильтрации </li></ul><ul><li>добавляют к информационному потоку контент, который может быть интересен пользователю. </li></ul><ul><li>Примеры </li></ul><ul><ul><li>Lastfm </li></ul></ul><ul><ul><li>Pandora </li></ul></ul><ul><ul><li>StumbleUpon </li></ul></ul><ul><ul><li>… </li></ul></ul>
    28. 28. Рекомендационные системы <ul><li>Предсказания на основе </li></ul><ul><ul><li>Интересов пользователя </li></ul></ul><ul><ul><li>Информации о контенте </li></ul></ul><ul><li>Информация о контенте </li></ul><ul><ul><li>Оценка похожего контента самим пользователем (the content-based approach) </li></ul></ul><ul><ul><li>Из окружение пользователя (the collaborative filtering approach). </li></ul></ul>
    29. 29. Рекомендационные системы <ul><li>Явный сбор информации </li></ul><ul><ul><li>Опрос пользователя </li></ul></ul><ul><li>Неявный сбор информации </li></ul><ul><ul><li>Анализ действий пользователей </li></ul></ul><ul><ul><ul><li>Что делал </li></ul></ul></ul><ul><ul><ul><li>Сколько делал </li></ul></ul></ul><ul><ul><ul><li>Анализ круга общения пользователя </li></ul></ul></ul>
    30. 30. Коллаборативная фильтрация <ul><li>“ Collaborative filtering (CF) is the process of filtering for information or patterns using techniques involving collaboration among multiple agents, viewpoints, data sources, etc. “ </li></ul><ul><li>« Social filtering » </li></ul><ul><ul><li>Информация от других пользователей </li></ul></ul><ul><li>Проблемы </li></ul><ul><ul><li>Большое количество пользователей </li></ul></ul><ul><ul><li>Контент не доставляется до пользователя пока он не будет оценен другим пользователем </li></ul></ul><ul><li>Примеры </li></ul><ul><ul><li>Lastfm </li></ul></ul><ul><ul><li>http://qiqo.ru/ </li></ul></ul><ul><ul><ul><li>Выбор подарка </li></ul></ul></ul>
    31. 31. Рекомендационный системы по содержанию <ul><li>Content-based recommended systems </li></ul><ul><li>Рекомендуют контент близкий к тому, что понравилось пользователю в прошлом. </li></ul><ul><li>Relevance feedback </li></ul><ul><ul><li>Если пользователю понравился контент, то он добавляется к его профилю. </li></ul></ul>
    32. 32. Рекомендационный системы по содержанию <ul><li>Проблемы </li></ul><ul><ul><li>Не все типы контента поддерживаются </li></ul></ul><ul><ul><li>Избыточная специализация </li></ul></ul><ul><ul><ul><li>Пользователю показывают строго то, что есть в его профиле. </li></ul></ul></ul><ul><ul><li>Получение пользовательской оценки (relevance feedback) </li></ul></ul><ul><ul><ul><li>Пользователь должен самостоятельно оценивать контент </li></ul></ul></ul>
    33. 33. Репутационные системы <ul><li>Рекомендационная система, в которой оцениваются сами сущности системы, а не внешние объекты (книги, музыка, видео) </li></ul><ul><li>Примеры </li></ul><ul><ul><li>eBay </li></ul></ul><ul><ul><ul><li>После проведения транзакции продавец и покупатель могут оставить оценку о друг друге </li></ul></ul></ul><ul><ul><ul><li>+1:positive,0:neutral,-1:negative </li></ul></ul></ul><ul><ul><ul><li>Feedback Summary = [ число положительных отзывов ] – [ число отрицательных отзывов ] </li></ul></ul></ul><ul><ul><li>PageRank </li></ul></ul><ul><ul><ul><li>Вклад каждой страницы в PageRank страницы, на которую она ссылается, прямо пропорционален собственному pagrank’ у страницы и обратно пропорционален количеству исходящих ссылок. </li></ul></ul></ul>
    34. 34. Mixed approach <ul><li>CBF + CF </li></ul><ul><ul><li>Предсказания </li></ul></ul><ul><ul><ul><li>Оцененный контент </li></ul></ul></ul><ul><ul><ul><li>Другие пользователи </li></ul></ul></ul><ul><li>Наиболее распространена </li></ul><ul><li>Примеры </li></ul><ul><ul><li>eMusic </li></ul></ul><ul><ul><ul><li>MediaUnbound </li></ul></ul></ul><ul><ul><ul><ul><li>Прослушанные мелодии </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Поведение на сайте </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Индексирование музыки вручную </li></ul></ul></ul></ul>
    35. 35. Спасибо за внимание
    36. 36. <ul><li>mailto:sanya.petrov@gmail.com </li></ul><ul><li>Презентация на Slideshare </li></ul>

    ×