2. РОМИП
• Целью семинара является создание плацдарма
для проведения независимой оценки методов
информационного поиска, ориентированных на
работу с русскоязычной информацией, а также
консолидация сообщества российских
исследователей и разработчиков, занимающихся
информационным поиском.
Аналогичные конференции на западе – TREC, CLEF
РОМИП проводится с 2003г.
3. План
• Задачи связанные с текстом
– Текстовый поиск
– Текстовая классификация
– Контекстно-зависимое аннотирование
• Задачи связанные с изображением
– Поиск изображений по образцу
– Выявление нечетких дубликатов изображений
– Построение текстовых меток для изображений
• Тестирование простой ранжирующей
формулы
4. РОМИП 2010 в фактах
• Объявлено 15 дорожек, состоялось 9;
• 22 участника, 12 финишировало и сдало 63
прогона;
• 2+ оценки для всех заданий;
• 1800 человеко-часов, 24 асессора;
6. Текстовый поиск
• Задача поиска по запросу
• Две коллекции: By.Web и KM.RU
• By.Web
– 550 запросов
– Глубина пула 20 документов
• KM.RU
– 100 запросов
– Глубина пула 50 документов
7. Текстовый поиск
• Описание запроса – понимание того, что
искал пользователь и какие ответы ему
полезны
• Типы ответов
– Идеальный ( дальше можно не искать)
– Релевантный+ ( полезная но не
исчерпывающая информация, один из многих)
– Релевантный- ( кусочки полезной информации,
не авторитетный источник)
8. Текстовый поиск
Запрос: мультик падал прошлогодний снег
Описание: Цель – найти мультик или детальную
информацию о нем. Идеальный ответ –
подробная информация о мультике или
страница с видео.
Релевантный+ - ссылка на страницу с видео.
Релевантный- - картинки/фотографии или музыка
из мультика, отдельные факты о мультике.
10. Текстовая классификация
• Веб сайты
– Коллекция DMOZ
– Оценка методом общего котла
– 20 категорий, 4000 пар сайт-категория для
оценки
• Веб страницы
11. Контекстно-зависимое
аннотирование
• Составление аннотации документа по запросу
– Запрос: когда состоялась Куликовская битва
Аннотация1: ... на поле Куликовской битвы осталось...
Аннотация2: ... Куликовской битвы, которая состоялась в
1380...
Аннотация 3..... Куликовском ... битва ... месяц ...
• Для оценки отобраны только релевантные
документы
• Оценивается информативность, читабельность
12. Задачи на РОМИП
Поиск изображений по образцу
Выявление нечетких дубликатов
изображений
Построение текстовых меток для
изображений
13. Поиск изображений по образцу
• Необходимо отобрать изображения,
похожие на образец визуально и
семантически.
• Коллекция изображений Flickr, 250
изображений образцов.
• Оценка тремя асессорами (and, or, vote)
– Очень похожи
– Отдаленно близки
– Непохожи
18. Задачи на РОМИП
Поиск изображений по образцу
Выявление нечетких дубликатов
изображений
Построение текстовых меток для
изображений
19. Выявление нечетких дубликатов
• Коллекция состоит из случайных кадров
нарезанных из 15 часов видеоматериала.
• Дубликаты это такие изображения как:
– Сделанные в разных условиях или разного
качества
– Снятые в разном масштабе или с разных точек
20. Задачи на РОМИП
Поиск изображений по образцу
Выявление нечетких дубликатов
изображений
Построение текстовых меток для
изображений
21. Построение текстовых меток по
изображению
• Необходимо сопоставить каждому
изображению набор меток
• Высокая согласованность асессоров и
точность прогона участника
23. Алгоритм ранжирования
𝑆𝑐𝑜𝑟𝑒 (𝑑,𝑞) = ∑𝑘𝑖∗𝐹𝑖 (𝑑,𝑞)
Где:
𝑆𝑐𝑜𝑟𝑒(𝑑,𝑞) – итоговый вес документа 𝑑 по
запросу 𝑞;
𝐹𝑖(𝑑,𝑞) – i-й фактор;
𝑘𝑖 – вес i-го фактора.
24. Факторы
1. BM25 для полного текста документа ;
2. BM25 заголовка документа;
3. BM25 начальной части документа;
4. Вес самой длинной непрерывной цепочки слов запроса в
документе;
5. «Кучность» слов запроса в тексте документа на основе
фактора, описанного в работе ;
6. YMW. Фактор на основе размера минимального окна,
включающего максимальное количество встречающихся
в документе слов запроса.
25. BM25
freqD(l) – частота леммы l в
документе
dlD – мера длинны
документа
avg_dl – средняя длина
документа
|c| - количество
документов в коллекции
df(l) – количество
документов, где
встретилась l
27. Пример вычисления
• Запрос: Русская православная церковь
• Найденный документ: … Московская Патриархия
была признана как единственная законная
православная Церковь в СССР (без Грузии) всеми
прочими поместными православными
Церквами…
tc(d, православная, pos) = idf(церковь)1 * 1 +
idf(православными) 9^1.75 * 0.25
30. Пример вычисления
• Запрос: Сююмбике Казань
• Документ в выдаче: … Башня Сююмбике
является признанным архитектурным
символом Казани…
YMV(d,q) = log(a)log( 6 – 2 + a)
31. Результаты
• На РОМИП-2009 в результате тестирования
метода без YMW, показатели при оценке с
сильными требованиями к релевантности
по average precision дали второй результат,
отстав от лидера на 1,8%.
• Со слабыми требованиями к релевантности
метод продемонстрировал самый высокий
результат по average precision, превысив
результат следующего участника на 13%.
33. Заключение
• Уменьшение количества участников
(временное?)
• Тем не менее:
– Появляются новые команды
– Появляются новые дорожки
– Обновились инструменты и методология оценки,
выросло качество
34. Заключение
• Большое количество работы в будущем
– Создание и разметка новых коллекций
– Привлечение и популяризация РОМИПа
– Автоматизация процесса
• РОМИП – это реальный шанс проверить
свои идеи на реальных данных!