SlideShare a Scribd company logo
Анализ запроса
Илья Сегалович, Виталий Титов, Алексей Байтин
Технологии и разработка
СтуДень, Новосибирск, 24 сентября 2010 г.
Анализ
запроса
Запрос
Результаты
поиска
Поиск,
ранжирование
Анализ запроса: поиск
Запрос
Морфология
Поиск
Анализ запроса: поиск
Морфология и неоднозначность
сели батарейки
сель {сель, селя, .., сели.., селях} рус
садиться {сяду, сядем, .., сел, село,
сели, …, садившихся} рус
селить {селю, селем, .., сели,
селите, …, селившихся} рус
селити {селю, селиш, .., сели,
селите, …, селячих} укр
батарейка {батарейка,
батарейки, ..,батарейках} рус
батарейка {батарейка,
батарейко, батарейок,
батарейки…} укр
сели и оползни
оползень {оползень,
оползня, оползни,…} рус
Синонимичные
расширения
Запрос
Определение языка
Морфология
Снятие омонимии
Анализ запроса: поиск
Поиск
Расширение запроса синонимами
радиорынок Митино радиорынок Митино | митинский
sonyericsson sonyericsson | sony ericsson
Петр I Петр I | Петр 1 | Петр первый
дом два дом 2 | дом II | дом два
Nokia N 95 Nokia N 95 | N95
физтех физтех | Московский физико-технический институт
НАТО НАТО | Организация северноатлантического договора
Анализ запроса: поиск
Запрос
Определение языка
Морфология
Снятие омонимии
Синонимичные
расширения
Аббревиатуры и
транслитерация
Поиск
Где применяется транслитерация?
Транслитерация
• Имена собственные:
Albert Einstein ↔ Альберт Эйнштейн
↔
КГБ ↔ KGB
• Заимствованные слова:
computer ↔ компьютер
перестройка ↔ perestroyka
URLы, логины и другие идентификаторы на
латинице.
Лингвистическая модель — результаты
йохансон
(6.446)
йогансон
(5.745)
йоханссон
(4.919)
иохансон
(1.422)
джохансон
(1.311)
иогансон
(1.269)
иоханссон
(1.085)
джоханссон
(1.000)
ёхансон
(0.427)
юхансон
(0.387)
йохонсон
(0.342)
югансон
(0.341)
хансон
(0.333)
гансон
(0.298)
юханссон
(0.292)
ханссон
(0.255)
янсон
(0.192)
джохэнсон
(0.142)
йонсон
(0.103)
йонссон
(0.079)
хогенсон
(0.068)
джансон
(0.067)
жансон
(0.066)
хэнсон
(0.036)
йоханссен
(0.027)
Транслитерация
Выделение объектов
и устойчивых фраз
Запрос
Определение языка
Морфология
Снятие омонимии
Синонимичные
расширения
Поиск
Анализ запроса: поиск
Аббревиатуры и
транслитерация
dragon age summoning the fourth
Нотариусы на Парке Культуры
Евгений Ленский
Выделение объектов и фраз
• Алгоритмы и данные.
• Способы измерения.
Как мы это делаем
• DocFactor: насколько часто S1 и S2 встречаются на одной
странице или на одном сайте;
• LinkFactor: насколько часто S1 и S2 встречаются в ссылках,
указыващих на один и тот же веб-сайт;
• DocLinkFactor: насколько часто текст ссылки содержит S1 а
веб-сайт, на которую она указывет, содержит S2;
• UserSessionFactor: насколько часто пользователь
замещает S1 на S2 в поисковом запросе в течении одной
поисковой сессии;
• ClicksFactor: насколько часто пользователь кликает на веб-
страницу, которая содержит S1, тогда как как поисковый
запрос содержит S2;
• ContextFactor: насколько похож популярный контекст (в
веб-страницах и запросах) у S1 и S2.
Факторы
• По словарю (без контекста)
– Человеку показывают два слова и предлагают
домыслить контекст, в котором значат одно и то же
• По запросу (примеру текста)
– [AAUP Frankfurt Book Fair] (= Association of American
University Presses)
– [AAUP censure List] (=American Association of University
Professors)
• По изменения в качестве поиска
– Косвенно
Оценка и измерения
Запрос
Определение языка
Морфология
Снятие омонимии
Синонимичные
расширения
Выделение объектов
Классификаторы и
вычисление факторов
Поиск
Анализ запроса: поиск
Аббревиатуры и
транслитерация
Анализ
результатов
Результаты
поиска
Поиск
Запрос
Исправление
Результаты
поиска
Подсказка
+ результаты
поиска
Поиск
Анализ запроса
15% запросов – с ошибками
• юнность кончилась внезапно мр3
• меховой слон
• Сели Дион
• в контакте соцеальная сеть
• как из кукол зделать девочек группы ранетки
• Фильм Терменатор 4 онлайн
• Учимсся футбольному фрейсталу
• взаимоотношения человека и природы в
творчестве постернака
Подсказка после поиска
Поиск
Запрос
Исправление
Анализ
результатов
Результаты
поиска
Подсказка
+ результаты
поиска
Исправленный
запрос
Анализ запроса: исправление ошибок
Автоматическое исправление запроса
Поиск
Запрос
Исправление
Анализ
результатов
Результаты
поиска
Подсказка
+ результаты
поиска
Исправленный
запрос
Подсказка
при наборе
Анализ запроса: исправление ошибок
Подсказка во время набора
?
Илья Сегалович, Виталий Титов, Алексей Байтин

More Related Content

Viewers also liked

Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"yaevents
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндексyaevents
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
yaevents
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
yaevents
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
yaevents
 
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
yaevents
 

Viewers also liked (6)

Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
 
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
 

Similar to Анализ запроса

«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Поиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работыПоиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работы
Vasiliy Starostin
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
индекс цитирования
индекс цитированияиндекс цитирования
индекс цитированияLubask
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщений
Lidia Pivovarova
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
maymarina19
 
Дарья_Бухтоярова_2
Дарья_Бухтоярова_2Дарья_Бухтоярова_2
Дарья_Бухтоярова_2
psyjournals_ru
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Возможности ResearcherID для учёного и администратора
Возможности ResearcherID для учёного и администратораВозможности ResearcherID для учёного и администратора
Возможности ResearcherID для учёного и администратора
bntulibrary
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
bntulibrary
 
Как оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницКак оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницСергей Кокшаров
 

Similar to Анализ запроса (20)

«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Поиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работыПоиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работы
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
индекс цитирования
индекс цитированияиндекс цитирования
индекс цитирования
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщений
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
 
Дарья_Бухтоярова_2
Дарья_Бухтоярова_2Дарья_Бухтоярова_2
Дарья_Бухтоярова_2
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 
Возможности ResearcherID для учёного и администратора
Возможности ResearcherID для учёного и администратораВозможности ResearcherID для учёного и администратора
Возможности ResearcherID для учёного и администратора
 
ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
Бренд ученого: как публиковать статьи в высокорейтинговых журналах и сделать ...
 
Как оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницКак оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страниц
 
в вики Netpromoter2010 ludkevich
в вики Netpromoter2010 ludkevichв вики Netpromoter2010 ludkevich
в вики Netpromoter2010 ludkevich
 
в вики Netpromoter2010-ludkevich
в вики Netpromoter2010-ludkevichв вики Netpromoter2010-ludkevich
в вики Netpromoter2010-ludkevich
 

More from yaevents

Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
yaevents
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
yaevents
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндексyaevents
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
yaevents
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
yaevents
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
yaevents
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
yaevents
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
yaevents
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
yaevents
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
yaevents
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Google
yaevents
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
yaevents
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
yaevents
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигма
yaevents
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...
yaevents
 
Поисковая технология "Спектр". Андрей Плахов, Яндекс
Поисковая технология "Спектр". Андрей Плахов, ЯндексПоисковая технология "Спектр". Андрей Плахов, Яндекс
Поисковая технология "Спектр". Андрей Плахов, Яндекс
yaevents
 
Julia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareJulia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareyaevents
 
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...yaevents
 
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval EvaluationEvangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval Evaluationyaevents
 
Ben Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval EvaluationBen Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval Evaluationyaevents
 

More from yaevents (20)

Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндекс
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Google
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигма
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...
 
Поисковая технология "Спектр". Андрей Плахов, Яндекс
Поисковая технология "Спектр". Андрей Плахов, ЯндексПоисковая технология "Спектр". Андрей Плахов, Яндекс
Поисковая технология "Спектр". Андрей Плахов, Яндекс
 
Julia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareJulia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-aware
 
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
 
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval EvaluationEvangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
 
Ben Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval EvaluationBen Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval Evaluation
 

Анализ запроса

Editor's Notes

  1. Besides loanwords at least 2 considerable cases of obliged transliteration usage exists: Proper names: Angelina Jolie, Toyota, Nokia, etc; URLs, logins and other ids that should be in Latin alphabet due to system restrictions.
  2. Number of linguistic-model consistent hypotheses after that step is reduced to 59 millions. Each of models gives us more than 90% recall (taking over 100% union of both models) and transliteness ratings for further precision improvement.
  3. Let us speak about general factors, that is just a list. One can see that there are a lot of common factors that are used to build different classes of synonimity. The significant number of the shared factors could vote for a general system that could be our future task. The main shared factors for one pair synonym <S1,S2> are the following