SlideShare a Scribd company logo
1 of 27
Download to read offline
Перевод с русского на русский, или о применении технологий машинного перевода к задачам web-поиска Игорь Андреев
Поиск@Mail.Ru http://go.mail.ru
Что внутри: 
~ 8 млрд. документов в индексе 
~ 20 млн. запросов в день
Одна из основных проблем– низкочастотные запросы 
Низкочастотный запрос – это запрос, по которому нет (или очень мало) поведенческой информации 
До 30% запросов - низкочастотные 
Возможное решение – переформулировка НЧ запроса
5 
Web 
Обработка запроса 
Поиск в индексе 
Ранжирование 
Пост- обработка 
Фронт-энд
Индекс 
Document 1 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Document 2 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Document 3 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3…
1 
Document1 
2 
Document2 
3 
Document3
1 
Document1 
2 
Document2 
3 
Document3
Index 
Document 1 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Document 2 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Document 3 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3…
Index 
Document 1 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Document 2 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Q_links 
query 
Document 3 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3…
1 
Document2 
2 
Document1 
3 
Document3
Document 
Query1 
Query3 
Query4 
Query7 
Query6 
Query5 
Query2
Query1 
Query3 
Query4 
Query7 
Query6 
Query5 
Query2
Query1 
Query3 
Query7 
Query6 
Query5 
Query2 
Source Target
Статистический машинный перевод 
Translation stage 
Source sentence 
Target sentence 
Training stage 
Phrase table (PhT) 
Language model (LM) 
Alignment 
Parallel 
corpus
тушеная свинина с овощами 
как приготовить свинину с овощами 
простой рецепт готовим дома рецепт свинина тушеная 
свинина с овощами рецепты 
свинина с овощами тушеная свинина тушенная с овощами 
свинина тушеная с овощами картошка 
свинина тушеная на сковороде 
свинина тушеная с картошкой 
свинина с овощами на сковороде 
тушёная свинина с овощами картошка со свининой на сковороде 
свинина с овощами рецепт с фото тушеная свинины 
свинина тушеная с овощами свинина с овощами 
как приготовить свинину на сковороде 
рецепты свинины с овощами рецепт приготовления свинины с овощами 
как приготовить мясо с овощами 
как можно приготовить свинину 
рецепт свинины тушеной с овощами 
свинина с овощами рецепт 
рецепт свинины с овощами 
17
«Параллельный» корпус 
… 
тушеная свинина с овощами 
как приготовить свинину с овощами 
свинина с овощами рецепты 
свинина тушеная с овощами 
… 
… 
свинина с овощами тушеная 
свинина тушенная с овощами 
свинина тушеная с овощами картошка 
свинина тушеная на сковороде 
… 
~100 млн. пар запросов
… 
как приготовить свинину с овощами ||| приготовление свинины ||| 0.0769231 
как приготовить свинину с овощами в ||| приготовление свинины в ||| 0.166667 
как приготовить свинину с овощами в горшочке ||| приготовление свинины в горшочках ||| 0.333333 
как приготовить свинину с овощами на сковороде ||| свинина жареная на сковороде с овощами ||| 0.333333 
как приготовить свинину с овощами по китайски ||| свинина с овощами на пару ||| 0.25 
как приготовить тушеную свинину с овощами ||| приготовить мясо с овощами ||| 0.0833333 
как тушить мясо свинину ||| тушить мясо с овощами ||| 0.25 
… 
мясо с овощами в духовке в фольге ||| свинина с грибами в фольге ||| 0.166667 
мясо с овощами в кисло ||| свинина в кисло ||| 0.0169492 
мясо с овощами в кисло сладком ||| свинина в кисло сладком ||| 0.0192308 
мясо с овощами в кисло сладком соусе ||| свинина в кисло сладком соусе фото ||| 0.25 
мясо с овощами в сливочном соусе ||| свинина с овощами в мультиварке ||| 0.125 
мясо с овощами в фольге ||| запеченая свинина в фольге ||| 0.333333 
мясо с овощами в фольге в ||| запеченая свинина в фольге ||| 0.333333 
…
Q: первое блюдо на косточках свинных 
суп на свиных косточках 
-18.8081 
плов на свиных косточках 
-19.080498 
блюда на свиных косточках 
-20.160805 
суп на свиных косточек 
-20.285103 
плов на свиных косточек 
-20.5575
Как применять? (1) 
Document 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Q_links 
query 
Translator 
Document 
Title 
w1, w2, w3… 
Body 
w1, w2, w3… 
Ext_links 
w1, w2, w3… 
Q_links 
query 
T_links 
query1, query2…
Как применять? (2) 
Searcher 
Index 
ОК? 
Translator 
Front 
End 
Ranking
ML 
~2000 factors 
Как применять? (3) 
Front 
End 
Searcher 
Index 
Ranking 
Translator 
Query Data
Выводы 
Получен и практически применен механизм переформулировки НЧ запросов 
Правильное составление корпуса повышает «адекватность» перевода 
Случайная расстановка ~75% 
Направленная расстановка ~85% 
Наименее «травматичный» для поиска способ - №3 
Переводчик срабатывает на ~3% потока 
Качество +5-7% по оценкам асессоров
Что дальше 
•Выравнивание 
•Извлечение фраз 
•Лемматизация 
•Использование других массивов данных для обучения
Литература 
1.Stefan Riezler and Yi Liu. Query Rewriting Using Monolingual Statistical Machine Translation. 
2.Philipp Koehn. Statistical Machine Translation.
Игорь Андреев 
Поиск@Mail.ru 
i.andreev@corp.mail.ru 
www.mail.ru 
СПАСИБО!

More Related Content

More from AINL Conferences

Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"AINL Conferences
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"AINL Conferences
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"AINL Conferences
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...AINL Conferences
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"AINL Conferences
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"AINL Conferences
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...AINL Conferences
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...AINL Conferences
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...AINL Conferences
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...AINL Conferences
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"AINL Conferences
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL Conferences
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL Conferences
 
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...AINL Conferences
 
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAINL Conferences
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Ainl 2013 shavykin nao роботы.ppt
Ainl 2013 shavykin nao роботы.pptAinl 2013 shavykin nao роботы.ppt
Ainl 2013 shavykin nao роботы.pptAINL Conferences
 
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...AINL Conferences
 

More from AINL Conferences (18)

Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)
 
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
 
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Ainl 2013 shavykin nao роботы.ppt
Ainl 2013 shavykin nao роботы.pptAinl 2013 shavykin nao роботы.ppt
Ainl 2013 shavykin nao роботы.ppt
 
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...
Ainl2013: Huma Shah_From Eliza to Eugene: Approaching Fifty Years of Dialogue...
 

Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении технологий машинного перевода к задачам web-поиска"

  • 1. Перевод с русского на русский, или о применении технологий машинного перевода к задачам web-поиска Игорь Андреев
  • 3. Что внутри: ~ 8 млрд. документов в индексе ~ 20 млн. запросов в день
  • 4. Одна из основных проблем– низкочастотные запросы Низкочастотный запрос – это запрос, по которому нет (или очень мало) поведенческой информации До 30% запросов - низкочастотные Возможное решение – переформулировка НЧ запроса
  • 5. 5 Web Обработка запроса Поиск в индексе Ранжирование Пост- обработка Фронт-энд
  • 6. Индекс Document 1 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Document 2 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Document 3 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3…
  • 7.
  • 8. 1 Document1 2 Document2 3 Document3
  • 9. 1 Document1 2 Document2 3 Document3
  • 10. Index Document 1 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Document 2 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Document 3 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3…
  • 11. Index Document 1 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Document 2 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Q_links query Document 3 Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3…
  • 12. 1 Document2 2 Document1 3 Document3
  • 13. Document Query1 Query3 Query4 Query7 Query6 Query5 Query2
  • 14. Query1 Query3 Query4 Query7 Query6 Query5 Query2
  • 15. Query1 Query3 Query7 Query6 Query5 Query2 Source Target
  • 16. Статистический машинный перевод Translation stage Source sentence Target sentence Training stage Phrase table (PhT) Language model (LM) Alignment Parallel corpus
  • 17. тушеная свинина с овощами как приготовить свинину с овощами простой рецепт готовим дома рецепт свинина тушеная свинина с овощами рецепты свинина с овощами тушеная свинина тушенная с овощами свинина тушеная с овощами картошка свинина тушеная на сковороде свинина тушеная с картошкой свинина с овощами на сковороде тушёная свинина с овощами картошка со свининой на сковороде свинина с овощами рецепт с фото тушеная свинины свинина тушеная с овощами свинина с овощами как приготовить свинину на сковороде рецепты свинины с овощами рецепт приготовления свинины с овощами как приготовить мясо с овощами как можно приготовить свинину рецепт свинины тушеной с овощами свинина с овощами рецепт рецепт свинины с овощами 17
  • 18. «Параллельный» корпус … тушеная свинина с овощами как приготовить свинину с овощами свинина с овощами рецепты свинина тушеная с овощами … … свинина с овощами тушеная свинина тушенная с овощами свинина тушеная с овощами картошка свинина тушеная на сковороде … ~100 млн. пар запросов
  • 19. … как приготовить свинину с овощами ||| приготовление свинины ||| 0.0769231 как приготовить свинину с овощами в ||| приготовление свинины в ||| 0.166667 как приготовить свинину с овощами в горшочке ||| приготовление свинины в горшочках ||| 0.333333 как приготовить свинину с овощами на сковороде ||| свинина жареная на сковороде с овощами ||| 0.333333 как приготовить свинину с овощами по китайски ||| свинина с овощами на пару ||| 0.25 как приготовить тушеную свинину с овощами ||| приготовить мясо с овощами ||| 0.0833333 как тушить мясо свинину ||| тушить мясо с овощами ||| 0.25 … мясо с овощами в духовке в фольге ||| свинина с грибами в фольге ||| 0.166667 мясо с овощами в кисло ||| свинина в кисло ||| 0.0169492 мясо с овощами в кисло сладком ||| свинина в кисло сладком ||| 0.0192308 мясо с овощами в кисло сладком соусе ||| свинина в кисло сладком соусе фото ||| 0.25 мясо с овощами в сливочном соусе ||| свинина с овощами в мультиварке ||| 0.125 мясо с овощами в фольге ||| запеченая свинина в фольге ||| 0.333333 мясо с овощами в фольге в ||| запеченая свинина в фольге ||| 0.333333 …
  • 20. Q: первое блюдо на косточках свинных суп на свиных косточках -18.8081 плов на свиных косточках -19.080498 блюда на свиных косточках -20.160805 суп на свиных косточек -20.285103 плов на свиных косточек -20.5575
  • 21. Как применять? (1) Document Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Q_links query Translator Document Title w1, w2, w3… Body w1, w2, w3… Ext_links w1, w2, w3… Q_links query T_links query1, query2…
  • 22. Как применять? (2) Searcher Index ОК? Translator Front End Ranking
  • 23. ML ~2000 factors Как применять? (3) Front End Searcher Index Ranking Translator Query Data
  • 24. Выводы Получен и практически применен механизм переформулировки НЧ запросов Правильное составление корпуса повышает «адекватность» перевода Случайная расстановка ~75% Направленная расстановка ~85% Наименее «травматичный» для поиска способ - №3 Переводчик срабатывает на ~3% потока Качество +5-7% по оценкам асессоров
  • 25. Что дальше •Выравнивание •Извлечение фраз •Лемматизация •Использование других массивов данных для обучения
  • 26. Литература 1.Stefan Riezler and Yi Liu. Query Rewriting Using Monolingual Statistical Machine Translation. 2.Philipp Koehn. Statistical Machine Translation.
  • 27. Игорь Андреев Поиск@Mail.ru i.andreev@corp.mail.ru www.mail.ru СПАСИБО!