SlideShare a Scribd company logo
1 of 28
Download to read offline
Федор Федоренко
Разработчик-Исследователь
Нейро-Машинный Перевод в
Вопросно-Ответных Системах
08.11.2019
Вопросно-Ответная
Система
Рисунок: Скриншоты карточек ответа в поисковой выдаче
Google (слева), Yandex (по середине), Mail.ru (справа), 2019
Вопросно-Ответная Система в
Поиске Mail.ru
Рисунок: схема работы вопросно-ответной системы
Information Retrieval-based QA в
Поиске Mail.ru
Рисунок: поисковая выдача Поиска Mail.ru по запросу “Кто основал Ярославль”
Information Retrieval-based QA в
Поиске Mail.ru
Рисунок: схема работы IR-based QA подсистемы
Сформулируем:
• Дано:
• коллекция документов — база ответов на вопросы с “Ответов Mail.Ru”
• текстовая поисковая система
• Задача: отвечать на сформулированные на естественном языке вопросы при
помощи текстов Ответов
• Спойлер: просто запускать поиск по текстам не получится
Information Retrieval-based QA
в Поиске Mail.ru
Поисковый Индекс и
первая проблема
Рисунок: схема документа в индексе IRQA системы
• Поисковый индекс состоит из
пар вопрос — ответ
• Тексты ответа и вопроса —
редко пересекаются с запросом
• Текст ответа — ответ на больше
чем один вопрос
• Как понять, о чём текст?
• Запрос: как в ворде поставить нумерацию страниц
• Документ:
• Вопрос: Как делать подписи в документах?
• Ответ: посмотри в свойствах колонтитулов
Поисковый Индекс и
первая проблема
Рисунок: схема документа в индексе IRQA системы
• Запрос: как в ворде поставить нумерацию страниц
• Документ:
• Вопрос: Как делать подписи в документах?
• Ответ: посмотри в свойствах колонтитулов
• Синтетика: где настройки нумерации страниц?
Поисковый Индекс и
первая проблема
Рисунок: схема документа в индексе IRQA системы, revisited
NMT to the Rescue!
Рисунок: схема документа в индексе IRQA системы, revisited
• Новые формулировки
оригинального вопроса
• Новые вопросы
• Легко встраивается в систему
текстового поиска и ранжирования
• Задача: текст ответа —> текст 1-2
возможных синтетических вопросов
• Обучающее множество:
лучший ответ —> вопрос
Обучающая выборка
Рисунок: вопрос с Ответов Mail.ru с лучшим ответом
NMT with Seq-2-Seq
Рисунок: схема RNN with attention [1,2]
[1] Graves A., 2013. Generating Sequences …
[2] Luong M. et al., 2015. Effective Approaches …
RNN-LSTM, два слоя, словарь на ~180к слов
ВОПРОС: хто задрот
ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир
такой игра релиз стать организовывать однако вскоре исключить список дисциплина
каждый год американец проводить специальный сезон состоять несколько
соревнование разный город сша итоговый турнир конец год
СИНТЕТИКА: лига играть игра игра игра игра игра игра …
• Проблемы: повторения, плохая реакция на длинные тексты
Перевод без внимания
Асессорская оценка
• Оценить ответ на запрос:
• (2) ответ полностью отвечает на вопрос;
• (1) ответ отвечает на вопрос частично;
• (0) ответ совсем не отвечает на вопрос.
• Результат ожидаем:
• Baseline: (2) 15%, (1) 55%, (0) 30%
• Перевод без внимания: (2) 24%, (1) 55%, (0) 21%
RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на
~180к слов
ВОПРОС: хто задрот
ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир
такой игра релиз стать организовывать однако вскоре исключить список дисциплина
каждый год американец проводить специальный сезон состоять несколько
соревнование разный город сша итоговый турнир конец год
СИНТЕТИКА: проходить сезон лига играть [игра играть игра соревнование]x4 …
• Проблемы: повторения
Перевод с вниманием
ВОПРОС: заменять сахар
ОТВЕТ: сгущенка
СИНТЕТИКА: сгущенка х20
• Проблемы: горе от внимания, мало информации
Ещё пример
Что делать с
повторениями?
• Почему это проблема: искусственный рост TF-показателя
повторяющихся слов
• Решение проблемы: эвристическое, несколько “проходов” по
результату с удалением повторений
Убираем повторения, смотрим на ошибки, видим новую проблему:
ВОПРОС: откуда скачать реферат гимнастика гимнастический терминология
ОТВЕТ: интернет
СИНТЕТИКА: помочь решить задача пожалуйста
Проблема: генерируются общие вопросы на тему ДЗ, отношения, политика.
Перевод без повторений
Тексты, которые нас
не интересуют
• Соображение: в индексе есть “лучшие” ответы, не содержащие
информации (“Да”, “Попробуй”, “В интернете поищи”, “:)))))”)
• Почему это проблема: такие ответы засоряют обучающее
множество, а показать такой текст в выдаче — непростительно
• Решение проблемы: эвристическое, уберём из индекса и
обучающего множества категории с большим количеством
таких текстов.
ВОПРОС: посоветовать книга
ОТВЕТ: например <unk> <unk> и ещё <unk> <unk>
СИНТЕТИКА: посоветовать <unk>
• Проблемы, токенизация не справляется с:
• именованными сущностями;
• опечатками;
• другими не знакомыми словами.
Ещё пример
Токенизация
• Соображение:
• частое возникновение <unk> — следствие размера словаря
• ~180к начальных форм — мало при большом количестве
именованных сущностей и опечаток в данных
• SentencePiece [3, 4], размер словаря ~180к —> 8к
• Пример: скапипастить с гитхаба —>
• ['▁с', 'ка', 'пи', 'па', 'ст', 'ить', '▁с', '▁г', 'ит', 'ха', 'ба']
• <unk> гитхаб
[3] SentencePiece, https://github.com/google/sentencepiece
[4] Kudo T., 2018. Subword Regularization: …
RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на
~8к SentencePiece токенов
ВОПРОС: горло першит и на задней стенке глотки появились какие-то волдыри. что
это такое? и как лечить?
ОТВЕТ: ангина. нужно полоскать горло раствором фурацилина или раствором
сода+соль+йод. на ночь водочный компресс ну а лучше всего купить в аптеке спрей
биопарокс-антибиотик местного действия
СИНЕТИКА: что делать если болит горло?
Чистый индекс, нормализация
RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на
~8к SentencePiece токенов
ВОПРОС: а так ли уж плоха способность идти напролом?
ОТВЕТ: я за такими наблюдаю и всегда заканчивается одинаково. идут, пока башку
не расшибают . рано или поздно в жизни встречается такая дверь непробиваемая, что
их ”напролом” им же и вредит. а двери-то бывает ”на себя” открываются....
СИНТЕТИКА: как вы относитесь к людям, которые не любят двери?
Но нам есть над чем работать
Итоги
Оценка
ответ полностью
отвечает на
вопрос
ответ отвечает
на вопрос
частично
ответ совсем
не отвечает на
вопрос
Baseline 15 55 30
Перевод без внимания 24 55 21
Перевод с вниманием 27 56 17
Перевод без повторений 30 56 14
Чистый индекс, нормализация 42 47 11
Федор
Федоренко
Разработчик-Исследователь
f.fedorenko@corp.mail.ru
• [1: слайд 12] Graves A., 2013. Generating Sequences With Recurrent Neural Networks
• [2: слайд 12] Luong M. et al., 2015. Effective Approaches to Attention-based Neural
Machine Translation
• [3: слайд 21] Google. SentencePiece, https://github.com/google/sentencepiece
• [3: слайд 21] Kudo T., 2018. Subword Regularization: Improving Neural Network
Translation Models with Multiple Subword Candidates
Ссылки на слайдах
Нейро-Машинный Перевод в
Вопросно-Ответных Системах
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey)

More Related Content

Similar to Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey)

Типичные ошибки в текстах
Типичные ошибки в текстахТипичные ошибки в текстах
Типичные ошибки в текстах
salunova
 
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
Сообщество eLearning PRO
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требования
Pavel Egorov
 
Вебинар: Оптимизация контента, которая понравится поисковым системам
Вебинар: Оптимизация контента, которая понравится поисковым системамВебинар: Оптимизация контента, которая понравится поисковым системам
Вебинар: Оптимизация контента, которая понравится поисковым системам
SEO-Интеллект
 
Cl GPN-Умножая таланты- Учебник финала
Cl GPN-Умножая таланты- Учебник финала Cl GPN-Умножая таланты- Учебник финала
Cl GPN-Умножая таланты- Учебник финала
GPNT
 

Similar to Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey) (20)

seo
seo seo
seo
 
Инклюзия 1465 (2015/2016) Отчет для родителей
Инклюзия 1465 (2015/2016) Отчет для родителейИнклюзия 1465 (2015/2016) Отчет для родителей
Инклюзия 1465 (2015/2016) Отчет для родителей
 
Ekonom
EkonomEkonom
Ekonom
 
Типичные ошибки в текстах
Типичные ошибки в текстахТипичные ошибки в текстах
Типичные ошибки в текстах
 
Архитектура текста
Архитектура текстаАрхитектура текста
Архитектура текста
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
 
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
Как рассчитать нагрузку преподавателей при работе в режиме онлайн. Тихомирова...
 
Чудо пустого инбокса
Чудо пустого инбоксаЧудо пустого инбокса
Чудо пустого инбокса
 
Андрей Иванов, от списка запросов – к ключевым словам и словосочетаниям рекл...
Андрей Иванов,  от списка запросов – к ключевым словам и словосочетаниям рекл...Андрей Иванов,  от списка запросов – к ключевым словам и словосочетаниям рекл...
Андрей Иванов, от списка запросов – к ключевым словам и словосочетаниям рекл...
 
Банк тестов
Банк тестовБанк тестов
Банк тестов
 
Практика SEO: выпуск 8. Ответы на SEO-вопросы слушателей
Практика SEO: выпуск 8. Ответы на SEO-вопросы слушателейПрактика SEO: выпуск 8. Ответы на SEO-вопросы слушателей
Практика SEO: выпуск 8. Ответы на SEO-вопросы слушателей
 
В,Л. Волохонский "Исследования в промышленном масштабе: сбор данных, обработк...
В,Л. Волохонский "Исследования в промышленном масштабе: сбор данных, обработк...В,Л. Волохонский "Исследования в промышленном масштабе: сбор данных, обработк...
В,Л. Волохонский "Исследования в промышленном масштабе: сбор данных, обработк...
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требования
 
Почему оно не находится! / Андрей Аксенов (Sphinx)
Почему оно не находится! / Андрей Аксенов (Sphinx)Почему оно не находится! / Андрей Аксенов (Sphinx)
Почему оно не находится! / Андрей Аксенов (Sphinx)
 
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
 
Типичные проблемы Выявления Требований и их Решение
Типичные проблемы Выявления Требований и их РешениеТипичные проблемы Выявления Требований и их Решение
Типичные проблемы Выявления Требований и их Решение
 
Вебинар: Оптимизация контента, которая понравится поисковым системам
Вебинар: Оптимизация контента, которая понравится поисковым системамВебинар: Оптимизация контента, которая понравится поисковым системам
Вебинар: Оптимизация контента, которая понравится поисковым системам
 
Cl GPN-Умножая таланты- учебник финала
Cl GPN-Умножая таланты- учебник финала Cl GPN-Умножая таланты- учебник финала
Cl GPN-Умножая таланты- учебник финала
 
Cl GPN-Умножая таланты- Учебник финала
Cl GPN-Умножая таланты- Учебник финала Cl GPN-Умножая таланты- Учебник финала
Cl GPN-Умножая таланты- Учебник финала
 

More from Mail.ru Group

AMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей ПешковAMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей Пешков
Mail.ru Group
 

More from Mail.ru Group (20)

Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
 
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
 
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир ДубровинДругая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
 
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
 
Управление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон ВикторовУправление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон Викторов
 
DAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга СвиридоваDAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга Свиридова
 
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...
 
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
 
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidiaRAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidia
 
WebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий ОстапенкоWebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий Остапенко
 
AMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей ПешковAMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей Пешков
 
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила СтрелковКак мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
 
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
 
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.ТаксиМетапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
 
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru GroupКак не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
 
Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)
 
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
 
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
 
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
 
Learning from Swift sources, Иван Сметанин
Learning from Swift sources, Иван СметанинLearning from Swift sources, Иван Сметанин
Learning from Swift sources, Иван Сметанин
 

Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey)

  • 2. Вопросно-Ответная Система Рисунок: Скриншоты карточек ответа в поисковой выдаче Google (слева), Yandex (по середине), Mail.ru (справа), 2019
  • 3. Вопросно-Ответная Система в Поиске Mail.ru Рисунок: схема работы вопросно-ответной системы
  • 4. Information Retrieval-based QA в Поиске Mail.ru Рисунок: поисковая выдача Поиска Mail.ru по запросу “Кто основал Ярославль”
  • 5. Information Retrieval-based QA в Поиске Mail.ru Рисунок: схема работы IR-based QA подсистемы
  • 6. Сформулируем: • Дано: • коллекция документов — база ответов на вопросы с “Ответов Mail.Ru” • текстовая поисковая система • Задача: отвечать на сформулированные на естественном языке вопросы при помощи текстов Ответов • Спойлер: просто запускать поиск по текстам не получится Information Retrieval-based QA в Поиске Mail.ru
  • 7. Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы • Поисковый индекс состоит из пар вопрос — ответ • Тексты ответа и вопроса — редко пересекаются с запросом • Текст ответа — ответ на больше чем один вопрос • Как понять, о чём текст?
  • 8. • Запрос: как в ворде поставить нумерацию страниц • Документ: • Вопрос: Как делать подписи в документах? • Ответ: посмотри в свойствах колонтитулов Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы
  • 9. • Запрос: как в ворде поставить нумерацию страниц • Документ: • Вопрос: Как делать подписи в документах? • Ответ: посмотри в свойствах колонтитулов • Синтетика: где настройки нумерации страниц? Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы, revisited
  • 10. NMT to the Rescue! Рисунок: схема документа в индексе IRQA системы, revisited • Новые формулировки оригинального вопроса • Новые вопросы • Легко встраивается в систему текстового поиска и ранжирования • Задача: текст ответа —> текст 1-2 возможных синтетических вопросов • Обучающее множество: лучший ответ —> вопрос
  • 11. Обучающая выборка Рисунок: вопрос с Ответов Mail.ru с лучшим ответом
  • 12. NMT with Seq-2-Seq Рисунок: схема RNN with attention [1,2] [1] Graves A., 2013. Generating Sequences … [2] Luong M. et al., 2015. Effective Approaches …
  • 13. RNN-LSTM, два слоя, словарь на ~180к слов ВОПРОС: хто задрот ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир такой игра релиз стать организовывать однако вскоре исключить список дисциплина каждый год американец проводить специальный сезон состоять несколько соревнование разный город сша итоговый турнир конец год СИНТЕТИКА: лига играть игра игра игра игра игра игра … • Проблемы: повторения, плохая реакция на длинные тексты Перевод без внимания
  • 14. Асессорская оценка • Оценить ответ на запрос: • (2) ответ полностью отвечает на вопрос; • (1) ответ отвечает на вопрос частично; • (0) ответ совсем не отвечает на вопрос. • Результат ожидаем: • Baseline: (2) 15%, (1) 55%, (0) 30% • Перевод без внимания: (2) 24%, (1) 55%, (0) 21%
  • 15. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~180к слов ВОПРОС: хто задрот ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир такой игра релиз стать организовывать однако вскоре исключить список дисциплина каждый год американец проводить специальный сезон состоять несколько соревнование разный город сша итоговый турнир конец год СИНТЕТИКА: проходить сезон лига играть [игра играть игра соревнование]x4 … • Проблемы: повторения Перевод с вниманием
  • 16. ВОПРОС: заменять сахар ОТВЕТ: сгущенка СИНТЕТИКА: сгущенка х20 • Проблемы: горе от внимания, мало информации Ещё пример
  • 17. Что делать с повторениями? • Почему это проблема: искусственный рост TF-показателя повторяющихся слов • Решение проблемы: эвристическое, несколько “проходов” по результату с удалением повторений
  • 18. Убираем повторения, смотрим на ошибки, видим новую проблему: ВОПРОС: откуда скачать реферат гимнастика гимнастический терминология ОТВЕТ: интернет СИНТЕТИКА: помочь решить задача пожалуйста Проблема: генерируются общие вопросы на тему ДЗ, отношения, политика. Перевод без повторений
  • 19. Тексты, которые нас не интересуют • Соображение: в индексе есть “лучшие” ответы, не содержащие информации (“Да”, “Попробуй”, “В интернете поищи”, “:)))))”) • Почему это проблема: такие ответы засоряют обучающее множество, а показать такой текст в выдаче — непростительно • Решение проблемы: эвристическое, уберём из индекса и обучающего множества категории с большим количеством таких текстов.
  • 20. ВОПРОС: посоветовать книга ОТВЕТ: например <unk> <unk> и ещё <unk> <unk> СИНТЕТИКА: посоветовать <unk> • Проблемы, токенизация не справляется с: • именованными сущностями; • опечатками; • другими не знакомыми словами. Ещё пример
  • 21. Токенизация • Соображение: • частое возникновение <unk> — следствие размера словаря • ~180к начальных форм — мало при большом количестве именованных сущностей и опечаток в данных • SentencePiece [3, 4], размер словаря ~180к —> 8к • Пример: скапипастить с гитхаба —> • ['▁с', 'ка', 'пи', 'па', 'ст', 'ить', '▁с', '▁г', 'ит', 'ха', 'ба'] • <unk> гитхаб [3] SentencePiece, https://github.com/google/sentencepiece [4] Kudo T., 2018. Subword Regularization: …
  • 22. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~8к SentencePiece токенов ВОПРОС: горло першит и на задней стенке глотки появились какие-то волдыри. что это такое? и как лечить? ОТВЕТ: ангина. нужно полоскать горло раствором фурацилина или раствором сода+соль+йод. на ночь водочный компресс ну а лучше всего купить в аптеке спрей биопарокс-антибиотик местного действия СИНЕТИКА: что делать если болит горло? Чистый индекс, нормализация
  • 23. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~8к SentencePiece токенов ВОПРОС: а так ли уж плоха способность идти напролом? ОТВЕТ: я за такими наблюдаю и всегда заканчивается одинаково. идут, пока башку не расшибают . рано или поздно в жизни встречается такая дверь непробиваемая, что их ”напролом” им же и вредит. а двери-то бывает ”на себя” открываются.... СИНТЕТИКА: как вы относитесь к людям, которые не любят двери? Но нам есть над чем работать
  • 24. Итоги Оценка ответ полностью отвечает на вопрос ответ отвечает на вопрос частично ответ совсем не отвечает на вопрос Baseline 15 55 30 Перевод без внимания 24 55 21 Перевод с вниманием 27 56 17 Перевод без повторений 30 56 14 Чистый индекс, нормализация 42 47 11
  • 26. • [1: слайд 12] Graves A., 2013. Generating Sequences With Recurrent Neural Networks • [2: слайд 12] Luong M. et al., 2015. Effective Approaches to Attention-based Neural Machine Translation • [3: слайд 21] Google. SentencePiece, https://github.com/google/sentencepiece • [3: слайд 21] Kudo T., 2018. Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates Ссылки на слайдах