Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

“Атличнаи дивчачьи каньки”: исправляем ошибки. Андрей Смирнов (Avito)

210 views

Published on

Avito каждый день помогает миллионам продавцов и покупателей найти друга несмотря на “языковой барьер”. Из доклада вы узнаете, какие алгоритмы мы используем для нахождения ошибок и опечаток, синонимов и сокр.

SphinxSearch meetup #2 @ Avito, 18.06.2016

Published in: Internet
  • Be the first to comment

“Атличнаи дивчачьи каньки”: исправляем ошибки. Андрей Смирнов (Avito)

  1. 1. Помогаем пользователям Андрей Смирнов 1
  2. 2. Зачем это всё? Надо ли помогать пользователям? Надо 2
  3. 3. Помощь при поиске — Подсказки при вводе поискового запроса.. — Исправление раскладки — Исправление ошибок — Исправление раскладки и ошибки — Разбиение на слова — Лишние слова. 3
  4. 4. 4
  5. 5. Помогаем п(р?)одающим — Много, очень много объявлений с ошибками — Собираем популярные ошибки, и учитываем их при индексации 5
  6. 6. 6
  7. 7. Стопслова. — Некоторые товары нельзя продавать. наркотики, людей — Мат, в подсказках некрасиво. Вычеркиваем о%;ительный — Нерелевантные слова. вообще, был, для 7
  8. 8. Выбор морфологии. — Зачем приводить к нормальной форме — Soundex, Metaphone — Stemmer — Lemmatizer 8
  9. 9. Словоформы. — Опечатки Былочка — Синонимы Плюшка, Пышка, Розанчик, Слойка, Бриошь, Кокура, Бриош, Гугель, Маффин — Сленг регионов. шаверма, шаварма, шаурма — Тематический сленг Автомобильные запчасти, кошечки.. — Транслитерация bulka, bulca — Ошибки лемматайзера 9
  10. 10. Подготовка текста — Парсим наши большие индексы. Раскладываем по категориям — Удаляем дубликаты. Они испортят общую картину. — Чистим сами слова, лишние символы — Нормализуем входные слова, убирает стопслова 10
  11. 11. Подготовка данных — Загружаем все слова в sphinx. без стемминга и лематизации. — Выгружаем частотности слов — Генерим новый индекс. Слово, Нормализированное слово, слово в другой раскладке, частотность, биграммы — Загружаем все слова в word2vec. Генерим большой пребольшой граф. 11
  12. 12. Прогон — Выбираем наиболее частотные слова. — Частотность первых 15% слов составляет 80% от частотности всех слов. — Конструируем формулу для автоматической выборки пар. — Сила связи между словами из вектора.(из вектора word2vec) — Коэффициент похожести слов. (из N-gramm, Д-Левенштей, учитывается смена раскладки) — Логарифм от частотности в тексте — Получаем много и много пар слов. 12
  13. 13. Bag-of-words тормоз ножной 0.905975 незавимсимый 0.885751 тросиков 0.868641 стояночный 0.867629 vтормоза 0.851434 троссиковой 0.845943 гидравлич 0.839933 тормозколесо 0.83949 easystop 0.833925 тектро 0.833664 самоискатель 0.828096 тормозной 0.826122 caliper 0.826041 пожвижные 0.825819 прямоехать 0.824853 тормозапередний0.821059 торомоз тормоз 0.781977 pushpush 0.755649 незавимсимый 0.748093 ругулятор 0.747481 осистояночный 0.744312 стоянойный 0.743994 сахтросиковой 0.741415 самх 0.74106 задниепередняя 0.734304 поворотныеманевренный0.734046 ручын 0.733179 поворотностопорный 0.730534 троссиков 0.728075 мамыш 0.726821 пожвижные 0.726676 асортизатор 0.721914 тормаз тормоз 0.806569 хорошиенадувной 0.779151 стопколяска 0.759566 ругулятор 0.749028 pushpush 0.741626 единственый 0.738707 перекладинапедалька0.737508 пожвижные 0.73588 блакироваться 0.73063 тормозколесо 0.730521 плавующий 0.729905 нафиксатор 0.726576 тормозручка 0.724633 тормозомпланка 0.723524 тросиков 0.723105 тормозручной 0.720761 13
  14. 14. Skip-gram тормоз торомоз 0.776441 тормаз 0.766608 просторнаяручка 0.750774 томоз 0.714225 тормозкорзина 0.707341 тормозколесо 0.690314 тормозомпланка 0.668233 тормозесть 0.658294 тормозфиксатор 0.654067 тормозблокиратор 0.640565 дискахцентральный 0.639764 стальтормоз 0.634496 тормозапередний 0.631227 поверхностьюножной0.629615 тормозскладываться 0.6179 колесахудобный 0.611964 торомоз тормоз 0.776441 тормаз 0.674317 просторнаяручка 0.658775 тормозколесо 0.653706 асортизатор 0.630608 томоз 0.622021 тормозкорзина 0.615997 тормозапередний 0.59914 тормозомпланка 0.590222 тормаз тормоз 0.766608 торомоз 0.674317 тормозколесо 0.628059 тормозомпланка 0.619644 тормозафиксатор 0.61739 тормозскладываться0.599998 14
  15. 15. Проверка — Проверяем только большие индексы — Поднимаем рядом два индекса — Получаем их монги логи запросов. — Если стало сильно лучше или сильно хуже смотрим глазами 15
  16. 16. Популярные опечатки комбинезон71 компьютер 61 запчасть 54 hakkapelliita34 mitsubishi 28 комплект 28 hyundai 28 vw 2716
  17. 17. камбенезон камбинезон камбинизон кимбинезон кобинезон кобминезон комбенезон комбензон комбиезон комбиензон комбимнезон комбинедзон комбинезан комбинезин комбинензон комбинзон комбинизон комбинозон комбиньзон комбмнезон комбнезон комбтнезон комибинезон коминезон коммбинезон комьинезон конбенезон конбинезон 17
  18. 18. Вопросы? sphinx@t0t.ru 18

×