Plakhov urfu 2013

422 views
333 views

Published on

Андрей Плахов на Я.Студенте в УрФУ.
Математика в веб-поиске

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
422
On SlideShare
0
From Embeds
0
Number of Embeds
87
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Plakhov urfu 2013

  1. 1. Зачем в интернет-поиске математика Андрей Плахов Руководитель службы функциональности поиска
  2. 2. План 1. Зачем и какая математика применяется «в жизни» вообще и в поиске в частности 2. Matrixnet: машинное обучение в Яндексе
  3. 3. Сколько математиков нужно миру?
  4. 4. Математика как общий язык
  5. 5. Математика как источник идей
  6. 6. Когда возможно прямое применение?
  7. 7. Когда возможно прямое применение?
  8. 8. Масштабы веб-поиска 57 миллионов пользователей в месяц (Россия) >200 миллионов запросов в день Десятки стран Десятки тысяч серверов 5000 сотрудников
  9. 9. Прямые применения: анализ Производные (градиентный спуск, экстремумы) Построение функции с нужными свойствами Разложение в ряд Тейлора Разложение в ряд Фурье
  10. 10. Задача В коде проекта очень много раз вычисляется sin(x) для разных x от 0 до 1. Как ускорить это вычисление, если в результате допустима ошибка порядка 1e-5?
  11. 11. Задача Как разбить популярные поисковые запросы на две группы: имеющие ярко выраженные часы задания («утренние», «полуденные» и т.п.), и не имеющие?
  12. 12. Прямые применения: мат.статистика Распространенные распределения Центральная предельная теорема Критерии значимости, независимости Корреляция и её разновидности Статистические тесты
  13. 13. Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна?
  14. 14. Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна? Осмысленна ли она, если измерение – это среднегодовой доход пойманного на улице человека?
  15. 15. Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна? Осмысленна ли она, если измерение – это среднегодовой доход пойманного на улице человека? Если нет, то на что её заменить?
  16. 16. Задачи Придумайте «жизненный» пример ситуации, в которой ЦПТ опасно понимать как «если сложить кучу независимых случайных величин, то получим нормальное распределение»
  17. 17. A/B тестирование
  18. 18. A/B тестирование
  19. 19. A/B тестирование Показываем разным людям разное Измеряем показатели Статистически значимая разница позволяет принять решение
  20. 20. Задачи Пусть в день в систему задается около 200 миллионов запросов, каждый из которых мы можем автоматически счесть «успешным» или «неуспешным». Сколько бинарных решений мы сможем принять за неделю? От чего это зависит?
  21. 21. Прямые применения Дискретная математика Энтропия и оптимальное кодирование Коды, исправляющие ошибки Графы Теория массового обслуживания Теория аукционов Алгоритмы, структуры данных
  22. 22. Прямые применения: линейная алгебра, проективная геометрия
  23. 23. Опасности
  24. 24. Опасности
  25. 25. Опасности Абстракции «протекают» Статьи врут (гораздо чаще учебников) Результат важнее корректного обоснования Скорость итерации важнее всего
  26. 26. Задачи Прочитайте несколько статей про САРтеорему Спроектируйте систему хранения данных, по сути нарушающую её утверждение
  27. 27. Часть 2: машинное обучение
  28. 28. Заголовок
  29. 29. Заголовок
  30. 30. Применения: ранжирование Факторы + Оценки релевантности + Машинное обучение = Поиск
  31. 31. Применения Классификаторы Коллаборативная фильтрация Компьютерное зрение …
  32. 32. Методы Нейронные сети разного вида Support vector machines Gradient boosting
  33. 33. Методы Нейронные сети разного вида Support vector machines Gradient boosting
  34. 34. Свойства хорошей системы Предсказательная сила Толерантность к числу факторов и примеров Инвариантность относительно тривиальных изменений
  35. 35. Дизайн (верхний уровень) Градиентный спуск в гильбертовом пространстве Сумма «слабых решателей»
  36. 36. Слабый решатель Кусочно-постоянная функция Пространство разбиваем на 26 части гиперплоскостями, параллельными координатным
  37. 37. Градиентный спуск На каждом шаге добавляем новое слагаемое, максимально улучшающее целевой функционал Support Регуляризация
  38. 38. Support
  39. 39. Регуляризация
  40. 40. Регуляризация
  41. 41. Целевой функционал Квадратичная ошибка Любой другой, допускающий шаг градиентного спуска («можно взять производную»)
  42. 42. Итог
  43. 43. Вопросы? finder@yandex-team.ru

×