Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)

1,610 views

Published on

Доклад Артура Кадурина на HighLoad++ 2014.

Published in: Internet
  • Be the first to comment

Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)

  1. 1. Кластеризация BigDataна примере подарков в ОК Артур Кадурин(Mail.ru)
  2. 2. «Игрушечный» датасет •50.000.000 дарений •100.000 разных подарков
  3. 3. Задачи? •Ранжирование •Тегирование •Фильтрация •Деньги же, ну?..
  4. 4. Что такое дарение? •Даритель: ID, интересы, друзья •Подарок: ID, теги, картинка, цена •Получатель: ID, интересы, друзья •Timestamp: ID праздника, день недели, время суток
  5. 5. ПвП
  6. 6. Кластеризация процедура упорядочивания объектов в сравнительно однородные группы
  7. 7. K-Means
  8. 8. Хьюстон, у нас проблема! •Нет пространства •Нет расстояний •Вообще ничего нет •Варианты?
  9. 9. Основная мысль Если пользователь подарил два подарка значит они чем-то похожи
  10. 10. Похожесть..? 퐾(퐴,퐵)= 푛(퐴∩퐵) 푛(퐴∪퐵) = 푛(퐴∩퐵) 푛퐴+푛퐵−푛(퐴∩퐵) количествообщихпользователейобщееколичествопользователей
  11. 11. Коэффициент Жаккара Размер имеет значение Треугольник наоборот 1−퐾퐴,퐵+1−퐾퐵,퐶≥1−퐾퐴,퐶 1.Lipkus, Alan H (1999),A proof of the triangle inequality for the Tanimotodistance,J Math Chem 2.Levandowsky, Michael; Winter, David (1971),Distance between sets,Nature
  12. 12. План •Есть лог пар Пользователь-Подарок •Для каждой пары подарков считаем коэффициент Жаккара •Кластеризуем •????????? •PROFIT
  13. 13. Считаем «похожесть»
  14. 14. Граф и его матрица A= 10,209⋯0,0010,2091⋯0,035⋮⋮⋱⋮ 0,0010,035⋯1 퐵푖푗= 푘 퐴푖푘퐴푘푗 (Γ푟퐴)푖푗=(퐴푖푗)푟/ 푘 (퐴푘푗)푟
  15. 15. А дальше картинки
  16. 16. Цветы бывают разные
  17. 17. Яйца и туфли
  18. 18. С новым годом, доброе утро
  19. 19. Женщины и дети
  20. 20. Загнутая подпись
  21. 21. Эксперименты •Другие расстоянияпо визуальным признакам, с учетом интервала между дарениями, с учетом соц.графа… •Другая кластеризациясвоя реализация, шанс прохода, «выпихивание»… •Другие данныедомены, запросы, товары, туристические направления…
  22. 22. Кластеризация BigDataна примере подарков в ОК Артур Кадурин(Mail.ru)

×