Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 5 июня, 16:00
Тезисы:
http://ritfest.ru/2017/abstracts/2532.html
Простыми словами расскажем о популярных, эффективных и используемых в нашей компании техниках применения машинного обучения для привлечения и удержания клиентов:
- кластеризации товарного каталога,
- классификации клиентов (готовых перейти на платный тариф, готовых уйти, способных принести прибыль),
- повышении релевантности e-mail-рассылок.
Особое внимание уделим технике использования популярных платформ и библиотек:
- Apache Spark,
- Spark MLlib,
- Hadoop,
- Amazon Kinesns.
Отдельно остановимся на особенностях обработки "больших данных", выборе и разработке параллельных алгоритмов.
Правильный интернет-магазин на платформе «1С-Битрикс». Лучшие технологии борь...Первый БИТ Воронеж
Создаем и наполняем интернет-магазин быстро, просто, эффективно;
Не даем покупателю уйти: клиенты на всю жизнь;
Увеличиваем выручку на 30% с помощью персонализации интернет-магазина;
Продажи 24х7: делаем интернет-магазин доступным с любых мобильных устройств;
"API «Битрикс24» — разбор с пристрастием". Александр Сербул, 1С-БитриксYandex
Весной «Битрикс24» представил открытый API, который позволяет разработчикам самостоятельно расширять возможности сервиса. В докладе речь пойдёт о том, как обеспечить безопасность не в ущерб функционалу, как решать проблемы, возникающие в поддержке состояния объектов, какие подводные камни таятся в форматах данных. Идемпотентность — нужна ли она и когда именно. Будут рассмотрены примеры использования Маркетплейса. Также поговорим о том, как масштабировать проекты и куда расти.
Международная научно-практическая конференция International Conference on Big Data and its Applications (ICBDA) выросла из мероприятия Big Data Russia и проводится один раз в год, объединяя на одной площадке создателей новых технологий в области больших данных, представителей бизнеса, а также научных сотрудников и молодых ученых.
Организаторы: Rusbase и Global Innovation Labs.
Организаторы ICBDA благодарят Data-Centric Alliance (DCA) за поддержку мероприятия, а также отдельное спасибо Artox Media и NVIDIA.
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 5 июня, 16:00
Тезисы:
http://ritfest.ru/2017/abstracts/2532.html
Простыми словами расскажем о популярных, эффективных и используемых в нашей компании техниках применения машинного обучения для привлечения и удержания клиентов:
- кластеризации товарного каталога,
- классификации клиентов (готовых перейти на платный тариф, готовых уйти, способных принести прибыль),
- повышении релевантности e-mail-рассылок.
Особое внимание уделим технике использования популярных платформ и библиотек:
- Apache Spark,
- Spark MLlib,
- Hadoop,
- Amazon Kinesns.
Отдельно остановимся на особенностях обработки "больших данных", выборе и разработке параллельных алгоритмов.
Правильный интернет-магазин на платформе «1С-Битрикс». Лучшие технологии борь...Первый БИТ Воронеж
Создаем и наполняем интернет-магазин быстро, просто, эффективно;
Не даем покупателю уйти: клиенты на всю жизнь;
Увеличиваем выручку на 30% с помощью персонализации интернет-магазина;
Продажи 24х7: делаем интернет-магазин доступным с любых мобильных устройств;
"API «Битрикс24» — разбор с пристрастием". Александр Сербул, 1С-БитриксYandex
Весной «Битрикс24» представил открытый API, который позволяет разработчикам самостоятельно расширять возможности сервиса. В докладе речь пойдёт о том, как обеспечить безопасность не в ущерб функционалу, как решать проблемы, возникающие в поддержке состояния объектов, какие подводные камни таятся в форматах данных. Идемпотентность — нужна ли она и когда именно. Будут рассмотрены примеры использования Маркетплейса. Также поговорим о том, как масштабировать проекты и куда расти.
Международная научно-практическая конференция International Conference on Big Data and its Applications (ICBDA) выросла из мероприятия Big Data Russia и проводится один раз в год, объединяя на одной площадке создателей новых технологий в области больших данных, представителей бизнеса, а также научных сотрудников и молодых ученых.
Организаторы: Rusbase и Global Innovation Labs.
Организаторы ICBDA благодарят Data-Centric Alliance (DCA) за поддержку мероприятия, а также отдельное спасибо Artox Media и NVIDIA.
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...Dev_Party
The document discusses strategies for retaining remote employees. It recommends internal communications like all-company calls and a corporate newsletter to keep remote staff engaged. It also suggests providing work-life balance policies such as flexible hours and paid time off. The document further discusses offering professional growth opportunities through training, mentoring, and conferences. It closes by noting Percona's high Glassdoor rating and alumni feedback, indicating their remote strategies have been successful in retaining employees.
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...Dev_Party
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере системы управления очередью.
Конференция Dev Party (http://devparty.ru).
Вологда, 02.04.2016.
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФСDev_Party
Роман Приходько, «Сбербанк-Технологии» — Платформа ЕФС — принципы построения и инструменты реализации.
Конференция Dev Party (http://devparty.ru).
Вологда, 02.04.2016.
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Ontico
Расскажем о самых распространенных технологиях и алгоритмах добычи критичной для бизнеса информации из больших массивов данных. Отдельно коснемся темы рекомендательных сервисов и их эффективного применения.
План:
1) Откуда брать данные, тренды и концепции.
2) Основные алгоритмы и технологии их применения для обработки массивов данных: MapReduce, Spark.
3) Методика создания рекомендательного сервиса — этапы от концепции до работающей системы.
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...Dev_Party
The document discusses strategies for retaining remote employees. It recommends internal communications like all-company calls and a corporate newsletter to keep remote staff engaged. It also suggests providing work-life balance policies such as flexible hours and paid time off. The document further discusses offering professional growth opportunities through training, mentoring, and conferences. It closes by noting Percona's high Glassdoor rating and alumni feedback, indicating their remote strategies have been successful in retaining employees.
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...Dev_Party
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере системы управления очередью.
Конференция Dev Party (http://devparty.ru).
Вологда, 02.04.2016.
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФСDev_Party
Роман Приходько, «Сбербанк-Технологии» — Платформа ЕФС — принципы построения и инструменты реализации.
Конференция Dev Party (http://devparty.ru).
Вологда, 02.04.2016.
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Ontico
Расскажем о самых распространенных технологиях и алгоритмах добычи критичной для бизнеса информации из больших массивов данных. Отдельно коснемся темы рекомендательных сервисов и их эффективного применения.
План:
1) Откуда брать данные, тренды и концепции.
2) Основные алгоритмы и технологии их применения для обработки массивов данных: MapReduce, Spark.
3) Методика создания рекомендательного сервиса — этапы от концепции до работающей системы.
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
1. Потребности бизнеса, клиентов и рынка в массовом скоринге
2. Первый технологический стек, первый прототип
3. Полезные новейшие возможности облаков для скоринга и других применений ML
4. Выбор фич
5. Несбалансированные данные - как не сойти с ума
6. Оптимизация моделей скоринга
7. Внедрение скоринга в продукт
Потроха рекомендательных систем. Большие данные в рекомендательных системахNick Mikhailovsky
Как устроена рекомендательная система? Лекция Антона Малькова "Потроха рекомендательных систем" в рамках курса "СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ", проходящего в Digital October
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...IT-Portfolio
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда стоит написать свою БД", Олег Краснов (cистемный Архитектор SEMrush)
Аннотация
В 2008 году система хранения SEMrush была построена на базе сочетания SQL и файлового хранилища. Это позволило выдерживать нагрузку примерно до 3 миллионов запросов в день. Но уже в 2009 году было видно, что интерес к сервису растет стремительно и очень скоро старая система хранения будет основным сдерживающим фактором. Мы провели ряд экспериментов и в результате исследования остановились на собственной структуре хранения данных. Новая система была создана в предельно короткие сроки и уже через 3 месяца была введена в строй. Эта система используется и по сей день, хотя нагрузка выросла на порядок.
В докладе будет освещены история и методы построения хранилища данных проекта SEMrush. В ходе выступления будет проведена ретроспектива требований. Также докладчик расскажет об особенностях применяемого хранилища данных и отличиях от стандартных методов и средств. В том числе, будут освещены перспективы данной технологии применительно к реалиям и новым потребностям проекта.
О компании
Сегодня SEMrush – ведуший сервис для анализа конкурентов. Он позволяет узнать кейворды, по которым любой домен или сайт попадает в AdWords, выдачу Google и Bing. В отличие от других инструментов, которые позволяют анализировать только ваши собственные данные, SEMrush дает возможность изучить рекламные тексты конкурентов и собирает сведения об их бюджетах на продвижение в поисковиках.
Выступление Александра Сербула (1С-Битрикс) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Александр Сербул, 1С-Битрикс — Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и технологии
1. Облачный сервис персональных рекомендаций
для >20 000 магазинов — алгоритмы и технологии
Александр Сербул
руководитель направления
2. О чем поговорим…
Рекомендательные сервисы – суть
Снаружи: популярные алгоритмы и техники реализации
А когда много данных…
Изнутри: как устроен наш облачный сервис «1С-Битрикс BigData»
Куда двигаться дальше
3. Персональные рекомендации – зачем?
Предсказать мысли, желания клиента
Если клиент готов – соблазнить его, привязать к себе
Не спамить клиента мусором, не раздражать
Соблазнять клиента – регулярно (рассылки, push)
1) Релевантность, 2) Разумность, 3) Вовремя, 4) Не пережать
Нас уже прослушивают:
Windows 10, Android, …
4.
5. Как соблазнять?
Не персональные «крючки»:
- Топ продаж (best sellers)
- С этим Товаром покупают
(аксессуары)
- С этим Товаром смотрят
- Другие смотрят сейчас
- Скидка на очень популярный товар
Небольшой набор товаров. Хвост. Спам
– для некоторых.
«Mining of Massive Datasets», 9.1.2: Leskovec,
Rajaraman, Ullman (Stanford University)
8. Как соблазнять?
Персональные «крючки»:
Рекомендуем именно вам в данный
момент:
- Купить, посмотреть
- Люди, похожие на вас («близкие по
духу»)
- «Хорошая» скидка, «хорошая» цена
- Полезный контент
- Релевантный поиск
11. Карл… Карл, я специалист по
BigData….
Это очень круто,
пап!
Но я так и не понял,
как и почему она
работает.
СОВСЕМ!!!
12. Content-based рекомендации
Купил пластиковые окна – теперь их
предлагают на всех сайтах и
смартфоне, в Windows 10 и во сне.
Купил Toyota, ищу шины, предлагают
шины к Toyota вверху списка
Vector space model, tf/idf
word2vec
13. word2vec, SVD/PCA
Сжимаем размерность
«Склеиваем» синонимы
Skip-gram
Continuous bag of words (CBOW)
«Похож» на матричную
факторизацию
14. Коллаборативная фильтрация
Предложи Товары/Услуги,
которые есть у твоих друзей
(User-User)
Предложи к твоим Товарам
другие, связанные с ними
Товары (Item-Item): «сухарики к
пиву»
15. Коллаборативная фильтрация - алгоритмы
User-User: поиск похожих «в лоб» (kNN), k-d tree, LSH
Item-Item: Amazon, работает гораздо быстрее
Item-Item «плюшки» - с этим Товаром покупают
Mahout Taste (матрица в памяти)
Spark MLLib (ALS)
Товары в моем профиле
Их связи с другими Товарами
Взвешенное среднее для предсказания моих невыраженных
интересов
16. Коллаборативная фильтрация – сжатие Товаров
«Единый» каталог
Склеить дубликаты
Передать «смысл» между Товарами
Улучшить качество персональных рекомендаций
Семантическое сжатие размерности, аналог матричной
факторизации
Скорость
Ранжирование результатов
18. Text shingling
Shingle – «черепица»
Устойчивость к вариантам, опечаткам
«Штаны красные махровые в полоску»
{«штан», «таны», «аны », «ны к», «ы кра», «крас», …}
«Красные полосатые штаны»
19. Векторизация описания Товара
Текст: «Штаны красные махровые в полоску»
Вектор «bag of words»: [0,0,0,1,0,…0,1,0] – ~ 10000 -
1000000 элементов (kernel hack)
Minhash-сигнатура после shingling:
[1243,823,-324,12312,…] – 100-500 элементов, совместима
с LSH
20. Locality-Sensitive Hashing (LSH)
Вероятностный метод снижения размерности
Использовали для minhashed-векторов
Banding:
b – корзины, r – элементов в корзине.
P{ “Векторы совпадут хотя-бы в одной корзине” }:
21. Кластеризация каталога
Apache Spark
2-3 часа, 8 spot-серверов
10-20 млн. Товаров => 1 млн. кластеров
Адекватные по смыслу кластера
Персональные рекомендации - стали в разы «лучше»
DynamoDB – хранение кластроидов
27. Цифры кратко
Тысячи запросов в секунду к сервису
>20 тысяч интернет-магазинов
Ощутимый рост конверсии – до 50-80%, зависит от размера
магазина
Активное использование «С этим Товаром покупают»!?
1 сервер рекомендаций (70G ОЗУ) + небольшой кластер Spark
Уникальных профилей пользователей: ~ 100 миллионов
28. API. Персональная рекомендация
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=recommend&uid=#кука#&c
ount=3&aid=#хэш_лицензии#
• op=recommend
• uid – кука Пользователя
• aid – хэш от Лицензии
• сount – число рекомендаций
{
"id":"24aace52dc0284950bcff7b7f1b7a7f0de66aca9",
"items":["1651384","1652041","1651556"]
}
29. API. Похожие Товары на данный
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=simitems&aid=#хэш_лицен
зии#&eid=#id_товара#&count=3&type=combined&uid=#кука#
• op=simitems
• uid – кука Пользователя
• aid – хэш от Лицензии
• eid – ID Товара
• type - view|order|combined
• сount – размер выдачи
30. API. Топ Товаров на сайте
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=sim_domain_items&aid=#х
эш_лицензии#&domain=#домен#&count=50&type=combined&uid=#кука#
• op=sim_domain_items
• uid – кука Пользователя
• aid – хэш от Лицензии
• domain – домен сайта
• type - view|order|combined
• сount – размер выдачи
31. Куда развиваться
Пол, возраст, ценовая категория клиента – машинное
обучение
Разные виды товаров: возобновляемые,
невозобновляемые
Цена товара
Внутренние циклы (готов покупать), модели Маркова
Классификация групп лояльности, кластерный анализ
Релевантный поиск