16й митап Software Craftsmanship пройдет онлайн и будет посвящен построению ML pipeline с точки зрения инженера-разработчика.
В последние год-два все чаще появляются вакансии, в которых инженеру необходимо выстроить ML pipeline. Такие вакансии получают название ML Ops.
В ML pipeline входят такие вещи, как построение моделей, хранение, сравнение качества моделей, поддержание версионность моделей, работа с feature storage, и само собой разумеется, применение модели в prod.
Модель обычно оформляется как микросервис, который можно просто разворачивать, масштабировать и поддерживать.
При этом, как правило, другими членами команды оказываются data scientists или ML engineers, которые сильны в своих областях, но не могут сделать простой масштабируемый REST API для своей модели. В рамках совместной работы с ними и приходится реализовывать ML pipeline.
На митапе мы коснемся того, для чего необходим ML pipeline, из каких шагов он состоит, и каким образом организована работа инженера в ML команде.
3. О митапах
● Часть проекта Hard & Soft Skills
● Поделиться и пообщаться
● Подобрать материал для курсов:
○ Технический лидер
○ От middle developer к senior
engineer
3
4. План митапов
14. Масштабирование монолита
15. Resilience and Reliability
16. ML Operations for engineers
17. ??? Микросервисы
18. ??? hardsoftskills.by/next_meetups
4
5. Сегодня не будет
Математики, статистики…
Python и библиотек
Технических деталей
Подходов к построению
моделей, feature extraction...
5
6. Цель этого митапа
Выяснить что общего у ML и
разработки, и какие отличия.
Понять для чего нужен ML
pipeline.
Понять что такое ML Ops.
6
8. Развитие ML в компаниях
ML начинался с одиночек-
экспериментаторов.
Сейчас - сильный тренд в
сторону большей доступности и
воспроизводимости их работы.
8
10. Data Scientist
Цель: найти data-driven решение
для бизнес задачи
Skills: мат статистика,
визуализация данных, ML
эксперименты
Задачи: поиск закономерностей
10
11. Data Engineer
Цель: обеспечить доступность
данных для data scientist
Skills: db, data lake, data
warehouse, ETL, data format
Задачи: получение данных,
преобразование, отдача данных
11
12. ML Engineer
Цель: построить прод модель на
основе результатов data scientist
Skills: теория ML, CI/CD
Задачи: обучение/тестирование
моделей, деплой и мониторинг
12
14. Software Engineer
Цель: создать работающую
систему, использующую модели
Skills: software engineer
Задачи: интеграция моделей,
масштабирование, разработка
ПО
14
15. Business Owner, PO
Цель: выстроить модели, ценные
для бизнеса
Skills: глубоко в домене +
коммуникации
Задачи: понимать ценность,
риски и ограничения модели
15
34. 1. управлять версиями данных,
моделей, кода, параметров,
окружений
2. рассматривать этапы
подготовки моделей как
компоненты и объединять их в
pipeline
ML Ops best practices
34
35. 3. Автоматизировать проверки,
вводить стандарт качества
моделей
4. Автоматизировать любую
рутинную работу, освобождать
время для разработки
ML Ops best practices
35
40. Сбор версии с помощью конфиг
файлов (часть кода)
DVC, частично и pipeline
Pachyderm
MLFlow
H2O
Версионность моделей
40
41. Версионность в ML проекте
нуждается в отдельном
планировании и управлении.
Версионность моделей
41
42. Курсы Hard & Soft Skills
● Цель митапов - материалы для
различных курсов
● Для мидлов, сеньеров, лидов,
архитекторов, CTO
● Сейчас обучается второй набор
курса “Технический лидер”
42