Artem Ternov: Побудова платформи під DataEngineering та DataScience в ентерпрайзі: досвід та отримані уроки (UA)
AI & BigData Online Day 2024 Spring
Website – www.aiconf.com.ua
Youtube – https://www.youtube.com/startuplviv
FB – https://www.facebook.com/aiconf
2. Intro
● У мене 13 років досвіду в IT, з них
останні 3 роки активно займаюсь
управлінням.
● Я пройшов шлях від системного
адміністратора до девопса, датаопса і,
нарешті, до менеджменту (це включає
в себе керівництво, делівері проектів,
управління ризиками і
відповідальність за підходи та
технології).
● Зараз разом з командою ми
розробляємо платформу для обробки
даних, яка відповідає цілям нашої
компанії.
● Звісно, іноді кінцевий результат
відрізняється від запланованного і
з'являється досвід, яким я сьогодні і
планую поділитися.
Тут повинен бути опис
який я молодець
3. Disclaimer
Будь ласка, ПАМ'ЯТАЙТЕ: досвід завжди є
суб'єктивним.
Уважно оцінюйте завдання, які розв'язував автор,
його стан і умови, в яких він знаходився. Вони можуть
відрізнятися від ваших.
Також я в своїй промові обмежений умовами NDA
поточних і попередніх компаній, а також можу
уникати питань на теми, які саме я розглядаю як
особисті.
4. Intro
- High license and maintenance cost
- Development on sources
- Bottlenecks
- Limited possibility to create high
level view
Data Products
Development
5. Intro
- Cost efficiency
- New opportunities for data monetisation
Data Ingestion - Data Storage & Access - Data Consuming
Sources
Data Products
x3-x5
x2
6. PoC
DIGITAL BUTLER
+ Concept is working
+ First product
- Onpremise
- Hiring
0 Environment adaptation to changes
First request - reporting(batch
ingestion)
7. MVP
+ Lake filled with 40% of all sources and all vital sources
+ Lake layers: raw, integration, product
+ IaC
+ AWS provided us with scalability we struggled onpremise
+ Re-skilled colleagues created first analysis based on lake data, sigh of
relief for enterprise solutions.
+ Cost
- Hiring
- Environment adopted to changes much slower than platform grows
- Lack of new requests
8. Stable version
+ On lake 450+Tb and daily growth 100-150Gb. 100% sources in lake. Total 4 layers: raw, curated,
integration, product
+ Platform 100% ready for science and engineering. Support service
+ 70 teams on boarded, 200+ users, 50+ new data products. Moved critical reports to platform
+ 2 AI products ready(communication and scoring)
+ Re-skill in platform team and in bank
- Tech level to onboard
- Trying to use lake as DB
0 Data on d-1
9. Results & Next steps
Results
● 3 years from classical DB to fully operated platform
● 2 AI products and ready to build more new
● Current cost reduction x5-x7 to x3-x5 expected
● x1.5 reduced product time creation
● Bank moved to best practices in code creation for regulatory
reports
Next steps
● Near real time. m-15 instead of d-1
● Easier interface to reach x2+ in product time creation reduction
● Masked layer
10.
11. Contacts
Моє імʼя: Тернов Артем
Контакти для запитань:
Telegram: @ArtemTernov
Linkedin: Artem Ternov
Будьте готові приймати
помилки. Вони -
передвісники
майстерності.