SlideShare a Scribd company logo
1 of 37
Büyük Veri Yönetimi ve Veri
Mimarisi Müdürlüğü
Ahmet
KALAFAT
Big Data & Data Architecture Manager
Hedef Altyapımız
OLAP
(MultiDim)
OLAP
(Tabular)
OLTP
DWH
ODS
DM
DataLake & Process
Katmanı
Self Service Analytics
Cloud Solutions
Rüveyda
TEKEL
Senior Data Engineer
Data Warehouse Architecture
Stok Satis ETL Offloading
Big Data Architecture
LCW Hadoop Architecture
384GB RAM
48 Cores
4*240GB
Disk
5760GB RAM
984 Cores
1.6 PB Disk
384GB RAM
72 Cores
12*10TB
4*960GB
2*240GB Disk
384GB RAM
48 Cores
12*10TB
4*960GB
2*240GB Disk
Edge
Master
Data/Worker
Kullanılan Teknolojiler
Cloudera Manager
• Browser Based
• Hadoop Administration Tool
• Managing CDH Cluster
Hue: Hive/Impala
• End-User
• Browser Based
• Sql Enginee
Yarn
• Yet Another Resource Negotiator
• Resource Governence
• Processing Power
Sqoop
• Import-Export RDBMS
• Batch Process
• Bulk Data
• JBDC Connector
• Open Source
Spark
Scala Based
Open Source
In-Memory
Parallel Processing
Scala
Java SE
Object Oriented Programming
Bulk Insert
Airflow
Python Based
Open Source
Orchestration
Development Araçları
Abdulkerim
GÜLER
Dilek
Doğan
Data Warehouse Team Lead
Data Engineer
Veri Ambarı?
OLAP? SSAS?
SSIS? ETL/ELT?
Ajanda
• LCW DataWarehouse
• Entegrasyon Yöntemleri ve Araçları
• Analitik Veri Topolojimiz
• OLAP Nedir?
• OLAP Scale-Out
• Teknik Altyapı/Otomasyon
• Kazanımlarımız
LCW Data Warehouse
- Microsoft SQL Server 2017
- AlwaysOn(2 Node)
- 13TB sıkıştırılmış veri büyüklüğü
- 400+ tablo
- 400K+ atomic transaction, peak time
- 1K+ unique user
- 7/24 veri işleme
- her gün 2 milyar satırdan fazla veri manipülasyonu
- Table Partitioning
- Partition Switching
- Cloumnstore Index
- Kimball Model
- Custom ETL Framework for ETL automation
Entegrasyon Yöntemleri ve Araçları
Entegrasyon Yöntemleri
- DB to DB
- File(csv, txt) to DB
- API to DB
Kullandığımız ETL/ELT Araçları
- SSIS – SQL Server Integration Services
- ADF – Azure Data Factory
- Custon Python Codes
LCW OLAP
Multidimensional OLAP Cube
- SQL Server 2012
- Custom solution for High Availability & Scalability: OLAP ScaleOut(2 node) with physical load balancer
- 10+TB data size
- 1400+ unique user
- 1,5 sec. average response time
Tabular OLAP Cube
- SQL Server 2016
- 80+ projects
- seperate servers for process and presentation
- Custom SSAS Framework for Schedule, Process and Sync automation
OLAP Scale-Out Kazanımlar ve İstatistikler
Tekil Kullanıcı
Toplam
Erişim
Ortalama Çalışma
Süresi(sn)
Veri Boyutu
TB
2015 582 678,100 4.14 6
2016 586 688,059 2.29 8
2017 758 1,573,192 0.80 11
2018 899 1,679,864 0.89 13
2019 1192 1,886,153 1.71 15
2020 1417 2,447,880 1.53 11
400 TB Analitik Veri
1200 Tablo
Günlük 30
TB Veri
İşleme
Kapasitesi
En Büyük
Tabloda
120 Milyar
Satır
Metin
USLU
Senior Data Scientist
Ajanda
• Ben Kimim?
• Organizasyonel Yapı
• LCW & Veri Bilimi Ekosistemi
• Tech Stack
• Neler Yaptık/Yapıyoruz?
• Tavsiye / Öneri
Ben Kimim ?
Tecrübe
Veri Bilimci @ LC Waikiki
Büyük Veri Analisti | Bilgi Teknolojileri ve İletişim Kurumu (BTK)
MIS Uzman Yrd. | Kuveyt Türk Katılım Bankası
Programcı | Mentis
Eğitim
İstanbul Üniversitesi | Bilgisayar Programlama
Hacettepe Üniversitesi | İstatistik
Konya NEU | Bilgisayar Mühendisliği (Öğrenci)
İletişim
metin.uslu@lcwaikiki.com
Organizasyonel Yapı
BT Planlama
Veri Analitiği ve Yapay Zeka Müdürlüğü Planlama ve Alokasyon Veri Bilimi Müdürlüğü
Kadro: 5 + 1 Kadro: 5 + 1
Veri Bilimi Ekosistemi
Bir Datathon’un Anatomisi: LC Waikiki Datathon 2019
https://medium.com/lcw-analytics/bir-datathonun-anatomisi-lc-waikiki-datathon-2019-a55606117bcb
Tech Stack
LCWIADEV-1 (Dev. Machine)
 OS: Ubuntu 18.04 Desktop
 CPU: i9 İşlemci 8.Nesil
 Disk: SSD Disk & Sata Disk
 Ram: 64 GB Ram
 GPU: Nvidia Geforce RTX 2080TI 11GB
 CUDA & CuDNN
Yazılım Bileşenleri
 Python
 R
 PySpark
 Shell Script
 Airflow
 Crontab, Automic UC4
 VCS: Git & TFS
 OS: Ubuntu & Centos GNU/Linux
LCWIADEV-2 (Dev. Machine)
 OS: Win 10 OS
 CPU: i7 5. Nesil
 Disk: SSD Disk & Sata Disk
 Ram: 64 GB Ram
 GPU: Nvidia Geforce RTX 2080TI 11GB
 CUDA & CuDNN
Donanım Bileşenleri
 MS Azure VM
 Google Cloud Big Query + Storage
 MS Azure Cognitive Services
Cloud
Neler Yaptık / Yapıyoruz?
 Mağaza İçi Analitik (In Store Analytics)
 Eticaret Müşteri Analtiği (Online Customer Analytics)
 Crawling
 Görseller üzerinden TrendAnalizi yapıyoruz.
 İş Birimlerine Karar Destek Sistemi için veri sağlıyoruz
 Adhoc analizlerin yapılması
 İstatistiksel Analizlerin Yapılması
 Mağazaların için belli metriklere cluster edilmesi
 Api kullanılarak third party servislerin kullanılması
 Canlıda olan projelerin Monitor, Maintenance ve Development yapılması
 MLOps = ML + DevOps
 Daha önce geliştirilmiş modellerin yeniden eğitilmesi, performansların gözlemlenmesi ve artırılması.
 Birçok kaynak üzerinden gelen text dataları üzerinde Descriptive ve Predictive Modeller insight elde
etmeye/anlamlandırmaya çalışıyoruz.
Tavsiye / Öneri
Computer Science Yetkinlikleri
Feature Selection/Extraction/Engineering
İçselleştirme
Model performans metriği/skoru kadar uygulanabilirliği
Explainable AI
H2O framework içerisinde Lime & Shap
Soru & Cevap

More Related Content

What's hot

DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02
DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02
DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02Önder Değer
 
Microsoft Operations Management Suite (OMS) Genel Bakış
Microsoft Operations Management Suite (OMS) Genel BakışMicrosoft Operations Management Suite (OMS) Genel Bakış
Microsoft Operations Management Suite (OMS) Genel BakışMustafa
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Veysel Taşcıoğlu
 
Azure Cloud Engineer - Bölüm 8
Azure Cloud Engineer - Bölüm 8Azure Cloud Engineer - Bölüm 8
Azure Cloud Engineer - Bölüm 8Önder Değer
 
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03Önder Değer
 
Azure Cloud Engineer - Bölüm 6
Azure Cloud Engineer - Bölüm 6Azure Cloud Engineer - Bölüm 6
Azure Cloud Engineer - Bölüm 6Önder Değer
 
Application Insights
Application InsightsApplication Insights
Application InsightsÖnder Değer
 
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi SunumuAnkara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi SunumuSerkan Sakınmaz
 
Azure Cloud Engineer - Bölüm 2
Azure Cloud Engineer - Bölüm 2Azure Cloud Engineer - Bölüm 2
Azure Cloud Engineer - Bölüm 2Önder Değer
 
Apache Spark : Genel Bir Bakış
Apache Spark : Genel Bir BakışApache Spark : Genel Bir Bakış
Apache Spark : Genel Bir BakışBurak KÖSE
 
Azure Cloud Engineer - Bölüm 1
Azure Cloud Engineer - Bölüm 1Azure Cloud Engineer - Bölüm 1
Azure Cloud Engineer - Bölüm 1Önder Değer
 
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziHadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziSerkan Sakınmaz
 
Azure Container Service
Azure Container ServiceAzure Container Service
Azure Container ServiceÖnder Değer
 
Azure Cloud Engineer - Bölüm 9
Azure Cloud Engineer - Bölüm 9Azure Cloud Engineer - Bölüm 9
Azure Cloud Engineer - Bölüm 9Önder Değer
 
Azure Cloud Engineer - Bölüm 4
Azure Cloud Engineer - Bölüm 4Azure Cloud Engineer - Bölüm 4
Azure Cloud Engineer - Bölüm 4Önder Değer
 
Azure Cloud Engineer - Bölüm 3
Azure Cloud Engineer - Bölüm 3Azure Cloud Engineer - Bölüm 3
Azure Cloud Engineer - Bölüm 3Önder Değer
 
Azure Cloud Engineer - Bölüm 5
Azure Cloud Engineer - Bölüm 5Azure Cloud Engineer - Bölüm 5
Azure Cloud Engineer - Bölüm 5Önder Değer
 

What's hot (19)

DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02
DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02
DP:900 Azure Data Fundamentals - Azure'da ilişkisel veriler-02
 
Linkle mimari
Linkle mimariLinkle mimari
Linkle mimari
 
Microsoft Operations Management Suite (OMS) Genel Bakış
Microsoft Operations Management Suite (OMS) Genel BakışMicrosoft Operations Management Suite (OMS) Genel Bakış
Microsoft Operations Management Suite (OMS) Genel Bakış
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış
 
Azure Cloud Engineer - Bölüm 8
Azure Cloud Engineer - Bölüm 8Azure Cloud Engineer - Bölüm 8
Azure Cloud Engineer - Bölüm 8
 
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03
DP:900 Azure Data Fundamentals - Azure'da ilişkisel olmayan veriler-03
 
Azure Cloud Engineer - Bölüm 6
Azure Cloud Engineer - Bölüm 6Azure Cloud Engineer - Bölüm 6
Azure Cloud Engineer - Bölüm 6
 
Application Insights
Application InsightsApplication Insights
Application Insights
 
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi SunumuAnkara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
 
Azure Cloud Engineer - Bölüm 2
Azure Cloud Engineer - Bölüm 2Azure Cloud Engineer - Bölüm 2
Azure Cloud Engineer - Bölüm 2
 
Apache Spark : Genel Bir Bakış
Apache Spark : Genel Bir BakışApache Spark : Genel Bir Bakış
Apache Spark : Genel Bir Bakış
 
Azure Cloud Engineer - Bölüm 1
Azure Cloud Engineer - Bölüm 1Azure Cloud Engineer - Bölüm 1
Azure Cloud Engineer - Bölüm 1
 
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziHadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
 
Azure Container Service
Azure Container ServiceAzure Container Service
Azure Container Service
 
Azure Cloud Engineer - Bölüm 9
Azure Cloud Engineer - Bölüm 9Azure Cloud Engineer - Bölüm 9
Azure Cloud Engineer - Bölüm 9
 
Azure Cloud Engineer - Bölüm 4
Azure Cloud Engineer - Bölüm 4Azure Cloud Engineer - Bölüm 4
Azure Cloud Engineer - Bölüm 4
 
Azure Cloud Engineer - Bölüm 3
Azure Cloud Engineer - Bölüm 3Azure Cloud Engineer - Bölüm 3
Azure Cloud Engineer - Bölüm 3
 
Azure Cloud Engineer - Bölüm 5
Azure Cloud Engineer - Bölüm 5Azure Cloud Engineer - Bölüm 5
Azure Cloud Engineer - Bölüm 5
 
NoSQL - Yazılımcı Bakışıyla
NoSQL - Yazılımcı BakışıylaNoSQL - Yazılımcı Bakışıyla
NoSQL - Yazılımcı Bakışıyla
 

Similar to Istanbul Datascience Academy Talks

Azure Sanal Makineler
Azure Sanal MakinelerAzure Sanal Makineler
Azure Sanal MakinelerMustafa
 
Sunucularımızı Gözleyelim
Sunucularımızı GözleyelimSunucularımızı Gözleyelim
Sunucularımızı GözleyelimOguz Yarimtepe
 
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hub
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics HubSITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hub
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hubsitist
 
Ibm storage sales
Ibm storage salesIbm storage sales
Ibm storage salesHande Hnd
 
İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19Cihan Özhan
 
Gerçek Gerçek Zamanlı Mimari
Gerçek Gerçek Zamanlı MimariGerçek Gerçek Zamanlı Mimari
Gerçek Gerçek Zamanlı Mimariugur candan
 
SAP Forum 2009: SAP Türkiye ile TDMS Sunumu
SAP Forum 2009: SAP Türkiye ile TDMS SunumuSAP Forum 2009: SAP Türkiye ile TDMS Sunumu
SAP Forum 2009: SAP Türkiye ile TDMS SunumuFIT Consulting
 
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiSystem Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiMustafa
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkHakan Sarıbıyık
 
6.Oracle Day2009 Engin Senel V2
6.Oracle Day2009 Engin Senel V26.Oracle Day2009 Engin Senel V2
6.Oracle Day2009 Engin Senel V2Ermando
 
Gartner Tr2009 Istanbul May27 Qvbi Tech Summary
Gartner Tr2009 Istanbul May27 Qvbi Tech SummaryGartner Tr2009 Istanbul May27 Qvbi Tech Summary
Gartner Tr2009 Istanbul May27 Qvbi Tech SummaryMUZAFFER YONTEM
 
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesCihan Özhan
 
Dspace Migration and Dspace Piwik Integration
Dspace Migration and Dspace Piwik IntegrationDspace Migration and Dspace Piwik Integration
Dspace Migration and Dspace Piwik IntegrationMesut Güngör
 
Loglari nerede saklayalım?
Loglari nerede saklayalım?Loglari nerede saklayalım?
Loglari nerede saklayalım?Ertugrul Akbas
 
Embarcadero Veri Tabanı Ürünleri
Embarcadero Veri Tabanı ÜrünleriEmbarcadero Veri Tabanı Ürünleri
Embarcadero Veri Tabanı ÜrünleriBTGrubu
 
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoyCenk Ersoy
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel BakışBerkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakıştechbase
 

Similar to Istanbul Datascience Academy Talks (20)

Azure Sanal Makineler
Azure Sanal MakinelerAzure Sanal Makineler
Azure Sanal Makineler
 
Cp Scom
Cp ScomCp Scom
Cp Scom
 
Sunucularımızı Gözleyelim
Sunucularımızı GözleyelimSunucularımızı Gözleyelim
Sunucularımızı Gözleyelim
 
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hub
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics HubSITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hub
SITIST 2018 Part 1 - Updates on SAP Analytics Cloud and Analytics Hub
 
Ibm storage sales
Ibm storage salesIbm storage sales
Ibm storage sales
 
İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19
 
Gerçek Gerçek Zamanlı Mimari
Gerçek Gerçek Zamanlı MimariGerçek Gerçek Zamanlı Mimari
Gerçek Gerçek Zamanlı Mimari
 
SAP Forum 2009: SAP Türkiye ile TDMS Sunumu
SAP Forum 2009: SAP Türkiye ile TDMS SunumuSAP Forum 2009: SAP Türkiye ile TDMS Sunumu
SAP Forum 2009: SAP Türkiye ile TDMS Sunumu
 
EF Flas Array
EF Flas ArrayEF Flas Array
EF Flas Array
 
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiSystem Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan Sarıbıyık
 
6.Oracle Day2009 Engin Senel V2
6.Oracle Day2009 Engin Senel V26.Oracle Day2009 Engin Senel V2
6.Oracle Day2009 Engin Senel V2
 
Gartner Tr2009 Istanbul May27 Qvbi Tech Summary
Gartner Tr2009 Istanbul May27 Qvbi Tech SummaryGartner Tr2009 Istanbul May27 Qvbi Tech Summary
Gartner Tr2009 Istanbul May27 Qvbi Tech Summary
 
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
 
Dspace Migration and Dspace Piwik Integration
Dspace Migration and Dspace Piwik IntegrationDspace Migration and Dspace Piwik Integration
Dspace Migration and Dspace Piwik Integration
 
Loglari nerede saklayalım?
Loglari nerede saklayalım?Loglari nerede saklayalım?
Loglari nerede saklayalım?
 
Sukru_TRSUG2016
Sukru_TRSUG2016Sukru_TRSUG2016
Sukru_TRSUG2016
 
Embarcadero Veri Tabanı Ürünleri
Embarcadero Veri Tabanı ÜrünleriEmbarcadero Veri Tabanı Ürünleri
Embarcadero Veri Tabanı Ürünleri
 
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy
1700 1730 sap ortamlarinizi yeniden tanimlayin-cenk_ersoy
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel BakışBerkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış
 

Istanbul Datascience Academy Talks

  • 1. Büyük Veri Yönetimi ve Veri Mimarisi Müdürlüğü
  • 2. Ahmet KALAFAT Big Data & Data Architecture Manager
  • 3.
  • 4. Hedef Altyapımız OLAP (MultiDim) OLAP (Tabular) OLTP DWH ODS DM DataLake & Process Katmanı Self Service Analytics Cloud Solutions
  • 6.
  • 8. Stok Satis ETL Offloading
  • 10. LCW Hadoop Architecture 384GB RAM 48 Cores 4*240GB Disk 5760GB RAM 984 Cores 1.6 PB Disk 384GB RAM 72 Cores 12*10TB 4*960GB 2*240GB Disk 384GB RAM 48 Cores 12*10TB 4*960GB 2*240GB Disk Edge Master Data/Worker
  • 12. Cloudera Manager • Browser Based • Hadoop Administration Tool • Managing CDH Cluster
  • 13. Hue: Hive/Impala • End-User • Browser Based • Sql Enginee
  • 14. Yarn • Yet Another Resource Negotiator • Resource Governence • Processing Power
  • 15. Sqoop • Import-Export RDBMS • Batch Process • Bulk Data • JBDC Connector • Open Source
  • 17. Scala Java SE Object Oriented Programming Bulk Insert
  • 22. Ajanda • LCW DataWarehouse • Entegrasyon Yöntemleri ve Araçları • Analitik Veri Topolojimiz • OLAP Nedir? • OLAP Scale-Out • Teknik Altyapı/Otomasyon • Kazanımlarımız
  • 23. LCW Data Warehouse - Microsoft SQL Server 2017 - AlwaysOn(2 Node) - 13TB sıkıştırılmış veri büyüklüğü - 400+ tablo - 400K+ atomic transaction, peak time - 1K+ unique user - 7/24 veri işleme - her gün 2 milyar satırdan fazla veri manipülasyonu - Table Partitioning - Partition Switching - Cloumnstore Index - Kimball Model - Custom ETL Framework for ETL automation
  • 24. Entegrasyon Yöntemleri ve Araçları Entegrasyon Yöntemleri - DB to DB - File(csv, txt) to DB - API to DB Kullandığımız ETL/ELT Araçları - SSIS – SQL Server Integration Services - ADF – Azure Data Factory - Custon Python Codes
  • 25.
  • 26. LCW OLAP Multidimensional OLAP Cube - SQL Server 2012 - Custom solution for High Availability & Scalability: OLAP ScaleOut(2 node) with physical load balancer - 10+TB data size - 1400+ unique user - 1,5 sec. average response time Tabular OLAP Cube - SQL Server 2016 - 80+ projects - seperate servers for process and presentation - Custom SSAS Framework for Schedule, Process and Sync automation
  • 27. OLAP Scale-Out Kazanımlar ve İstatistikler Tekil Kullanıcı Toplam Erişim Ortalama Çalışma Süresi(sn) Veri Boyutu TB 2015 582 678,100 4.14 6 2016 586 688,059 2.29 8 2017 758 1,573,192 0.80 11 2018 899 1,679,864 0.89 13 2019 1192 1,886,153 1.71 15 2020 1417 2,447,880 1.53 11
  • 28. 400 TB Analitik Veri 1200 Tablo Günlük 30 TB Veri İşleme Kapasitesi En Büyük Tabloda 120 Milyar Satır
  • 30. Ajanda • Ben Kimim? • Organizasyonel Yapı • LCW & Veri Bilimi Ekosistemi • Tech Stack • Neler Yaptık/Yapıyoruz? • Tavsiye / Öneri
  • 31. Ben Kimim ? Tecrübe Veri Bilimci @ LC Waikiki Büyük Veri Analisti | Bilgi Teknolojileri ve İletişim Kurumu (BTK) MIS Uzman Yrd. | Kuveyt Türk Katılım Bankası Programcı | Mentis Eğitim İstanbul Üniversitesi | Bilgisayar Programlama Hacettepe Üniversitesi | İstatistik Konya NEU | Bilgisayar Mühendisliği (Öğrenci) İletişim metin.uslu@lcwaikiki.com
  • 32. Organizasyonel Yapı BT Planlama Veri Analitiği ve Yapay Zeka Müdürlüğü Planlama ve Alokasyon Veri Bilimi Müdürlüğü Kadro: 5 + 1 Kadro: 5 + 1
  • 33. Veri Bilimi Ekosistemi Bir Datathon’un Anatomisi: LC Waikiki Datathon 2019 https://medium.com/lcw-analytics/bir-datathonun-anatomisi-lc-waikiki-datathon-2019-a55606117bcb
  • 34. Tech Stack LCWIADEV-1 (Dev. Machine)  OS: Ubuntu 18.04 Desktop  CPU: i9 İşlemci 8.Nesil  Disk: SSD Disk & Sata Disk  Ram: 64 GB Ram  GPU: Nvidia Geforce RTX 2080TI 11GB  CUDA & CuDNN Yazılım Bileşenleri  Python  R  PySpark  Shell Script  Airflow  Crontab, Automic UC4  VCS: Git & TFS  OS: Ubuntu & Centos GNU/Linux LCWIADEV-2 (Dev. Machine)  OS: Win 10 OS  CPU: i7 5. Nesil  Disk: SSD Disk & Sata Disk  Ram: 64 GB Ram  GPU: Nvidia Geforce RTX 2080TI 11GB  CUDA & CuDNN Donanım Bileşenleri  MS Azure VM  Google Cloud Big Query + Storage  MS Azure Cognitive Services Cloud
  • 35. Neler Yaptık / Yapıyoruz?  Mağaza İçi Analitik (In Store Analytics)  Eticaret Müşteri Analtiği (Online Customer Analytics)  Crawling  Görseller üzerinden TrendAnalizi yapıyoruz.  İş Birimlerine Karar Destek Sistemi için veri sağlıyoruz  Adhoc analizlerin yapılması  İstatistiksel Analizlerin Yapılması  Mağazaların için belli metriklere cluster edilmesi  Api kullanılarak third party servislerin kullanılması  Canlıda olan projelerin Monitor, Maintenance ve Development yapılması  MLOps = ML + DevOps  Daha önce geliştirilmiş modellerin yeniden eğitilmesi, performansların gözlemlenmesi ve artırılması.  Birçok kaynak üzerinden gelen text dataları üzerinde Descriptive ve Predictive Modeller insight elde etmeye/anlamlandırmaya çalışıyoruz.
  • 36. Tavsiye / Öneri Computer Science Yetkinlikleri Feature Selection/Extraction/Engineering İçselleştirme Model performans metriği/skoru kadar uygulanabilirliği Explainable AI H2O framework içerisinde Lime & Shap

Editor's Notes

  1. OLAP nedir neye hizmet eder
  2. OLAP nedir neye hizmet eder