Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Veri Ambarı Nedir, Nasıl Oluşturulur?

3,906 views

Published on

Giriş seviyesinde veri ambarı nedir, nasıl oluşturulur, hangi teknikler kullanılır, metodololojisi nedir sorularına yanıt arıyoruz.

Published in: Technology
  • Be the first to comment

Veri Ambarı Nedir, Nasıl Oluşturulur?

  1. 1. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi TURKISH ORACLE USER GROUP Gürcan ORHAN DM & DWH & BI & Information Architect Wipro Technologies – Türkiye http://gurcanorhan.wordpress.com http://www.twitter.com/gurcan_orhan http://tr.linkedin.com/in/gurcanorhan
  2. 2. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi BEN KİMİM ? Uludağ Üniversitesi Endüstri Mühendisliği 1992 - 2000 İlk DWH projesi Altınyıldız DWH - 2003 Önemli DWH projeleri ; Aktif iş hayatı - 1994  AVEA DWH Yeniden Yapılandırma Projesi  Tekstilbank DWH ve Siebel CRM Marketing Automation  Turkcell NODI (Network Operations Data Infrastructure) Oracle Bilgisayar Programı Kullanıcılar Derneği Genel Sekreteri NODI projesinin Customer Snapshot’ı Oracle.com’da yayınlandı ODI ile ilgili videolar Oracle Media Network’de yayınlandı DWH ile ilgili makaleler OTech Magazine, SearchSoftwareQuality.com, OTN
  3. 3. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi NERELERDEYDİM ? Önemli sunumlar ;  Oracle Open World 2010, 2011, 2012, 2013, 2014 – San Francisco, ABD🌟  UKOUG Technology & E-Business Suite Conference – Birmingham, İngiltere  ODTUG KScope 2011, 2013, 2015 – Long Beach, New Orleans, Miami, ABD  OPN – BI Day – LinkPlus, Eylül 2011  Oracle Day ’11 / ‘13 – İstanbul, Kasım 2011 – Kasım 2013  Fırat Üniversitesi Geleceğine Yön Ver – Elazığ, Aralık 2011  Sakarya Üniversitesi Bilişim ve Teknoloji Şöleni – Sakarya, Mart 2011  OUGF Harmony 2014 – Haltia, Finlandiya  Latin Amerika OTN Tour 2014 Panama, Kosta Rika, Meksika, El Salvador, Guatemala, Kolombiya, Ekvador  OTN Yathra Tour 2015 – Hindistan Mumbai, Pune, Hyderabad, Bangalore  OUGN 2015 – Oslo, Norveç  OUG-Ire 2015 – Dublin, İrlanda  Kocaeli Üniversitesi PI-TEK – Kocaeli, Aralık 2011  TROUG @ Ankara – Ankara, Aralık 2014 http://gurcanorhan.wordpress.com/about/appearances
  4. 4. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi NELER YAPTIM ? http://www.oracle.com/oraclemagazine http://www.oracle.com/technetwork/issue-archive/2012/12-jan/index.html
  5. 5. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi NE KULLANIRIM ?  Oracle  Microsoft SQL Server Veri tabanı yönetim sistemleri  Sybase ASE  Sybase IQ  MySQL  Oracle Data Integrator  Oracle Warehouse Builder ETL  Informatica  Business Objects Data Integrator  Sybase Power Designer  CA ERWIN Model Tasarım  Oracle Business Intelligence  Cognos İş Zekası  Business Objects  Microstrategy  Herhangi bir ANSI database  SQL Developer Data Modeler
  6. 6. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi GLOSSARY • DWH : Datawarehouse – Veri Ambarı • DM : Data Mart – Veri Kümeleri • BI : Business Intelligence – İş Zekası • ETL : Extract – Transform – Load • IK : Incremental Update – Artımsal Güncelleme • SCD : Slowly Changing Dimension – Yavaş Değişen Boyutlar • CDC : Change Data Capture – Değişen Veriyi Yakala • OLTP : Online Transactional Processing – Operasyonel Sistemler • OLAP : Online Analytical Processing – Küpler • SA : Subject Area – Konu Alanı • STG : Staging Area – Kademe Alanı • DQ : Data Quality – Veri Kalitesi • FACT : Fact (TRX) – Gerçekleşen (Hareket) • DIM : Dimension – Boyut
  7. 7. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi HERŞEY NASIL BAŞLADI ?
  8. 8. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH & OLTP farkı nedir?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  DWH & DM farkı nedir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir? GÜNÜN AJANDASI
  9. 9. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi DATAWAREHOUSE (DWH) NEDİR ? DWH tarihi • EIS (Enterprise Information Systems) • DSS (Decision Support Systems) • Data Warehousing and Business Intelligence (DWH / BI) Bir veri ambarı; yönetim kararlarını destekleyici, konu yönelimli, entegre, uçucu olmayan ve zaman değişkenli veri kümesidir. (Bill Inmon - 1990) Teknik Avantajları • Paralel kullanımı (Parallelism) • Veri Kümelemesi (Partitioning) • Veri Sıkıştırması (Compressing) İş Zekası, verinin bilgiye dönüşümü işlemidir. (Gartner Group) DATA INFORMATION KNOWLEDGE DECISION
  10. 10. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  DWH & DM farkı nedir?  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir? GÜNÜN AJANDASI
  11. 11. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi DATAMART (DM) NEDİR ? Datamartlar • Konu yönelimli • Tümleşik • Genellikle tek kaynak sistemden beslenir ÖZELİK DATA WAREHOUSE DATAMART İçerik Kurumsal Departmansal Konu Çok Tek özne, iş birimi odaklı Veri Kaynağı Çoğul Tekil Implementasyon Ay – Yıl Ay Bağımlı veya bağımsız olabilirler. • Bağımlı DM : DWH’tan beslenen, kolay ETL, kurumsal planın parçası • Bağımsız DM : Ayrık, operasyonel maliyeti yüksek, harici veri kaynaklarından beslenen, analitik ihtiyaçlara yönelik hazırlanan
  12. 12. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  DWH & OLTP farkı nedir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  13. 13. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi DWH & OLTP ÖZELİK OPERASYONEL SİSTEM DATA WAREHOUSE Yanıt Süresi Milisaniye / Saniye Saniye / Saat Operasyon DML (Data Manipulation Language) Öncelikli olarak salt-okunur Veri doğası 30 – 60 gün Zamansal enstantane Veri Organizasyonu Uygulama Öznel, zamansal Veri Miktarı Küçük / Büyük Büyük / Çok Büyük Veri Kaynağı Operasyonel, Dahili Operasyonel, Dahili, Harici Aktiviteler Proses bazlı Analiz Bazlı
  14. 14. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  15. 15. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi DATAWAREHOUSE BİLEŞENLERİ OPERASYONEL KAYITLAR ARŞİV KAYITLARI DOSYALAR OPERATIONAL DATA STORE (ODS) DWH DM METADATA REPOSITORY KAYNAK SİSTEMLER STAGING KATMAN KURUMSAL KATMAN SUNUM KATMANI DWH Yazılım Yaklaşımları • Bing Bang Yaklaşımı • Artımsal Yaklaşım • Yukarıdan aşağıya artımsal (top-down incremental) • Aşağıdan yukarıya artımsal (bottom-up incremental)
  16. 16. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  17. 17. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi ETL NE DEMEKTİR? E-T-L (Extract – Transform – Load) Extraction • Farklı kaynak sistemden, veri tabanından farklı formatlarla elde edilir. • Kaynak sistemlerin canlı, arşiv, dahili ve harici verilerine erişebilir. Transform • Veri hataları düzeltilir. • Genellikle staging area (remote/on site) kullanılır • Veri entegrasyonu sağlanır • İş kuralları verilere uygulanarak veri doğrulaması gerçekleştirilir • Veriler onaylanır • Verilere zaman entegre edilir Load • Elde edilen temizlenmiş veri DWH ortamına yazılır
  18. 18. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  19. 19. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi ETL ÇEŞİTLERİ Incremental Update • Kaynak sistemden elde edilen birincil anahtarlar (Primary Key) yardımı ile «yeni geleni ekle, mevcut olanı güncelle, silineni işaretle» yaklaşımı. • Change Data Capture (CDC) Slowly Changing Dimensions Type II (SCD) Truncate & Load • Kaynak sistemden elde edilen verilerin tümünün silinerek yeniden yapılandırılması. • Kaynak sistemden elde edilen veriler tarihsel olarak saklanarak hiçbir veri silinmez. Tarihsel yaklaşım.
  20. 20. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi ETL PROBLEMLERİ • Kaynak sistemdeki tablonun unusable olması • Kaynak sistemdeki dosyaya erişilememe • Yetersiz metadata • Zayıf veya yetersiz analiz süreci • Yetersiz yer (storage) planlama • Kaynak sistemde yapısal değişiklikler • Yetersiz veri validasyonu • Hatalı mantıksal / fiziksel model dizaynı • Veri tipi uyumsuzlukları
  21. 21. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  22. 22. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi MODELLEME İş modelinin oluşturulması (Business Model) • Strateji analizinin yapılması • İş birimi tanımlarının ve kurallarının belirlenmesi • İş ihtiyaçlarının belirlenmesi Mantıksal modelin oluşturulması (Logical Model) • İlişki ve ilişki tiplerinin belirlenmesi • Fact ve Dimension’ların tespit edilmesi • Sonuçların mantıksal olarak üretilerek konu alanlarının tespit edilmesi • Nesnelerin isim ve renk standartlarının belirlenmesi Fiziksel modelin oluşturulması (Physical Model) • Donanım ihtiyaçlarının tespit edilmesi • Tablo ve index için disk kapasitesi ihtiyacının belirlenmesi • Partition stratejisinin belirlenmesi • Güvenlik stratejisinin belirlenmesi
  23. 23. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi MODELLEME Third Normal Form (3NF)
  24. 24. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi MODELLEME Star Schema
  25. 25. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi MODELLEME Snowflake Schema
  26. 26. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  27. 27. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi VERİ KALİTESİ NEDİR? • Beklenen veri, beklenen yerde, beklenen şekilde bulunmaz ise veri kalitesi problemi ortaya çıkar. • Farklı anlama gelen data • Eksik bilgi, verinin farklı alanda olması • Veri tipi farklılığı • Veri boyutu farklılığı • Veri doğrulama kurallarının olmaması • Drill-Down olmaması • İlişkisel bütünlüğün olmaması, öksüz kayıtların varlığı • Veri duplikasyonu
  28. 28. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi  Veri Ambarı nedir, ne demektir?  Veri Kalitesi nedir, nasıl sağlanır?  DWH bileşenleri nelerdir?  ETL ne demektir?  ETL tipleri nelerdir?  Modelleme nedir, nasıl yapılmalıdır?  Veri Tabanı fiziksel yaklaşımları nelerdir?  DWH & OLTP farkı nedir?  DWH & DM farkı nedir? GÜNÜN AJANDASI
  29. 29. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi FİZİKSEL ORTAM Fact tablo karakteristikleri • İş birimlerinin kullanacağı nümerik metrik değerleri içerir • Büyük miktarda veri içerir • Çabuk büyür, çok hızlı genişler • Stabil, Türetilmiş veya Özetlenmiş veri içerir • Genellikle ekleme yapılır • Genellikle dimension tablolarla foreign key ile ilişkilidir Dimension tablo karakteristikleri • İş birimlerinin görmek istedikleri metin tipteki veriyi içerirler • Genellikle statik veri içerirler • Boyutları küçüktür • Truncate Load mekanizmasına uygundur Slowly Changing Dimensions tablo karakteristikleri • Genellikle link tablolarıdır (Fact – Dimension linki) • Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar
  30. 30. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi FİZİKSEL ORTAM Partitioning • Range Partition • Hash Partition • List Partition • Index Partition • Composite Partition Indexing • B-Tree Index • Bitmap Index • Function Based Index • Partitioned Index Star • Genellikle link tablolarıdır (Fact – Dimension linki) • Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar Materialized View • Fiziksel yer kaplayan, istendiği zaman refresh edilebilen view yapısı
  31. 31. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi SONUÇ
  32. 32. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi TEŞEKKÜRLER Gürcan ORHAN http://gurcanorhan.wordpress.com http://www.twitter.com/gurcan_orhan http://tr.linkedin.com/in/gurcanorhan

×