Pentingnya Data Warehouse dalam Dunia Bisnis




 By : Feris Thia
 PT. Putera Handal Indotama
Agenda
 Apa itu Data Warehouse ?

 Pemanfaatan Data Warehouse oleh Stakeholder Perusahaan /
   Business Entity.

 Apa saja proses di dalam Data Warehouse ?

 Aplikasi ETL (Extract, Transform and Load).

 Kaitan Data Warehouse dengan Multi Dimensional Modelling
   dan Business Intelligence.

 Titik-titik krusial dalam Implementasi Data Warehouse.
INTRODUCTION

DATA WAREHOUSE
Apa itu Data Warehouse ?
                                                 :
                                             Notes
 Data warehouse adalah “replikasi”          ____________________
  data yang berisi :
                                             ____________________
    data mentah (= sumber).
    konsolidasi data dari berbagai          ____________________
       sumber.
                                             ____________________
      summary / aggregate data.
      data yang sudah ditransformasikan.    ____________________

      metadata.                             ____________________
      data bersih dan berkualitas tinggi.
                                             ____________________
 Tujuan :
                                             ____________________
   Reporting
   Sumber data subsistem (Data Mart )       ____________________
Kenapa Data Warehouse ?
 ADAPTASI PERKEMBANGAN BISNIS !               :
                                           Notes
                                           ____________________
 Proses bisnis yang selalu berubah
  CEPAT.                                   ____________________

 Kecepatan proses bisnis tidak diikuti    ____________________
  oleh kemampuan adaptasi sistem IT.       ____________________
 Untuk itu dibutuhkan satu sistem ad
                                           ____________________
  hoc / temporary untuk adaptasi bisnis.
 Perlu data hasil konsolidasi output      ____________________

  dari sistem ad hoc dan sistem            ____________________
  berjalan.
                                           ____________________
 Data Warehouse adalah solusinya.
                                           ____________________
Kenapa Data Warehouse ?
 INTEGRASI DATA !                                    :
                                                  Notes
                                                  ____________________
 Data / aset informasi bisnis tersebar
  dimana-mana :                                   ____________________

    Data customer ada di dua sistem              ____________________
    Data target penjualan ada di spreadsheet
     masing-masing komputer staff                 ____________________
    Transaksi PO kepada supplier ada di sistem   ____________________
     aplikasi desktop Access masing-masing
     staff                                        ____________________
    dll
                                                  ____________________
 Diperlukan sentralisasi & sinkronisasi
  terhadap data-data tersebut.                    ____________________

 Data Warehouse adalah solusinya.                ____________________
Kenapa Data Warehouse ?
 PERFORMA SISTEM REPORTING !                 :
                                          Notes
                                          ____________________
 Kecepatan     pembacaan      analisis
  seringkali dari data historis yang      ____________________
  sudah sangat besar                      ____________________
 Diperlukan agregasi dan summary
                                          ____________________
  data
 Data Warehouse adalah solusinya.        ____________________

                                          ____________________

                                          ____________________

                                          ____________________

                                          ____________________
DATA WAREHOUSE
             =
INFORMATION ASSET LIBERATION !
DATA WAREHOUSE

PEMANFAATAN DALAM BISNIS
Data Warehouse sebagai Aset
 Data yang lebih reliable         :
                               Notes
                               ____________________
  dengan kualitas tinggi
                               ____________________
 Akses informasi yang lebih
                               ____________________
  cepat
                               ____________________
 Memiliki view terhadap
  bisnis secara keseluruhan    ____________________

                               ____________________

                               ____________________

                               ____________________

                               ____________________
Manfaat dalam Bisnis
 Dapat mengerti pelanggan dengan          :
                                       Notes
                                       ____________________
    lebih baik
                                       ____________________
   Memperbaiki kampanye iklan /
    marketing                          ____________________

   Meningkatkan pelayanan pelanggan   ____________________

   Memperkecil Resiko                 ____________________

   Membuat perencanaan bisnis yang    ____________________
    lebih baik
                                       ____________________
   Membuat keputusan dengan lebih
                                       ____________________
    cepat
                                       ____________________
   dll
Stakeholder Data Warehouse
 Manajemen dan Direksi
    Memiliki pandangan terhadap keseluruhan bisnis.
 Divisi / Unit Bisnis
    Memiliki data yang lebih lengkap dan cepat dalam menganalisa
     perilaku operasional subjek dari masing-masing unit
    Contoh subjek : pelanggan (marketing), karyawan (hrd), produk
     (riset), dll.
 Divisi IT / IS
    Memiliki produktivitas yang lebih baik dalam mengejar
     perkembangan bisnis dengan sistem terkomputerisasi.
    Meningkatkan pemanfaatan teknologi secara lebih baik terutama
     database.
    Memecah proses yang kompleks dari suatu view database
     relasional.
ETL

ETL (EXTRACT, TRANSFORMATION
& LOAD)
Proses di Data Warehouse
 Data Integration & Extraction                :
                                           Notes
                                           ____________________
 Optimization and Staging (I/O Balance)
 Cleansing Data                           ____________________
    Normal Distribution                   ____________________
    Pyramid View
                                           ____________________
    Rules
 Aggregating Data                         ____________________

 Validation / Test Case                   ____________________
 Audit Trail
                                           ____________________
 Retain Historical References (Slowly
   Changing Dimension)                     ____________________

 etc                                      ____________________
ETL (Extract, Transform & Load) Tools
 Aplikasi yang dirancang khusus untuk       :
                                         Notes
   mengintegrasikan, mengolah dan        ____________________
   menyimpan data dengan berbagai
                                         ____________________
   keperluan dan media.
 Ciri-ciri :                            ____________________

     Batch Processing                   ____________________
     I/O Optimization Capabilities
                                         ____________________
     Kaya akan modul pengolahan data
     Error handling                     ____________________

     dll                                ____________________

                                         ____________________

                                         ____________________
ETL (Extract, Transform & Load) Tools
 Contoh Produk :                           :
                                        Notes
                                        ____________________
   Pentaho Data Integration (Kettle)
                                        ____________________
   Microsoft SQL Server Integration
      Service (SSIS)                    ____________________

     Informatica                       ____________________

     IBM Data Stage                    ____________________
     Talend                            ____________________
     dll
                                        ____________________

                                        ____________________

                                        ____________________
Microsoft SQL Server Integration Services




http://daxguy.blogspot.com/2010/03/dynamics-ax-2009-bulk-data-insert-using.html
Pentaho Data Integration
Pentaho Data Integration : Sources
Kenapa ETL ?
 Produktivitas yang tinggi !                     :
                                              Notes
                                              ____________________
 Meningkatkan efektivitas dan efisiensi
   divisi IT :                                ____________________
    Fokus akan integrasi dan pengolahan      ____________________
      data !
    Dibandingkan ke kompleksitas algoritma   ____________________
      menggunakan scripting / programming     ____________________
      language umum.
 Dirancang untuk mampu menangani I/O         ____________________
   balancing sehingga meningkatkan kinerja    ____________________
   pengolahan data.
                                              ____________________

                                              ____________________
Extract
 What information do you need ?          :
                                      Notes
                                      ____________________
 What data sources to extract ?      ____________________

 What is the extraction strategy ?   ____________________

 How do we detect CHANGE ?           ____________________

 How to link everything ?            ____________________

                                      ____________________
 etc
                                      ____________________

                                      ____________________

                                      ____________________
Transform
 Change the portion of data            :
                                    Notes
                                    ____________________
  structure and value
                                    ____________________
 Do we need to discretize data ?   ____________________

 Do we need to split them ? Join   ____________________
  them ? Union them ?               ____________________

 Data Cleansing ?                  ____________________

 etc                               ____________________

                                    ____________________

                                    ____________________
Load
 What portions of data need to be        :
                                      Notes
                                      ____________________
  loaded ?
                                      ____________________
 Do we need a staging ?
                                      ____________________
 What destinations are supported ?
                                      ____________________
 How is the performance ?
                                      ____________________
 etc
                                      ____________________

                                      ____________________

                                      ____________________

                                      ____________________
Simple Demo
                                  :
                              Notes
 Scenario                    ____________________
   Email Registration List   ____________________
 Extracting information
                              ____________________
 Further treatment need
                              ____________________

                              ____________________

                              ____________________

                              ____________________

                              ____________________

                              ____________________
DATA WAREHOUSE

DATA WAREHOUSE AND BUSINESS
INTELLIGENCE (BI)
Data Warehouse & BI !
                                      :
                                  Notes

 Data hasil dari proses :        ____________________

   pengambilan (extract)         ____________________

   pembersihan (clean)           ____________________

   penyesuaian data (conform)    ____________________

   dari struktur OLTP -> OLAP    ____________________

 Multi Dimensional Modelling !   ____________________

 Ralph Kimball                   ____________________

                                  ____________________

                                  ____________________
Apa itu OLTP ?
 OLTP = OnLine Transaction Processing            :
                                              Notes
                                              ____________________
 Aplikasi yang dirancang khusus untuk
   menangani operasional sehari-hari          ____________________
 Bersifat mission critical
                                              ____________________
 Biasanya meliputi aplikasi seperti :
    ERP : Enterprise Resource Planning       ____________________

    CRM : Customer Relationship Management   ____________________
    SCM : Supply Chain Management
    dll                                      ____________________

 Contoh :                                    ____________________
      SAP
                                              ____________________
      Microsoft Axapta / Dynamics
      G.O.L.D.                               ____________________
      dll
Apa itu OLAP ?
 OnLine Analytical Processing               :
                                         Notes
                                         ____________________
 Aplikasi yang dirancang khusus untuk
   laporan analisis dan merupakan        ____________________
   komponen penting Business
                                         ____________________
   Intelligence (BI)
 Skema database berbeda dengan          ____________________
   skema database OLTP
                                         ____________________
 Objek dari OLAP adalah Cube dimana
   kita bisa memandang data dari         ____________________
   berbagai dimension cube !             ____________________

                                         ____________________

                                         ____________________
Apa itu OLAP ?
 Database OLAP biasanya adalah         :
                                    Notes
                                    ____________________
  suatu data warehouse
                                    ____________________
 Tipe : ROLAP, MOLAP dan HOLAP
                                    ____________________
 Contoh Produk OLAP :
   Microsoft SQL Server Analysis   ____________________

     Service (MSAS)                 ____________________

   Pentaho Analysis (Mondrian)     ____________________
   PALO                            ____________________
   Dan lain-lain
                                    ____________________

                                    ____________________
Kenapa OLAP dan Bukan SQL ?
 Aplikasi analisa yang baik                :
                                        Notes
                                        ____________________
  membutuhkan kemampuan query
  data ke sistem koordinat posisi row   ____________________

  / column secara dinamis.              ____________________
  Contoh : Excel
                                        ____________________
 SQL hanya mengenal
                                        ____________________
  pengembalian row set dari data
  dan tidak mengenal sistem             ____________________

  koordinat axis.                       ____________________
 Oleh sebab itu SQL sangat             ____________________
  bergantung pada subquery atau
                                        ____________________
  temporary table.
.
Kenapa OLAP dan Bukan SQL ?
 OLAP menjawab kebutuhan tersebut            :
                                          Notes
                                          ____________________
  dengan query khusus : MDX (Multi
  Dimensional Expression) !               ____________________

 Contoh perhitungan kompleks yang        ____________________
  akan sulit dilakukan SQL :
                                          ____________________
   Perhitungan year to date penjualan
     bulan ini dengan perhitungan pada    ____________________
     bulan yang sama tahun                ____________________
     sebelumnya
                                          ____________________
   Menghitung rasio kontribusi dari
     penjualan bulan ini terhadap         ____________________
     kuartal terkait dan rasio terhadap
                                          ____________________
     keseluruhan tahun
   dll
Contoh OLAP : Mondrian + JPivot
DATA WAREHOUSE

MULTI DIMENSIONAL MODELLING
Multi Dimensional Modelling

 Fact Table and Dimension Table
 Star Schema
 Snowflake Schema
OLTP / Database Transaksional
Star Schema
Snowflake Schema
Related Terms
 Fact and Dimension Table          :
                                Notes
                                ____________________

 Star and Snowflake Schema     ____________________

 Aggregates                    ____________________

 Slowly Changing Dimension     ____________________
    (SCD)                       ____________________

   Change Data Capture (CDC)   ____________________

   Late Arrival Data           ____________________

   Junk Dimensions             ____________________

   etc                         ____________________
DATA WAREHOUSE

TANTANGAN DI DATA WAREHOUSE
Titik-titik Krusial Data Warehouse
 Change Data Capture
   What and when source had changed ?
 Near Real Time Extraction
   Scalability of the data
   Change extraction
 Data Validation
   How to validate ? What scenario ?
   Comparing to what system ?
   Which is correct ?
Titik-titik Krusial Data Warehouse
 Technologies
   Scalability
   Integrity
   Performance
   High Productivity
 Human Resources
   Knowledge Competency on Business Process and
    nature of data
   Operational Skill
KOMUNITAS / USER GROUP
Komunitas
 User Group
    Pentaho User Group Indonesia
      http://groups.google.com/group/pentaho-id
    Indo-BI User Group
      http://groups.google.com/group/indo-bi
    SQL Server BI
      http://groups.google.com/group/sqlserver-bi
 Project
    http://www.sampledata.org
    http://contoh-database.googlecode.com
    http://sampledata.googlecode.com
TERIMA KASIH

Pentingnya Data Warehouse dalam Dunia Bisnis

  • 1.
    Pentingnya Data Warehousedalam Dunia Bisnis By : Feris Thia PT. Putera Handal Indotama
  • 2.
    Agenda  Apa ituData Warehouse ?  Pemanfaatan Data Warehouse oleh Stakeholder Perusahaan / Business Entity.  Apa saja proses di dalam Data Warehouse ?  Aplikasi ETL (Extract, Transform and Load).  Kaitan Data Warehouse dengan Multi Dimensional Modelling dan Business Intelligence.  Titik-titik krusial dalam Implementasi Data Warehouse.
  • 3.
  • 5.
    Apa itu DataWarehouse ? : Notes  Data warehouse adalah “replikasi” ____________________ data yang berisi : ____________________  data mentah (= sumber).  konsolidasi data dari berbagai ____________________ sumber. ____________________  summary / aggregate data.  data yang sudah ditransformasikan. ____________________  metadata. ____________________  data bersih dan berkualitas tinggi. ____________________  Tujuan : ____________________  Reporting  Sumber data subsistem (Data Mart ) ____________________
  • 6.
    Kenapa Data Warehouse?  ADAPTASI PERKEMBANGAN BISNIS ! : Notes ____________________  Proses bisnis yang selalu berubah CEPAT. ____________________  Kecepatan proses bisnis tidak diikuti ____________________ oleh kemampuan adaptasi sistem IT. ____________________  Untuk itu dibutuhkan satu sistem ad ____________________ hoc / temporary untuk adaptasi bisnis.  Perlu data hasil konsolidasi output ____________________ dari sistem ad hoc dan sistem ____________________ berjalan. ____________________  Data Warehouse adalah solusinya. ____________________
  • 7.
    Kenapa Data Warehouse?  INTEGRASI DATA ! : Notes ____________________  Data / aset informasi bisnis tersebar dimana-mana : ____________________  Data customer ada di dua sistem ____________________  Data target penjualan ada di spreadsheet masing-masing komputer staff ____________________  Transaksi PO kepada supplier ada di sistem ____________________ aplikasi desktop Access masing-masing staff ____________________  dll ____________________  Diperlukan sentralisasi & sinkronisasi terhadap data-data tersebut. ____________________  Data Warehouse adalah solusinya. ____________________
  • 8.
    Kenapa Data Warehouse?  PERFORMA SISTEM REPORTING ! : Notes ____________________  Kecepatan pembacaan analisis seringkali dari data historis yang ____________________ sudah sangat besar ____________________  Diperlukan agregasi dan summary ____________________ data  Data Warehouse adalah solusinya. ____________________ ____________________ ____________________ ____________________ ____________________
  • 10.
    DATA WAREHOUSE = INFORMATION ASSET LIBERATION !
  • 11.
  • 12.
    Data Warehouse sebagaiAset  Data yang lebih reliable : Notes ____________________ dengan kualitas tinggi ____________________  Akses informasi yang lebih ____________________ cepat ____________________  Memiliki view terhadap bisnis secara keseluruhan ____________________ ____________________ ____________________ ____________________ ____________________
  • 13.
    Manfaat dalam Bisnis Dapat mengerti pelanggan dengan : Notes ____________________ lebih baik ____________________  Memperbaiki kampanye iklan / marketing ____________________  Meningkatkan pelayanan pelanggan ____________________  Memperkecil Resiko ____________________  Membuat perencanaan bisnis yang ____________________ lebih baik ____________________  Membuat keputusan dengan lebih ____________________ cepat ____________________  dll
  • 14.
    Stakeholder Data Warehouse Manajemen dan Direksi  Memiliki pandangan terhadap keseluruhan bisnis.  Divisi / Unit Bisnis  Memiliki data yang lebih lengkap dan cepat dalam menganalisa perilaku operasional subjek dari masing-masing unit  Contoh subjek : pelanggan (marketing), karyawan (hrd), produk (riset), dll.  Divisi IT / IS  Memiliki produktivitas yang lebih baik dalam mengejar perkembangan bisnis dengan sistem terkomputerisasi.  Meningkatkan pemanfaatan teknologi secara lebih baik terutama database.  Memecah proses yang kompleks dari suatu view database relasional.
  • 15.
  • 16.
    Proses di DataWarehouse  Data Integration & Extraction : Notes ____________________  Optimization and Staging (I/O Balance)  Cleansing Data ____________________  Normal Distribution ____________________  Pyramid View ____________________  Rules  Aggregating Data ____________________  Validation / Test Case ____________________  Audit Trail ____________________  Retain Historical References (Slowly Changing Dimension) ____________________  etc ____________________
  • 17.
    ETL (Extract, Transform& Load) Tools  Aplikasi yang dirancang khusus untuk : Notes mengintegrasikan, mengolah dan ____________________ menyimpan data dengan berbagai ____________________ keperluan dan media.  Ciri-ciri : ____________________  Batch Processing ____________________  I/O Optimization Capabilities ____________________  Kaya akan modul pengolahan data  Error handling ____________________  dll ____________________ ____________________ ____________________
  • 18.
    ETL (Extract, Transform& Load) Tools  Contoh Produk : : Notes ____________________  Pentaho Data Integration (Kettle) ____________________  Microsoft SQL Server Integration Service (SSIS) ____________________  Informatica ____________________  IBM Data Stage ____________________  Talend ____________________  dll ____________________ ____________________ ____________________
  • 19.
    Microsoft SQL ServerIntegration Services http://daxguy.blogspot.com/2010/03/dynamics-ax-2009-bulk-data-insert-using.html
  • 20.
  • 21.
  • 22.
    Kenapa ETL ? Produktivitas yang tinggi ! : Notes ____________________  Meningkatkan efektivitas dan efisiensi divisi IT : ____________________  Fokus akan integrasi dan pengolahan ____________________ data !  Dibandingkan ke kompleksitas algoritma ____________________ menggunakan scripting / programming ____________________ language umum.  Dirancang untuk mampu menangani I/O ____________________ balancing sehingga meningkatkan kinerja ____________________ pengolahan data. ____________________ ____________________
  • 23.
    Extract  What informationdo you need ? : Notes ____________________  What data sources to extract ? ____________________  What is the extraction strategy ? ____________________  How do we detect CHANGE ? ____________________  How to link everything ? ____________________ ____________________  etc ____________________ ____________________ ____________________
  • 24.
    Transform  Change theportion of data : Notes ____________________ structure and value ____________________  Do we need to discretize data ? ____________________  Do we need to split them ? Join ____________________ them ? Union them ? ____________________  Data Cleansing ? ____________________  etc ____________________ ____________________ ____________________
  • 25.
    Load  What portionsof data need to be : Notes ____________________ loaded ? ____________________  Do we need a staging ? ____________________  What destinations are supported ? ____________________  How is the performance ? ____________________  etc ____________________ ____________________ ____________________ ____________________
  • 26.
    Simple Demo : Notes  Scenario ____________________  Email Registration List ____________________  Extracting information ____________________  Further treatment need ____________________ ____________________ ____________________ ____________________ ____________________ ____________________
  • 27.
    DATA WAREHOUSE DATA WAREHOUSEAND BUSINESS INTELLIGENCE (BI)
  • 28.
    Data Warehouse &BI ! : Notes  Data hasil dari proses : ____________________  pengambilan (extract) ____________________  pembersihan (clean) ____________________  penyesuaian data (conform) ____________________  dari struktur OLTP -> OLAP ____________________  Multi Dimensional Modelling ! ____________________  Ralph Kimball ____________________ ____________________ ____________________
  • 29.
    Apa itu OLTP?  OLTP = OnLine Transaction Processing : Notes ____________________  Aplikasi yang dirancang khusus untuk menangani operasional sehari-hari ____________________  Bersifat mission critical ____________________  Biasanya meliputi aplikasi seperti :  ERP : Enterprise Resource Planning ____________________  CRM : Customer Relationship Management ____________________  SCM : Supply Chain Management  dll ____________________  Contoh : ____________________  SAP ____________________  Microsoft Axapta / Dynamics  G.O.L.D. ____________________  dll
  • 30.
    Apa itu OLAP?  OnLine Analytical Processing : Notes ____________________  Aplikasi yang dirancang khusus untuk laporan analisis dan merupakan ____________________ komponen penting Business ____________________ Intelligence (BI)  Skema database berbeda dengan ____________________ skema database OLTP ____________________  Objek dari OLAP adalah Cube dimana kita bisa memandang data dari ____________________ berbagai dimension cube ! ____________________ ____________________ ____________________
  • 31.
    Apa itu OLAP?  Database OLAP biasanya adalah : Notes ____________________ suatu data warehouse ____________________  Tipe : ROLAP, MOLAP dan HOLAP ____________________  Contoh Produk OLAP :  Microsoft SQL Server Analysis ____________________ Service (MSAS) ____________________  Pentaho Analysis (Mondrian) ____________________  PALO ____________________  Dan lain-lain ____________________ ____________________
  • 32.
    Kenapa OLAP danBukan SQL ?  Aplikasi analisa yang baik : Notes ____________________ membutuhkan kemampuan query data ke sistem koordinat posisi row ____________________ / column secara dinamis. ____________________ Contoh : Excel ____________________  SQL hanya mengenal ____________________ pengembalian row set dari data dan tidak mengenal sistem ____________________ koordinat axis. ____________________  Oleh sebab itu SQL sangat ____________________ bergantung pada subquery atau ____________________ temporary table. .
  • 33.
    Kenapa OLAP danBukan SQL ?  OLAP menjawab kebutuhan tersebut : Notes ____________________ dengan query khusus : MDX (Multi Dimensional Expression) ! ____________________  Contoh perhitungan kompleks yang ____________________ akan sulit dilakukan SQL : ____________________  Perhitungan year to date penjualan bulan ini dengan perhitungan pada ____________________ bulan yang sama tahun ____________________ sebelumnya ____________________  Menghitung rasio kontribusi dari penjualan bulan ini terhadap ____________________ kuartal terkait dan rasio terhadap ____________________ keseluruhan tahun  dll
  • 34.
    Contoh OLAP :Mondrian + JPivot
  • 35.
  • 36.
    Multi Dimensional Modelling Fact Table and Dimension Table  Star Schema  Snowflake Schema
  • 37.
    OLTP / DatabaseTransaksional
  • 38.
  • 39.
  • 40.
    Related Terms  Factand Dimension Table : Notes ____________________  Star and Snowflake Schema ____________________  Aggregates ____________________  Slowly Changing Dimension ____________________ (SCD) ____________________  Change Data Capture (CDC) ____________________  Late Arrival Data ____________________  Junk Dimensions ____________________  etc ____________________
  • 41.
  • 42.
    Titik-titik Krusial DataWarehouse  Change Data Capture  What and when source had changed ?  Near Real Time Extraction  Scalability of the data  Change extraction  Data Validation  How to validate ? What scenario ?  Comparing to what system ?  Which is correct ?
  • 43.
    Titik-titik Krusial DataWarehouse  Technologies  Scalability  Integrity  Performance  High Productivity  Human Resources  Knowledge Competency on Business Process and nature of data  Operational Skill
  • 44.
  • 45.
    Komunitas  User Group  Pentaho User Group Indonesia  http://groups.google.com/group/pentaho-id  Indo-BI User Group  http://groups.google.com/group/indo-bi  SQL Server BI  http://groups.google.com/group/sqlserver-bi  Project  http://www.sampledata.org  http://contoh-database.googlecode.com  http://sampledata.googlecode.com
  • 46.