Arsitektur
Data Warehouse
“When you are willing to make sacrifices for a
great cause, you will never be alone.”
TIF32604 Data Warehouse
Nova Eka Diana (nova.diana@yarsi.ac.id)
Fakultas Teknologi Informasi
Universitas YARSI
Konten
• Arsitektur Data Warehouse
• Centralized, Data Mart, Hub & Spoke
• Data Flow Architecture
• Dimensional Data Store (DDS)
• Normalized Data Store (NDS)
• Operational Data Store (ODS)
• Federated Data Warehouse
ARSITEKTUR DATA WAREHOUSE
Definisi Penting
• Data Architecture
• Bagaimana menyusun data dalam tiap data store
• Bagaimana mendesain data store untuk merefleksikan
proses bisnis
• Data Modeling
• Proses untuk membangun data architecture
• Data Store
• Satu atau lebih basis data atau file yang terdiri atas data
untuk DW
Definisi Penting (2)
• Relational database: basis data yang terdiri atas
entitas tabel yang dilengkapi dengan hubungan
orang tua-anak diantara tabel-tabel tersebut
• Normalized database: basisdata yang memiliki sedikit
atau bahkan nol data yang berulang, biasanya
berada dalam 3NF atau lebih tinggi
• Denormalized database: basis data dengan
beberapa data yang berulang, berada dalam 3NF
atau lebih
• Dimensional database: denormalized database yang
terdiri atas fact tabel dan common dimension tabel
yang berisi ukuran (measurement) dari proses bisnis
Tipe Arsitektur
Centralized Data Warehouse
Departmental Data Mart
Hub and Spoke
Tipikal Arsitektur: DW
Komponen DW
DATA STORE
Klasifikasi Data Store
• Berdasarkan akses user:
• User-facing data store
• Internal Data Store
• Hybrid Data Store
• Berdasarkan format data:
• Stage
• Normalized Data Store (NDS)
• Operational Data Store (ODS)
• Dimensional Data Store (DDS)
Data Store: Akses User
• User-facing data store
• Data store yang tersedia untuk level end user dan dapat
mengeksekusi kueri yang diberikan oleh end user dan
end-user applications
• Internal Data Store
• Data store yang digunakan secara internal oleh
komponen DW untuk keperluan integration, cleansing,
logging, dan preparing data .
• Tidak dapat diakses oleh end user dan end-user
application secara terbuka
• Hybrid Data Store
• Gabungan antara mekanisme internal DW dan dapat
diakses oleh end user dan end-user applications
Data Store: Format Data
• Stage
Internal data store yang digunakan untuk
mentransformasi dan menyiapkan data yang diambil
dari sumber data, sebelum data tersebut akan
diteruskan ke data store yang ada di Data
Warehouse
• Normalized Data Warehouse (NDS)
Internal master data store dalam bentuk satu atau
lebih normalized relational database untuk
mengintegrasikan data dari berbagai sumber data
yang sudah ditangkap dalam stage, sebelum data
tersebut diteruskan ke user-facing data store
NDS
Data Store: Format Data (2)
• Operational Data Warehouse (ODS)
Hybrid data store yang terdiri atas satu atau lebih
normalized relational database, terdiri atas data
transaksi dan versi master data terbaru, dibuat untuk
mendukung operasional aplikasi
• Dimensional Data Warehouse (DDS)
User-facing data store, yang terdiri atas satu atau
lebih relational database, dimana data disusun
dalam format dimensional untuk mendukung
kebutuhan kueri yang bersifat analitik
Dimensional Data Store (DDS)
• Skema implementasi
• Star schema: sebuah dimensi tidak memiliki sub-
tabel atau subdimension; lebih mudah untuk
memasukkan data ke DDS
• Snowflake schema: sebuah dimensi dapat memiliki
subdimension untuk menghindari redundancy data
sehingga mengurangi disk space
• Galaxy schema/fact constellation schema: dua
atau lebih fact table yang dihubungkan oleh
common dimension, sehingga mampu
memodelkan proses bisnis secara lebih akurat
Star Schema: DDS
DATA FLOW ARCHITECTURE
Data flow architecture
• Adalah konfigurasi data store dalam
sistem data warehouse
• Empat tipe Data Flow:
• Single DDS
• NDS + DDS
• ODS + DDS
• Federated Data Warehouse
ETL
• Extract, Transform, and Load (ETL)
Adalah sistem yang bertugas untuk membaca
data dari satu data store (source),
mentransformasi data, dan kemudian
meneruskannya ke data store yang lain (target)
ETL Package
• ETL Package terdiri atas beberapa Proses ETL
• Proses ETL adalah sebuah program yang
merupakan bagian dari ETL package, yang
mengambil data dari satu atau beberapa sumber
dan mempopulasikannya ke satu tabel target
• Proses ETL terdiri atas beberapa tahapan (Step)
• Step adalah komponen dari proses ETL yang
melakukan tugas khusus
• Misal: melakukan ekstraksi data dari satu
sumber, atau melakukan transformasi data
Deskripsi ETL: Metadata
• Metadata adalah data store yang menyimpan
deskripsi dari struktur, data, dan proses yang
terdapat dalam data warehouse
• Deskripsi meliputi:
• Sumber data
• Target
• Operasi transformasi
• Jadwal dari tiap proses ETL
SINGLE DDS
Data Flow: Single DDS
• Terdiri atas dua data store yaitu:
• Stage
• DDS
Data Flow: Single DDS (2)
• Kombinasi kedalam 1 package
• Keuntungan:
• Lebih memiliki kontrol atas waktu kapan data
ditulis dan diambil dari stage
• Data dapat disimpan kedalam DDS langsung
tanpa harus disimpan ke disk terlebih dahulu
• Kekurangan:
• Lebih kompleks
Data Flow: Single DDS (3)
• Kombinasi kedalam 1 package
Data Flow: Single DDS (4)
• Keuntungan Single-DDS:
• Lebih sederhana
• Kekurangan Single-DDS:
• Lebih susah untuk membuat DDS kedua
• DDS didalamnya adalah master data store
yang menyimpan semua versi dan histori data
NDS + DDS
Data Flow: NDS + DDS
• Terdiri atas tiga data store yaitu:
• Stage
• NDS
• DDS
Data Flow: NDS + DDS (2)
• NDS terdiri atas dua tipe data:
• Tabel transaksi : tabel yang menyimpan transaksi
bisnis. Misal: tabel sales order
• Tabel master: tabel yang terdiri atas objek atau
orang yang terlibat dalam proses bisnis. Misal: tabel
product
• NDS tabel menggunakan surrogate key dan natural
key
• Surrogate key: bilangan integer berurut, akan
menjadi primary key
• Natural key: identifier dari master data yang berasal
dari sumber
Data Flow: NDS + DDS (2)
• Keuntungan:
• Dapat rebuild Main DDS dengan mudah
• Dapat membangun DDS baru dengan mudah
• Mudah untuk mengatur master data karena hanya
memiliki sedikit data yang bersifat redundant
• Kekurangan:
• Lebih membutuhkan banyak usaha untuk
membangunnya
ODS + DDS
Data Flow: ODS + DDS
• Terdiri atas tiga data store yaitu:
• Stage
• ODS
• DDS
Data Flow: ODS + DDS (2)
• ODS hanya menyimpan versi terkini dari master
data
• ODS tidak memiliki data histori
• Struktur ODS mirip dengan OLTP
• Sama dengan NDS, juga terdiri atas tabel
transaksi dan tabel master
• NDS adalah internal data store
• ODS adalah hybrid data store
Data Flow: ODS + DDS (2)
• Keuntungan:
• Bentuk 3NF lebih ramping daripada NDS
karena hanya menyimpan data terkini
• Performa ODS ETL dan DDS ETL lebih baik
dibandingkan NDS + DDS
• Memiliki satu tempat terpusat untuk
mengintegrasikan, mengatur, dan mem-
publish data master
• Normalized relational store dapat diubah oleh
end-user applications sehingga mampu
mendukung aplikasi operasional pada level
transaksi
Data Flow: ODS + DDS (2)
• Kekurangan :
• Untuk membangun DDS kecil yang baru, data
harus diambil dari main DDS
• Dan tidak dapat menggunakan DDS ETL yang
sudah ada
FEDERATED DATA WAREHOUSE
(FDW)
Federated Data Warehouse
• Terdiri atas beberapa data warehouse dengan
data retrieval layer di atasnya
• Mengambil data dari DW yang ada dan
menyimpannya ke dimensional data store yang
baru
Federated Data Warehouse
• Granularity dari FDW adalah sama dengan
granularity tertinggi dari sumber DW
• Alasan: data hanya bisa ditransformasi dari
granularity rendah ke tinggi
• Misal:
• Granularity dari beberapa DW adalah G1, G2,
dan G3
• Maka granularity dari FDW adalah max(G1,
G2, G3)
Sistem Data Warehouse
MDB: Cube

Arsitektur Data Warehouse

  • 1.
    Arsitektur Data Warehouse “When youare willing to make sacrifices for a great cause, you will never be alone.” TIF32604 Data Warehouse Nova Eka Diana (nova.diana@yarsi.ac.id) Fakultas Teknologi Informasi Universitas YARSI
  • 2.
    Konten • Arsitektur DataWarehouse • Centralized, Data Mart, Hub & Spoke • Data Flow Architecture • Dimensional Data Store (DDS) • Normalized Data Store (NDS) • Operational Data Store (ODS) • Federated Data Warehouse
  • 3.
  • 4.
    Definisi Penting • DataArchitecture • Bagaimana menyusun data dalam tiap data store • Bagaimana mendesain data store untuk merefleksikan proses bisnis • Data Modeling • Proses untuk membangun data architecture • Data Store • Satu atau lebih basis data atau file yang terdiri atas data untuk DW
  • 5.
    Definisi Penting (2) •Relational database: basis data yang terdiri atas entitas tabel yang dilengkapi dengan hubungan orang tua-anak diantara tabel-tabel tersebut • Normalized database: basisdata yang memiliki sedikit atau bahkan nol data yang berulang, biasanya berada dalam 3NF atau lebih tinggi • Denormalized database: basis data dengan beberapa data yang berulang, berada dalam 3NF atau lebih • Dimensional database: denormalized database yang terdiri atas fact tabel dan common dimension tabel yang berisi ukuran (measurement) dari proses bisnis
  • 6.
    Tipe Arsitektur Centralized DataWarehouse Departmental Data Mart Hub and Spoke
  • 7.
  • 8.
  • 9.
  • 10.
    Klasifikasi Data Store •Berdasarkan akses user: • User-facing data store • Internal Data Store • Hybrid Data Store • Berdasarkan format data: • Stage • Normalized Data Store (NDS) • Operational Data Store (ODS) • Dimensional Data Store (DDS)
  • 11.
    Data Store: AksesUser • User-facing data store • Data store yang tersedia untuk level end user dan dapat mengeksekusi kueri yang diberikan oleh end user dan end-user applications • Internal Data Store • Data store yang digunakan secara internal oleh komponen DW untuk keperluan integration, cleansing, logging, dan preparing data . • Tidak dapat diakses oleh end user dan end-user application secara terbuka • Hybrid Data Store • Gabungan antara mekanisme internal DW dan dapat diakses oleh end user dan end-user applications
  • 12.
    Data Store: FormatData • Stage Internal data store yang digunakan untuk mentransformasi dan menyiapkan data yang diambil dari sumber data, sebelum data tersebut akan diteruskan ke data store yang ada di Data Warehouse • Normalized Data Warehouse (NDS) Internal master data store dalam bentuk satu atau lebih normalized relational database untuk mengintegrasikan data dari berbagai sumber data yang sudah ditangkap dalam stage, sebelum data tersebut diteruskan ke user-facing data store
  • 13.
  • 14.
    Data Store: FormatData (2) • Operational Data Warehouse (ODS) Hybrid data store yang terdiri atas satu atau lebih normalized relational database, terdiri atas data transaksi dan versi master data terbaru, dibuat untuk mendukung operasional aplikasi • Dimensional Data Warehouse (DDS) User-facing data store, yang terdiri atas satu atau lebih relational database, dimana data disusun dalam format dimensional untuk mendukung kebutuhan kueri yang bersifat analitik
  • 15.
    Dimensional Data Store(DDS) • Skema implementasi • Star schema: sebuah dimensi tidak memiliki sub- tabel atau subdimension; lebih mudah untuk memasukkan data ke DDS • Snowflake schema: sebuah dimensi dapat memiliki subdimension untuk menghindari redundancy data sehingga mengurangi disk space • Galaxy schema/fact constellation schema: dua atau lebih fact table yang dihubungkan oleh common dimension, sehingga mampu memodelkan proses bisnis secara lebih akurat
  • 16.
  • 17.
  • 18.
    Data flow architecture •Adalah konfigurasi data store dalam sistem data warehouse • Empat tipe Data Flow: • Single DDS • NDS + DDS • ODS + DDS • Federated Data Warehouse
  • 19.
    ETL • Extract, Transform,and Load (ETL) Adalah sistem yang bertugas untuk membaca data dari satu data store (source), mentransformasi data, dan kemudian meneruskannya ke data store yang lain (target)
  • 20.
    ETL Package • ETLPackage terdiri atas beberapa Proses ETL • Proses ETL adalah sebuah program yang merupakan bagian dari ETL package, yang mengambil data dari satu atau beberapa sumber dan mempopulasikannya ke satu tabel target • Proses ETL terdiri atas beberapa tahapan (Step) • Step adalah komponen dari proses ETL yang melakukan tugas khusus • Misal: melakukan ekstraksi data dari satu sumber, atau melakukan transformasi data
  • 21.
    Deskripsi ETL: Metadata •Metadata adalah data store yang menyimpan deskripsi dari struktur, data, dan proses yang terdapat dalam data warehouse • Deskripsi meliputi: • Sumber data • Target • Operasi transformasi • Jadwal dari tiap proses ETL
  • 22.
  • 23.
    Data Flow: SingleDDS • Terdiri atas dua data store yaitu: • Stage • DDS
  • 24.
    Data Flow: SingleDDS (2) • Kombinasi kedalam 1 package • Keuntungan: • Lebih memiliki kontrol atas waktu kapan data ditulis dan diambil dari stage • Data dapat disimpan kedalam DDS langsung tanpa harus disimpan ke disk terlebih dahulu • Kekurangan: • Lebih kompleks
  • 25.
    Data Flow: SingleDDS (3) • Kombinasi kedalam 1 package
  • 26.
    Data Flow: SingleDDS (4) • Keuntungan Single-DDS: • Lebih sederhana • Kekurangan Single-DDS: • Lebih susah untuk membuat DDS kedua • DDS didalamnya adalah master data store yang menyimpan semua versi dan histori data
  • 27.
  • 28.
    Data Flow: NDS+ DDS • Terdiri atas tiga data store yaitu: • Stage • NDS • DDS
  • 29.
    Data Flow: NDS+ DDS (2) • NDS terdiri atas dua tipe data: • Tabel transaksi : tabel yang menyimpan transaksi bisnis. Misal: tabel sales order • Tabel master: tabel yang terdiri atas objek atau orang yang terlibat dalam proses bisnis. Misal: tabel product • NDS tabel menggunakan surrogate key dan natural key • Surrogate key: bilangan integer berurut, akan menjadi primary key • Natural key: identifier dari master data yang berasal dari sumber
  • 30.
    Data Flow: NDS+ DDS (2) • Keuntungan: • Dapat rebuild Main DDS dengan mudah • Dapat membangun DDS baru dengan mudah • Mudah untuk mengatur master data karena hanya memiliki sedikit data yang bersifat redundant • Kekurangan: • Lebih membutuhkan banyak usaha untuk membangunnya
  • 31.
  • 32.
    Data Flow: ODS+ DDS • Terdiri atas tiga data store yaitu: • Stage • ODS • DDS
  • 33.
    Data Flow: ODS+ DDS (2) • ODS hanya menyimpan versi terkini dari master data • ODS tidak memiliki data histori • Struktur ODS mirip dengan OLTP • Sama dengan NDS, juga terdiri atas tabel transaksi dan tabel master • NDS adalah internal data store • ODS adalah hybrid data store
  • 34.
    Data Flow: ODS+ DDS (2) • Keuntungan: • Bentuk 3NF lebih ramping daripada NDS karena hanya menyimpan data terkini • Performa ODS ETL dan DDS ETL lebih baik dibandingkan NDS + DDS • Memiliki satu tempat terpusat untuk mengintegrasikan, mengatur, dan mem- publish data master • Normalized relational store dapat diubah oleh end-user applications sehingga mampu mendukung aplikasi operasional pada level transaksi
  • 35.
    Data Flow: ODS+ DDS (2) • Kekurangan : • Untuk membangun DDS kecil yang baru, data harus diambil dari main DDS • Dan tidak dapat menggunakan DDS ETL yang sudah ada
  • 36.
  • 37.
    Federated Data Warehouse •Terdiri atas beberapa data warehouse dengan data retrieval layer di atasnya • Mengambil data dari DW yang ada dan menyimpannya ke dimensional data store yang baru
  • 38.
    Federated Data Warehouse •Granularity dari FDW adalah sama dengan granularity tertinggi dari sumber DW • Alasan: data hanya bisa ditransformasi dari granularity rendah ke tinggi • Misal: • Granularity dari beberapa DW adalah G1, G2, dan G3 • Maka granularity dari FDW adalah max(G1, G2, G3)
  • 39.
  • 40.