SlideShare a Scribd company logo
1 of 42
Download to read offline
EXTRACTION, TRANSFORMATION, LOADING (ETL)
DATA WAREHOUSE AND DATA MINING
Pertemuan 7
Dedi Darwis, M.Kom.
Outline
Overview
Extraction
Transformation
Load
ETL – Overview
Proses yang paling menantang dan penting
Proses yang melelahkan dan lama
Tantangan pada ETL
Source System sangat luas dan tersebar
Keperluan pada sistem operasi dan platform yang berbeda-beda
Banyak source system yang berjalan dalam aplikasi tua dan database yang kadaluarsa
Perubahan data (update) memiliki makna yang penting dalam DW tetapi tidak ditangkap oleh
aplikasi biasa
Tantangan pada ETL
Kualitas data dipertanyakan akibat perjalanan waktu
Tidak ada konsistensi pasti dalam source system
Meskipun data yang tidak konsisten dalam source system mampu ditangkap, maksud dari hal
tersebut bisa bermacam-macam
Kebanyakan makna dan nilai dari data tidak berorientasi pada pengguna. Mayoritas penuh kode
dan simbolik
Kebutuhan dan langkah-langkah
Menggabungkan beberapa struktur data menjadi satu baris dalam database tujuan dari DW
Membagi satu sumber struktur data  beberapa struktur  beberapa baris
Membaca data dari kamus dan katalog data dari source system
Membaca data dari berbagai macam file seperti flat file, file berindeks (VSAM), dan database
sistem (hierarkis/jaringan)
Kebutuhan dan langkah-langkah
Memuat detail untuk tabel fakta atomik
Agregasi untuk mempopulasi tabel fakta dan ringkasan
Transformasi data dari satu format dalam source platform ke format lain dalam platform tujuan
Menurunkan nilai target untuk input field (Contoh: tanggal lahir)
Mengubah nilai simbolik ke nilai yang bermakna (Contoh: jenis kelamin 1 dan 2 menjadi ‘male’
dan ‘female’)
Faktor Kunci
Kompleksitas Fungsi Ekstraksi dan Transformasi Data
◦ Lakukan inventarisasi data pada source system
◦ Fungsi transformasi berkaitan heterogenitas data dalam source system
Data loading
◦ Tentukan full refresh/incremental load
Data Extraction - Overview
Identifikasi source
Metode Ekstraksi Data
Frekuensi Ekstraksi
Jendela Waktu
Penjadwalan Pekerjaan
Exception Handling
Teknik Evaluasi
Identifikasi Source
Bergantung pada kebutuhan bisnis dalam tabel fakta dan dimensi
Tidak hanya menemukan tabel dari source yang bersesuaian, tetapi juga memverifikasi source
yang ditemukan bia memberikan nilai yang diperlukan ke DW
Identifikasi Source
Teknik Data Extraction
Bergantung pada Aplikasi Source. Apakah:
◦ Tidak ada pengaturan mengenai konfigurasi (Ekstraksi data saat itu juga)
◦ Mencatat jika ada perubahan data (update)
◦ Ekstraksi data segera
◦ Ekstraksi deferred data
Current Value
Mayoritas Aplikasi source menggunakan konsep ini
Tidak ada pengetahuan mengenai histori data
Hanya akan berubah jika ada perubahan data sesuai bisnis
Periodic Status
Ketika nilai suatu baris dalam Database diubah, sistem bisa mencatat perubahan tersebut
beserta waktu diubahnya
Ekstraksi Data Segera (Immediate Data Extraction)
Melalui Log Transaksi
Melalui Trigger di Database
Melalui Aplikasi Source
Ekstraksi Data Segera: Melalui Log
Transaksi
Dapat digunakan untuk source yang menggunakan database
Jika non-database, tidak ada pembuatan log, sehingga akan lebih sulit untuk replikasi data
Ekstraksi Data Segera: Melalui Trigger
Dapat digunakan untuk source yang menggunakan database
Dapat dipercaya untuk keperluan menangkap data
Pembangunannya membutuhkan beban tersendiri
Eksekusi trigger memberikan beban komputasi terhadap aplikasi
Ekstraksi Data Segera: Melalui Aplikasi Source
Dapat digunakan untuk source yang menggunakan database dan format lain
Usaha untuk membangunnya sangat besar
Tergantung skala aplikasi source
Deferred Data Extraction
Berdasarkan time and date stamp
◦ Jika ada data terhapus di antara 2 waktu ekstraksi, catatan mengenai data tersebut tidak akan terlacak
Berdasarkan perbandingan file
◦ Jika berbeda akan dicatat perubahannya
◦ Terkadang inefisien dan mungkin cocok untuk sistem dengan software lama
Evaluasi Teknik Ekstraksi Data
Gunakanlah teknik ekstraksi data secara hati-hati karena membutuhkan usaha pembangunan
dan perawatan yang banyak
Transformasi Data
Salah satu tujuan: untuk memperbaiki data quality
Tugas Dasar Transformasi Data
Seleksi
Split/Join
Konversi
Peringkasan
Pengayaan
Tipe Perubahan Utama – Transformasi
Data
Revisi format
◦ Pengubahan tipe data dan panjang data
Penguraian makna
◦ (M -> Male, F-> Female)
Nilai turunan dan hitungan
◦ (Penjualan sehari, biaya operasional)
Pemecahan nilai tunggal
◦ (Alamat -> Nama jalan, kota, kode pos)
Penggabungan data
◦ (Kode produksi, deskripsi produk, harga berasal dari tabel berbeda, harus digabung)
Tipe Perubahan Utama – Transformasi
Data
Konversi character set
◦ EBCDIC  ASCII
Konversi satuan
◦ Feet  m, lbs  kg
Konversi tanggal
◦ (MM-DD-YYYY  DD/MM/YYYY)
Peringkasan
◦ Query agregat
Restrukturisasi key
Deduplikasi
Integrasi dan Konsolidasi Data
Masalah identifikasi entitas
◦ Perbedaan atribut customer di berbagai source
Masalah sumber jamak
◦ Satu nilai berasal dari sumber yang berbeda
Implementasi Transformasi
Dengan kakas bantu
Manual
Load
Initial Load—populating all the data warehouse tables for the very first time
Incremental Load—applying ongoing changes as necessary in a periodic manner
Full Refresh—completely erasing the contents of one or more tables and reloading with fresh
data (initial load is a refresh of all the tables)
Teknik dan Proses
Teknik
◦ Load
◦ Append
◦ Destructive Merge
◦ Constructive Merge
Teknik dan Proses
Initial Load
◦ Load/Load-append
Incremental Load
◦ Constructive Merge/Destructive Merge (jika ada error)
Full Refresh
◦ Clear All dulu, Load/Load-append
Refresh vs Update
Prosedur untuk Tabel Dimensi
Initial Load + Incremental Load
Isu perubahan dimensi
Penerapan konversi key
Prosedur untuk Tabel Fakta
Identify historical data useful and interesting for the data warehouse
Define and refine extract business rules
Capture audit statistics to tie back to operational systems
Perform fact table surrogate key look-up
Improve fact table content
Restructure the data
Prepare the load files
Ringkasan ETL
ETL
ETL

More Related Content

What's hot

Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Miningdedidarwis
 
Algoritma Apriori
Algoritma AprioriAlgoritma Apriori
Algoritma Aprioridedidarwis
 
Pertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehousePertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehouseEndang Retnoningsih
 
02-konsep-data-warehouse.ppt
02-konsep-data-warehouse.ppt02-konsep-data-warehouse.ppt
02-konsep-data-warehouse.pptDedek28
 
Data Warehousing and OLAP I
Data Warehousing and OLAP IData Warehousing and OLAP I
Data Warehousing and OLAP IShary Armonitha
 
6. organisasi multi key
6. organisasi multi key6. organisasi multi key
6. organisasi multi keyRenol Doang
 
Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Adam Mukharil Bachtiar
 
Sistem informasi enterprise
Sistem informasi enterpriseSistem informasi enterprise
Sistem informasi enterpriseAngga Bachtiar
 
Struktur direktori
Struktur direktoriStruktur direktori
Struktur direktoriAnggi DHARMA
 
Sistem Basis Data(PPT)
Sistem Basis Data(PPT)Sistem Basis Data(PPT)
Sistem Basis Data(PPT)tafrikan
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Miningdedidarwis
 
5 transformasi model data
5 transformasi model data5 transformasi model data
5 transformasi model dataSimon Patabang
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineLucha Kamala Putri
 
Pembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlinePembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlineandiseprianto
 
Data Flow Diagram
Data Flow DiagramData Flow Diagram
Data Flow DiagramSherly Uda
 
Pertemuan 6 Infrastruktur Datawarehouse
Pertemuan 6 Infrastruktur DatawarehousePertemuan 6 Infrastruktur Datawarehouse
Pertemuan 6 Infrastruktur DatawarehouseEndang Retnoningsih
 

What's hot (20)

OLAP
OLAPOLAP
OLAP
 
Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Mining
 
Algoritma Apriori
Algoritma AprioriAlgoritma Apriori
Algoritma Apriori
 
Pertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehousePertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata Datawarehouse
 
02-konsep-data-warehouse.ppt
02-konsep-data-warehouse.ppt02-konsep-data-warehouse.ppt
02-konsep-data-warehouse.ppt
 
Data Warehousing and OLAP I
Data Warehousing and OLAP IData Warehousing and OLAP I
Data Warehousing and OLAP I
 
6. organisasi multi key
6. organisasi multi key6. organisasi multi key
6. organisasi multi key
 
Pertemuan 11 Kualitas Data
Pertemuan 11 Kualitas DataPertemuan 11 Kualitas Data
Pertemuan 11 Kualitas Data
 
Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)
 
Sistem informasi enterprise
Sistem informasi enterpriseSistem informasi enterprise
Sistem informasi enterprise
 
Struktur direktori
Struktur direktoriStruktur direktori
Struktur direktori
 
Sistem Basis Data(PPT)
Sistem Basis Data(PPT)Sistem Basis Data(PPT)
Sistem Basis Data(PPT)
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Mining
 
System Request
System RequestSystem Request
System Request
 
20731 21 visualisasi data
20731 21 visualisasi data20731 21 visualisasi data
20731 21 visualisasi data
 
5 transformasi model data
5 transformasi model data5 transformasi model data
5 transformasi model data
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
 
Pembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlinePembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja online
 
Data Flow Diagram
Data Flow DiagramData Flow Diagram
Data Flow Diagram
 
Pertemuan 6 Infrastruktur Datawarehouse
Pertemuan 6 Infrastruktur DatawarehousePertemuan 6 Infrastruktur Datawarehouse
Pertemuan 6 Infrastruktur Datawarehouse
 

Similar to ETL

Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003Lavarino Dio
 
Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Mrirfan
 
Kel2 Data Warehouse
Kel2 Data WarehouseKel2 Data Warehouse
Kel2 Data WarehouseMrirfan
 
7. Sistem Pengolahan Data.pptx
7. Sistem Pengolahan Data.pptx7. Sistem Pengolahan Data.pptx
7. Sistem Pengolahan Data.pptxRenaHidayatus1
 
Merancang web-data-base-untuk-content-server-by-arya-upload-1
Merancang web-data-base-untuk-content-server-by-arya-upload-1Merancang web-data-base-untuk-content-server-by-arya-upload-1
Merancang web-data-base-untuk-content-server-by-arya-upload-1Royon Reys Rumapea
 
Database Introduction - Dasar Teori Basis Data
Database Introduction - Dasar Teori Basis DataDatabase Introduction - Dasar Teori Basis Data
Database Introduction - Dasar Teori Basis DataDudy Ali
 
Pertemuan 09 (procedure dan function database)
Pertemuan 09 (procedure dan function database)Pertemuan 09 (procedure dan function database)
Pertemuan 09 (procedure dan function database)Rifky A Ayub
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
Data ware house
Data ware houseData ware house
Data ware housenessa_ti
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptbukanyusup13
 
3. Dokumentasi kendali proses, flow diagram.pdf
3. Dokumentasi kendali proses, flow diagram.pdf3. Dokumentasi kendali proses, flow diagram.pdf
3. Dokumentasi kendali proses, flow diagram.pdfRatihPuspitaSiwi
 
72238483-Perancangan-Basis-Data.ppt
72238483-Perancangan-Basis-Data.ppt72238483-Perancangan-Basis-Data.ppt
72238483-Perancangan-Basis-Data.pptmerisipahutar
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERSitiOlis
 
Perwakilan keperluan pangkalan data
Perwakilan keperluan pangkalan dataPerwakilan keperluan pangkalan data
Perwakilan keperluan pangkalan dataIebal Eibal
 
3 pendekatan peng sys
3 pendekatan peng sys3 pendekatan peng sys
3 pendekatan peng syssribekti
 
Beberapa kesalahan implementasi Data Warehouse/BI
Beberapa kesalahan implementasi Data Warehouse/BIBeberapa kesalahan implementasi Data Warehouse/BI
Beberapa kesalahan implementasi Data Warehouse/BIHendro Subagyo
 

Similar to ETL (20)

Basis data (_database_)
Basis data (_database_)Basis data (_database_)
Basis data (_database_)
 
Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003
 
Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Kel2 Data Warehouse 2
Kel2 Data Warehouse 2
 
Kel2 Data Warehouse
Kel2 Data WarehouseKel2 Data Warehouse
Kel2 Data Warehouse
 
7. Sistem Pengolahan Data.pptx
7. Sistem Pengolahan Data.pptx7. Sistem Pengolahan Data.pptx
7. Sistem Pengolahan Data.pptx
 
4114310.ppt
4114310.ppt4114310.ppt
4114310.ppt
 
Merancang web-data-base-untuk-content-server-by-arya-upload-1
Merancang web-data-base-untuk-content-server-by-arya-upload-1Merancang web-data-base-untuk-content-server-by-arya-upload-1
Merancang web-data-base-untuk-content-server-by-arya-upload-1
 
Database Introduction - Dasar Teori Basis Data
Database Introduction - Dasar Teori Basis DataDatabase Introduction - Dasar Teori Basis Data
Database Introduction - Dasar Teori Basis Data
 
Pertemuan 09 (procedure dan function database)
Pertemuan 09 (procedure dan function database)Pertemuan 09 (procedure dan function database)
Pertemuan 09 (procedure dan function database)
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
Data ware house
Data ware houseData ware house
Data ware house
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
 
3. Dokumentasi kendali proses, flow diagram.pdf
3. Dokumentasi kendali proses, flow diagram.pdf3. Dokumentasi kendali proses, flow diagram.pdf
3. Dokumentasi kendali proses, flow diagram.pdf
 
Laporan simbada
Laporan simbadaLaporan simbada
Laporan simbada
 
72238483-Perancangan-Basis-Data.ppt
72238483-Perancangan-Basis-Data.ppt72238483-Perancangan-Basis-Data.ppt
72238483-Perancangan-Basis-Data.ppt
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
 
Perwakilan keperluan pangkalan data
Perwakilan keperluan pangkalan dataPerwakilan keperluan pangkalan data
Perwakilan keperluan pangkalan data
 
Download transfer dan konversi data
Download transfer dan konversi dataDownload transfer dan konversi data
Download transfer dan konversi data
 
3 pendekatan peng sys
3 pendekatan peng sys3 pendekatan peng sys
3 pendekatan peng sys
 
Beberapa kesalahan implementasi Data Warehouse/BI
Beberapa kesalahan implementasi Data Warehouse/BIBeberapa kesalahan implementasi Data Warehouse/BI
Beberapa kesalahan implementasi Data Warehouse/BI
 

More from dedidarwis

Cv dedi darwis
Cv dedi darwisCv dedi darwis
Cv dedi darwisdedidarwis
 
Manajemen pengetahuan
Manajemen pengetahuanManajemen pengetahuan
Manajemen pengetahuandedidarwis
 
Siklus Pendapatan
Siklus PendapatanSiklus Pendapatan
Siklus Pendapatandedidarwis
 
Pengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis KomputerPengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis Komputerdedidarwis
 
Sistem Pengendalian Internal
Sistem Pengendalian InternalSistem Pengendalian Internal
Sistem Pengendalian Internaldedidarwis
 
Model data dan desain database
Model data dan desain databaseModel data dan desain database
Model data dan desain databasededidarwis
 
Pengantar e-business
Pengantar e-businessPengantar e-business
Pengantar e-businessdedidarwis
 
Siklus sistem informasi akuntansi
Siklus sistem informasi akuntansiSiklus sistem informasi akuntansi
Siklus sistem informasi akuntansidedidarwis
 
Konsep Dasar Sistem Informasi Akuntansi
Konsep Dasar Sistem Informasi AkuntansiKonsep Dasar Sistem Informasi Akuntansi
Konsep Dasar Sistem Informasi Akuntansidedidarwis
 
Pert 14 publikasi hasil penelitian
Pert 14 publikasi hasil penelitianPert 14 publikasi hasil penelitian
Pert 14 publikasi hasil penelitiandedidarwis
 
Pert 13 pengujian hasil penelitian
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitiandedidarwis
 
Pert 13 pengujian hasil penelitian
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitiandedidarwis
 
Pert 12 metode eksperimen
Pert 12   metode eksperimenPert 12   metode eksperimen
Pert 12 metode eksperimendedidarwis
 
Pert 11 kesalahan penelitian
Pert 11  kesalahan penelitianPert 11  kesalahan penelitian
Pert 11 kesalahan penelitiandedidarwis
 
Slide trik skripsi ftik s1
Slide trik skripsi ftik s1Slide trik skripsi ftik s1
Slide trik skripsi ftik s1dedidarwis
 
Pert 9 proposal penelitian
Pert 9 proposal penelitianPert 9 proposal penelitian
Pert 9 proposal penelitiandedidarwis
 
Pert 6 literatur review
Pert 6 literatur reviewPert 6 literatur review
Pert 6 literatur reviewdedidarwis
 
Pert 5 pengolahan data
Pert 5 pengolahan dataPert 5 pengolahan data
Pert 5 pengolahan datadedidarwis
 
Pert 5 pengumpulan-data
Pert 5 pengumpulan-dataPert 5 pengumpulan-data
Pert 5 pengumpulan-datadedidarwis
 
Pert 4 masalah-penelitian
Pert 4 masalah-penelitianPert 4 masalah-penelitian
Pert 4 masalah-penelitiandedidarwis
 

More from dedidarwis (20)

Cv dedi darwis
Cv dedi darwisCv dedi darwis
Cv dedi darwis
 
Manajemen pengetahuan
Manajemen pengetahuanManajemen pengetahuan
Manajemen pengetahuan
 
Siklus Pendapatan
Siklus PendapatanSiklus Pendapatan
Siklus Pendapatan
 
Pengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis KomputerPengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis Komputer
 
Sistem Pengendalian Internal
Sistem Pengendalian InternalSistem Pengendalian Internal
Sistem Pengendalian Internal
 
Model data dan desain database
Model data dan desain databaseModel data dan desain database
Model data dan desain database
 
Pengantar e-business
Pengantar e-businessPengantar e-business
Pengantar e-business
 
Siklus sistem informasi akuntansi
Siklus sistem informasi akuntansiSiklus sistem informasi akuntansi
Siklus sistem informasi akuntansi
 
Konsep Dasar Sistem Informasi Akuntansi
Konsep Dasar Sistem Informasi AkuntansiKonsep Dasar Sistem Informasi Akuntansi
Konsep Dasar Sistem Informasi Akuntansi
 
Pert 14 publikasi hasil penelitian
Pert 14 publikasi hasil penelitianPert 14 publikasi hasil penelitian
Pert 14 publikasi hasil penelitian
 
Pert 13 pengujian hasil penelitian
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitian
 
Pert 13 pengujian hasil penelitian
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitian
 
Pert 12 metode eksperimen
Pert 12   metode eksperimenPert 12   metode eksperimen
Pert 12 metode eksperimen
 
Pert 11 kesalahan penelitian
Pert 11  kesalahan penelitianPert 11  kesalahan penelitian
Pert 11 kesalahan penelitian
 
Slide trik skripsi ftik s1
Slide trik skripsi ftik s1Slide trik skripsi ftik s1
Slide trik skripsi ftik s1
 
Pert 9 proposal penelitian
Pert 9 proposal penelitianPert 9 proposal penelitian
Pert 9 proposal penelitian
 
Pert 6 literatur review
Pert 6 literatur reviewPert 6 literatur review
Pert 6 literatur review
 
Pert 5 pengolahan data
Pert 5 pengolahan dataPert 5 pengolahan data
Pert 5 pengolahan data
 
Pert 5 pengumpulan-data
Pert 5 pengumpulan-dataPert 5 pengumpulan-data
Pert 5 pengumpulan-data
 
Pert 4 masalah-penelitian
Pert 4 masalah-penelitianPert 4 masalah-penelitian
Pert 4 masalah-penelitian
 

ETL

  • 1. EXTRACTION, TRANSFORMATION, LOADING (ETL) DATA WAREHOUSE AND DATA MINING Pertemuan 7 Dedi Darwis, M.Kom.
  • 3. ETL – Overview Proses yang paling menantang dan penting Proses yang melelahkan dan lama
  • 4. Tantangan pada ETL Source System sangat luas dan tersebar Keperluan pada sistem operasi dan platform yang berbeda-beda Banyak source system yang berjalan dalam aplikasi tua dan database yang kadaluarsa Perubahan data (update) memiliki makna yang penting dalam DW tetapi tidak ditangkap oleh aplikasi biasa
  • 5. Tantangan pada ETL Kualitas data dipertanyakan akibat perjalanan waktu Tidak ada konsistensi pasti dalam source system Meskipun data yang tidak konsisten dalam source system mampu ditangkap, maksud dari hal tersebut bisa bermacam-macam Kebanyakan makna dan nilai dari data tidak berorientasi pada pengguna. Mayoritas penuh kode dan simbolik
  • 6. Kebutuhan dan langkah-langkah Menggabungkan beberapa struktur data menjadi satu baris dalam database tujuan dari DW Membagi satu sumber struktur data  beberapa struktur  beberapa baris Membaca data dari kamus dan katalog data dari source system Membaca data dari berbagai macam file seperti flat file, file berindeks (VSAM), dan database sistem (hierarkis/jaringan)
  • 7. Kebutuhan dan langkah-langkah Memuat detail untuk tabel fakta atomik Agregasi untuk mempopulasi tabel fakta dan ringkasan Transformasi data dari satu format dalam source platform ke format lain dalam platform tujuan Menurunkan nilai target untuk input field (Contoh: tanggal lahir) Mengubah nilai simbolik ke nilai yang bermakna (Contoh: jenis kelamin 1 dan 2 menjadi ‘male’ dan ‘female’)
  • 8. Faktor Kunci Kompleksitas Fungsi Ekstraksi dan Transformasi Data ◦ Lakukan inventarisasi data pada source system ◦ Fungsi transformasi berkaitan heterogenitas data dalam source system Data loading ◦ Tentukan full refresh/incremental load
  • 9. Data Extraction - Overview Identifikasi source Metode Ekstraksi Data Frekuensi Ekstraksi Jendela Waktu Penjadwalan Pekerjaan Exception Handling Teknik Evaluasi
  • 10. Identifikasi Source Bergantung pada kebutuhan bisnis dalam tabel fakta dan dimensi Tidak hanya menemukan tabel dari source yang bersesuaian, tetapi juga memverifikasi source yang ditemukan bia memberikan nilai yang diperlukan ke DW
  • 12. Teknik Data Extraction Bergantung pada Aplikasi Source. Apakah: ◦ Tidak ada pengaturan mengenai konfigurasi (Ekstraksi data saat itu juga) ◦ Mencatat jika ada perubahan data (update) ◦ Ekstraksi data segera ◦ Ekstraksi deferred data
  • 13. Current Value Mayoritas Aplikasi source menggunakan konsep ini Tidak ada pengetahuan mengenai histori data Hanya akan berubah jika ada perubahan data sesuai bisnis
  • 14. Periodic Status Ketika nilai suatu baris dalam Database diubah, sistem bisa mencatat perubahan tersebut beserta waktu diubahnya
  • 15.
  • 16. Ekstraksi Data Segera (Immediate Data Extraction) Melalui Log Transaksi Melalui Trigger di Database Melalui Aplikasi Source
  • 17.
  • 18. Ekstraksi Data Segera: Melalui Log Transaksi Dapat digunakan untuk source yang menggunakan database Jika non-database, tidak ada pembuatan log, sehingga akan lebih sulit untuk replikasi data
  • 19. Ekstraksi Data Segera: Melalui Trigger Dapat digunakan untuk source yang menggunakan database Dapat dipercaya untuk keperluan menangkap data Pembangunannya membutuhkan beban tersendiri Eksekusi trigger memberikan beban komputasi terhadap aplikasi
  • 20. Ekstraksi Data Segera: Melalui Aplikasi Source Dapat digunakan untuk source yang menggunakan database dan format lain Usaha untuk membangunnya sangat besar Tergantung skala aplikasi source
  • 21.
  • 22. Deferred Data Extraction Berdasarkan time and date stamp ◦ Jika ada data terhapus di antara 2 waktu ekstraksi, catatan mengenai data tersebut tidak akan terlacak Berdasarkan perbandingan file ◦ Jika berbeda akan dicatat perubahannya ◦ Terkadang inefisien dan mungkin cocok untuk sistem dengan software lama
  • 23.
  • 24. Evaluasi Teknik Ekstraksi Data Gunakanlah teknik ekstraksi data secara hati-hati karena membutuhkan usaha pembangunan dan perawatan yang banyak
  • 25.
  • 26. Transformasi Data Salah satu tujuan: untuk memperbaiki data quality
  • 27. Tugas Dasar Transformasi Data Seleksi Split/Join Konversi Peringkasan Pengayaan
  • 28. Tipe Perubahan Utama – Transformasi Data Revisi format ◦ Pengubahan tipe data dan panjang data Penguraian makna ◦ (M -> Male, F-> Female) Nilai turunan dan hitungan ◦ (Penjualan sehari, biaya operasional) Pemecahan nilai tunggal ◦ (Alamat -> Nama jalan, kota, kode pos) Penggabungan data ◦ (Kode produksi, deskripsi produk, harga berasal dari tabel berbeda, harus digabung)
  • 29. Tipe Perubahan Utama – Transformasi Data Konversi character set ◦ EBCDIC  ASCII Konversi satuan ◦ Feet  m, lbs  kg Konversi tanggal ◦ (MM-DD-YYYY  DD/MM/YYYY) Peringkasan ◦ Query agregat Restrukturisasi key Deduplikasi
  • 30.
  • 31. Integrasi dan Konsolidasi Data Masalah identifikasi entitas ◦ Perbedaan atribut customer di berbagai source Masalah sumber jamak ◦ Satu nilai berasal dari sumber yang berbeda
  • 33. Load Initial Load—populating all the data warehouse tables for the very first time Incremental Load—applying ongoing changes as necessary in a periodic manner Full Refresh—completely erasing the contents of one or more tables and reloading with fresh data (initial load is a refresh of all the tables)
  • 34. Teknik dan Proses Teknik ◦ Load ◦ Append ◦ Destructive Merge ◦ Constructive Merge
  • 35. Teknik dan Proses Initial Load ◦ Load/Load-append Incremental Load ◦ Constructive Merge/Destructive Merge (jika ada error) Full Refresh ◦ Clear All dulu, Load/Load-append
  • 37. Prosedur untuk Tabel Dimensi Initial Load + Incremental Load Isu perubahan dimensi Penerapan konversi key
  • 38. Prosedur untuk Tabel Fakta Identify historical data useful and interesting for the data warehouse Define and refine extract business rules Capture audit statistics to tie back to operational systems Perform fact table surrogate key look-up Improve fact table content Restructure the data Prepare the load files
  • 39.