SlideShare a Scribd company logo
1 of 27
Download to read offline
Data Extraction
“When you are willing to make sacrifices for a
great cause, you will never be alone.”
TIF32604 Data Warehouse
Nova Eka Diana (nova.diana@yarsi.ac.id)
Fakultas Teknologi Informasi
Universitas YARSI
Konten
• Pengertian ETL
• ETL Approach & Architecture
• ETL Methods
• ETL Problems & Reasons
• Extracting from Relational Databases
ETL
• ETL: Extract, Transform, and Load
• Adalah proses untuk mengambil dan
mentransformasi data dari berbagai sumber data
dan memasukkannya ke dalam data warehouse
• Ketika melakukan ekstraksi data, hindari agar
proses tersebut jangan terlalu banyak
mengganggu proses aktivitas dari sumber data
• Sebaiknya, data yang sudah diekstraksi harus
dimasukkan langsung ke data warehouse tanpa
harus terlebih dahulu disimpan secara temporari di
disk atau file
Jenis Transformasi
• Jenis tranformasi yang terjadi:
• Melakukan format dan standarisasi
• Melakukan lookup
• Melakukan agregasi summary data
• Dua prinsip penting:
• Leakage: jangan sampai ada data yang
tertinggal setelah proses ETL selesai
• Recoverability: proses ETL harus mampu
menangani terjadinya kegagalan
ETL APPROACH &
ARCHITECTURE
Traditional Approach
• Mengambil data dari sumber
• Menempatkannya di staging area
• Melakukan transformasi dan load ke
datawarehouse
• Atau:
• Tidak disimpan di staging area, tapi tranformasi
dilakukan di memori
• Langsung di-load ke data warehouse tanpa
disimpan ke disk
Traditional Approach
Alternative Approach
• ELT: Extract, Load, Transform
• Copy data dari OLTP ke data warehouse
• Proses transformasi dilakukan di data warehouse
Question
• Kapan menggunakan ETL dan ELT
approach?
• ETL: jika punya server ETL yang kuat dan software
dengan kualitas transformasi data yang tinggi
• ELT: jika datawarehouse database system kuat,
MPP(Massively Parallel Processing)  Teradata,
Netezza, Neoview
• Performa meningkat secara linier
Who moves the data out?
Where the move out data
executed?
Asal Sumber Data
• Database: ADO.NET, OLEDB, ODBC, JDBC, atau
database connectivity yang sesuai
• File system: ISAM (sequential file storage)
• Service
• Email
Bentuk Sumber Data
• Structured
• Semi-structured
• Unstructured
“on 2/1/2008 we received order ID
2893 from store 32, requiring 150
units of product A160. Three days
later store 29 asked for 240 pieces of
B120”
Potential Problems
Reasons
EXTRACTING RELATIONAL
DATABASE
Method
• Whole table every time
• Incremental extract
• Fixed range
• Push approach
Whole table every time
• Gunakan method ini
• jika ukuran tabel kecil
• Jika tidak ada timestamp atau identity column
Incremental Extract
• OLTP terdiri atas tabel-tabel dalam ukuran yang
besar dan terdiri atas ratusan ribu baris data
• Teknik ini hanya mengunduh baris data yang
diubah, bukan keseluruhan tabel
• Beberapa hal yang bisa digunakan:
• Timestamp column
• Identity column
• Transaction date
• Trigger
• Kombinasi semuanya
Incremental Extract (2)
• Kandidat: timestamp column, identity column
• Cek jika timestamp column dapat digunakan 
nilai timestamp yang berubah setiap kali baris data
diubah
• Atau membandingkan nilai timestamp dengan
identity column
Incremental Extract (3)
• Jika timestamp column memiliki urutan yang baik 
dapat digunakan untuk incremental extraction
• CET: Current Extraction Time
• LSET: Last Successful Extraction Time
Incremental Extract (4)
• Algoritma
Fixed Range
• Melakukan ekstraksi untuk sejumlah baris data
tertentu
• Atau pada periode waktu tertentu
• Mengidentifikasi update lebih susah  gunakan
checksum
Fixed Range (2)
• Asumsi: tabel1 terdiri atas data kemarin dan tabel2
terdiri atas data hari ini
• Ilustrasi:
Related Tables
• Jika source table diubah  related tables yang
menunjuknya juga harus diekstrak
• Misal: order ID 34552 di OrderHeader tabel diubah
dan diekstrak ke datawarehouse, maka baris
dengan row id 34552 di OrderDetail juga harus
diekstrak
• Identifikasi perubahan baris di tabel pertama,
• Gunakan hubungan primary-foreign key
Testing Data Leakes
Questions?

More Related Content

Similar to Data Extraction (8)

arsitektur data warehouse.pptx
arsitektur data warehouse.pptxarsitektur data warehouse.pptx
arsitektur data warehouse.pptx
 
Meta Data dalam Data Warehouse
Meta Data dalam Data WarehouseMeta Data dalam Data Warehouse
Meta Data dalam Data Warehouse
 
4114310.ppt
4114310.ppt4114310.ppt
4114310.ppt
 
ETL
ETLETL
ETL
 
pptModul5
pptModul5pptModul5
pptModul5
 
2 model eer
2 model eer2 model eer
2 model eer
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
Lingkungan Data Warehouse
Lingkungan Data WarehouseLingkungan Data Warehouse
Lingkungan Data Warehouse
 

More from Nova ed (6)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Data Modeling
Data ModelingData Modeling
Data Modeling
 
Perencanaan dan Akses Kebutuhan
Perencanaan dan Akses KebutuhanPerencanaan dan Akses Kebutuhan
Perencanaan dan Akses Kebutuhan
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Augmented reality (ar) introduction
Augmented reality (ar) introductionAugmented reality (ar) introduction
Augmented reality (ar) introduction
 
Gui component
Gui componentGui component
Gui component
 

Recently uploaded

undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
ritch4
 
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec AsliJual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
Jual Cytotec Asli 085225524732 Obat Penggugur Kandungan
 
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
buktifisikskp23
 
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdfKELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
InnesKana26
 
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
ssupi412
 
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
ssupi412
 
Aksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptxAksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptx
meirahayu651
 

Recently uploaded (20)

undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
 
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptxPPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
 
Digital Onboarding (Bisnis Digital) Fase F
Digital Onboarding (Bisnis Digital) Fase FDigital Onboarding (Bisnis Digital) Fase F
Digital Onboarding (Bisnis Digital) Fase F
 
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec AsliJual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
Jual Pil Penggugur Kandungan 085225524732 Obat Aborsi Cytotec Asli
 
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
 
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAMateri Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
 
materi konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxmateri konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptx
 
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdfKELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjana
 
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
 
Menganalisis T Test dengan menggunakan SPSS
Menganalisis T Test dengan menggunakan SPSSMenganalisis T Test dengan menggunakan SPSS
Menganalisis T Test dengan menggunakan SPSS
 
Materi RDK Rumah Data Kependudukan BKKBN.pptx
Materi RDK Rumah Data Kependudukan BKKBN.pptxMateri RDK Rumah Data Kependudukan BKKBN.pptx
Materi RDK Rumah Data Kependudukan BKKBN.pptx
 
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
 
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfAlur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
 
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
 
Materi Pajak Untuk Bantuan Operasional Sekolah ( BOS )
Materi Pajak Untuk Bantuan Operasional Sekolah ( BOS )Materi Pajak Untuk Bantuan Operasional Sekolah ( BOS )
Materi Pajak Untuk Bantuan Operasional Sekolah ( BOS )
 
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptxPEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Majalengka Ori👗082322223014👗Pusat Peluntur Kandungan Konsultasi
 
Aksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptxAksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptx
 

Data Extraction

  • 1. Data Extraction “When you are willing to make sacrifices for a great cause, you will never be alone.” TIF32604 Data Warehouse Nova Eka Diana (nova.diana@yarsi.ac.id) Fakultas Teknologi Informasi Universitas YARSI
  • 2. Konten • Pengertian ETL • ETL Approach & Architecture • ETL Methods • ETL Problems & Reasons • Extracting from Relational Databases
  • 3. ETL • ETL: Extract, Transform, and Load • Adalah proses untuk mengambil dan mentransformasi data dari berbagai sumber data dan memasukkannya ke dalam data warehouse • Ketika melakukan ekstraksi data, hindari agar proses tersebut jangan terlalu banyak mengganggu proses aktivitas dari sumber data • Sebaiknya, data yang sudah diekstraksi harus dimasukkan langsung ke data warehouse tanpa harus terlebih dahulu disimpan secara temporari di disk atau file
  • 4. Jenis Transformasi • Jenis tranformasi yang terjadi: • Melakukan format dan standarisasi • Melakukan lookup • Melakukan agregasi summary data • Dua prinsip penting: • Leakage: jangan sampai ada data yang tertinggal setelah proses ETL selesai • Recoverability: proses ETL harus mampu menangani terjadinya kegagalan
  • 6. Traditional Approach • Mengambil data dari sumber • Menempatkannya di staging area • Melakukan transformasi dan load ke datawarehouse • Atau: • Tidak disimpan di staging area, tapi tranformasi dilakukan di memori • Langsung di-load ke data warehouse tanpa disimpan ke disk
  • 8. Alternative Approach • ELT: Extract, Load, Transform • Copy data dari OLTP ke data warehouse • Proses transformasi dilakukan di data warehouse
  • 9. Question • Kapan menggunakan ETL dan ELT approach? • ETL: jika punya server ETL yang kuat dan software dengan kualitas transformasi data yang tinggi • ELT: jika datawarehouse database system kuat, MPP(Massively Parallel Processing)  Teradata, Netezza, Neoview • Performa meningkat secara linier
  • 10. Who moves the data out?
  • 11. Where the move out data executed?
  • 12. Asal Sumber Data • Database: ADO.NET, OLEDB, ODBC, JDBC, atau database connectivity yang sesuai • File system: ISAM (sequential file storage) • Service • Email
  • 13. Bentuk Sumber Data • Structured • Semi-structured • Unstructured “on 2/1/2008 we received order ID 2893 from store 32, requiring 150 units of product A160. Three days later store 29 asked for 240 pieces of B120”
  • 17. Method • Whole table every time • Incremental extract • Fixed range • Push approach
  • 18. Whole table every time • Gunakan method ini • jika ukuran tabel kecil • Jika tidak ada timestamp atau identity column
  • 19. Incremental Extract • OLTP terdiri atas tabel-tabel dalam ukuran yang besar dan terdiri atas ratusan ribu baris data • Teknik ini hanya mengunduh baris data yang diubah, bukan keseluruhan tabel • Beberapa hal yang bisa digunakan: • Timestamp column • Identity column • Transaction date • Trigger • Kombinasi semuanya
  • 20. Incremental Extract (2) • Kandidat: timestamp column, identity column • Cek jika timestamp column dapat digunakan  nilai timestamp yang berubah setiap kali baris data diubah • Atau membandingkan nilai timestamp dengan identity column
  • 21. Incremental Extract (3) • Jika timestamp column memiliki urutan yang baik  dapat digunakan untuk incremental extraction • CET: Current Extraction Time • LSET: Last Successful Extraction Time
  • 23. Fixed Range • Melakukan ekstraksi untuk sejumlah baris data tertentu • Atau pada periode waktu tertentu • Mengidentifikasi update lebih susah  gunakan checksum
  • 24. Fixed Range (2) • Asumsi: tabel1 terdiri atas data kemarin dan tabel2 terdiri atas data hari ini • Ilustrasi:
  • 25. Related Tables • Jika source table diubah  related tables yang menunjuknya juga harus diekstrak • Misal: order ID 34552 di OrderHeader tabel diubah dan diekstrak ke datawarehouse, maka baris dengan row id 34552 di OrderDetail juga harus diekstrak • Identifikasi perubahan baris di tabel pertama, • Gunakan hubungan primary-foreign key