ETL vs ELT
Nasywan Hanif - 1202204274
Apa itu ETL?
Sistem ETL adalah dasar dari
pengolahan data, khususnya big
data
Mengapa
ETL
penting?
Membantu organisasi mengumpulkan,
menyatukan, dan memanfaatkan data
secara efisien.
Proses ETL
Filtering, Cleaning, Joining, Splitting, Sorting
Tools
Pentaho Data Integration (PDI)
Microsoft SQL Server Integration Services
(SSIS)
dll
Langkah-Langkah ETL
Dataset
Pemetaan data
(star schema ->
Pemetaan
OLTP - OLAP)
Praktek Ke
Pentaho
Contoh Proses ETL pada
Pentaho Data Integration
1
Apa itu ELT?
(ELT) adalah perpanjangan dari extract, load ,
transform yang membalikkan urutan operasi.
Proses ELT
Perbedaan
ETL vs ELT
Urutan Proses
Data Warehouse
Kelebihan Dan
Kekurangan
TERIMAKASIH

ETL (Extract, Transform, and Load) materi

Editor's Notes

  • #1 ETL - Pengertian dan penjelasan proses (adianalytics.com) google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiVt5ewhaWAAxV7umMGHdCyBhAQFnoECA4QAQ&url=https%3A%2F%2Fojs.unud.ac.id%2Findex.php%2FJLK%2Farticle%2Fdownload%2F73621%2F41171%2F&usg=AOvVaw2AZA7YszJNELn0EWgVsPB1&opi=89978449 google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiVt5ewhaWAAxV7umMGHdCyBhAQFnoECBAQAQ&url=https%3A%2F%2Fjournal.budiluhur.ac.id%2Findex.php%2Fbit%2Farticle%2Fdownload%2F495%2F427&usg=AOvVaw07Z61LNy1ryn5bHBSjuOGo&opi=89978449 TUGAS BESAR DWBI Kelompok 10.docx https://chat.openai.com/share/28fa60ce-b2f3-4d8b-ac72-30e932260324
  • #2 Dari penjelasan IBM, ETL merupakan proses integrasi data yang menggabungkan berbagai sumber ke dalam satu penyimpanan yang konsisten (extract, transform) dan dimuat (load) ke dalam gudang data yang disebut data warehouse (DWH), atau dimuat untuk proses lainnya.
  • #3 Mengapa ETL penting? Dalam dunia bisnis dan analisis data, ETL berperan penting dalam membantu organisasi mengumpulkan, menyatukan, dan memanfaatkan data secara efisien. Proses ETL membantu memastikan bahwa data yang digunakan dalam pengambilan keputusan adalah data yang akurat, terpercaya, dan siap untuk dianalisis. 
  • #4 Extract data diambil dari berbagai sumber atau sistem yang berbeda. Pada tahap ini, data yang dibutuhkan untuk analisis atau pengolahan lebih lanjut diekstrak dari database transaksional, file, aplikasi, API, atau sumber data lainnya. Transform data yang telah diekstrak dari berbagai sumber diubah, dimodifikasi, dan dibersihkan agar sesuai dengan kebutuhan analisis atau penggunaan lainnya. Pada tahap transformasi, data tersebut diproses untuk mengubah format, menggabungkan informasi dari berbagai sumber, menghitung nilai tambah, melakukan pembersihan data, dan menerapkan aturan bisnis tertentu. Contoh : -data filtering -data formatting -data agregation, dll Load Pada tahap ini, data yang telah diekstrak dari berbagai sumber dan telah melalui tahap transformasi akan dimuat ke dalam sistem data warehouse atau basis data tujuan. Tujuan utama dari tahap Load adalah untuk menyimpan data yang telah diolah dan siap untuk digunakan dalam analisis lebih lanjut atau oleh sistem aplikasi bisnis. Tahap Load melibatkan proses menyimpan data dalam struktur yang sesuai dengan tujuan akhirnya, yang biasanya berupa database relasional atau sistem penyimpanan data lainnya. Terdapat beberapa hal dalam langkah transformation data : Filtering – hanya memuat atribut tertentu ke dalam data warehouse. Cleaning – menyesuaikan atau mengisi format NULL dengan nilai default, misalnya “Amerika Serikat” menjadi “AS” atau sebaliknya. Joining – menggabungkan beberapa atribut data yang sama menjadi satu. Splitting – memecah atribut data yang berbeda menjadi beberapa atribut data. Sorting – mengurutkan data berdasarkan beberapa atribut, umunya key- attribute.
  • #5 PDI : Pentaho Data Integration (PDI) adalah aplikasi memiliki sifat free open source software dengan memanfaatkan platform Java. Selain open source Pentaho bisa didapatkan dalam bentuk Service Level Agreement (SLA) dan dipaketkan dalam versi Enterprise Edition yang sifatnya annual. SQL Server Integration Services SSIS dapat diakses didalam Microsoft Visual Studio.
  • #6 Didalam Star Schema terdiri dari dua tabel: Table Fakta (Fact Table) Fact table (tabel fakta) adalah tabel yang umum yang mengandung sesuatu yang dapat diukur (measure), seperti harga, jumlah barang, dan sebagainya. Fact table juga merupakan kumpulan foreign key dari primary key yang terdapat pada masing-masing dimension table. Fact table juga mengandung data yang historis.   Tabel dimensi (Dimension Table) Dimension table (tabel dimensi) adalah tabel yang berisi data detail yang menjelaskan foreign key yang terdapat pada fact table. Atribut-atribut yang terdapat pada dimension table dibuat secara berjenjang (hirarki) untuk memudahkan proses query.
  • #7 Kotak = extract Lingkaran = transform Segitiga = load
  • #8  Kita dapat memuat data langsung ke sistem target sebelum dialkukan pemrosesan.  https://aws.amazon.com/id/what-is/etl/#:~:text=Extract%2C%20transform%2C%20and%20load%20(,besar%20yang%20disebut%20gudang%20data.
  • #9 Ekstraksi (Extract):  Langkah pertama dalam proses ELT adalah ekstraksi data dari berbagai sumber eksternal. Sumber data ini bisa berasal dari berbagai sistem seperti database operasional, aplikasi bisnis, file CSV, API, atau sumber data lainnya.  Data yang diekstraksi dapat berupa data mentah atau data yang sudah diproses sebagian, tergantung pada kebutuhan bisnis dan sumber data yang tersedia.  Pemuatan (Load): Setelah data berhasil diekstraksi dari berbagai sumber eksternal, maka dilakukan memuat data mentah tersebut ke dalam data warehouse. Data warehouse yang digunakan harus memiliki kapasitas dan performa yang cukup untuk menampung jumlah data yang besar.  Transformasi (Transform): . Transformasi ini melibatkan pemrosesan, pembersihan, dan penggabungan data mentah untuk mengubahnya menjadi format yang lebih berguna dan siap untuk analisis. 
  • #10 Urutan Proses:  ETL: Proses ETL dimulai dengan langkah ekstraksi (Extract), di mana data diambil dari berbagai sumber data yang terpisah dan sering kali berbeda formatnya. Selanjutnya, data tersebut diolah dan dibersihkan (Transform) agar sesuai dengan skema atau format yang diperlukan untuk penyimpanan data di data warehouse. Akhirnya, data yang sudah diolah dimuat (Load) ke dalam data warehouse.  ELT: Pada pendekatan ELT, langkah pertama sama dengan ETL, yaitu data diambil dari sumber-sumber eksternal (Extract). Namun, perbedaan utama terletak pada urutan selanjutnya. Setelah data diekstraksi, data mentah tersebut langsung dimuat ke dalam data warehouse (Load) tanpa diproses atau diolah secara besar-besaran. Tahap transformasi data dilakukan di dalam data warehouse, menggunakan alat dan mesin pemrosesan data yang kuat di dalamnya.  Data Warehouse:  ETL: Proses ETL cenderung digunakan ketika data yang diolah cukup besar dan kompleks. Data diolah dan dibersihkan sebelum dimuat ke dalam data warehouse, yang biasanya menggunakan pendekatan skema bintang (star schema) atau skema salju (snowflake schema).  ELT: Pendekatan ELT sering digunakan dengan platform data warehouse modern yang mendukung pemrosesan dan transformasi data dalam skala besar secara langsung. Dalam kasus ELT, data warehouse harus memiliki kapasitas pemrosesan yang kuat untuk melakukan transformasi data setelah data dimuat.  Kelebihan dan Kekurangan:  ETL:  Kelebihan: Data yang dimuat ke dalam data warehouse sudah dalam format yang siap digunakan dan dipahami dengan baik oleh pengguna. Proses transformasi di luar data warehouse meringankan beban kerja di dalamnya.  Kekurangan: Proses transformasi sebelum memuat data dapat memakan waktu dan sumber daya komputasi, terutama jika data yang diolah sangat besar.  ELT:  Kelebihan: Proses pemuatan data ke dalam data warehouse lebih cepat karena tidak ada langkah transformasi besar-besaran yang perlu diselesaikan terlebih dahulu. Data mentah yang disimpan memungkinkan pengguna untuk melakukan analisis tambahan sesuai kebutuhan.  Kekurangan: Data yang dimuat ke dalam data warehouse masih mentah dan memerlukan pemrosesan lanjutan sebelum digunakan, yang dapat menyebabkan beberapa tantangan kinerja.