ETL adalah proses integrasi data yang mengekstrak, mengubah, dan memuat data dari berbagai sumber ke data warehouse. ETL terdiri dari tiga tahapan yaitu ekstraksi, transformasi, dan pemuatan data. Beberapa alat yang sering digunakan untuk ETL antara lain SSIS, Talend, dan Pentaho Data Integration.
2. ETL (Extract, Transform and
Loading)
ETL adalah sekumpulan proses integrasi data yang harus dilalui
dalam pembentukan data warehouse. ETL bertujuan untuk
mengumpulkan, menyaring, mengolah dan menggabungkan datadata
yang relevan dari berbagai sumber untuk disimpan ke dalam data
warehouse. Sesuai dari Namanya proses ETL sendiri terdiri
dari extracting, transforming, loading (Softbless, n.d.)
4. ETL (Extract, Transform and Loading)
ETL pertama kali diperkenalkan pada tahun 1970-an untuk
mengintegrasikan proses pemuatan data ke dalam superkomputer
untuk dianalisis lebih lanjut. Sejak akhir 1980 hingga pertengahan
200, ETL menjadi proses utama untuk membuat gudang data yang
mendukung aplikasi business intelligence (BI).
Di masa sekarang, ETL lebih direkomendasikan untuk menyimpan
data yang lebih kecil dan tidak memerlukan pembaruan terlalu sering.
Alternatifnya, kamu bisa menggunakan data integrasi lain, seperti
ELT, CDC, dan virtualisasi data untuk mengolah data real time dan
selalu berubah.
5. Extract (ekstraksi data )
Extract adalah proses memilih dan mengambil data dari satu
atau beberapa sumber misalnya Server SQL, XML, atau flat
files untuk dibaca atau diakses data yang dipilih tersebut.
Sebelum proses extract ini kita lakukan, akan lebih baik dan
mempermudah jika user sudah mendefinisikan kebutuhan
terhadap sumber data yang akan digunakan terlebih dahulu.
6. Extract (ekstraksi data )
Data mentah dapat diekstraksi dari berbagai sumber berikut ini:
Database yang ada dan legacy system.
Cloud, hybrid, dan on-premises environments.
Aplikasi penjualan dan pemasaran.
Mobile devices dan apps.
CRM systems.
Data storage platforms.
Data warehouses.
Analytics tools.
7. Transformation (transformasi)
Transformation adalah proses dimana data yang telah
diambil pada proses extract akan dioalah dan mengubah
data dari bentuk asli menjadi bentuk yang sesuai dengan
kebutuhan data warehouse. Adapun masalah yang biasanya
terjadi pada proses transform adalah sulitnya mengg
abungkan data dari beberapa sistem yang berbeda.
8. Transformation (transformasi)
Biasanya, ada 5 hal yang dilakukan pada data:
filtering, adalah proses dimana kita menyaring data dengan filter
tertentu
cleaning, adalah proses menyesuaikan format penulisan.
joining, adalah proses diamana ketika data yang serupa menjadi satu
splitting, adalah proses memecah data yang berbeda menjadi dua
atau lebih
sortingadalah proses mengurutkan data berdasarkan ciri-ciri tertentu.
9. loading/memuat data
Load adalah proses terakhir yang berguna untuk memasukkan data ke
dalam target akhir, yaitu ke dalam data warehouse. Berikut ini adalah cara
untuk memasukkan data adalah:
menjalankan SQL script secara periodic yang akan mengubah data
kedalam bentuk Dimensional Data Store agar format data cocok untuk
diterapkan pada proses analisis dan telah terintegrasi dengan beberapa
sumber data.
Proses Load kedua yaitu akan sampai ke berbagai macam output yang
sesuai dengan skemanya, yaitu terdiri dari proses load-up data (lodupd),
load-insert data (lodins), dan load bulk data (lodbld).
10. ETL Pipeline
Ternyata, satu data mentah tak hanya bisa menjadi satu data matang, lho. Kamu
bisa “mengambil” data itu di tengah proses, lalu mengolahnya menjadi data lain.
Nama untuk proses ini adalah ETL pipeline. Ilustrasi lengkapnya ada di bawah ini.
11. ETL Pipeline
Misalnya, kita sudah mengambil dan mengolah data A menjadi
setengah jadi. Awalnya, data A ingin diubah menjadi data B.
Akan tetapi, kita bisa meng-copy data ini dan mengolahnya menjadi
data baru. Misalnya, data A setengah jadi menjadi data C.
12. Tools-tools yang biasa digunakan dalam proses
ETL (Extract, transform, dan load):
SSIS (SQL Server Integration Services).
SQL Server Integration Services SSIS dapat diakses didalam
Microsoft Visual Studio. Software ini merupakan pengembangan dari
platform Microsoft SQL Server Business Intelegence BI yang
berguna untuk membuat ETL packages. Packages adalah kumpulan
task yang dieksekusi dengan urutan tertentu dan merupakan
komponen utama SSIS. Package dapat disimpan di SQL Server pada
database msdb, ataupun disimpan sebagai sebuah file .dtsx.
13. Tools-tools yang biasa digunakan dalam proses
ETL (Extract, transform, dan load):
Talend
Talend adalah open source yang digunakan untuk integrasi data, Talend biasanya
digunakan untuk integrasi antar sistem operasional (ETL). Fitur utama dari talend
adalah membantu mengelola semua aspek tahapan yang ada pada ETL secara
efisien dan efektif. Talend adalah software yang cukup banyak digunakan karena
telah digunakan oleh ratusan ribu pengguna termasuk beberapa perusahaan
terbesar di dunia dan bahkan instansi pemerintah. Adapun keuntungan terpenting
dari Talend sebagai Integrasi Data adalah menyediakan alat yang dapat
mengintegrasikan, membersihkan, dan menyimpan semua data dan
memungkinkan anda mengambil dan mengubah data untuk membuat keputusan
yang lebih cepat.
14. Tools-tools yang biasa digunakan dalam proses
ETL (Extract, transform, dan load):
Pentaho Data Integration (PDI)
Pentaho Data Integration (PDI) adalah aplikasi memiliki sifat yang sama dengan
talend yaitu bersifat free open source software dengan memanfaatkan platform
Java. Pentaho Data Integration (PDI) menyediakan kemampuan Extract,
Transform, and Load (ETL) yang memfasilitasi capturing, cleansing, dan storing
data menggunakan format yang konsisten dan dapat diakses serta relevan bagi
pengguna dan teknologi IoT. Selain open source Pentaho bisa didapatkan dalam
bentuk Service Level Agreement (SLA) dan dipaketkan dalam versi Enterprise
Edition yang sifatnya annual.