SlideShare a Scribd company logo
1 of 18
Download to read offline
ETL Big Data dengan Apache Hadoop
syafrizaladi 24/06/2015
Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat
keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai
nilai, tantangan dalam penggalian nilai dari Big Data adalah
mentransformasikan data dari data mentah menjadi Informasi yang berguna
untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract,
Transform & Load (ETL).
PROSES ETL
Sumber : Intel Hadoop
it was six men of Hindustan To learning much inclined,
Who went to see the Elephant (Though all of them were blind),
That each by observation Might satisfy his mind.
john godfrey saxe (1872)
QUOTES
Apache Hadoop untuk Big Data
Apache Hadoop
Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa
pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan
tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di
komputer cluster.
Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer
memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih
kecil dan dapat di proses secara independen.
MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan
sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai
satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output.
MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau
mereka, dan merestart proses apapun yang gagal.
Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk
skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke
dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS
menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas
dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal
mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses
Petabytes data dalam ribuan node.
ARSITEKTUR HADOOP - ARSITEKTUR LOGIK
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ALIRAN PROSES
Split 0
Split 1
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ARSITEKTUR FISIK
Sumber : Intel Hadoop
Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan,
dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau
menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam
server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan.
Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur
Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga.
Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan
aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan
mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan
oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache
HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang
menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang
dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa
lainnya.
KOMPONEN HADOOP
KOMPONEN HADOOP
Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional.
Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database
Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data
kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce
untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan.
Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi
perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL
dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi
pada data di HDFS atau HBase.
ODBC/JDBC
Connectors
ETL, ELT, ETLT dengan Apache Hadoop
TIGA FUNGSI ETL
Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1
Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber
sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda
juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format
misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat
menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya.
2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse
Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah,
menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama
pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah
dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga
melibatkan validasi data terhadap aturan kualitas data.
Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3
Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah
menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45
persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan
kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya
kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder.
Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan
data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV,
yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di
implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan
analisis tertentu dan alat untuk pengguna.
Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin
RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan
kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah
menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS.
ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target
database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat
pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database
lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS
juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja
sistemnya.
Staging
Area Data
Mart
Sumber : Intel Hadoop
PROSES TRADISIONAL ETL
KEUNTUNGAN TRADISIONAL ETLT
Memproses data dalam jumlah besar tanpa menentukan Skema1
Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan
skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti
transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk
data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web
log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan
apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke
dalam Hadoop, dimana tersedia untuk proses analisa.
2 Offload transformasi data mentah oleh Pemrosesan Data Paralel
Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas
tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk
Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce.
Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan
mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda.
Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data
Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda
dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat
bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
HADOOP ETL OFFLOAD
Sumber : Intel Hadoop
KESIMPULAN
Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan
baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari
media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI
adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT.
Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses
Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses
ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau
bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam
infrastruktur server, storage, jaringan, dan perangkat lunak.
THANK YOU

More Related Content

What's hot

Tugas[4] 0317-[tryanita]-[1411511676]
Tugas[4]  0317-[tryanita]-[1411511676]Tugas[4]  0317-[tryanita]-[1411511676]
Tugas[4] 0317-[tryanita]-[1411511676]trya nita
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehousededidarwis
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Tisa Widyastuti
 
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Cilin christianto
 
Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545imeldafelicia
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...Fitria Nanda
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - fahreza yozi
 
Tantangan n solusi real time DWh
Tantangan n solusi real time DWhTantangan n solusi real time DWh
Tantangan n solusi real time DWhayick19
 
Oracle-Pengenalan Oracle
Oracle-Pengenalan OracleOracle-Pengenalan Oracle
Oracle-Pengenalan Oracleidnats
 
Tugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianiTugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianidewiapril1996
 
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...roriepermony
 
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...Sandy Setiawan
 
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...Sandy Setiawan
 
Presentasi Data warehouse
Presentasi Data warehousePresentasi Data warehouse
Presentasi Data warehouseNety Herawati
 
Tugas ii 0317_arie firmandani_1512510445
Tugas ii  0317_arie firmandani_1512510445Tugas ii  0317_arie firmandani_1512510445
Tugas ii 0317_arie firmandani_1512510445Arie Firmandani
 

What's hot (20)

Tugas[4] 0317-[tryanita]-[1411511676]
Tugas[4]  0317-[tryanita]-[1411511676]Tugas[4]  0317-[tryanita]-[1411511676]
Tugas[4] 0317-[tryanita]-[1411511676]
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehouse
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
 
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
 
Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545
 
ETL
ETLETL
ETL
 
D wh pentol
D wh pentolD wh pentol
D wh pentol
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 -
 
Tantangan n solusi real time DWh
Tantangan n solusi real time DWhTantangan n solusi real time DWh
Tantangan n solusi real time DWh
 
ERP
ERPERP
ERP
 
Oracle-Pengenalan Oracle
Oracle-Pengenalan OracleOracle-Pengenalan Oracle
Oracle-Pengenalan Oracle
 
Chapter 7
Chapter 7Chapter 7
Chapter 7
 
Basis data (_database_)
Basis data (_database_)Basis data (_database_)
Basis data (_database_)
 
Tugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianiTugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_apriliani
 
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
 
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
 
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
 
Presentasi Data warehouse
Presentasi Data warehousePresentasi Data warehouse
Presentasi Data warehouse
 
Tugas ii 0317_arie firmandani_1512510445
Tugas ii  0317_arie firmandani_1512510445Tugas ii  0317_arie firmandani_1512510445
Tugas ii 0317_arie firmandani_1512510445
 

Similar to ETL Big Data dengan Apache Hadoop

Materi 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMateri 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMuntiHolanBokenka
 
Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003Lavarino Dio
 
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...kairunnisa
 
BigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSBigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSstrongpapazola1
 
Terminologi data warehouse
Terminologi data warehouseTerminologi data warehouse
Terminologi data warehouseZona Computer
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxAgusNugraha39
 
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...Puji Astuti
 
30914906 pengertian-database
30914906 pengertian-database30914906 pengertian-database
30914906 pengertian-databaseTri Atsumori
 
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...Google
 
Data and Business Intelligent (1).pptx
Data and Business Intelligent  (1).pptxData and Business Intelligent  (1).pptx
Data and Business Intelligent (1).pptxantoniusivan6
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data Okta Jilid II
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen databaseSigit Sanjaya
 
Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )k4ira
 
Pertemuan 11
Pertemuan 11Pertemuan 11
Pertemuan 11Mrirfan
 
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data Julmianti
 
Pemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan HadoopPemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan Hadoophelda_drmsyptr
 

Similar to ETL Big Data dengan Apache Hadoop (20)

Materi 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMateri 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptx
 
Modul Data Warehouse
Modul Data Warehouse  Modul Data Warehouse
Modul Data Warehouse
 
Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003
 
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
 
kelompok.pptx
kelompok.pptxkelompok.pptx
kelompok.pptx
 
BigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSBigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTS
 
MIK4237-01.pdf
MIK4237-01.pdfMIK4237-01.pdf
MIK4237-01.pdf
 
Terminologi data warehouse
Terminologi data warehouseTerminologi data warehouse
Terminologi data warehouse
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptx
 
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
 
30914906 pengertian-database
30914906 pengertian-database30914906 pengertian-database
30914906 pengertian-database
 
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
 
Data and Business Intelligent (1).pptx
Data and Business Intelligent  (1).pptxData and Business Intelligent  (1).pptx
Data and Business Intelligent (1).pptx
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen database
 
Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )
 
Pertemuan 11
Pertemuan 11Pertemuan 11
Pertemuan 11
 
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
 
Pemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan HadoopPemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan Hadoop
 
5
55
5
 

More from Syafrizal Adi

The Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewThe Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewSyafrizal Adi
 
People Centric Agility
People Centric AgilityPeople Centric Agility
People Centric AgilitySyafrizal Adi
 
5 Growth Hacking Metrics
5 Growth Hacking Metrics5 Growth Hacking Metrics
5 Growth Hacking MetricsSyafrizal Adi
 
Business Intelligence Consumerization
Business Intelligence ConsumerizationBusiness Intelligence Consumerization
Business Intelligence ConsumerizationSyafrizal Adi
 
23 Step to Create Research Project
23 Step to Create Research Project23 Step to Create Research Project
23 Step to Create Research ProjectSyafrizal Adi
 

More from Syafrizal Adi (6)

The Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewThe Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book Review
 
People Centric Agility
People Centric AgilityPeople Centric Agility
People Centric Agility
 
Pitch Deck
Pitch DeckPitch Deck
Pitch Deck
 
5 Growth Hacking Metrics
5 Growth Hacking Metrics5 Growth Hacking Metrics
5 Growth Hacking Metrics
 
Business Intelligence Consumerization
Business Intelligence ConsumerizationBusiness Intelligence Consumerization
Business Intelligence Consumerization
 
23 Step to Create Research Project
23 Step to Create Research Project23 Step to Create Research Project
23 Step to Create Research Project
 

Recently uploaded

MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxmariaboisala21
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili
 
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehBISMIAULIA
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiCristianoRonaldo185977
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana
 
manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1YudiPradipta
 
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsSOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsedyardy
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanBungaCitraNazwaAtin
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Surveikustiyantidew94
 

Recently uploaded (12)

MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptx
 
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptx
 
manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1
 
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsSOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.ppt
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Survei
 

ETL Big Data dengan Apache Hadoop

  • 1. ETL Big Data dengan Apache Hadoop syafrizaladi 24/06/2015
  • 2. Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai nilai, tantangan dalam penggalian nilai dari Big Data adalah mentransformasikan data dari data mentah menjadi Informasi yang berguna untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract, Transform & Load (ETL).
  • 3. PROSES ETL Sumber : Intel Hadoop
  • 4. it was six men of Hindustan To learning much inclined, Who went to see the Elephant (Though all of them were blind), That each by observation Might satisfy his mind. john godfrey saxe (1872) QUOTES
  • 6. Apache Hadoop Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di komputer cluster. Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih kecil dan dapat di proses secara independen. MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output. MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau mereka, dan merestart proses apapun yang gagal. Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses Petabytes data dalam ribuan node.
  • 7. ARSITEKTUR HADOOP - ARSITEKTUR LOGIK Sumber : Intel Hadoop
  • 8. ARSITEKTUR HADOOP - ALIRAN PROSES Split 0 Split 1 Sumber : Intel Hadoop
  • 9. ARSITEKTUR HADOOP - ARSITEKTUR FISIK Sumber : Intel Hadoop
  • 10. Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan, dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan. Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga. Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa lainnya. KOMPONEN HADOOP
  • 11. KOMPONEN HADOOP Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional. Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan. Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi pada data di HDFS atau HBase. ODBC/JDBC Connectors
  • 12. ETL, ELT, ETLT dengan Apache Hadoop
  • 13. TIGA FUNGSI ETL Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1 Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya. 2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah, menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga melibatkan validasi data terhadap aturan kualitas data. Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3 Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
  • 14. Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45 persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder. Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV, yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan analisis tertentu dan alat untuk pengguna. Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS. ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja sistemnya.
  • 15. Staging Area Data Mart Sumber : Intel Hadoop PROSES TRADISIONAL ETL
  • 16. KEUNTUNGAN TRADISIONAL ETLT Memproses data dalam jumlah besar tanpa menentukan Skema1 Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke dalam Hadoop, dimana tersedia untuk proses analisa. 2 Offload transformasi data mentah oleh Pemrosesan Data Paralel Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce. Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda. Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
  • 17. HADOOP ETL OFFLOAD Sumber : Intel Hadoop
  • 18. KESIMPULAN Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT. Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam infrastruktur server, storage, jaringan, dan perangkat lunak. THANK YOU