SlideShare a Scribd company logo
1 of 36
Priagung Khusumanegara
1006661084
Seminar 2014
Hadoop merupakan framework software berbasis Java yang digunakan untuk
mengolah data dalam ukuran yang besar dan jumlah yang banyak secara
terdistribusi. Hadoop menggunakan teknologi yang disebut mapreduce agar dapat
mengolah data secara paralel dan terdistribusi. Hadoop memiliki file system
sendiri yang disebut dengan HDFS. Data yang tersimpan pada HDFS berupa
potongan-potongan data yang disebut dengan block size. Besar block size pada
HDFS tersebut dapat disesuaikan dengan keinginan user. Pengaturan besar
ukuran block tersebut diharapkan dapat memberikan pengaruh pada proses
mapreduce pada hadoop.
Tujuan dari seminar ini adalah untuk mengetahui dan menganalisa apakah
dengan mengubah besar block size data pada HDFS dapat mempengaruhi
kecepatan proses mapreduce pada hadoop.
Hadoop merupakan framework software berbasis Java dan opensource yang
berfungsi untuk mengolah data yang memiliki ukuran yang besar secara
terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang
saling terhubung (parallel computing).
Inti dari hadoop adalah terdiri dari:
o HDFS (Hadoop Distribute File System)  Untuk data yang terdistribusi
o MapReduce  Framework dari aplikasi yang terdistribusi
Gambar 1: Bagian inti hadoop (a) komponen HDFS (b) komponen mapreduce
Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.
 Mudah untuk di akses
Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada layanan komputasi awan seperti
Amazon Elastic Compute Cloud (EC2).
 Stabil
Hadoop sangat baik dalam menangani sebuah masalah yang muncul ketika sedang memproses sebuah
pekerjaan, hal ini dikarenakan dari awalnya hadoop memang ditunjukan untuk di jalankan pada
komuditas perangkat keras.
 Memiliki skala yang besar
Hadoop memiliki jangkauan skala yang besar, sehingga dapat menghandle ketika adanya pertambahan
jumlah node dalam sebuah cluster.
 Mudah digunakan
Hadoop sangat mudah dijalankan dan digunakan pada single node maupun multi node.
HDFS adalah file system berbasis Java yang terdistribusi pada hadoop. Sebagai file
system terdistribusi, HDFS berguna untuk menangani data dalam jumlah besar
yang disimpan dan tersebar didalam banyak komputer yang berhubungan yang
biasa disebut dengan cluster.
HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan-
potongan data yang berukuran 64 MB (secara default), dan potongan-potongan
data tersebut kemudian disimpan tersebar dalam setiap node yang membentuk
clusternya. Potongan-potongan data tersebut didalam HDFS disebut block, dan
ukurannya tidak terpaku harus 64 MB, dimana ukuran block tersebut dapat
disesuaikan dengan keinginan user.
HDFS memiliki 3 komponen utama berupa :
1. Namenode
2. Datanode
3. Secondary Namenode
Gambar 2 : Komponen HDFS
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
 Namenode
Namenode terdapat pada komputer yang bertindak sebagai master yang mengkoordinasi datanode
untuk melakukan beberapa tugas (jobs). Namenode ini adalah pusat dari sistem berkas pada HDFS.
Gambar 2 : Namenode pada HDFS
Namenode membuat sistem direktori dari semua file yang ada di dalam sistem dan dapat mengetahui bagaimana file
tersebut di pecah-pecah menjadi beberapa blok-blok data serta mengetahui nodes yang menyimpan blok-blok data
tersebut.
 Datanode
Datanode adalah salah satu komponen dari HDFS yang berfungsi untuk
menyimpan dan mengambil kembali data pada slave node pada setiap
permintaan yang dilakukan oleh namenode. Datanode berada pada setiap slave
node pada sebuah cluster yang telah dibuat. Selama sistem berjalan, datanode
terhubung dengan namenode dan melakukan sebuah handshake. Handshake ini
bertujuan untuk melakukan verifikasi terhadap namespace ID dan juga software
version pada sebuah datanode.
 Secondary Namenode
Secondary namenode adalah daemon yang berfungsi melakukan monitoring
keadaan dari cluster HDFS. Sama seperti namenode, pada setiap cluster yang
ada terdapat satu secondary namenode, yang berada pada master node.
Secondary namenode ini juga berfungsi untuk membantu dalam meminimalkan
down time dan hilangnya data yang terjadi pada HDFS. jika terjadi kegagalan
yang dilakukan oleh namenode maka dibutuhkan konfigurasi yang dilakukan
oleh user untuk menjadikan secondary namenode sebagai namenode yang utama.
Kelebihan dari HDFS adalah adanya kerjasama antara jobtracker dan tasktracker.
Jobtracker mengurangi pekerjaan yang dilakukan oleh tasktracker dengan
memberitahu lokasi data dan memberikan penjadwalan pekerjaan yang harus
dilakukan. Hal ini akan mengurangi intensitas lintas data yang berjalan pada
jaringan dan mencegah transfer data yang tidak perlu, sehingga dapat berdampak
signifikan terhadap spent time dalam menyelesaikan suatu pekerjaan.
Kekurangan dari HDFS ini adalah master node masih bersifat Single Point of
Failure sehingga apabila master node mati maka data akan hilang. Salah satu cara
untuk mengantisipasi masalah tersebut adalah dengan membuat cloning dari
master node pada server yang berbeda, sehingga apabila master node utama
mengalami masalah, maka langsung dapat digantikan dengan cloning lainnya.
MapReduce adalah framework software yang diperkenalkan oleh google dan digunakan untuk
melakukan suatu pekerjaan dari komputasi terdistribusi yang dijalankan pada sebuah cluster. Map
Reduce ini terdiri dari konsep fungsi map dan reduce yang biasa digunakan pada functional
programming.
 Proses “Map”: namenode menerima input data, kemudian data tersebut dipecah-pecah menjadi
beberapa block yang kemudian didistribusikan kepada datanode. Datanode ini kemudian akan
melakukan pemrosesan blok-blok yang diterimanya untuk kemudian apabila proses telah selesai,
maka akan dikembalikan ke namenode.
 Proses “Reduce”: namenode menerima hasil dari pemrosesan pada setiap block dari masing-masing
datanode, kemudian menggabungkan semua blok-blok yang telah di proses menjadi satu kesatuan
untuk memperoleh kesimpulan dari hasil pemrosesan.
Keuntungan dari mapreduce ini adalah proses map dan reduce yang dapat
diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing
bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu
yang sama, selama output dari proses mapping mengirimkan key value yang sesuai
dengan proses reducingnya.
Terdapat 2 komponen utama mamreduce pada hadoop yaitu :
1. Jobtracker
2. Tasktracker
 JobTracker
Jobtracker adalah sebuah daemon yang berfungsi untuk memecah
permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan
yang lebih kecil berdasarkan jumlah slave yang ada. Setelah
permintaan tersebut dipecah-pecah menjadi beberapa pekerjaan
(jobs), jobtracker ini akan memberikan pekerjaan-pekerjaan
tersebut kepada setiap slave node yang terdapat di dalam cluster
tersebut.
Gambar 4: Keja jobtracker pada hadoop
Referensi Gambar : Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage, http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html
 Tasktracker
Tasktracker adalah sebuah daemon yang berfungsi untuk menerima pekerjaan
yang diberikan oleh jobtracker dan kemudian menjalankan pekerjaan tersebut ke
dalam JVM yang terpisah.
Gambar 5 : Kerja tasktracker pada setiap node
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
Percobaan yang akan dilakukan adalah dengan merancang sebuah cluster yang
terdiri dari 3 node yang terdapat pada VMWare Workstation 10 untuk
menjalankan teknologi mapreduce pada hadoop secara paralel dan menjalankan
program wordcount, serta bagaimana cara membagi file menjadi beberapa block
pada HDFS dengan ukuran yang berbeda-beda pada setiap percobaan yang
dilakukan.
Spesifikasi Host VM 1 VM 2 VM 3
Processor Intel ® Core ™ i7-2600
One
Core
One
Core
One
Core
RAM 4.00 GB 1.00 GB 1.00 GB 1.00 GB
System Operation Linux Mint 13 CentOS CentOS CentOS
Tabel 1 : Spesifikasi Rancangan
Gambar 6 : Rancangan percobaan
Block Size (MB) CPU Time Spent (ms)
64 153530
128 141430
192 133350
256 131800
320 129060
384 128180
153530
141430
133350
131800
129060
128180
125000
130000
135000
140000
145000
150000
155000
0 64 128 192 256 320 384 448
CPUTime(ms)
Block Size (MB)
Effect of HDFS Block Size
Table 2: Hasil percobaan dengan ukuran file 512 MB
Gambar 7 : Grafik efek dari HDFS block size pada ukuran file 512 MB
Block Size (MB) CPU Time Spent (ms)
64 281220
128 271790
192 249320
256 237850
320 234240
384 231220
281220
271790
249320
237850 234240 231220
0
50000
100000
150000
200000
250000
300000
0 64 128 192 256 320 384 448
CPUTime(ms)
Block Size (MB)
Effect of HDFS Block Size
Table 3: Hasil percobaan dengan ukuran file 1 GB Gambar 8 : Grafik efek dari HDFS block size pada ukuran file 1 GB
Block Size (MB) CPU Time Spent (ms)
64 435760
128 434700
192 386760
256 368230
320 361270
384 351650
435760 434700
386760
368230 361270 351650
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
0 64 128 192 256 320 384 448
CPUTime(ms)
Block Size (MB)
Effect of HDFS Block Size
Table 4: Hasil percobaan dengan ukuran file 1.5 GB
Gambar 9 : Grafik efek dari HDFS block size pada ukuran file 1.5
GB
Block Size (MB) CPU Time Spent (ms)
64 616120
128 589520
192 584390
256 575130
320 567450
384 561580
616120
589520
584390
575130
567450
561580
550000
560000
570000
580000
590000
600000
610000
620000
0 50 100 150 200 250 300 350 400 450
CPUTime(ms)
Block Size (MB)
Effect of Block Size
Table 5: Hasil percobaan dengan ukuran file 2 GB Gambar 10 : Grafik efek dari HDFS block size pada ukuran file 2 GB
Dari hasil percobaan yang dilakukan pada setiap file terlihat bahwa pengubahan
parameter block size pada file tersebut dapat memberikan efek pada kecepatan
proses mapreduce pada hadoop yaitu jika semakin besar block size maka kecepatan
proses mapreduce semakin cepat. Jika kita memperbesar ukuran block maka file
tersebut akan memiliki jumlah block yang lebih sedikit, hal ini dapat dijelaskan
sebagai berikut:
File 512 MB dengan ukuran block 64 MB
Pada Gambar 11 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi
beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 6
block.
Gambar 11 : Ukuran block 64 MB pada file 512 MB
File 512 MB dengan ukuran block 128 MB:
Pada Gambar 12 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi
beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 4
block. Jika jumlah block semakin sedikit, maka akan mengurangi ukuran metadata
dari namenode sehingga mengurangi kerja dari namenode. Hal ini dapat menjadi
pertimbangan penting untuk file system yang sangat besar. Selain itu dengan jumlah
block yang lebih sedikit, hal ini akan memudahkan scheduler mapreduce dalam
menjadwalkan tugas yang diberikan sehingga dapat mengurangi kerja dari scheduler
mapreduce dan namenode.
Gambar 12 : Ukuran block 128 MB pada file 512 MB
Dari seluruh percobaan yang telah dilakukan dapat diambil kesimpulan bahwa:
 Block size pada HDFS akan mempengaruhi kecepatan proses mapreduce pada
hadoop pada saat menjalankan program wordcount. Jika kita memperbesar block
size pada HDFS maka akan mempercepat proses mapreduce pada saat
menjalankan program wordcount,
 Jika memperbesar block size pada HDFS maka jumlah block pada HDFS akan
menjadi berkurang sehingga menghasilkan jumlah metadata yang lebih sedikit,
hal ini dapat mengurangi kerja dari namenode pada sebuah cluster dan spent
time pada CPU pada saat melakukan proses mapreduce.
 Jumlah block yang lebih sedikit pada HDFS akan memudahkan scheduler
mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat
mengurangi kerja dari scheduler mapreduce dan namenode.
 Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
 Tom White. Hadoop: The Definitive Guide. O’Reilly, Scbastopol, California,
2009.
 Shv, Hairong, SRadia, Chansler. The Hadoop Distributed File System.
Sunnyvale, California USA, IEEE, 2010.
 Intel Corporation. Optimizing Java* and Apache Hadoop* for Intel®
Architecture. Intel Corporation, USA, 2013.
 Apache TM Hadoop @ homepage, http://hadoop.apache.org/.
 JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log
using Hadoop. International Journal of Engineering and Technology (IJET),
Gyeongbuk Korea, 2013.
 Aditya B. Patel, Manashvi Birla, Ushma Nair. Addressing Big Data Problem
Using Hadoop and Map Reduce. Nirma University International Conference
On Engineering, 2012.
 Tutorial Single Node Hadoop. http://www.michael-noll.com/tutorials/running-
hadoop-on-ubuntu-linux-single-node-cluster/
 Tutorial Multinode Hadoop. http://www.michael-noll.com/tutorials/running-hadoop-
on-ubuntu-linux-multi-node-cluster/
 Amit Anand. Configuration Parameters dfs.Block.Size. Hadoop, 2013.
 Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Birmingham,
2013.
 Dima May. Hadoop Distributed File System (HDFS) Overview. coreservlets.com,
2012.
 Map Reduce.http://www.yalescientific.org/2012/03/hadapt-yale-startup/
 Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage,
http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html
 Magang Industri--Meruvian.org Cloud Computing

More Related Content

What's hot

Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
 
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMIN
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMINLaporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMIN
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMINShofura Kamal
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen databaseSigit Sanjaya
 
Manajemen Transaksi
Manajemen TransaksiManajemen Transaksi
Manajemen TransaksiSherly Uda
 
MAKALAH CLOUD COMPUTING
MAKALAH CLOUD COMPUTINGMAKALAH CLOUD COMPUTING
MAKALAH CLOUD COMPUTINGHanny Maharani
 
Interaksi antara brainware software hardware
Interaksi antara brainware software hardwareInteraksi antara brainware software hardware
Interaksi antara brainware software hardwarek4m3h4t3
 
basis data lanjut modul
 basis data lanjut modul basis data lanjut modul
basis data lanjut modulDenny Safardan
 
Struktur direktori
Struktur direktoriStruktur direktori
Struktur direktoriAnggi DHARMA
 
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronik
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronikPeran teknologi informasi dalam bidang perdagangan melalui jaringan elektronik
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronikImron Imron
 
PENGANTAR BASIS DATA
PENGANTAR BASIS DATAPENGANTAR BASIS DATA
PENGANTAR BASIS DATAEDIS BLOG
 
Data Base Tiket Pesawat
Data Base Tiket PesawatData Base Tiket Pesawat
Data Base Tiket Pesawatnaufals11
 
Laporan praktikum modul 3 (erd notasi peterchen) -
Laporan praktikum modul 3 (erd notasi peterchen) -Laporan praktikum modul 3 (erd notasi peterchen) -
Laporan praktikum modul 3 (erd notasi peterchen) -Devi Apriansyah
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineLucha Kamala Putri
 
Pertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehousePertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehouseEndang Retnoningsih
 
Paper N-Tier Architecture
Paper N-Tier ArchitecturePaper N-Tier Architecture
Paper N-Tier ArchitectureBasir McDown
 
Analisis dan desain sistem informasi
Analisis dan desain sistem informasiAnalisis dan desain sistem informasi
Analisis dan desain sistem informasiNurdin Al-Azies
 

What's hot (20)

Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)
 
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMIN
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMINLaporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMIN
Laporan Praktikum Basis Data Modul IV-Membuat Database Pada PHPMYADMIN
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen database
 
Sistem Operasi
Sistem OperasiSistem Operasi
Sistem Operasi
 
Manajemen Transaksi
Manajemen TransaksiManajemen Transaksi
Manajemen Transaksi
 
MAKALAH CLOUD COMPUTING
MAKALAH CLOUD COMPUTINGMAKALAH CLOUD COMPUTING
MAKALAH CLOUD COMPUTING
 
Interaksi antara brainware software hardware
Interaksi antara brainware software hardwareInteraksi antara brainware software hardware
Interaksi antara brainware software hardware
 
basis data lanjut modul
 basis data lanjut modul basis data lanjut modul
basis data lanjut modul
 
Bab III Class Diagram
Bab III Class DiagramBab III Class Diagram
Bab III Class Diagram
 
Pertemuan 3 Data Multi Dimensi
Pertemuan 3 Data Multi DimensiPertemuan 3 Data Multi Dimensi
Pertemuan 3 Data Multi Dimensi
 
Struktur direktori
Struktur direktoriStruktur direktori
Struktur direktori
 
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronik
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronikPeran teknologi informasi dalam bidang perdagangan melalui jaringan elektronik
Peran teknologi informasi dalam bidang perdagangan melalui jaringan elektronik
 
PENGANTAR BASIS DATA
PENGANTAR BASIS DATAPENGANTAR BASIS DATA
PENGANTAR BASIS DATA
 
Data Base Tiket Pesawat
Data Base Tiket PesawatData Base Tiket Pesawat
Data Base Tiket Pesawat
 
Use skenario
Use skenarioUse skenario
Use skenario
 
Laporan praktikum modul 3 (erd notasi peterchen) -
Laporan praktikum modul 3 (erd notasi peterchen) -Laporan praktikum modul 3 (erd notasi peterchen) -
Laporan praktikum modul 3 (erd notasi peterchen) -
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
 
Pertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehousePertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata Datawarehouse
 
Paper N-Tier Architecture
Paper N-Tier ArchitecturePaper N-Tier Architecture
Paper N-Tier Architecture
 
Analisis dan desain sistem informasi
Analisis dan desain sistem informasiAnalisis dan desain sistem informasi
Analisis dan desain sistem informasi
 

Viewers also liked

[3] silabus pai sma xi
[3] silabus pai sma xi[3] silabus pai sma xi
[3] silabus pai sma xiawalsepta84
 
Makalah ide implementasi wsn dan cloud computing pada traffic light
Makalah ide implementasi wsn dan cloud computing pada traffic lightMakalah ide implementasi wsn dan cloud computing pada traffic light
Makalah ide implementasi wsn dan cloud computing pada traffic lightAngga Diputra
 
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...Muhammad Kennedy Ginting
 
Nirva Serlin Utami 6701140096
Nirva Serlin Utami  6701140096Nirva Serlin Utami  6701140096
Nirva Serlin Utami 6701140096nirvaserlin
 
Arduino automatic watering-system-for-plan
Arduino  automatic watering-system-for-planArduino  automatic watering-system-for-plan
Arduino automatic watering-system-for-plansofyan ramdani
 
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...Udayana University
 
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...Aris Prasetyo
 
Simulation Data Management-Aras
Simulation Data Management-ArasSimulation Data Management-Aras
Simulation Data Management-ArasAras
 
From Info Science to Data Science & Smart Nation
From Info Science to Data Science & Smart Nation From Info Science to Data Science & Smart Nation
From Info Science to Data Science & Smart Nation CK Toh
 
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...Jonathan Christian
 
Bab 4 ibadah puasa
Bab 4 ibadah puasaBab 4 ibadah puasa
Bab 4 ibadah puasa2805khusna
 
Tutorial membuat project termometer dan jam digital menggunakan codevision av...
Tutorial membuat project termometer dan jam digital menggunakan codevision av...Tutorial membuat project termometer dan jam digital menggunakan codevision av...
Tutorial membuat project termometer dan jam digital menggunakan codevision av...Muhammad Kennedy Ginting
 
Buku XI fisika setya_nurachmandani
Buku XI fisika setya_nurachmandaniBuku XI fisika setya_nurachmandani
Buku XI fisika setya_nurachmandaniDnr Creatives
 

Viewers also liked (20)

[3] silabus pai sma xi
[3] silabus pai sma xi[3] silabus pai sma xi
[3] silabus pai sma xi
 
HTLV Type 1
HTLV Type 1HTLV Type 1
HTLV Type 1
 
Rhizopoda
RhizopodaRhizopoda
Rhizopoda
 
Makalah sel 2
Makalah sel 2Makalah sel 2
Makalah sel 2
 
Xmia13 rhodophyta
Xmia13 rhodophytaXmia13 rhodophyta
Xmia13 rhodophyta
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Makalah ide implementasi wsn dan cloud computing pada traffic light
Makalah ide implementasi wsn dan cloud computing pada traffic lightMakalah ide implementasi wsn dan cloud computing pada traffic light
Makalah ide implementasi wsn dan cloud computing pada traffic light
 
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...
Membuat stopwatch menggunakan mikrokontroler atmega16 by muhammad kennedy gin...
 
Nirva Serlin Utami 6701140096
Nirva Serlin Utami  6701140096Nirva Serlin Utami  6701140096
Nirva Serlin Utami 6701140096
 
Arduino automatic watering-system-for-plan
Arduino  automatic watering-system-for-planArduino  automatic watering-system-for-plan
Arduino automatic watering-system-for-plan
 
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...
IMPLEMENTASI DATA WAREHOUSE GUNA MEMBANTU PETERNAK SAPI DAN KUD DALAM MENGELO...
 
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
 
Keadilan Dalam Bisnis
Keadilan Dalam BisnisKeadilan Dalam Bisnis
Keadilan Dalam Bisnis
 
Simulation Data Management-Aras
Simulation Data Management-ArasSimulation Data Management-Aras
Simulation Data Management-Aras
 
From Info Science to Data Science & Smart Nation
From Info Science to Data Science & Smart Nation From Info Science to Data Science & Smart Nation
From Info Science to Data Science & Smart Nation
 
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...
Implementasi Algoritma Naive Bayes (Studi Kasus : Prediksi Kelulusan Mahasisw...
 
Bab 4 ibadah puasa
Bab 4 ibadah puasaBab 4 ibadah puasa
Bab 4 ibadah puasa
 
Tutorial membuat project termometer dan jam digital menggunakan codevision av...
Tutorial membuat project termometer dan jam digital menggunakan codevision av...Tutorial membuat project termometer dan jam digital menggunakan codevision av...
Tutorial membuat project termometer dan jam digital menggunakan codevision av...
 
Buku XI fisika setya_nurachmandani
Buku XI fisika setya_nurachmandaniBuku XI fisika setya_nurachmandani
Buku XI fisika setya_nurachmandani
 
Xmia2 sporozoa
Xmia2 sporozoaXmia2 sporozoa
Xmia2 sporozoa
 

Similar to Efek Block Size HDFS

Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...
Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...
Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...Lippo Group Digital
 
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...Afifahkhoiriyah
 
Layanan Jaringan Installasi & Konfigurasi
Layanan Jaringan Installasi & KonfigurasiLayanan Jaringan Installasi & Konfigurasi
Layanan Jaringan Installasi & KonfigurasiAlfajri Tsaqifurrosyid
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Tisa Widyastuti
 
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...Lisa Andriyani
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - fahreza yozi
 
Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2ichallan
 
Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2ichallan
 
15019 12-890434179830
15019 12-89043417983015019 12-890434179830
15019 12-890434179830Vanquish Vein
 
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...Rafly Firdaus
 
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...DedenKrisdyanto
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...Fitria Nanda
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxAgusNugraha39
 
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeeze
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeezeMedia penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeeze
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeezeSuyadi Abu Farros
 

Similar to Efek Block Size HDFS (20)

Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...
Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...
Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow...
 
So6
So6So6
So6
 
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...
SIM, 5, Afifah Khoiriyah, Hapzi Ali, Sistem Manajemen Database, Universitas M...
 
Layanan Jaringan Installasi & Konfigurasi
Layanan Jaringan Installasi & KonfigurasiLayanan Jaringan Installasi & Konfigurasi
Layanan Jaringan Installasi & Konfigurasi
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
 
Memory
MemoryMemory
Memory
 
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...
Sim,lisa andriyani,hapzi ali,sistem manajemen database,universitas mercubuana...
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 -
 
HDFS.pptx
HDFS.pptxHDFS.pptx
HDFS.pptx
 
Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2
 
Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2Presentasi database terdistribusi new 2
Presentasi database terdistribusi new 2
 
15019 12-890434179830
15019 12-89043417983015019 12-890434179830
15019 12-890434179830
 
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...
Sim 14-rafly firdaus-41816010052-prof-dr-hapzi-ali-mm-sistem-informasi-manage...
 
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...
SIM,Deden krisdyanto,prof.dr.ir.hapzi ali,mm,cma ,Sistem informasi database,u...
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptx
 
Materi 12
Materi 12Materi 12
Materi 12
 
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeeze
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeezeMedia penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeeze
Media penyimpanan-terdistribusi-degan-glusterfs-pada-debian-squeeze
 
Materi 12
Materi 12Materi 12
Materi 12
 
Materi 12
Materi 12Materi 12
Materi 12
 

More from Lippo Group Digital

Behavior-Based Authentication System Based on Smartphone Life-Logs Data
Behavior-Based Authentication System Based on Smartphone Life-Logs DataBehavior-Based Authentication System Based on Smartphone Life-Logs Data
Behavior-Based Authentication System Based on Smartphone Life-Logs DataLippo Group Digital
 
A web based iptv content syndication system for personalized content guide
A web based iptv content syndication system for personalized content guideA web based iptv content syndication system for personalized content guide
A web based iptv content syndication system for personalized content guideLippo Group Digital
 
Time-based DDoS Detection and Mitigation for SDN Controller
Time-based DDoS Detection and Mitigation for SDN ControllerTime-based DDoS Detection and Mitigation for SDN Controller
Time-based DDoS Detection and Mitigation for SDN ControllerLippo Group Digital
 
Caching in Information Centric Network (ICN)
Caching in Information Centric Network (ICN)Caching in Information Centric Network (ICN)
Caching in Information Centric Network (ICN)Lippo Group Digital
 
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...Lippo Group Digital
 

More from Lippo Group Digital (12)

Behavior-Based Authentication System Based on Smartphone Life-Logs Data
Behavior-Based Authentication System Based on Smartphone Life-Logs DataBehavior-Based Authentication System Based on Smartphone Life-Logs Data
Behavior-Based Authentication System Based on Smartphone Life-Logs Data
 
Domain specific IoT
Domain specific IoTDomain specific IoT
Domain specific IoT
 
Feature Selection
Feature Selection Feature Selection
Feature Selection
 
Fall detection
Fall detectionFall detection
Fall detection
 
The Cognitive Net is Coming
The Cognitive Net is ComingThe Cognitive Net is Coming
The Cognitive Net is Coming
 
The future internet web 3.0
The future internet  web 3.0The future internet  web 3.0
The future internet web 3.0
 
A web based iptv content syndication system for personalized content guide
A web based iptv content syndication system for personalized content guideA web based iptv content syndication system for personalized content guide
A web based iptv content syndication system for personalized content guide
 
Time-based DDoS Detection and Mitigation for SDN Controller
Time-based DDoS Detection and Mitigation for SDN ControllerTime-based DDoS Detection and Mitigation for SDN Controller
Time-based DDoS Detection and Mitigation for SDN Controller
 
Distance function
Distance functionDistance function
Distance function
 
Caching in Information Centric Network (ICN)
Caching in Information Centric Network (ICN)Caching in Information Centric Network (ICN)
Caching in Information Centric Network (ICN)
 
Decision tree and random forest
Decision tree and random forestDecision tree and random forest
Decision tree and random forest
 
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...
Profiler for Smartphone Users Interests Using Modified Hierarchical Agglomera...
 

Recently uploaded

MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxmariaboisala21
 
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehBISMIAULIA
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiCristianoRonaldo185977
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Surveikustiyantidew94
 

Recently uploaded (9)

MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
 
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptx
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.ppt
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptx
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Survei
 

Efek Block Size HDFS

  • 2. Hadoop merupakan framework software berbasis Java yang digunakan untuk mengolah data dalam ukuran yang besar dan jumlah yang banyak secara terdistribusi. Hadoop menggunakan teknologi yang disebut mapreduce agar dapat mengolah data secara paralel dan terdistribusi. Hadoop memiliki file system sendiri yang disebut dengan HDFS. Data yang tersimpan pada HDFS berupa potongan-potongan data yang disebut dengan block size. Besar block size pada HDFS tersebut dapat disesuaikan dengan keinginan user. Pengaturan besar ukuran block tersebut diharapkan dapat memberikan pengaruh pada proses mapreduce pada hadoop.
  • 3. Tujuan dari seminar ini adalah untuk mengetahui dan menganalisa apakah dengan mengubah besar block size data pada HDFS dapat mempengaruhi kecepatan proses mapreduce pada hadoop.
  • 4.
  • 5. Hadoop merupakan framework software berbasis Java dan opensource yang berfungsi untuk mengolah data yang memiliki ukuran yang besar secara terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang saling terhubung (parallel computing).
  • 6. Inti dari hadoop adalah terdiri dari: o HDFS (Hadoop Distribute File System)  Untuk data yang terdistribusi o MapReduce  Framework dari aplikasi yang terdistribusi Gambar 1: Bagian inti hadoop (a) komponen HDFS (b) komponen mapreduce Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.
  • 7.  Mudah untuk di akses Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada layanan komputasi awan seperti Amazon Elastic Compute Cloud (EC2).  Stabil Hadoop sangat baik dalam menangani sebuah masalah yang muncul ketika sedang memproses sebuah pekerjaan, hal ini dikarenakan dari awalnya hadoop memang ditunjukan untuk di jalankan pada komuditas perangkat keras.  Memiliki skala yang besar Hadoop memiliki jangkauan skala yang besar, sehingga dapat menghandle ketika adanya pertambahan jumlah node dalam sebuah cluster.  Mudah digunakan Hadoop sangat mudah dijalankan dan digunakan pada single node maupun multi node.
  • 8. HDFS adalah file system berbasis Java yang terdistribusi pada hadoop. Sebagai file system terdistribusi, HDFS berguna untuk menangani data dalam jumlah besar yang disimpan dan tersebar didalam banyak komputer yang berhubungan yang biasa disebut dengan cluster.
  • 9. HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan- potongan data yang berukuran 64 MB (secara default), dan potongan-potongan data tersebut kemudian disimpan tersebar dalam setiap node yang membentuk clusternya. Potongan-potongan data tersebut didalam HDFS disebut block, dan ukurannya tidak terpaku harus 64 MB, dimana ukuran block tersebut dapat disesuaikan dengan keinginan user.
  • 10. HDFS memiliki 3 komponen utama berupa : 1. Namenode 2. Datanode 3. Secondary Namenode Gambar 2 : Komponen HDFS Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
  • 11.  Namenode Namenode terdapat pada komputer yang bertindak sebagai master yang mengkoordinasi datanode untuk melakukan beberapa tugas (jobs). Namenode ini adalah pusat dari sistem berkas pada HDFS. Gambar 2 : Namenode pada HDFS Namenode membuat sistem direktori dari semua file yang ada di dalam sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi beberapa blok-blok data serta mengetahui nodes yang menyimpan blok-blok data tersebut.
  • 12.  Datanode Datanode adalah salah satu komponen dari HDFS yang berfungsi untuk menyimpan dan mengambil kembali data pada slave node pada setiap permintaan yang dilakukan oleh namenode. Datanode berada pada setiap slave node pada sebuah cluster yang telah dibuat. Selama sistem berjalan, datanode terhubung dengan namenode dan melakukan sebuah handshake. Handshake ini bertujuan untuk melakukan verifikasi terhadap namespace ID dan juga software version pada sebuah datanode.
  • 13.  Secondary Namenode Secondary namenode adalah daemon yang berfungsi melakukan monitoring keadaan dari cluster HDFS. Sama seperti namenode, pada setiap cluster yang ada terdapat satu secondary namenode, yang berada pada master node. Secondary namenode ini juga berfungsi untuk membantu dalam meminimalkan down time dan hilangnya data yang terjadi pada HDFS. jika terjadi kegagalan yang dilakukan oleh namenode maka dibutuhkan konfigurasi yang dilakukan oleh user untuk menjadikan secondary namenode sebagai namenode yang utama.
  • 14. Kelebihan dari HDFS adalah adanya kerjasama antara jobtracker dan tasktracker. Jobtracker mengurangi pekerjaan yang dilakukan oleh tasktracker dengan memberitahu lokasi data dan memberikan penjadwalan pekerjaan yang harus dilakukan. Hal ini akan mengurangi intensitas lintas data yang berjalan pada jaringan dan mencegah transfer data yang tidak perlu, sehingga dapat berdampak signifikan terhadap spent time dalam menyelesaikan suatu pekerjaan.
  • 15. Kekurangan dari HDFS ini adalah master node masih bersifat Single Point of Failure sehingga apabila master node mati maka data akan hilang. Salah satu cara untuk mengantisipasi masalah tersebut adalah dengan membuat cloning dari master node pada server yang berbeda, sehingga apabila master node utama mengalami masalah, maka langsung dapat digantikan dengan cloning lainnya.
  • 16. MapReduce adalah framework software yang diperkenalkan oleh google dan digunakan untuk melakukan suatu pekerjaan dari komputasi terdistribusi yang dijalankan pada sebuah cluster. Map Reduce ini terdiri dari konsep fungsi map dan reduce yang biasa digunakan pada functional programming.  Proses “Map”: namenode menerima input data, kemudian data tersebut dipecah-pecah menjadi beberapa block yang kemudian didistribusikan kepada datanode. Datanode ini kemudian akan melakukan pemrosesan blok-blok yang diterimanya untuk kemudian apabila proses telah selesai, maka akan dikembalikan ke namenode.  Proses “Reduce”: namenode menerima hasil dari pemrosesan pada setiap block dari masing-masing datanode, kemudian menggabungkan semua blok-blok yang telah di proses menjadi satu kesatuan untuk memperoleh kesimpulan dari hasil pemrosesan.
  • 17. Keuntungan dari mapreduce ini adalah proses map dan reduce yang dapat diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu yang sama, selama output dari proses mapping mengirimkan key value yang sesuai dengan proses reducingnya.
  • 18. Terdapat 2 komponen utama mamreduce pada hadoop yaitu : 1. Jobtracker 2. Tasktracker
  • 19.  JobTracker Jobtracker adalah sebuah daemon yang berfungsi untuk memecah permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan yang lebih kecil berdasarkan jumlah slave yang ada. Setelah permintaan tersebut dipecah-pecah menjadi beberapa pekerjaan (jobs), jobtracker ini akan memberikan pekerjaan-pekerjaan tersebut kepada setiap slave node yang terdapat di dalam cluster tersebut.
  • 20. Gambar 4: Keja jobtracker pada hadoop Referensi Gambar : Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage, http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html
  • 21.  Tasktracker Tasktracker adalah sebuah daemon yang berfungsi untuk menerima pekerjaan yang diberikan oleh jobtracker dan kemudian menjalankan pekerjaan tersebut ke dalam JVM yang terpisah. Gambar 5 : Kerja tasktracker pada setiap node Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
  • 22.
  • 23. Percobaan yang akan dilakukan adalah dengan merancang sebuah cluster yang terdiri dari 3 node yang terdapat pada VMWare Workstation 10 untuk menjalankan teknologi mapreduce pada hadoop secara paralel dan menjalankan program wordcount, serta bagaimana cara membagi file menjadi beberapa block pada HDFS dengan ukuran yang berbeda-beda pada setiap percobaan yang dilakukan.
  • 24. Spesifikasi Host VM 1 VM 2 VM 3 Processor Intel ® Core ™ i7-2600 One Core One Core One Core RAM 4.00 GB 1.00 GB 1.00 GB 1.00 GB System Operation Linux Mint 13 CentOS CentOS CentOS Tabel 1 : Spesifikasi Rancangan
  • 25. Gambar 6 : Rancangan percobaan
  • 26.
  • 27. Block Size (MB) CPU Time Spent (ms) 64 153530 128 141430 192 133350 256 131800 320 129060 384 128180 153530 141430 133350 131800 129060 128180 125000 130000 135000 140000 145000 150000 155000 0 64 128 192 256 320 384 448 CPUTime(ms) Block Size (MB) Effect of HDFS Block Size Table 2: Hasil percobaan dengan ukuran file 512 MB Gambar 7 : Grafik efek dari HDFS block size pada ukuran file 512 MB
  • 28. Block Size (MB) CPU Time Spent (ms) 64 281220 128 271790 192 249320 256 237850 320 234240 384 231220 281220 271790 249320 237850 234240 231220 0 50000 100000 150000 200000 250000 300000 0 64 128 192 256 320 384 448 CPUTime(ms) Block Size (MB) Effect of HDFS Block Size Table 3: Hasil percobaan dengan ukuran file 1 GB Gambar 8 : Grafik efek dari HDFS block size pada ukuran file 1 GB
  • 29. Block Size (MB) CPU Time Spent (ms) 64 435760 128 434700 192 386760 256 368230 320 361270 384 351650 435760 434700 386760 368230 361270 351650 0 50000 100000 150000 200000 250000 300000 350000 400000 450000 500000 0 64 128 192 256 320 384 448 CPUTime(ms) Block Size (MB) Effect of HDFS Block Size Table 4: Hasil percobaan dengan ukuran file 1.5 GB Gambar 9 : Grafik efek dari HDFS block size pada ukuran file 1.5 GB
  • 30. Block Size (MB) CPU Time Spent (ms) 64 616120 128 589520 192 584390 256 575130 320 567450 384 561580 616120 589520 584390 575130 567450 561580 550000 560000 570000 580000 590000 600000 610000 620000 0 50 100 150 200 250 300 350 400 450 CPUTime(ms) Block Size (MB) Effect of Block Size Table 5: Hasil percobaan dengan ukuran file 2 GB Gambar 10 : Grafik efek dari HDFS block size pada ukuran file 2 GB
  • 31. Dari hasil percobaan yang dilakukan pada setiap file terlihat bahwa pengubahan parameter block size pada file tersebut dapat memberikan efek pada kecepatan proses mapreduce pada hadoop yaitu jika semakin besar block size maka kecepatan proses mapreduce semakin cepat. Jika kita memperbesar ukuran block maka file tersebut akan memiliki jumlah block yang lebih sedikit, hal ini dapat dijelaskan sebagai berikut:
  • 32. File 512 MB dengan ukuran block 64 MB Pada Gambar 11 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 6 block. Gambar 11 : Ukuran block 64 MB pada file 512 MB
  • 33. File 512 MB dengan ukuran block 128 MB: Pada Gambar 12 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 4 block. Jika jumlah block semakin sedikit, maka akan mengurangi ukuran metadata dari namenode sehingga mengurangi kerja dari namenode. Hal ini dapat menjadi pertimbangan penting untuk file system yang sangat besar. Selain itu dengan jumlah block yang lebih sedikit, hal ini akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan namenode. Gambar 12 : Ukuran block 128 MB pada file 512 MB
  • 34. Dari seluruh percobaan yang telah dilakukan dapat diambil kesimpulan bahwa:  Block size pada HDFS akan mempengaruhi kecepatan proses mapreduce pada hadoop pada saat menjalankan program wordcount. Jika kita memperbesar block size pada HDFS maka akan mempercepat proses mapreduce pada saat menjalankan program wordcount,  Jika memperbesar block size pada HDFS maka jumlah block pada HDFS akan menjadi berkurang sehingga menghasilkan jumlah metadata yang lebih sedikit, hal ini dapat mengurangi kerja dari namenode pada sebuah cluster dan spent time pada CPU pada saat melakukan proses mapreduce.  Jumlah block yang lebih sedikit pada HDFS akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan namenode.
  • 35.  Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.  Tom White. Hadoop: The Definitive Guide. O’Reilly, Scbastopol, California, 2009.  Shv, Hairong, SRadia, Chansler. The Hadoop Distributed File System. Sunnyvale, California USA, IEEE, 2010.  Intel Corporation. Optimizing Java* and Apache Hadoop* for Intel® Architecture. Intel Corporation, USA, 2013.  Apache TM Hadoop @ homepage, http://hadoop.apache.org/.  JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.  Aditya B. Patel, Manashvi Birla, Ushma Nair. Addressing Big Data Problem Using Hadoop and Map Reduce. Nirma University International Conference On Engineering, 2012.
  • 36.  Tutorial Single Node Hadoop. http://www.michael-noll.com/tutorials/running- hadoop-on-ubuntu-linux-single-node-cluster/  Tutorial Multinode Hadoop. http://www.michael-noll.com/tutorials/running-hadoop- on-ubuntu-linux-multi-node-cluster/  Amit Anand. Configuration Parameters dfs.Block.Size. Hadoop, 2013.  Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Birmingham, 2013.  Dima May. Hadoop Distributed File System (HDFS) Overview. coreservlets.com, 2012.  Map Reduce.http://www.yalescientific.org/2012/03/hadapt-yale-startup/  Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage, http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html  Magang Industri--Meruvian.org Cloud Computing