SlideShare a Scribd company logo
1 of 11
B I G D ATA
H D F S
D F S O R D I S T R I B U T E D F I L E S Y S T E M
• Sistem File Terdistribusi berbicara tentang mengelola data, yaitu file atau folder di banyak
komputer atau server.
• Dengan kata lain, DFS adalah sistem file yang memungkinkan kita menyimpan data melalui
banyak node atau mesin dalam sebuah cluster dan memungkinkan banyak pengguna untuk
mengakses data.
• Jadi pada dasarnya, ini melayani tujuan yang sama dengan sistem file yang tersedia di mesin
Anda, seperti untuk windows Anda memiliki NTFS (Sistem File Teknologi Baru) atau untuk
Mac Anda memiliki HFS (Sistem File Hierarkis).
• Satu-satunya perbedaan adalah, dalam kasus Sistem File Terdistribusi, Anda menyimpan
data di beberapa mesin, bukan di satu mesin. Meskipun file disimpan di seluruh jaringan,
DFS mengatur, dan menampilkan data sedemikian rupa sehingga pengguna yang duduk di
mesin akan merasa semua data disimpan di mesin itu sendiri.
H D F S ?
• Sistem file Terdistribusi Hadoop atau HDFS adalah sistem file terdistribusi berbasis Java
yang memungkinkan Anda menyimpan data besar di beberapa node dalam kluster
Hadoop. Jadi, jika Anda menginstal Hadoop, Anda mendapatkan HDFS sebagai sistem
penyimpanan dasar untuk menyimpan data di lingkungan terdistribusi.
• Sistem File Terdistribusi Hadoop didistribusikan sedemikian rupa sehingga setiap mesin
menyumbangkan penyimpanan masing-masing untuk menyimpan segala jenis data.
K E L E B I H A N
H D F S
• Distributed Storage:
• Distributed & Parallel Computation:
• Karena data dibagi di seluruh mesin, ini
memungkinkan kita memanfaatkan
Komputasi Terdistribusi dan Paralel.
• Horizontal Scalability:
• Yang terakhir, mari kita bicara tentang penskalaan horizontal atau
penskalaan di Hadoop. Ada dua jenis penskalaan:
• vertikal dan horizontal. Dalam penskalaan vertikal (peningkatan),
meningkatkan kapasitas perangkat keras sistem. Dengan kata lain,
mendapatkan lebih banyak RAM atau CPU dan menambahkannya
ke sistem Anda yang sudah ada untuk membuatnya lebih kuat dan
bertenaga.
• Namun ada tantangan yang terkait dengan penskalaan vertical
1. Selalu ada batasan untuk meningkatkan kapasitas perangkat
keras Anda. Jadi, Anda tidak dapat terus meningkatkan RAM
atau CPU mesin.
2. Dalam penskalaan vertikal, Anda menghentikan mesin terlebih
dahulu. Kemudian Anda meningkatkan RAM atau CPU untuk
menjadikannya tumpukan perangkat keras yang lebih kuat.
Setelah Anda meningkatkan kapasitas hardware, Anda memulai
ulang mesin.
• Dalam kasus penskalaan horizonta, menambahkan lebih banyak node ke klaster yang
ada alih-alih meningkatkan kapasitas perangkat keras masing-masing mesin. Dan yang
paling penting, dapat menambahkan lebih banyak mesin saat dalam perjalanan, yaitu
tanpa menghentikan sistem.
• Oleh karena itu, saat melakukan penskalaan, kami tidak memiliki waktu henti atau zona
hijau, tidak ada yang seperti itu. Pada akhirnya, Anda akan memiliki lebih banyak mesin
yang bekerja secara paralel untuk memenuhi kebutuhan Anda.
F I T U R H D F S
• Cost
HDFS, secara umum, diterapkan pada perangkat keras komoditas seperti desktop/laptop yang
Anda gunakan setiap hari. Jadi, sangat ekonomis dari segi biaya kepemilikan proyek. Karena
kami menggunakan perangkat keras komoditas berbiaya rendah, Anda tidak perlu
menghabiskan banyak uang untuk meningkatkan skala cluster Hadoop Anda. Dengan kata lain,
menambahkan lebih banyak node ke HDFS Anda akan menghemat biaya.
• Variety and Volume of Data
Ketika kita berbicara tentang HDFS maka kita berbicara tentang menyimpan data yang sangat
besar yaitu data Terabyte & petabyte dan berbagai jenis data. Jadi, Anda dapat menyimpan
semua jenis data ke dalam HDFS, baik itu terstruktur, tidak terstruktur, atau semi terstruktur.
• Reliability and Fault Tolerance
• Saat Anda menyimpan data di HDFS, ini secara internal membagi data yang diberikan ke
dalam blok data dan menyimpannya secara terdistribusi di seluruh kluster Hadoop Anda.
Informasi terkait blok data mana yang berada di node data mana yang direkam dalam
metadata. NameNode mengelola data meta dan DataNodes bertanggung jawab untuk
menyimpan data.
• Data Integrity
• Integritas Data berbicara tentang apakah data yang disimpan di HDFS saya benar atau tidak.
HDFS secara konstan memeriksa integritas data yang disimpan terhadap checksumnya.
Jika menemukan kesalahan apa pun, ia akan melaporkannya ke node nama. Kemudian,
simpul nama membuat replika baru tambahan dan karenanya menghapus salinan yang
rusak.
• High Throughput
• Throughput adalah jumlah pekerjaan yang dilakukan dalam satuan waktu. Ini berbicara tentang
seberapa cepat Anda dapat mengakses data dari sistem file. Pada dasarnya, ini memberi Anda
wawasan tentang kinerja sistem. Seperti yang Anda lihat dalam contoh di atas, kami menggunakan
sepuluh mesin secara kolektif untuk meningkatkan komputasi.
• Data Locality
• Lokalitas data berbicara tentang memindahkan unit pemrosesan ke data daripada data ke unit
pemrosesan. Dalam sistem tradisional kami, kami biasa membawa data ke lapisan aplikasi dan
kemudian memprosesnya. Namun sekarang, karena arsitektur dan volume data yang sangat besar,
membawa data ke lapisan aplikasi akan mengurangi kinerja jaringan ke tingkat yang terlihat.
• Jadi, di HDFS, kami membawa bagian komputasi ke node data tempat data berada. Karenanya, Anda
tidak memindahkan data, Anda membawa program atau bagian pemrosesan ke data.
HDFS.pptx

More Related Content

Similar to HDFS.pptx

Tugas modul bab ii sistem operasi manajemen file
Tugas modul bab ii sistem operasi   manajemen fileTugas modul bab ii sistem operasi   manajemen file
Tugas modul bab ii sistem operasi manajemen file
Yazid Albustomi
 
Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6
AbdulFajri2
 
Asj 3.1.1 diedit
Asj 3.1.1 dieditAsj 3.1.1 diedit
Asj 3.1.1 diedit
gixcznow
 
Tia shift1 m3110010_ananda_file_os2012_lab04
Tia shift1 m3110010_ananda_file_os2012_lab04Tia shift1 m3110010_ananda_file_os2012_lab04
Tia shift1 m3110010_ananda_file_os2012_lab04
tipha
 
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
Tugas_SO2
 

Similar to HDFS.pptx (20)

Cloud computing
Cloud computingCloud computing
Cloud computing
 
Partisi harddisk
Partisi harddiskPartisi harddisk
Partisi harddisk
 
Tugas 5 0317-mukhlis abdilah-1411511213
Tugas 5 0317-mukhlis abdilah-1411511213Tugas 5 0317-mukhlis abdilah-1411511213
Tugas 5 0317-mukhlis abdilah-1411511213
 
Teori Web Database Server Linux Debian
Teori Web Database Server Linux DebianTeori Web Database Server Linux Debian
Teori Web Database Server Linux Debian
 
Tugas modul bab ii sistem operasi manajemen file
Tugas modul bab ii sistem operasi   manajemen fileTugas modul bab ii sistem operasi   manajemen file
Tugas modul bab ii sistem operasi manajemen file
 
Kegunaan partisi swap d linux
Kegunaan partisi swap d linuxKegunaan partisi swap d linux
Kegunaan partisi swap d linux
 
Komponen Sistem Operasi
Komponen Sistem OperasiKomponen Sistem Operasi
Komponen Sistem Operasi
 
Replication and consistns
Replication and consistnsReplication and consistns
Replication and consistns
 
Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6
 
Materi 12
Materi 12Materi 12
Materi 12
 
Pahlepi konfigurasi dn_sserver
Pahlepi konfigurasi dn_sserverPahlepi konfigurasi dn_sserver
Pahlepi konfigurasi dn_sserver
 
Materi 12
Materi 12Materi 12
Materi 12
 
Materi 12
Materi 12Materi 12
Materi 12
 
Bab vii
Bab viiBab vii
Bab vii
 
Asj 3.1.1 diedit
Asj 3.1.1 dieditAsj 3.1.1 diedit
Asj 3.1.1 diedit
 
Virtualization 2 indra
Virtualization 2 indraVirtualization 2 indra
Virtualization 2 indra
 
Tia shift1 m3110010_ananda_file_os2012_lab04
Tia shift1 m3110010_ananda_file_os2012_lab04Tia shift1 m3110010_ananda_file_os2012_lab04
Tia shift1 m3110010_ananda_file_os2012_lab04
 
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
 
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
TUGAS KE II SO2 - JAMALUDIN ISHAK - 171
 
Menginstalasi Sistem Operasi Jaringan 11.pptx
Menginstalasi Sistem Operasi Jaringan 11.pptxMenginstalasi Sistem Operasi Jaringan 11.pptx
Menginstalasi Sistem Operasi Jaringan 11.pptx
 

Recently uploaded

15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
TaufikTito
 
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptxRESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
mirzagozali2
 
undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
ritch4
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
EndangNingsih7
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Riyadh +966572737505 get cytotec
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponen
BangMahar
 
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdshKISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
DosenBernard
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
DIGGIVIO2
 

Recently uploaded (20)

PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTPERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
 
Hasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWUHasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWU
 
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
 
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptxRESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx
 
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAMateri Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
 
undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
 
Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptx
Bimbingan Teknis Penyusunan Soal Pilihan Berganda  2024.pptxBimbingan Teknis Penyusunan Soal Pilihan Berganda  2024.pptx
Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptx
 
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfAlur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjana
 
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFPPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponen
 
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdshKISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCCPERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
 

HDFS.pptx

  • 1. B I G D ATA H D F S
  • 2. D F S O R D I S T R I B U T E D F I L E S Y S T E M • Sistem File Terdistribusi berbicara tentang mengelola data, yaitu file atau folder di banyak komputer atau server. • Dengan kata lain, DFS adalah sistem file yang memungkinkan kita menyimpan data melalui banyak node atau mesin dalam sebuah cluster dan memungkinkan banyak pengguna untuk mengakses data. • Jadi pada dasarnya, ini melayani tujuan yang sama dengan sistem file yang tersedia di mesin Anda, seperti untuk windows Anda memiliki NTFS (Sistem File Teknologi Baru) atau untuk Mac Anda memiliki HFS (Sistem File Hierarkis). • Satu-satunya perbedaan adalah, dalam kasus Sistem File Terdistribusi, Anda menyimpan data di beberapa mesin, bukan di satu mesin. Meskipun file disimpan di seluruh jaringan, DFS mengatur, dan menampilkan data sedemikian rupa sehingga pengguna yang duduk di mesin akan merasa semua data disimpan di mesin itu sendiri.
  • 3. H D F S ? • Sistem file Terdistribusi Hadoop atau HDFS adalah sistem file terdistribusi berbasis Java yang memungkinkan Anda menyimpan data besar di beberapa node dalam kluster Hadoop. Jadi, jika Anda menginstal Hadoop, Anda mendapatkan HDFS sebagai sistem penyimpanan dasar untuk menyimpan data di lingkungan terdistribusi. • Sistem File Terdistribusi Hadoop didistribusikan sedemikian rupa sehingga setiap mesin menyumbangkan penyimpanan masing-masing untuk menyimpan segala jenis data.
  • 4. K E L E B I H A N H D F S • Distributed Storage:
  • 5. • Distributed & Parallel Computation: • Karena data dibagi di seluruh mesin, ini memungkinkan kita memanfaatkan Komputasi Terdistribusi dan Paralel.
  • 6. • Horizontal Scalability: • Yang terakhir, mari kita bicara tentang penskalaan horizontal atau penskalaan di Hadoop. Ada dua jenis penskalaan: • vertikal dan horizontal. Dalam penskalaan vertikal (peningkatan), meningkatkan kapasitas perangkat keras sistem. Dengan kata lain, mendapatkan lebih banyak RAM atau CPU dan menambahkannya ke sistem Anda yang sudah ada untuk membuatnya lebih kuat dan bertenaga. • Namun ada tantangan yang terkait dengan penskalaan vertical 1. Selalu ada batasan untuk meningkatkan kapasitas perangkat keras Anda. Jadi, Anda tidak dapat terus meningkatkan RAM atau CPU mesin. 2. Dalam penskalaan vertikal, Anda menghentikan mesin terlebih dahulu. Kemudian Anda meningkatkan RAM atau CPU untuk menjadikannya tumpukan perangkat keras yang lebih kuat. Setelah Anda meningkatkan kapasitas hardware, Anda memulai ulang mesin.
  • 7. • Dalam kasus penskalaan horizonta, menambahkan lebih banyak node ke klaster yang ada alih-alih meningkatkan kapasitas perangkat keras masing-masing mesin. Dan yang paling penting, dapat menambahkan lebih banyak mesin saat dalam perjalanan, yaitu tanpa menghentikan sistem. • Oleh karena itu, saat melakukan penskalaan, kami tidak memiliki waktu henti atau zona hijau, tidak ada yang seperti itu. Pada akhirnya, Anda akan memiliki lebih banyak mesin yang bekerja secara paralel untuk memenuhi kebutuhan Anda.
  • 8. F I T U R H D F S • Cost HDFS, secara umum, diterapkan pada perangkat keras komoditas seperti desktop/laptop yang Anda gunakan setiap hari. Jadi, sangat ekonomis dari segi biaya kepemilikan proyek. Karena kami menggunakan perangkat keras komoditas berbiaya rendah, Anda tidak perlu menghabiskan banyak uang untuk meningkatkan skala cluster Hadoop Anda. Dengan kata lain, menambahkan lebih banyak node ke HDFS Anda akan menghemat biaya. • Variety and Volume of Data Ketika kita berbicara tentang HDFS maka kita berbicara tentang menyimpan data yang sangat besar yaitu data Terabyte & petabyte dan berbagai jenis data. Jadi, Anda dapat menyimpan semua jenis data ke dalam HDFS, baik itu terstruktur, tidak terstruktur, atau semi terstruktur.
  • 9. • Reliability and Fault Tolerance • Saat Anda menyimpan data di HDFS, ini secara internal membagi data yang diberikan ke dalam blok data dan menyimpannya secara terdistribusi di seluruh kluster Hadoop Anda. Informasi terkait blok data mana yang berada di node data mana yang direkam dalam metadata. NameNode mengelola data meta dan DataNodes bertanggung jawab untuk menyimpan data. • Data Integrity • Integritas Data berbicara tentang apakah data yang disimpan di HDFS saya benar atau tidak. HDFS secara konstan memeriksa integritas data yang disimpan terhadap checksumnya. Jika menemukan kesalahan apa pun, ia akan melaporkannya ke node nama. Kemudian, simpul nama membuat replika baru tambahan dan karenanya menghapus salinan yang rusak.
  • 10. • High Throughput • Throughput adalah jumlah pekerjaan yang dilakukan dalam satuan waktu. Ini berbicara tentang seberapa cepat Anda dapat mengakses data dari sistem file. Pada dasarnya, ini memberi Anda wawasan tentang kinerja sistem. Seperti yang Anda lihat dalam contoh di atas, kami menggunakan sepuluh mesin secara kolektif untuk meningkatkan komputasi. • Data Locality • Lokalitas data berbicara tentang memindahkan unit pemrosesan ke data daripada data ke unit pemrosesan. Dalam sistem tradisional kami, kami biasa membawa data ke lapisan aplikasi dan kemudian memprosesnya. Namun sekarang, karena arsitektur dan volume data yang sangat besar, membawa data ke lapisan aplikasi akan mengurangi kinerja jaringan ke tingkat yang terlihat. • Jadi, di HDFS, kami membawa bagian komputasi ke node data tempat data berada. Karenanya, Anda tidak memindahkan data, Anda membawa program atau bagian pemrosesan ke data.

Editor's Notes

  1. Saat mengakses sistem file Hadoop Distributed dari salah satu dari sepuluh mesin di kluster Hadoop, Anda akan merasa seolah-olah telah masuk ke satu mesin besar yang memiliki kapasitas penyimpanan 10 TB (total penyimpanan lebih dari sepuluh mesin). Apa artinya? Ini berarti Anda dapat menyimpan satu file besar 10 TB yang akan didistribusikan ke sepuluh mesin (masing-masing 1 TB). Jadi, tidak terbatas pada batas fisik masing-masing mesin.
  2. Mari kita pahami konsep ini dengan contoh di atas. Misalnya, diperlukan waktu 43 menit untuk memproses file 1 TB pada satu mesin. Jadi, sekarang beri tahu saya, berapa lama waktu yang diperlukan untuk memproses file 1 TB yang sama jika Anda memiliki 10 mesin di kluster Hadoop dengan konfigurasi serupa – 43 menit atau 4,3 menit? 4,3 menit, Benar! Apa yang terjadi disini? Setiap node bekerja dengan bagian dari file 1 TB secara paralel. Oleh karena itu, pekerjaan yang memakan waktu 43 menit sebelumnya, kini selesai hanya dalam 4,3 menit karena pekerjaan dibagi menjadi sepuluh mesin.