SlideShare a Scribd company logo
1 of 5
Hadoop là gì
Hadoop cluster computers
Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý phân tán
(distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông
qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn
sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage).
Kiến trúc Hadoop
Hadoop framework gồm 4 module:
 Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để các module khác
sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừu tượng, đồng thời
chứa các mã lệnh Java để khởi động Hadoop.
 Hadoop YARN: Đây là framework để quản lý tiến trình và tài nguyên của các cluster.
 Hadoop Distributed File System (HDFS): Đây là hệ thống file phân tán cung cấp truy
cập thông lượng cao cho ứng dụng khai thác dữ liệu.
 Hadoop MapReduce: Đây là hệ thống dựa trên YARN dùng để xử lý song song các tập
dữ liệu lớn.
Ta có thể sử dụng sơ đồ sau để mô tả bốn thành phần có trong Hadoop framework.
Hadoop architecture
Kể từ 2012, thuật ngữ “Hadoop” không chỉ đề cập đến các module cơ sở nêu trên mà còn đề cập
đến các gói phần mềm mở rộng (additional software packages) có thể được cài đặt bên cạnh
Hadoop, chẳng hạn như Apache Pig, Apache Hive, Apache HBase, Apache Spark.
MapReduce
Hadoop MapReduce là một framework dùng để viết các ứng dụng xử lý song song một lượng
lớn dữ liệu có khả năng chịu lỗi cao xuyên suốt hàng ngàn cụm máy tính.
Thuật ngữ MapReduce liên quan đến hai tác vụ mà chương trình Hadoop thực hiện:
 Map: đây là tác vụ đầu tiên, trong đó dữ liệu đầu vào được chuyển đổi thành tập dữ liệu
theo cặp key/value.
 Reduce: tác vụ này nhận kết quả đầu ra từ tác vụ Map, kết hợp dữ liệu lại với nhau thành
tập dữ liệu nhỏ hơn.
Thông thường, kết quả input và output được lưu trong hệ thống file. Framework này sẽ tự động
quản lý, theo dõi và tái thực thi các tác vụ bị lỗi.
MapReduce framework gồm một single master (máy chủ) JobTracker và các slave (máy
trạm) TaskTracker trên mỗi cluster-node. Master có nhiệm vụ quản lý tài nguyên, theo dõi quá
trình tiêu thụ tài nguyên và lập lịch quản lý các tác vụ trên các máy trạm, theo dõi chúng và thực
thi lại các tác vụ bị lỗi. Những máy slave TaskTracker thực thi các tác vụ được master chỉ định
và cung cấp thông tin trạng thái tác vụ (task-status) để master theo dõi.
JobTracker là một điểm yếu của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì mọi công việc
liên quan sẽ bị ngắt quãng.
Hadoop Distributed File System
Hadoop có thể làm việc trực tiếp với bất kì hệ thống dữ liệu phân tán như Local FS, HFTP FS,
S3 FS, và các hệ thống khác. Nhưng hệ thống file thường được dùng bởi Hadoop là Hadoop
Distributed File System (HDFS).
Hadoop Distributed File System (HDFS) dựa trên Google File System (GFS), cung cấp một hệ
thống dữ liệu phân tán, được thiết kế để chạy trên các cụm máy tính lớn (gồm hàng ngàn máy
tính) có khả năng chịu lỗi cao.
HDFS sử dụng kiến trúc master/slave, trong đó master gồm một NameNode để quản lý hệ thống
file metadata và một hay nhiều slave DataNodes để lưu trữ dữ liệu thực tại.
Một tập tin với định dạng HDFS được chia thành nhiều block và những block này được lưu trữ
trong một tập các DataNodes. NameNode định nghĩa ánh xạ từ các block đến các DataNode. Các
DataNode điều hành các tác vụ đọc và ghi dữ liệu lên hệ thống file. Chúng cũng quản lý việc tạo,
huỷ, và nhân rộng các block thông qua các chỉ thị từ NameNode.
HDFS cũng hỗ trợ các câu lệnh shell để tương tác với tập tin như các hệ thống file khác.
Hadoop hoạt động như thế nào?
Giai đoạn 1
Một user hay một ứng dụng có thể submit một job lên Hadoop (hadoop job client) với yêu cầu
xử lý cùng các thông tin cơ bản:
1. Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán.
2. Các java class ở định dạng jar chứa các dòng lệnh thực thi các hàm map và reduce.
3. Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào.
Giai đoạn 2
Hadoop job client submit job (file jar, file thực thi) và các thiết lập cho JobTracker. Sau đó,
master sẽ phân phối tác vụ đến các máy slave để theo dõi và quản lý tiến trình các máy này, đồng
thời cung cấp thông tin về tình trạng và chẩn đoán liên quan đến job-client.
Giai đoạn 3
TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả output được
lưu trong hệ thống file.
Ưu điểm của Hadoop
 Hadoop framework cho phép người dùng nhanh chóng viết và kiểm tra các hệ thống phân
tán. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc xuyên suốt các máy
trạm nhờ vào cơ chế xử lý song song của các lõi CPU.
 Hadoop không dựa vào cơ chế chịu lỗi của phần cứng fault-tolerance and high
availability (FTHA), thay vì vậy bản thân Hadoop có các thư viện được thiết kế để phát
hiện và xử lý các lỗi ở lớp ứng dụng.
 Các server có thể được thêm vào hoặc gỡ bỏ từ cluster một cách linh hoạt và vẫn hoạt
động mà không bị ngắt quãng.
 Một lợi thế lớn của Hadoop ngoài mã nguồn mở đó là khả năng tương thích trên tất cả
các nền tảng do được phát triển trên Java.
Nguồn: http://www.tutorialspoint.com/hadoop/hadoop_introduction.htm

More Related Content

Viewers also liked

VOIMAA -voimavaroja maahanmuuttajista
VOIMAA -voimavaroja maahanmuuttajistaVOIMAA -voimavaroja maahanmuuttajista
VOIMAA -voimavaroja maahanmuuttajistaMilla Laasonen
 
Hadoop là gì
Hadoop là gìHadoop là gì
Hadoop là gìHLV
 
Landmark The Outlet gurgaon
Landmark The Outlet gurgaonLandmark The Outlet gurgaon
Landmark The Outlet gurgaonranjanitm
 
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...azetra
 
Designing game-like activities to engage adult learners in higher education
Designing game-like activities to engage adult learners in higher educationDesigning game-like activities to engage adult learners in higher education
Designing game-like activities to engage adult learners in higher educationAlberto Mora
 
Why teach pdhpe in primary schools
Why teach pdhpe in primary schools Why teach pdhpe in primary schools
Why teach pdhpe in primary schools 16884830
 
The Outlet Folder (2)
The Outlet Folder (2)The Outlet Folder (2)
The Outlet Folder (2)ranjanitm
 
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012Milla Laasonen
 
Sayings Of Prophet Muhammad Pbuh
Sayings Of Prophet Muhammad PbuhSayings Of Prophet Muhammad Pbuh
Sayings Of Prophet Muhammad Pbuhmohsen hassan
 
Landmark The Outlets
Landmark The OutletsLandmark The Outlets
Landmark The Outletsranjanitm
 
Landmark The outlet gurgaon
Landmark The outlet gurgaonLandmark The outlet gurgaon
Landmark The outlet gurgaonranjanitm
 
Kulttuurituotanto YAMK - Opinnäytetyö
Kulttuurituotanto YAMK - OpinnäytetyöKulttuurituotanto YAMK - Opinnäytetyö
Kulttuurituotanto YAMK - OpinnäytetyöMilla Laasonen
 
Voimaa 2009 in Pictures
Voimaa 2009 in PicturesVoimaa 2009 in Pictures
Voimaa 2009 in PicturesMilla Laasonen
 
Proyecto id logistics
Proyecto id logisticsProyecto id logistics
Proyecto id logisticsMANUEL SILVA
 

Viewers also liked (18)

VOIMAA -voimavaroja maahanmuuttajista
VOIMAA -voimavaroja maahanmuuttajistaVOIMAA -voimavaroja maahanmuuttajista
VOIMAA -voimavaroja maahanmuuttajista
 
Hadoop là gì
Hadoop là gìHadoop là gì
Hadoop là gì
 
Swedish
SwedishSwedish
Swedish
 
E Brochure
E BrochureE Brochure
E Brochure
 
Landmark The Outlet gurgaon
Landmark The Outlet gurgaonLandmark The Outlet gurgaon
Landmark The Outlet gurgaon
 
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...
Slides MStrategi Pengembangan Kapasitas SDM Pemerintah Daerah dalam Mewujudka...
 
Designing game-like activities to engage adult learners in higher education
Designing game-like activities to engage adult learners in higher educationDesigning game-like activities to engage adult learners in higher education
Designing game-like activities to engage adult learners in higher education
 
Why teach pdhpe in primary schools
Why teach pdhpe in primary schools Why teach pdhpe in primary schools
Why teach pdhpe in primary schools
 
The Outlet Folder (2)
The Outlet Folder (2)The Outlet Folder (2)
The Outlet Folder (2)
 
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012
Vyyhti-hankkeen esittely Metropolian KIT-päivässä 26.10.2012
 
Danish
DanishDanish
Danish
 
Sayings Of Prophet Muhammad Pbuh
Sayings Of Prophet Muhammad PbuhSayings Of Prophet Muhammad Pbuh
Sayings Of Prophet Muhammad Pbuh
 
Landmark The Outlets
Landmark The OutletsLandmark The Outlets
Landmark The Outlets
 
Tasaddaq
TasaddaqTasaddaq
Tasaddaq
 
Landmark The outlet gurgaon
Landmark The outlet gurgaonLandmark The outlet gurgaon
Landmark The outlet gurgaon
 
Kulttuurituotanto YAMK - Opinnäytetyö
Kulttuurituotanto YAMK - OpinnäytetyöKulttuurituotanto YAMK - Opinnäytetyö
Kulttuurituotanto YAMK - Opinnäytetyö
 
Voimaa 2009 in Pictures
Voimaa 2009 in PicturesVoimaa 2009 in Pictures
Voimaa 2009 in Pictures
 
Proyecto id logistics
Proyecto id logisticsProyecto id logistics
Proyecto id logistics
 

Similar to Hadoop là gì

Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnHadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnThành Thư Thái
 
Hadoop trong triển khai Big Data
Hadoop trong triển khai Big DataHadoop trong triển khai Big Data
Hadoop trong triển khai Big DataNguyễn Duy Nhân
 
Tìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxTìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxLngThKimOanh1
 
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyLưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyPhamTuanKhiem
 
Bao cao web cake php
Bao cao web cake phpBao cao web cake php
Bao cao web cake phplaonap166
 
Giải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkGiải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkLinh Ngoc
 
Software Stack là gì.pdf
Software Stack là gì.pdfSoftware Stack là gì.pdf
Software Stack là gì.pdfGrowup Work
 
Apache thrift
Apache thriftApache thrift
Apache thriftducdv
 
Hệ PhâN TáN
Hệ PhâN TáNHệ PhâN TáN
Hệ PhâN TáNit
 
Ldap it-slideshares.blogspot.com
Ldap it-slideshares.blogspot.comLdap it-slideshares.blogspot.com
Ldap it-slideshares.blogspot.comphanleson
 
MongoDB Introduction
MongoDB IntroductionMongoDB Introduction
MongoDB Introductionthanh can
 
Lab 11 apache hadoop map reduce
Lab 11 apache hadoop map reduceLab 11 apache hadoop map reduce
Lab 11 apache hadoop map reduceanhtrang181289
 
Drupal framework xanh
Drupal framework xanhDrupal framework xanh
Drupal framework xanhXanh Nguyen
 
Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big dataDuy Phan
 
Gt he quan_tri_csdl_ms_sql_server
Gt he quan_tri_csdl_ms_sql_serverGt he quan_tri_csdl_ms_sql_server
Gt he quan_tri_csdl_ms_sql_serveranhanh81
 
1 giới thiệu-cài đặt oracle
1 giới thiệu-cài đặt oracle1 giới thiệu-cài đặt oracle
1 giới thiệu-cài đặt oraclehoangdinhhanh88
 

Similar to Hadoop là gì (20)

Trongtruong so27a 09
Trongtruong so27a 09Trongtruong so27a 09
Trongtruong so27a 09
 
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnHadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
 
Hadoop trong triển khai Big Data
Hadoop trong triển khai Big DataHadoop trong triển khai Big Data
Hadoop trong triển khai Big Data
 
Tìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxTìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptx
 
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyLưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
 
Bao cao web cake php
Bao cao web cake phpBao cao web cake php
Bao cao web cake php
 
Giải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkGiải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache spark
 
Software Stack là gì.pdf
Software Stack là gì.pdfSoftware Stack là gì.pdf
Software Stack là gì.pdf
 
NoSql Database
NoSql DatabaseNoSql Database
NoSql Database
 
Apache thrift
Apache thriftApache thrift
Apache thrift
 
Hệ PhâN TáN
Hệ PhâN TáNHệ PhâN TáN
Hệ PhâN TáN
 
Ldap it-slideshares.blogspot.com
Ldap it-slideshares.blogspot.comLdap it-slideshares.blogspot.com
Ldap it-slideshares.blogspot.com
 
MongoDB Introduction
MongoDB IntroductionMongoDB Introduction
MongoDB Introduction
 
Liên kết động trong linux và windows (phần 1)
Liên kết động trong linux và windows (phần 1)Liên kết động trong linux và windows (phần 1)
Liên kết động trong linux và windows (phần 1)
 
Lab 11 apache hadoop map reduce
Lab 11 apache hadoop map reduceLab 11 apache hadoop map reduce
Lab 11 apache hadoop map reduce
 
Drupal framework xanh
Drupal framework xanhDrupal framework xanh
Drupal framework xanh
 
Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big data
 
Gt he quan_tri_csdl_ms_sql_server
Gt he quan_tri_csdl_ms_sql_serverGt he quan_tri_csdl_ms_sql_server
Gt he quan_tri_csdl_ms_sql_server
 
Linux+02
Linux+02Linux+02
Linux+02
 
1 giới thiệu-cài đặt oracle
1 giới thiệu-cài đặt oracle1 giới thiệu-cài đặt oracle
1 giới thiệu-cài đặt oracle
 

Hadoop là gì

  • 1. Hadoop là gì Hadoop cluster computers Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage). Kiến trúc Hadoop Hadoop framework gồm 4 module:  Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để các module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.  Hadoop YARN: Đây là framework để quản lý tiến trình và tài nguyên của các cluster.  Hadoop Distributed File System (HDFS): Đây là hệ thống file phân tán cung cấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu.  Hadoop MapReduce: Đây là hệ thống dựa trên YARN dùng để xử lý song song các tập dữ liệu lớn.
  • 2. Ta có thể sử dụng sơ đồ sau để mô tả bốn thành phần có trong Hadoop framework. Hadoop architecture Kể từ 2012, thuật ngữ “Hadoop” không chỉ đề cập đến các module cơ sở nêu trên mà còn đề cập đến các gói phần mềm mở rộng (additional software packages) có thể được cài đặt bên cạnh Hadoop, chẳng hạn như Apache Pig, Apache Hive, Apache HBase, Apache Spark. MapReduce Hadoop MapReduce là một framework dùng để viết các ứng dụng xử lý song song một lượng lớn dữ liệu có khả năng chịu lỗi cao xuyên suốt hàng ngàn cụm máy tính. Thuật ngữ MapReduce liên quan đến hai tác vụ mà chương trình Hadoop thực hiện:  Map: đây là tác vụ đầu tiên, trong đó dữ liệu đầu vào được chuyển đổi thành tập dữ liệu theo cặp key/value.  Reduce: tác vụ này nhận kết quả đầu ra từ tác vụ Map, kết hợp dữ liệu lại với nhau thành tập dữ liệu nhỏ hơn.
  • 3. Thông thường, kết quả input và output được lưu trong hệ thống file. Framework này sẽ tự động quản lý, theo dõi và tái thực thi các tác vụ bị lỗi. MapReduce framework gồm một single master (máy chủ) JobTracker và các slave (máy trạm) TaskTracker trên mỗi cluster-node. Master có nhiệm vụ quản lý tài nguyên, theo dõi quá trình tiêu thụ tài nguyên và lập lịch quản lý các tác vụ trên các máy trạm, theo dõi chúng và thực thi lại các tác vụ bị lỗi. Những máy slave TaskTracker thực thi các tác vụ được master chỉ định và cung cấp thông tin trạng thái tác vụ (task-status) để master theo dõi. JobTracker là một điểm yếu của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì mọi công việc liên quan sẽ bị ngắt quãng. Hadoop Distributed File System Hadoop có thể làm việc trực tiếp với bất kì hệ thống dữ liệu phân tán như Local FS, HFTP FS, S3 FS, và các hệ thống khác. Nhưng hệ thống file thường được dùng bởi Hadoop là Hadoop Distributed File System (HDFS). Hadoop Distributed File System (HDFS) dựa trên Google File System (GFS), cung cấp một hệ thống dữ liệu phân tán, được thiết kế để chạy trên các cụm máy tính lớn (gồm hàng ngàn máy tính) có khả năng chịu lỗi cao. HDFS sử dụng kiến trúc master/slave, trong đó master gồm một NameNode để quản lý hệ thống file metadata và một hay nhiều slave DataNodes để lưu trữ dữ liệu thực tại. Một tập tin với định dạng HDFS được chia thành nhiều block và những block này được lưu trữ trong một tập các DataNodes. NameNode định nghĩa ánh xạ từ các block đến các DataNode. Các DataNode điều hành các tác vụ đọc và ghi dữ liệu lên hệ thống file. Chúng cũng quản lý việc tạo, huỷ, và nhân rộng các block thông qua các chỉ thị từ NameNode. HDFS cũng hỗ trợ các câu lệnh shell để tương tác với tập tin như các hệ thống file khác. Hadoop hoạt động như thế nào? Giai đoạn 1 Một user hay một ứng dụng có thể submit một job lên Hadoop (hadoop job client) với yêu cầu xử lý cùng các thông tin cơ bản: 1. Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán. 2. Các java class ở định dạng jar chứa các dòng lệnh thực thi các hàm map và reduce. 3. Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào. Giai đoạn 2
  • 4. Hadoop job client submit job (file jar, file thực thi) và các thiết lập cho JobTracker. Sau đó, master sẽ phân phối tác vụ đến các máy slave để theo dõi và quản lý tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng và chẩn đoán liên quan đến job-client. Giai đoạn 3 TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả output được lưu trong hệ thống file. Ưu điểm của Hadoop  Hadoop framework cho phép người dùng nhanh chóng viết và kiểm tra các hệ thống phân tán. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc xuyên suốt các máy trạm nhờ vào cơ chế xử lý song song của các lõi CPU.  Hadoop không dựa vào cơ chế chịu lỗi của phần cứng fault-tolerance and high availability (FTHA), thay vì vậy bản thân Hadoop có các thư viện được thiết kế để phát hiện và xử lý các lỗi ở lớp ứng dụng.  Các server có thể được thêm vào hoặc gỡ bỏ từ cluster một cách linh hoạt và vẫn hoạt động mà không bị ngắt quãng.  Một lợi thế lớn của Hadoop ngoài mã nguồn mở đó là khả năng tương thích trên tất cả các nền tảng do được phát triển trên Java.