SlideShare a Scribd company logo
1
CÔNG TY
CÔNG NGHỆ THÔNG TIN VNPT
BAN NHÂN SỰ
Số: 47/CV-NS
V/v: Triệu tập học viên khóa học Cloudera
Developer Training for Apache Spark and
Hadoop
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Hà Nội, ngày 08 tháng 07 năm 2021
Kính gửi: Các đơn vị trực thuộc Công ty
Triển khai kế hoạch đào tạo, bồi dưỡng đã được phê duyệt tại Quyết định số
129/QĐ-VNPT-IT-NS ngày 02/02/2021, Ban Nhân sự thông báo đến các đơn vị các
khóa học Cloudera Developer Training for Apache Spark and Hadoop:
1. Thời gian khóa học: 20-23/07/2021.
2. Địa điểm: Tp.Hà Nội
3. Nội dung khóa học: Chi tiết trong phụ lục
4. Phân bổ học viên: Kỹ sư lập trình, kỹ sư dữ liệu thuộc các đơn vị sau
STT Họ và tên Phân bổ
1 Trung tâm Sáng tạo 3
2 Trung tâm ERP 4
3 Trung tâm eHEALTH 4
4 Trung tâm eGOV 4
5 Trung tâm eEDU 3
6 Trung tâm SI 3
7 Trung tâm VNPT IT KV1 1
8 Trung tâm VNPT IT KV3 2
9 Trung tâm VNPT IT KV4 1
Tổng cộng 25
Các đơn vị gửi danh sách học viên (theo mẫu file excel gửi kèm) gửi email về
Ban Nhân sự chậm nhất ngày 12/07/2021, theo địa chỉ:
Ban Nhân sự: Chị Bùi Thị Nga, ĐT: 0915071081; Email: ngabui@vnpt.vn.
Trân trọng./.
Nơi nhận:
- Như trên;
- TGĐ & các P. TGĐ (để b/c)
- Lưu NS, VT, BTN.
Số EOF: 552905/VBĐT
TRƯỞNG BAN NHÂN SỰ
<Đã ký>
Hoàng Trung Hiếu
2
PHỤ LỤC: NỘI DUNG KHÓA HỌC
Introduction
Introduction to Apache Hadoop and
the Hadoop Ecosystem
 Apache Hadoop Overview
 Data Processing
 Introduction to the Hands-On
Exercises
Apache Hadoop File Storage
 Apache Hadoop Cluster
Components
 HDFS Architecture
 Using HDFS
Distributed Processing on an Apache
Hadoop Cluster
 YARN Architecture
 Working With YARN
Apache Spark Basics
 What is Apache Spark?
 Starting the Spark Shell
 Using the Spark Shell
 Getting Started with Datasets
and DataFrames
 DataFrame Operations
Working with DataFrames and
Schemas
 Creating DataFrames from Data
Sources
 Saving DataFrames to Data
Sources
 DataFrame Schemas
 Eager and Lazy Execution
Analyzing Data with DataFrame
Queries
 Querying DataFrames Using
Column Expressions
 Grouping and Aggregation
Queries
 Joining DataFrames
RDD Overview
 RDD Overview
 RDD Data Sources
 Creating and Saving RDDs
 RDD Operations
Transforming Data with RDDs
 Writing and Passing
Transformation Functions
 Transformation Execution
 Converting Between RDDs and
DataFrames
Aggregating Data with Pair RDDs
 Key-Value Pair RDDs
 Map-Reduce
 Other Pair RDD Operations
Querying Tables and Views with
SQL
 Querying Tables in Spark Using
SQL
 Querying Files and Views
 The Catalog API
Working with Datasets in Scala
 Datasets and DataFrames
 Creating Datasets
 Loading and Saving Datasets
 Dataset Operations
Writing, Configuring, and Running
Spark Applications
 Writing a Spark Application
 Building and Running an
Application
3
 Application Deployment Mode
 The Spark Application Web UI
 Configuring Application
Properties
Spark Distributed Processing
 Review: Apache Spark on a
Cluster
 RDD Partitions
 Example: Partitioning in
Queries
 Stages and Tasks
 Job Execution Planning
 Example: Catalyst Execution
Plan
 Example: RDD Execution Plan
Distributed Data Persistence
 DataFrame and Dataset
Persistence
 Persistence Storage Levels
 Viewing Persisted RDDs
Common Patterns in Spark Data
Processing
 Common Apache Spark Use
Cases
 Iterative Algorithms in Apache
Spark
 Machine Learning
 Example: k-means
Introduction to Structured
Streaming
 Apache Spark Streaming
Overview
 Creating Streaming DataFrames
 Transforming DataFrames
 Executing Streaming Queries
Structured Streaming with Apache
Kafka
 Overview
 Receiving Kafka Messages
 Sending Kafka Messages
Aggregating and Joining Streaming
DataFrames
 Streaming Aggregation
 Joining Streaming DataFrames
Conclusion
Message Processing with Apache
Kafka
 What Is Apache Kafka?
 Apache Kafka Overview
 Scaling Apache Kafka
 Apache Kafka Cluster
Architecture
 Apache Kafka Command Line
Tools

More Related Content

Similar to Đăng ký khóa học Spark and Hadoop.doc

Giải pháp VED - TNMT full.pptx
Giải pháp VED - TNMT full.pptxGiải pháp VED - TNMT full.pptx
Giải pháp VED - TNMT full.pptx
VDI
 
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
MasterCode.vn
 
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
IT Expert Club
 
Designing websites in dreamweaver cs5
Designing websites in dreamweaver cs5Designing websites in dreamweaver cs5
Designing websites in dreamweaver cs5
Phạm Tấn Duy
 
CVNguyenThanhLam-102015-Vi
CVNguyenThanhLam-102015-ViCVNguyenThanhLam-102015-Vi
CVNguyenThanhLam-102015-ViLam Nguyen
 
Tại sao nên chọn ngôn ngữ php
Tại sao nên chọn ngôn ngữ phpTại sao nên chọn ngôn ngữ php
Tại sao nên chọn ngôn ngữ php
Học viện đào tạo CNTT NIIT iNET
 
Baocaonghiem
BaocaonghiemBaocaonghiem
Baocaonghiem
Nguyễn Văn Khoa
 
đồ áN thiết kế web tuyển dụng sử dụng asp.net
đồ áN thiết kế web tuyển dụng sử dụng asp.netđồ áN thiết kế web tuyển dụng sử dụng asp.net
đồ áN thiết kế web tuyển dụng sử dụng asp.net
nataliej4
 
Linq n hibernate net-tier
Linq n hibernate net-tierLinq n hibernate net-tier
Linq n hibernate net-tierNguyen Tran
 
Arrowjs.io
Arrowjs.ioArrowjs.io
Arrowjs.io
TechMaster Vietnam
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big Data
Hong Ong
 
Bao cao web cake php
Bao cao web cake phpBao cao web cake php
Bao cao web cake php
laonap166
 
Code Camp #1
Code Camp #1Code Camp #1
Code Camp #1
Dat Le Viet
 
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
sividocz
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
Tran Minh Tuan
 
[123doc.vn] xay dung he thong mang cho doanh nhiep nho
[123doc.vn]   xay dung he thong mang cho doanh nhiep nho[123doc.vn]   xay dung he thong mang cho doanh nhiep nho
[123doc.vn] xay dung he thong mang cho doanh nhiep nhoNguyễn Quân
 

Similar to Đăng ký khóa học Spark and Hadoop.doc (20)

Giải pháp VED - TNMT full.pptx
Giải pháp VED - TNMT full.pptxGiải pháp VED - TNMT full.pptx
Giải pháp VED - TNMT full.pptx
 
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
Bài 4: Lập trình với CSDL ADO.NET & Kiến trúc không kết nối & Lập trình giao ...
 
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
ITLC - Hanoi - NodeJS - ArrowJS - 27-11 - 2015
 
Designing websites in dreamweaver cs5
Designing websites in dreamweaver cs5Designing websites in dreamweaver cs5
Designing websites in dreamweaver cs5
 
CVNguyenThanhLam-102015-Vi
CVNguyenThanhLam-102015-ViCVNguyenThanhLam-102015-Vi
CVNguyenThanhLam-102015-Vi
 
Tại sao nên chọn ngôn ngữ php
Tại sao nên chọn ngôn ngữ phpTại sao nên chọn ngôn ngữ php
Tại sao nên chọn ngôn ngữ php
 
Baocaonghiem
BaocaonghiemBaocaonghiem
Baocaonghiem
 
Thutap
ThutapThutap
Thutap
 
đồ áN thiết kế web tuyển dụng sử dụng asp.net
đồ áN thiết kế web tuyển dụng sử dụng asp.netđồ áN thiết kế web tuyển dụng sử dụng asp.net
đồ áN thiết kế web tuyển dụng sử dụng asp.net
 
Linq n hibernate net-tier
Linq n hibernate net-tierLinq n hibernate net-tier
Linq n hibernate net-tier
 
Arrowjs.io
Arrowjs.ioArrowjs.io
Arrowjs.io
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big Data
 
Bao cao web cake php
Bao cao web cake phpBao cao web cake php
Bao cao web cake php
 
Code Camp #1
Code Camp #1Code Camp #1
Code Camp #1
 
Nutch
NutchNutch
Nutch
 
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
Luận Văn Xây Dựng Trang Web Cho Hợp Tác Xã Nông Nghiệp Và Du Lịch Cộng Đồng C...
 
C1
C1C1
C1
 
Csdl
CsdlCsdl
Csdl
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
 
[123doc.vn] xay dung he thong mang cho doanh nhiep nho
[123doc.vn]   xay dung he thong mang cho doanh nhiep nho[123doc.vn]   xay dung he thong mang cho doanh nhiep nho
[123doc.vn] xay dung he thong mang cho doanh nhiep nho
 

Đăng ký khóa học Spark and Hadoop.doc

  • 1. 1 CÔNG TY CÔNG NGHỆ THÔNG TIN VNPT BAN NHÂN SỰ Số: 47/CV-NS V/v: Triệu tập học viên khóa học Cloudera Developer Training for Apache Spark and Hadoop CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Hà Nội, ngày 08 tháng 07 năm 2021 Kính gửi: Các đơn vị trực thuộc Công ty Triển khai kế hoạch đào tạo, bồi dưỡng đã được phê duyệt tại Quyết định số 129/QĐ-VNPT-IT-NS ngày 02/02/2021, Ban Nhân sự thông báo đến các đơn vị các khóa học Cloudera Developer Training for Apache Spark and Hadoop: 1. Thời gian khóa học: 20-23/07/2021. 2. Địa điểm: Tp.Hà Nội 3. Nội dung khóa học: Chi tiết trong phụ lục 4. Phân bổ học viên: Kỹ sư lập trình, kỹ sư dữ liệu thuộc các đơn vị sau STT Họ và tên Phân bổ 1 Trung tâm Sáng tạo 3 2 Trung tâm ERP 4 3 Trung tâm eHEALTH 4 4 Trung tâm eGOV 4 5 Trung tâm eEDU 3 6 Trung tâm SI 3 7 Trung tâm VNPT IT KV1 1 8 Trung tâm VNPT IT KV3 2 9 Trung tâm VNPT IT KV4 1 Tổng cộng 25 Các đơn vị gửi danh sách học viên (theo mẫu file excel gửi kèm) gửi email về Ban Nhân sự chậm nhất ngày 12/07/2021, theo địa chỉ: Ban Nhân sự: Chị Bùi Thị Nga, ĐT: 0915071081; Email: ngabui@vnpt.vn. Trân trọng./. Nơi nhận: - Như trên; - TGĐ & các P. TGĐ (để b/c) - Lưu NS, VT, BTN. Số EOF: 552905/VBĐT TRƯỞNG BAN NHÂN SỰ <Đã ký> Hoàng Trung Hiếu
  • 2. 2 PHỤ LỤC: NỘI DUNG KHÓA HỌC Introduction Introduction to Apache Hadoop and the Hadoop Ecosystem  Apache Hadoop Overview  Data Processing  Introduction to the Hands-On Exercises Apache Hadoop File Storage  Apache Hadoop Cluster Components  HDFS Architecture  Using HDFS Distributed Processing on an Apache Hadoop Cluster  YARN Architecture  Working With YARN Apache Spark Basics  What is Apache Spark?  Starting the Spark Shell  Using the Spark Shell  Getting Started with Datasets and DataFrames  DataFrame Operations Working with DataFrames and Schemas  Creating DataFrames from Data Sources  Saving DataFrames to Data Sources  DataFrame Schemas  Eager and Lazy Execution Analyzing Data with DataFrame Queries  Querying DataFrames Using Column Expressions  Grouping and Aggregation Queries  Joining DataFrames RDD Overview  RDD Overview  RDD Data Sources  Creating and Saving RDDs  RDD Operations Transforming Data with RDDs  Writing and Passing Transformation Functions  Transformation Execution  Converting Between RDDs and DataFrames Aggregating Data with Pair RDDs  Key-Value Pair RDDs  Map-Reduce  Other Pair RDD Operations Querying Tables and Views with SQL  Querying Tables in Spark Using SQL  Querying Files and Views  The Catalog API Working with Datasets in Scala  Datasets and DataFrames  Creating Datasets  Loading and Saving Datasets  Dataset Operations Writing, Configuring, and Running Spark Applications  Writing a Spark Application  Building and Running an Application
  • 3. 3  Application Deployment Mode  The Spark Application Web UI  Configuring Application Properties Spark Distributed Processing  Review: Apache Spark on a Cluster  RDD Partitions  Example: Partitioning in Queries  Stages and Tasks  Job Execution Planning  Example: Catalyst Execution Plan  Example: RDD Execution Plan Distributed Data Persistence  DataFrame and Dataset Persistence  Persistence Storage Levels  Viewing Persisted RDDs Common Patterns in Spark Data Processing  Common Apache Spark Use Cases  Iterative Algorithms in Apache Spark  Machine Learning  Example: k-means Introduction to Structured Streaming  Apache Spark Streaming Overview  Creating Streaming DataFrames  Transforming DataFrames  Executing Streaming Queries Structured Streaming with Apache Kafka  Overview  Receiving Kafka Messages  Sending Kafka Messages Aggregating and Joining Streaming DataFrames  Streaming Aggregation  Joining Streaming DataFrames Conclusion Message Processing with Apache Kafka  What Is Apache Kafka?  Apache Kafka Overview  Scaling Apache Kafka  Apache Kafka Cluster Architecture  Apache Kafka Command Line Tools