SlideShare a Scribd company logo
1 of 24
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC VÀ ỨNG DỤNG
KÍNHCHÀOTHẦYVÀCÁCBẠN
BÁO CÁO BÀI TẬP LỚN
MÔN ĐẠI SỐ TUYẾN TÍNH
ĐỀ TÀI 11:
PHÂN TÍCH THÀNH PHẦN CHÍNH
( PCA: PRINCIPAL COMPONENT ANALYSIS )
ĐỂ GIẢM CHIỀU DỮ LIỆU
Lớp L07 - Nhóm 6
GV hướng dẫn: Thầy Đặng Văn Vinh
Thành viên nhóm 6
STT HỌ TÊN MSSV
1 Trịnh Thị Ngọc Ánh 2112832
2 Trương Việt Hoàng 2110186
3 Đặng Ngọc Phú 2114410
4 Bùi Trọng Phúc 2112029
5 Nguyễn Ngọc Thịnh 2114896
6 Huỳnh Đắc Tín 2112445
7 Lê Minh Triết 2115067
TÓM TẮT
BÁO CÁO
Ứng dụng Phân tích thành phần chính ( PCA: Principal Component
Analysis ) trong giảm chiều dữ liệu ( Dimensionality Reduction ) là một đề
tài hay và thú vị mang giá trị nghiên cứu và học tập cao. Cùng với sự yêu
thích bộ môn Đại số tuyến tính cũng như mong muốn tìm tòi học hỏi là lý do
nhóm em quyết định thực hiện đề tài này.
Đề tài được yêu cầu giải quyết các thông số dữ liệu và biểu diễn chúng 1 cách
trực quan. Để có thể thực hiện tốt các tiêu chí đề ra nhóm em cần tìm hiểu về
những kiến thức nền tảng về PCA trong Machine Learning và liên hệ với
những ứng dụng thực tế. Song song với đó cũng cần vận dụng những kiến thức
đã được các thầy cô giảng dạy để có thể hoàn thành đề tài một cách tốt nhất.
Sau khi thực hiện đề tài, nhóm em đã có cái nhìn sâu sắc hơn về sự gắn kết
giữa lý thuyết và thực tế. Cũng góp phần cũng cố kiến thức nền tảng về
chuyên đề Phân tích thành phần chính. Bên cạnh đó cũng giúp chúng em
phát huy khả năng làm việc nhóm, xử lí thông tin và dữ liệu, nâng cao hiểu
biết về sử dụng công nghệ thông tin trong học tập và công việc sau này.
Mục
lục Chương 3:
Ứng dụng thực
tế
Chương 4:
Kết luận
Chương 2:
Cơ sở lý thuyết
Chương 1:
Mở đầu • Sơ lược về đề tài
• Yêu cầu
• Điều kiện
• Nhiệm vụ
• Khái niệm cơ bản
• Áp dụng vào đề tài
• Các bước tiến hành
PCA
• Giới thiệu
• Thực tiễn
• Kết luận
CHƯƠNG
01MỞ ĐẦU
1.1. Sơ lược về Dimensionality Reduction
( giảm chiều dữ liệu ):
Là một trong những kỹ thuật quan trọng trong Machine Learning. Các feature vectors trong các
bài toán thực tế có thể có số chiều rất lớn, tới vài nghìn. Ngoài ra, số lượng các điểm dữ liệu
cũng thường rất lớn. Nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu có số chiều cao
này thì sẽ gặp khó khăn cả về việc lưu trữ và tốc độ tính toán. Vì vậy, giảm số chiều dữ liệu là
một bước quan trọng trong nhiều bài toán. Đây cũng được coi là một phương pháp nén dữ liệu.
Nêu cơ sở lý thuyết của phân tích thành
phần chính (PCA: principle component
analysis).
1.2.Yêu cầu đề tài:
Ứng dụng của phân tích PCA để giảm
chiều dữ liệu.
Sinh viên cần có kiến thức về bộ
môn Đại số tuyến tính nói chung và
hiểu biết cơ bản về phép phân tích
thành phần chính trong machine
learning nói riêng.
1.3. Điều kiện:
Tìm hiểu các ứng dụng phân tích
thành phần chính PCA thực tiễn.
1.4.Nhiệm vụ Tìm hiểu về cơ sở lý thuyết nền tảng
của thuật toán PCA.
Không nhất thiết phải dùng matlab
để minh họa, nhưng phải có ít nhất
1 ví dụ thực tế.
CHƯƠNG
02CƠ SỞ LÝ
THUYẾT
2.1-Khái niệm
cơ bản
Phương pháp phân tích thành phần chính ( PCA )
là phương pháp biến đổi từ một không gian nhiều
chiều thành một không gian mới ít chiều, cụ thể là
giảm chiều dữ liệu từ D về K < D là chỉ giữ lại K
là phần tử quan trọng nhất.
Mục tiêu của chúng ta là tìm ra K chiều mà có thể
đảm bảo rằng các dữ liệu khi được biểu diễn, không
bị trùng lắp không bị mất mát thông tin ( tách biệt
nhau hoàn toàn )
Tuy nhiên, việc làm này chắc chắn chưa phải tốt
nhất vì chúng ta chưa biết xác định thành phần nào
là quan trọng hơn. Hoặc trong trường hợp xấu nhất,
lượng thông tin mà mỗi thành phần mang là như
nhau, bỏ đi thành phần nào cũng dẫn đến việc mất
một lượng thông tin lớn.
2.2- Áp dụng lí thuyết để phân tích đề tài:
PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có tương quan với nhau thành
tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có
tương quan lẫn nhau.
Hay nói cách khác, PCA chính là phương pháp đi tìm 1 hệ cơ sở mới sao cho thông tin dữ liệu
chủ yếu tập trung ở 1 vài tọa độ 1 cách trực quan, phần còn lại chỉ mang một lượng nhỏ thông
tin ( để đơn giản trong tính toán, PCA sẽ tìm 1 hệ trực chuẩn làm cơ sở mới ).
Giúp giảm số chiều dữ liệu - Giúp
visualization khi dữ liệu có quá
nhiều chiều thông tin.
Do PCA giúp tạo 1 hệ trục
tọa độ mới nên về mặt ý
nghĩa toán học, PCA giúp
chúng ta xây dựng những
biến factor mới là tổ hợp
tuyến tính của những biến
ban đầu.
Đặc tính
của PCA
Do dữ liệu ban đầu có số chiều
lớn (nhiều biến) thì PCA giúp
chúng ta xoay trục tọa độ, xây
dựng một trục tọa độ mới đảm
bảo độ biến thiên của dữ liệu và
giữ lại được nhiều thông tin nhất
mà không ảnh hưởng tới chất
lượng của các mô hình dự báo.
(Maximize the variability).
Trong không gian mới, có thể
giúp chúng ta khám phá thêm
những thông tin quý giá mới
khi mà tại chiều thông tin cũ
những thông tin quý giá này bị
che mất (Điển hình cho ví dụ về
chú lạc đà phía trên).
Một số hạn chế
Chỉ làm việc với
dữ liệu numeric.
Nhạy cảm với
các điểm outlier
( điểm dị biệt có
thể làm méo mó
tính chuẩn hóa
của các dữ liệu )
Không phù hợp
với các mô hình
phi tuyến, do
PCA hoàn toàn
dựa trên các biến
đổi tuyến tính
1 2 3
Các bước tiến hành PCA
Bước 5. Tỉnh ảnh 𝑨𝑻
𝑿𝑻
của véctơ 𝑿.
Dữ liệu 𝑿 ban đầu được xấp xỉ bởi 𝑿 ≈ 𝑨𝑿 + 𝑿.
Mỗi cột của 𝑨𝑿𝑻
chứa tọa độ của các hàng của ma trận ấy trong cơ sở từ các cột của ma trận
𝑷.
Bước 3. Tìm trị riêng của 𝑺 và sắp xếp theo
giá trị giảm dần
𝝀𝟏 > 𝝀𝟐 > ⋯ > 𝝀𝒎 và tìm các véctơ riêng
đơn vị ứng với các trị riêng.
Bước 4. Chọn 𝒌 trị riêng ban đầu và 𝒌 véctơ
riêng đơn vị ứng với các trị riêng này. Lập
ma trận A có các cột là các véctơ riêng đã
chọn. Ma trận A là phép biến đổi cần tìm.
Bước 2. Tính véctơ 𝑿 = 𝑿 − 𝑿 .
Tính ma trận hiệp phương sai: 𝑺 =
𝟏
𝑵−𝟏
𝑿𝑻
𝑿.
Bước 1. Tỉnh giá trị trung bình 𝑿 của 𝑿
CHƯƠNG
03ỨNG DỤNG
THỰC TẾ
3.1- Giới thiệu
PCA ( Principal Component Analysis ), các components ( thành phần ) ở đây ta
nói thực chất là các vectors độc lập tuyến tính được chọn sao cho khi chiếu các
điểm dữ liệu lên vector đó thì các điểm dữ liệu có sự variance lớn nhất ( biến
động nhiều nhất, phương sai lớn nhất).
Xét một cách nhìn khác thì PCA cũng là một bài toán chuyển hệ tọa độ như hình dưới:
3.1- Giới thiệu
3.2- Thực tiễn
Trong tài chính định lượng, phân tích
thành phần chính có thể được áp dụng
trực tiếp vào việc quản lý rủi ro của các
danh mục đầu tư phát sinh lãi suất. Giao
dịch nhiều công cụ hoán đổi thường là
một chức năng của 30–500 công cụ hoán
đổi có thể định giá trên thị trường được
tìm cách giảm xuống thường là 3 hoặc 4
thành phần chính, thể hiện đường đi của
lãi suất trên cơ sở vĩ mô.
Tài chính định lượng
Việc chuyển đổi rủi ro được thể hiện
dưới dạng các rủi ro thành hệ số tải
(hoặc hệ số nhân) cung cấp các đánh
giá và hiểu biết vượt ra ngoài khả
năng sẵn có để chỉ đơn giản là xem
xét chung các rủi ro đối với nhóm 30–
500 riêng lẻ.
Ứng dụng phân tích thành phần chính để đánh
giá các đặc tính hóa học và kháng khuẩn của
nọc ong mật Apis Mellifera:
Mục đích của nghiên cứu này là sử dụng Phân tích thành phần chính
(PCA) để làm rõ các mô hình phân bố chung hoặc sự tương đồng của
bốn thành phần chính (apamine, phospholipase A 2, peptide phân giải
tế bào mast, và melittin) của nọc ong được thu thập từ hai dòng ong
mật trong nhiều tháng và năm khác nhau.
Nội dung của các thành phần nọc ong chính này đã được phân tích bằng sắc
ký lỏng hiệu suất cao (HPLC). Ngoài ra, hoạt tính kháng khuẩn của sản
phẩm được đặc trưng bởi việc xác định Nồng độ ức chế tối thiểu (MIC).
Sử dụng PCA có thể tìm và mô tả mối tương quan giữa các thành phần
của nọc ong và hoạt tính kháng khuẩn của chúng. Đây có lẽ là nghiên
cứu đầu tiên trong đó thành phần và hoạt tính của nọc ong được so
sánh áp dụng cách tiếp cận như vậy. Nó được chỉ ra rằng dòng ong
dường như là tiêu chí duy nhất để phân loại mẫu nọc độc của ong.
Hơn nữa, mối tương quan chặt chẽ giữa phospholipase A2 và melittin đã được
xác nhận. Phân tích PCA cho thấy có mối quan hệ yếu giữa các thành phần
nọc ong mật được phân tích và giá trị MIC. Do đó, các thành phần nhỏ của
nọc ong có lẽ cũng ảnh hưởng đáng kể đến hoạt động kháng khuẩn của nó.
CHƯƠNG
04KẾT LUẬN
Kết luận
Qua đề tài về ứng dụng phân tích thành phần chính PCA để
giảm chiều dữ liệu, nhóm chúng em đã có cái nhìn sâu sắc
hơn về sự gắn kết giữa lý thuyết và thực tế ở bộ môn Đại số
tuyến tính nói riêng. Trong quá trình thực hiện đề tài, nhóm
chúng em đã tìm ra cho mình những kiến thức bổ ích và sâu
sắc về phương pháp giảm chiều dữ liệu cũng như cách thức
tìm ra K features – phân tích những thành phần chính.
CẢM ƠN THẦY VÀ CÁC
BẠN ĐÃ LẮNG NGHE

More Related Content

What's hot

đại số tuyến tính 2 ( không gian eculid )
đại số tuyến tính 2 ( không gian eculid )đại số tuyến tính 2 ( không gian eculid )
đại số tuyến tính 2 ( không gian eculid )Bui Loi
 
Bai tap-dai-so-tuyen-tinh-co-giai
Bai tap-dai-so-tuyen-tinh-co-giaiBai tap-dai-so-tuyen-tinh-co-giai
Bai tap-dai-so-tuyen-tinh-co-giaigiaoduc0123
 
2015 phuong phap tinh chuong 2
2015 phuong phap tinh   chuong 22015 phuong phap tinh   chuong 2
2015 phuong phap tinh chuong 2Son La College
 
Xstk 07 12_2015_9914
Xstk 07 12_2015_9914Xstk 07 12_2015_9914
Xstk 07 12_2015_9914Nam Cengroup
 
Chuong 04 mach logic
Chuong 04 mach logicChuong 04 mach logic
Chuong 04 mach logicAnh Ngoc Phan
 
biến đổi ma trận ( Transformation matrix)
biến đổi ma trận ( Transformation matrix)biến đổi ma trận ( Transformation matrix)
biến đổi ma trận ( Transformation matrix)Bui Loi
 
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂUPHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂUSoM
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Tài Tài
 
Tính toán khoa học - Chương 4: Giải phương trình phi tuyến
Tính toán khoa học - Chương 4: Giải phương trình phi tuyếnTính toán khoa học - Chương 4: Giải phương trình phi tuyến
Tính toán khoa học - Chương 4: Giải phương trình phi tuyếnChien Dang
 
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019TiLiu5
 
Hướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến TínhHướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến TínhNhóc Nhóc
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinVõ Phúc
 
Hệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tínhHệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tínhThế Giới Tinh Hoa
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnhTùng Trần
 
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phân
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phânTính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phân
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phânChien Dang
 
Đề thi trắc nghiệm Xác suất thống kê có lời giải
Đề thi trắc nghiệm Xác suất thống kê có lời giảiĐề thi trắc nghiệm Xác suất thống kê có lời giải
Đề thi trắc nghiệm Xác suất thống kê có lời giải希夢 坂井
 

What's hot (20)

đại số tuyến tính 2 ( không gian eculid )
đại số tuyến tính 2 ( không gian eculid )đại số tuyến tính 2 ( không gian eculid )
đại số tuyến tính 2 ( không gian eculid )
 
Chuong5
Chuong5Chuong5
Chuong5
 
Bai tap-dai-so-tuyen-tinh-co-giai
Bai tap-dai-so-tuyen-tinh-co-giaiBai tap-dai-so-tuyen-tinh-co-giai
Bai tap-dai-so-tuyen-tinh-co-giai
 
2015 phuong phap tinh chuong 2
2015 phuong phap tinh   chuong 22015 phuong phap tinh   chuong 2
2015 phuong phap tinh chuong 2
 
Xstk 07 12_2015_9914
Xstk 07 12_2015_9914Xstk 07 12_2015_9914
Xstk 07 12_2015_9914
 
Chuong 04 mach logic
Chuong 04 mach logicChuong 04 mach logic
Chuong 04 mach logic
 
biến đổi ma trận ( Transformation matrix)
biến đổi ma trận ( Transformation matrix)biến đổi ma trận ( Transformation matrix)
biến đổi ma trận ( Transformation matrix)
 
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂUPHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
 
Đệ Quy, Quay Lui, Nhánh Cận
Đệ Quy, Quay Lui, Nhánh CậnĐệ Quy, Quay Lui, Nhánh Cận
Đệ Quy, Quay Lui, Nhánh Cận
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
 
Ktmt chuong 5
Ktmt chuong 5Ktmt chuong 5
Ktmt chuong 5
 
Chuong02
Chuong02Chuong02
Chuong02
 
Tính toán khoa học - Chương 4: Giải phương trình phi tuyến
Tính toán khoa học - Chương 4: Giải phương trình phi tuyếnTính toán khoa học - Chương 4: Giải phương trình phi tuyến
Tính toán khoa học - Chương 4: Giải phương trình phi tuyến
 
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019
BÀI GIẢNG XÁC SUẤT THỐNG KÊ - TS. PHẠM QUANG KHOÁI_10435012092019
 
Hướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến TínhHướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến Tính
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Hệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tínhHệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tính
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
 
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phân
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phânTính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phân
Tính toán khoa học - Chương 5: Tính gần đúng đạo hàm và tích phân
 
Đề thi trắc nghiệm Xác suất thống kê có lời giải
Đề thi trắc nghiệm Xác suất thống kê có lời giảiĐề thi trắc nghiệm Xác suất thống kê có lời giải
Đề thi trắc nghiệm Xác suất thống kê có lời giải
 

Similar to BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx

Pca principal componentsanalysis
Pca principal componentsanalysisPca principal componentsanalysis
Pca principal componentsanalysisSongLam123
 
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYĐề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYViết thuê trọn gói ZALO 0934573149
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanNghịch Ngợm Rồng Con
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfTiepDinh3
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfMan_Ebook
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quandungln_dhbkhn
 
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgTap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgHate To Love
 
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfon-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfMan_Ebook
 
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khốiLuận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khốihttps://www.facebook.com/garmentspace
 
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcNhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcMan_Ebook
 
09 tvu sta301_bai7_v1.00131012140
09 tvu sta301_bai7_v1.0013101214009 tvu sta301_bai7_v1.00131012140
09 tvu sta301_bai7_v1.00131012140Yen Dang
 
Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3NguynMinh294
 

Similar to BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx (20)

Pca principal componentsanalysis
Pca principal componentsanalysisPca principal componentsanalysis
Pca principal componentsanalysis
 
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYĐề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
 
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc ParticleLuận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdf
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
Bài giảng kinh te luong
Bài giảng kinh te luongBài giảng kinh te luong
Bài giảng kinh te luong
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.orgTap 1 ly thuyet chung ve mo phong mang-vntelecom.org
Tap 1 ly thuyet chung ve mo phong mang-vntelecom.org
 
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfon-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
 
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khốiLuận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
 
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn PhướcNhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
Nhận dạng hệ thống điều khiển, Nguyễn Doãn Phước
 
Bai 4 Phanlop
Bai 4 PhanlopBai 4 Phanlop
Bai 4 Phanlop
 
Bai 4 Phan Lop
Bai 4 Phan LopBai 4 Phan Lop
Bai 4 Phan Lop
 
09 tvu sta301_bai7_v1.00131012140
09 tvu sta301_bai7_v1.0013101214009 tvu sta301_bai7_v1.00131012140
09 tvu sta301_bai7_v1.00131012140
 
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờLuận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
 
Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3
 
Thdc 06
Thdc 06Thdc 06
Thdc 06
 
Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâuDự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 

BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx

  • 1. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ ỨNG DỤNG KÍNHCHÀOTHẦYVÀCÁCBẠN
  • 2. BÁO CÁO BÀI TẬP LỚN MÔN ĐẠI SỐ TUYẾN TÍNH ĐỀ TÀI 11: PHÂN TÍCH THÀNH PHẦN CHÍNH ( PCA: PRINCIPAL COMPONENT ANALYSIS ) ĐỂ GIẢM CHIỀU DỮ LIỆU Lớp L07 - Nhóm 6 GV hướng dẫn: Thầy Đặng Văn Vinh
  • 3. Thành viên nhóm 6 STT HỌ TÊN MSSV 1 Trịnh Thị Ngọc Ánh 2112832 2 Trương Việt Hoàng 2110186 3 Đặng Ngọc Phú 2114410 4 Bùi Trọng Phúc 2112029 5 Nguyễn Ngọc Thịnh 2114896 6 Huỳnh Đắc Tín 2112445 7 Lê Minh Triết 2115067
  • 4. TÓM TẮT BÁO CÁO Ứng dụng Phân tích thành phần chính ( PCA: Principal Component Analysis ) trong giảm chiều dữ liệu ( Dimensionality Reduction ) là một đề tài hay và thú vị mang giá trị nghiên cứu và học tập cao. Cùng với sự yêu thích bộ môn Đại số tuyến tính cũng như mong muốn tìm tòi học hỏi là lý do nhóm em quyết định thực hiện đề tài này. Đề tài được yêu cầu giải quyết các thông số dữ liệu và biểu diễn chúng 1 cách trực quan. Để có thể thực hiện tốt các tiêu chí đề ra nhóm em cần tìm hiểu về những kiến thức nền tảng về PCA trong Machine Learning và liên hệ với những ứng dụng thực tế. Song song với đó cũng cần vận dụng những kiến thức đã được các thầy cô giảng dạy để có thể hoàn thành đề tài một cách tốt nhất. Sau khi thực hiện đề tài, nhóm em đã có cái nhìn sâu sắc hơn về sự gắn kết giữa lý thuyết và thực tế. Cũng góp phần cũng cố kiến thức nền tảng về chuyên đề Phân tích thành phần chính. Bên cạnh đó cũng giúp chúng em phát huy khả năng làm việc nhóm, xử lí thông tin và dữ liệu, nâng cao hiểu biết về sử dụng công nghệ thông tin trong học tập và công việc sau này.
  • 5. Mục lục Chương 3: Ứng dụng thực tế Chương 4: Kết luận Chương 2: Cơ sở lý thuyết Chương 1: Mở đầu • Sơ lược về đề tài • Yêu cầu • Điều kiện • Nhiệm vụ • Khái niệm cơ bản • Áp dụng vào đề tài • Các bước tiến hành PCA • Giới thiệu • Thực tiễn • Kết luận
  • 7. 1.1. Sơ lược về Dimensionality Reduction ( giảm chiều dữ liệu ): Là một trong những kỹ thuật quan trọng trong Machine Learning. Các feature vectors trong các bài toán thực tế có thể có số chiều rất lớn, tới vài nghìn. Ngoài ra, số lượng các điểm dữ liệu cũng thường rất lớn. Nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu có số chiều cao này thì sẽ gặp khó khăn cả về việc lưu trữ và tốc độ tính toán. Vì vậy, giảm số chiều dữ liệu là một bước quan trọng trong nhiều bài toán. Đây cũng được coi là một phương pháp nén dữ liệu.
  • 8. Nêu cơ sở lý thuyết của phân tích thành phần chính (PCA: principle component analysis). 1.2.Yêu cầu đề tài: Ứng dụng của phân tích PCA để giảm chiều dữ liệu.
  • 9. Sinh viên cần có kiến thức về bộ môn Đại số tuyến tính nói chung và hiểu biết cơ bản về phép phân tích thành phần chính trong machine learning nói riêng. 1.3. Điều kiện: Tìm hiểu các ứng dụng phân tích thành phần chính PCA thực tiễn.
  • 10. 1.4.Nhiệm vụ Tìm hiểu về cơ sở lý thuyết nền tảng của thuật toán PCA. Không nhất thiết phải dùng matlab để minh họa, nhưng phải có ít nhất 1 ví dụ thực tế.
  • 12. 2.1-Khái niệm cơ bản Phương pháp phân tích thành phần chính ( PCA ) là phương pháp biến đổi từ một không gian nhiều chiều thành một không gian mới ít chiều, cụ thể là giảm chiều dữ liệu từ D về K < D là chỉ giữ lại K là phần tử quan trọng nhất. Mục tiêu của chúng ta là tìm ra K chiều mà có thể đảm bảo rằng các dữ liệu khi được biểu diễn, không bị trùng lắp không bị mất mát thông tin ( tách biệt nhau hoàn toàn ) Tuy nhiên, việc làm này chắc chắn chưa phải tốt nhất vì chúng ta chưa biết xác định thành phần nào là quan trọng hơn. Hoặc trong trường hợp xấu nhất, lượng thông tin mà mỗi thành phần mang là như nhau, bỏ đi thành phần nào cũng dẫn đến việc mất một lượng thông tin lớn.
  • 13. 2.2- Áp dụng lí thuyết để phân tích đề tài: PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có tương quan lẫn nhau. Hay nói cách khác, PCA chính là phương pháp đi tìm 1 hệ cơ sở mới sao cho thông tin dữ liệu chủ yếu tập trung ở 1 vài tọa độ 1 cách trực quan, phần còn lại chỉ mang một lượng nhỏ thông tin ( để đơn giản trong tính toán, PCA sẽ tìm 1 hệ trực chuẩn làm cơ sở mới ).
  • 14. Giúp giảm số chiều dữ liệu - Giúp visualization khi dữ liệu có quá nhiều chiều thông tin. Do PCA giúp tạo 1 hệ trục tọa độ mới nên về mặt ý nghĩa toán học, PCA giúp chúng ta xây dựng những biến factor mới là tổ hợp tuyến tính của những biến ban đầu. Đặc tính của PCA Do dữ liệu ban đầu có số chiều lớn (nhiều biến) thì PCA giúp chúng ta xoay trục tọa độ, xây dựng một trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ lại được nhiều thông tin nhất mà không ảnh hưởng tới chất lượng của các mô hình dự báo. (Maximize the variability). Trong không gian mới, có thể giúp chúng ta khám phá thêm những thông tin quý giá mới khi mà tại chiều thông tin cũ những thông tin quý giá này bị che mất (Điển hình cho ví dụ về chú lạc đà phía trên).
  • 15. Một số hạn chế Chỉ làm việc với dữ liệu numeric. Nhạy cảm với các điểm outlier ( điểm dị biệt có thể làm méo mó tính chuẩn hóa của các dữ liệu ) Không phù hợp với các mô hình phi tuyến, do PCA hoàn toàn dựa trên các biến đổi tuyến tính 1 2 3
  • 16. Các bước tiến hành PCA Bước 5. Tỉnh ảnh 𝑨𝑻 𝑿𝑻 của véctơ 𝑿. Dữ liệu 𝑿 ban đầu được xấp xỉ bởi 𝑿 ≈ 𝑨𝑿 + 𝑿. Mỗi cột của 𝑨𝑿𝑻 chứa tọa độ của các hàng của ma trận ấy trong cơ sở từ các cột của ma trận 𝑷. Bước 3. Tìm trị riêng của 𝑺 và sắp xếp theo giá trị giảm dần 𝝀𝟏 > 𝝀𝟐 > ⋯ > 𝝀𝒎 và tìm các véctơ riêng đơn vị ứng với các trị riêng. Bước 4. Chọn 𝒌 trị riêng ban đầu và 𝒌 véctơ riêng đơn vị ứng với các trị riêng này. Lập ma trận A có các cột là các véctơ riêng đã chọn. Ma trận A là phép biến đổi cần tìm. Bước 2. Tính véctơ 𝑿 = 𝑿 − 𝑿 . Tính ma trận hiệp phương sai: 𝑺 = 𝟏 𝑵−𝟏 𝑿𝑻 𝑿. Bước 1. Tỉnh giá trị trung bình 𝑿 của 𝑿
  • 18. 3.1- Giới thiệu PCA ( Principal Component Analysis ), các components ( thành phần ) ở đây ta nói thực chất là các vectors độc lập tuyến tính được chọn sao cho khi chiếu các điểm dữ liệu lên vector đó thì các điểm dữ liệu có sự variance lớn nhất ( biến động nhiều nhất, phương sai lớn nhất).
  • 19. Xét một cách nhìn khác thì PCA cũng là một bài toán chuyển hệ tọa độ như hình dưới: 3.1- Giới thiệu
  • 20. 3.2- Thực tiễn Trong tài chính định lượng, phân tích thành phần chính có thể được áp dụng trực tiếp vào việc quản lý rủi ro của các danh mục đầu tư phát sinh lãi suất. Giao dịch nhiều công cụ hoán đổi thường là một chức năng của 30–500 công cụ hoán đổi có thể định giá trên thị trường được tìm cách giảm xuống thường là 3 hoặc 4 thành phần chính, thể hiện đường đi của lãi suất trên cơ sở vĩ mô. Tài chính định lượng Việc chuyển đổi rủi ro được thể hiện dưới dạng các rủi ro thành hệ số tải (hoặc hệ số nhân) cung cấp các đánh giá và hiểu biết vượt ra ngoài khả năng sẵn có để chỉ đơn giản là xem xét chung các rủi ro đối với nhóm 30– 500 riêng lẻ.
  • 21. Ứng dụng phân tích thành phần chính để đánh giá các đặc tính hóa học và kháng khuẩn của nọc ong mật Apis Mellifera: Mục đích của nghiên cứu này là sử dụng Phân tích thành phần chính (PCA) để làm rõ các mô hình phân bố chung hoặc sự tương đồng của bốn thành phần chính (apamine, phospholipase A 2, peptide phân giải tế bào mast, và melittin) của nọc ong được thu thập từ hai dòng ong mật trong nhiều tháng và năm khác nhau. Nội dung của các thành phần nọc ong chính này đã được phân tích bằng sắc ký lỏng hiệu suất cao (HPLC). Ngoài ra, hoạt tính kháng khuẩn của sản phẩm được đặc trưng bởi việc xác định Nồng độ ức chế tối thiểu (MIC). Sử dụng PCA có thể tìm và mô tả mối tương quan giữa các thành phần của nọc ong và hoạt tính kháng khuẩn của chúng. Đây có lẽ là nghiên cứu đầu tiên trong đó thành phần và hoạt tính của nọc ong được so sánh áp dụng cách tiếp cận như vậy. Nó được chỉ ra rằng dòng ong dường như là tiêu chí duy nhất để phân loại mẫu nọc độc của ong. Hơn nữa, mối tương quan chặt chẽ giữa phospholipase A2 và melittin đã được xác nhận. Phân tích PCA cho thấy có mối quan hệ yếu giữa các thành phần nọc ong mật được phân tích và giá trị MIC. Do đó, các thành phần nhỏ của nọc ong có lẽ cũng ảnh hưởng đáng kể đến hoạt động kháng khuẩn của nó.
  • 23. Kết luận Qua đề tài về ứng dụng phân tích thành phần chính PCA để giảm chiều dữ liệu, nhóm chúng em đã có cái nhìn sâu sắc hơn về sự gắn kết giữa lý thuyết và thực tế ở bộ môn Đại số tuyến tính nói riêng. Trong quá trình thực hiện đề tài, nhóm chúng em đã tìm ra cho mình những kiến thức bổ ích và sâu sắc về phương pháp giảm chiều dữ liệu cũng như cách thức tìm ra K features – phân tích những thành phần chính.
  • 24. CẢM ƠN THẦY VÀ CÁC BẠN ĐÃ LẮNG NGHE