1. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC VÀ ỨNG DỤNG
KÍNHCHÀOTHẦYVÀCÁCBẠN
2. BÁO CÁO BÀI TẬP LỚN
MÔN ĐẠI SỐ TUYẾN TÍNH
ĐỀ TÀI 11:
PHÂN TÍCH THÀNH PHẦN CHÍNH
( PCA: PRINCIPAL COMPONENT ANALYSIS )
ĐỂ GIẢM CHIỀU DỮ LIỆU
Lớp L07 - Nhóm 6
GV hướng dẫn: Thầy Đặng Văn Vinh
3. Thành viên nhóm 6
STT HỌ TÊN MSSV
1 Trịnh Thị Ngọc Ánh 2112832
2 Trương Việt Hoàng 2110186
3 Đặng Ngọc Phú 2114410
4 Bùi Trọng Phúc 2112029
5 Nguyễn Ngọc Thịnh 2114896
6 Huỳnh Đắc Tín 2112445
7 Lê Minh Triết 2115067
4. TÓM TẮT
BÁO CÁO
Ứng dụng Phân tích thành phần chính ( PCA: Principal Component
Analysis ) trong giảm chiều dữ liệu ( Dimensionality Reduction ) là một đề
tài hay và thú vị mang giá trị nghiên cứu và học tập cao. Cùng với sự yêu
thích bộ môn Đại số tuyến tính cũng như mong muốn tìm tòi học hỏi là lý do
nhóm em quyết định thực hiện đề tài này.
Đề tài được yêu cầu giải quyết các thông số dữ liệu và biểu diễn chúng 1 cách
trực quan. Để có thể thực hiện tốt các tiêu chí đề ra nhóm em cần tìm hiểu về
những kiến thức nền tảng về PCA trong Machine Learning và liên hệ với
những ứng dụng thực tế. Song song với đó cũng cần vận dụng những kiến thức
đã được các thầy cô giảng dạy để có thể hoàn thành đề tài một cách tốt nhất.
Sau khi thực hiện đề tài, nhóm em đã có cái nhìn sâu sắc hơn về sự gắn kết
giữa lý thuyết và thực tế. Cũng góp phần cũng cố kiến thức nền tảng về
chuyên đề Phân tích thành phần chính. Bên cạnh đó cũng giúp chúng em
phát huy khả năng làm việc nhóm, xử lí thông tin và dữ liệu, nâng cao hiểu
biết về sử dụng công nghệ thông tin trong học tập và công việc sau này.
5. Mục
lục Chương 3:
Ứng dụng thực
tế
Chương 4:
Kết luận
Chương 2:
Cơ sở lý thuyết
Chương 1:
Mở đầu • Sơ lược về đề tài
• Yêu cầu
• Điều kiện
• Nhiệm vụ
• Khái niệm cơ bản
• Áp dụng vào đề tài
• Các bước tiến hành
PCA
• Giới thiệu
• Thực tiễn
• Kết luận
7. 1.1. Sơ lược về Dimensionality Reduction
( giảm chiều dữ liệu ):
Là một trong những kỹ thuật quan trọng trong Machine Learning. Các feature vectors trong các
bài toán thực tế có thể có số chiều rất lớn, tới vài nghìn. Ngoài ra, số lượng các điểm dữ liệu
cũng thường rất lớn. Nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu có số chiều cao
này thì sẽ gặp khó khăn cả về việc lưu trữ và tốc độ tính toán. Vì vậy, giảm số chiều dữ liệu là
một bước quan trọng trong nhiều bài toán. Đây cũng được coi là một phương pháp nén dữ liệu.
8. Nêu cơ sở lý thuyết của phân tích thành
phần chính (PCA: principle component
analysis).
1.2.Yêu cầu đề tài:
Ứng dụng của phân tích PCA để giảm
chiều dữ liệu.
9. Sinh viên cần có kiến thức về bộ
môn Đại số tuyến tính nói chung và
hiểu biết cơ bản về phép phân tích
thành phần chính trong machine
learning nói riêng.
1.3. Điều kiện:
Tìm hiểu các ứng dụng phân tích
thành phần chính PCA thực tiễn.
10. 1.4.Nhiệm vụ Tìm hiểu về cơ sở lý thuyết nền tảng
của thuật toán PCA.
Không nhất thiết phải dùng matlab
để minh họa, nhưng phải có ít nhất
1 ví dụ thực tế.
12. 2.1-Khái niệm
cơ bản
Phương pháp phân tích thành phần chính ( PCA )
là phương pháp biến đổi từ một không gian nhiều
chiều thành một không gian mới ít chiều, cụ thể là
giảm chiều dữ liệu từ D về K < D là chỉ giữ lại K
là phần tử quan trọng nhất.
Mục tiêu của chúng ta là tìm ra K chiều mà có thể
đảm bảo rằng các dữ liệu khi được biểu diễn, không
bị trùng lắp không bị mất mát thông tin ( tách biệt
nhau hoàn toàn )
Tuy nhiên, việc làm này chắc chắn chưa phải tốt
nhất vì chúng ta chưa biết xác định thành phần nào
là quan trọng hơn. Hoặc trong trường hợp xấu nhất,
lượng thông tin mà mỗi thành phần mang là như
nhau, bỏ đi thành phần nào cũng dẫn đến việc mất
một lượng thông tin lớn.
13. 2.2- Áp dụng lí thuyết để phân tích đề tài:
PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có tương quan với nhau thành
tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có
tương quan lẫn nhau.
Hay nói cách khác, PCA chính là phương pháp đi tìm 1 hệ cơ sở mới sao cho thông tin dữ liệu
chủ yếu tập trung ở 1 vài tọa độ 1 cách trực quan, phần còn lại chỉ mang một lượng nhỏ thông
tin ( để đơn giản trong tính toán, PCA sẽ tìm 1 hệ trực chuẩn làm cơ sở mới ).
14. Giúp giảm số chiều dữ liệu - Giúp
visualization khi dữ liệu có quá
nhiều chiều thông tin.
Do PCA giúp tạo 1 hệ trục
tọa độ mới nên về mặt ý
nghĩa toán học, PCA giúp
chúng ta xây dựng những
biến factor mới là tổ hợp
tuyến tính của những biến
ban đầu.
Đặc tính
của PCA
Do dữ liệu ban đầu có số chiều
lớn (nhiều biến) thì PCA giúp
chúng ta xoay trục tọa độ, xây
dựng một trục tọa độ mới đảm
bảo độ biến thiên của dữ liệu và
giữ lại được nhiều thông tin nhất
mà không ảnh hưởng tới chất
lượng của các mô hình dự báo.
(Maximize the variability).
Trong không gian mới, có thể
giúp chúng ta khám phá thêm
những thông tin quý giá mới
khi mà tại chiều thông tin cũ
những thông tin quý giá này bị
che mất (Điển hình cho ví dụ về
chú lạc đà phía trên).
15. Một số hạn chế
Chỉ làm việc với
dữ liệu numeric.
Nhạy cảm với
các điểm outlier
( điểm dị biệt có
thể làm méo mó
tính chuẩn hóa
của các dữ liệu )
Không phù hợp
với các mô hình
phi tuyến, do
PCA hoàn toàn
dựa trên các biến
đổi tuyến tính
1 2 3
16. Các bước tiến hành PCA
Bước 5. Tỉnh ảnh 𝑨𝑻
𝑿𝑻
của véctơ 𝑿.
Dữ liệu 𝑿 ban đầu được xấp xỉ bởi 𝑿 ≈ 𝑨𝑿 + 𝑿.
Mỗi cột của 𝑨𝑿𝑻
chứa tọa độ của các hàng của ma trận ấy trong cơ sở từ các cột của ma trận
𝑷.
Bước 3. Tìm trị riêng của 𝑺 và sắp xếp theo
giá trị giảm dần
𝝀𝟏 > 𝝀𝟐 > ⋯ > 𝝀𝒎 và tìm các véctơ riêng
đơn vị ứng với các trị riêng.
Bước 4. Chọn 𝒌 trị riêng ban đầu và 𝒌 véctơ
riêng đơn vị ứng với các trị riêng này. Lập
ma trận A có các cột là các véctơ riêng đã
chọn. Ma trận A là phép biến đổi cần tìm.
Bước 2. Tính véctơ 𝑿 = 𝑿 − 𝑿 .
Tính ma trận hiệp phương sai: 𝑺 =
𝟏
𝑵−𝟏
𝑿𝑻
𝑿.
Bước 1. Tỉnh giá trị trung bình 𝑿 của 𝑿
18. 3.1- Giới thiệu
PCA ( Principal Component Analysis ), các components ( thành phần ) ở đây ta
nói thực chất là các vectors độc lập tuyến tính được chọn sao cho khi chiếu các
điểm dữ liệu lên vector đó thì các điểm dữ liệu có sự variance lớn nhất ( biến
động nhiều nhất, phương sai lớn nhất).
19. Xét một cách nhìn khác thì PCA cũng là một bài toán chuyển hệ tọa độ như hình dưới:
3.1- Giới thiệu
20. 3.2- Thực tiễn
Trong tài chính định lượng, phân tích
thành phần chính có thể được áp dụng
trực tiếp vào việc quản lý rủi ro của các
danh mục đầu tư phát sinh lãi suất. Giao
dịch nhiều công cụ hoán đổi thường là
một chức năng của 30–500 công cụ hoán
đổi có thể định giá trên thị trường được
tìm cách giảm xuống thường là 3 hoặc 4
thành phần chính, thể hiện đường đi của
lãi suất trên cơ sở vĩ mô.
Tài chính định lượng
Việc chuyển đổi rủi ro được thể hiện
dưới dạng các rủi ro thành hệ số tải
(hoặc hệ số nhân) cung cấp các đánh
giá và hiểu biết vượt ra ngoài khả
năng sẵn có để chỉ đơn giản là xem
xét chung các rủi ro đối với nhóm 30–
500 riêng lẻ.
21. Ứng dụng phân tích thành phần chính để đánh
giá các đặc tính hóa học và kháng khuẩn của
nọc ong mật Apis Mellifera:
Mục đích của nghiên cứu này là sử dụng Phân tích thành phần chính
(PCA) để làm rõ các mô hình phân bố chung hoặc sự tương đồng của
bốn thành phần chính (apamine, phospholipase A 2, peptide phân giải
tế bào mast, và melittin) của nọc ong được thu thập từ hai dòng ong
mật trong nhiều tháng và năm khác nhau.
Nội dung của các thành phần nọc ong chính này đã được phân tích bằng sắc
ký lỏng hiệu suất cao (HPLC). Ngoài ra, hoạt tính kháng khuẩn của sản
phẩm được đặc trưng bởi việc xác định Nồng độ ức chế tối thiểu (MIC).
Sử dụng PCA có thể tìm và mô tả mối tương quan giữa các thành phần
của nọc ong và hoạt tính kháng khuẩn của chúng. Đây có lẽ là nghiên
cứu đầu tiên trong đó thành phần và hoạt tính của nọc ong được so
sánh áp dụng cách tiếp cận như vậy. Nó được chỉ ra rằng dòng ong
dường như là tiêu chí duy nhất để phân loại mẫu nọc độc của ong.
Hơn nữa, mối tương quan chặt chẽ giữa phospholipase A2 và melittin đã được
xác nhận. Phân tích PCA cho thấy có mối quan hệ yếu giữa các thành phần
nọc ong mật được phân tích và giá trị MIC. Do đó, các thành phần nhỏ của
nọc ong có lẽ cũng ảnh hưởng đáng kể đến hoạt động kháng khuẩn của nó.
23. Kết luận
Qua đề tài về ứng dụng phân tích thành phần chính PCA để
giảm chiều dữ liệu, nhóm chúng em đã có cái nhìn sâu sắc
hơn về sự gắn kết giữa lý thuyết và thực tế ở bộ môn Đại số
tuyến tính nói riêng. Trong quá trình thực hiện đề tài, nhóm
chúng em đã tìm ra cho mình những kiến thức bổ ích và sâu
sắc về phương pháp giảm chiều dữ liệu cũng như cách thức
tìm ra K features – phân tích những thành phần chính.