SlideShare a Scribd company logo
1 of 35
Download to read offline
PHÂN CỤM DỮ LIỆU - CLUSTERING
Digitally signed by
hungngq@ueh.edu.vn
DN:
cn=hungngq@ueh.edu.vn
Date: 2023.07.03 18:21:36
+07'00'
Adobe Acrobat Reader
version: 2023.003.20215
Nội dung
01
02
Bài toán phân cụm dữ liệu
Mô hình quá trình phân cụm
03
04
Đặc điểm, phân loại và độ đo
phân cụm dữ liệu
Phân cụm dựa trên Phân cấp
05 Phân cụm dựa trên Phân hoạch
06 Đánh giá mô hình phân cụm
1. Giới thiệu phân cụm dữ liệu
• Định nghĩa: Là quá trình gom cụm/nhóm các
đối tượng/dữ liệu có đặc điểm tương đồng vào
các cụm/nhóm tương ứng. Trong đó:
• Các đối tượng trong cùng một cụm sẽ có những tính
chất tương tự nhau.
• Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các
tính chất khác nhau.
• Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu
chưa được gán nhãn. Đây là dữ liệu tự nhiên
thường thấy trong thực tế.
Minh họa quá trình phân cụm
2. Mô hình quá trình phân cụm dữ liệu
Các ứng dụng phân cụm trong kinh tế
• Dự báo khách hàng tiềm năng
• Phân tích xu hướng hành vi khách hàng
• Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà
cung cấp
• Phân tích đặc tính sản phẩm dịch vụ
• Đánh giá kết quả hoạt động kinh doanh
• Phân tích hành vi người dùng mạng xã hội
3. Đặc điểm, phân loại và độ đo phân cụm dữ liệu
• Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng
dữ liệu.
• Phân cụm thuộc nhóm phương pháp học không giám sát
(unsupervised learning) vì không biết trước được số nhóm (khác với
bài toán phân lớp)
• Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có
chất lượng cao:
o Độ tương đồng bên trong cụm cao
o Độ tương tự giữa các cụm thấp (khác biệt cao)
• Các ứng dụng điển hình:
o Công cụ phân cụm dữ liệu độc lập.
o Là giai đoạn tiền xử lý cho các thuật toán khác
Phân loại quá trình phân cụm dữ liệu
Độ đo phân cụm dữ liệu
• Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự
tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ
cho quá trình gom cụm
• Một số độ đo phân cụm:
• Euclid
• Cosin
• Minkowski:
Một số phương pháp tính khoảng cách
• Single-link: khoảng cách nhỏ nhất giữa 1 phần tử trong một
cụm với một phần tử ở cụm khác.
• Complete-link: khoảng cách lớn nhất giữa 1 phần tử trong một
cụm với một phần tử ở cụm khác.
Một số phương pháp tính khoảng cách
• Average-link: khoảng cách trung bình giữa 1 phần tử trong
một cụm với một phần tử ở cụm khác.
• Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.
Một số phương pháp tính khoảng cách
• Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2
cụm. Medoid là phần tử nằm ở trung tâm cụm
• Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm.
• Với mi và mj là trung bình của
các phần tử trong cụm Ci và
Cj
• Với Mi và Mj là trung tâm của
các phần tử trong cụm Ci và Cj
4. Phân cụm phân cấp (Hierarchical clustering)
• Ý tưởng: Xây dựng một cây phân cấp cho dữ liệu cần gom cụm
dựa trên:
o Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc
dissimilarity matrix)
o Độ đo khoảng cách giữa các cụm (single link, complete link…)
o Phương pháp này không cần xác định trước số cụm nhưng cần xác định
điều kiện dừng.
• Các phương pháp
điển hình:
Diana
Agnes
• Giải thuật Diana và Agnes đề xuất bởi Kaufmann và Rousseeuw và
được cài đặt vào các gói ứng dụng thống kê. Đây là hai phương pháp
có thứ tự thực hiện trái ngược nhau
• Sử dụng ma trận sai khác (dissimilarity matrix) và phương pháp
single-link.
Giải thuật xây dựng cây phân cấp
So sánh 02 giải thuật xây dựng cây phân cấp
Giải thuật: Agnes
• Theo chiến lược bottom up:
• Bắt đầu với những cụm chỉ là 1
phần tử.
• Ở mỗi bước, gom 2 cụm gần
nhau thành 1 cụm.
o Khoảng cách giữa 2 cụm là khoảng
cách giữa 2 điểm gần nhất từ hai
cụm, hoặc khoảng cách trung bình.
o Quá trình này lặp lại cho đến khi
tất cả các phần tử cùng thuộc một
cụm lớn.
• Kết quả quá trình phát là một
dendrogram (cây phân cấp)
Giải thuật: Diana
• Theo chiến lược top down:
• Bắt đầu với 1 cụm gồm tất cả phần
tử.
• Ở mỗi bước, chia cụm ban đầu thành
2 cụm.
o Khoảng cách giữa 2 cụm là khoảng cách
giữa 2 điểm gần nhất từ hai cụm, hoặc
khoảng cách trung bình.
o Thực hiện đệ quy trên các cụm mới được
tách ra và lặp lại cho đến khi mỗi phần
tử là 1 cụm.
• Kết quả quá trình phát là một
dendrogram (cây phân cấp)
Minh họa xây dựng cây phân cấp: Agnes
………
• Nhận xét: Kết quả là sơ đồ/cây biểu diễn sự phân rã các phần tử dữ
liệu thành nhiều cấp độ lồng nhau.
Diễn giải quá trình xây dựng cây phân cấp
Cây phân cấp
(Dendrogram)
Một số cây phân cấp được xây dựng
Ví dụ: phân cụm phân cấp tính trực tiếp (AGNES)
Độ đo: Euclid
Phương pháp đo: Single
Kết quả xây dựng cây phân cấp
Di chuyển
đường cắt xác
định số cụm
mong muốn
Nhận xét về phân cụm phân cấp (Hierarchical
clustering)
• Ưu điểm
1. Giải thuật đơn giản
2. Kết quả dễ hiểu
3. Không cần tham số đầu vào
• Nhược điểm
1. Không quay lui được
2. Tốc độ chậm khi dữ liệu lớn
3. Không xử lý với dữ liệu bị thiếu
4. Nhạy cảm với nhiễu
4. Phân cụm phân hoạch (Partitioning
Clustering)
• Ý tưởng: Phân tập dữ liệu có n phần tử
cho trước thành k tập con (k<=n), mỗi
tập con biểu diễn một cụm.
• Các cụm hình thành trên cơ sở tối ưu
hóa giá trị hàm độ đo tương tự (độ đo
phân cụm) sao cho:
o Mỗi đối tượng thuộc duy nhất 1 cụm, các
phần tử trong cụm có sự tương tự nhau.
o Mỗi cụm có ít nhất 1 phần tử
• Thuật toán điển hình: K-means, K-
mediods, Fuzzy C-means
Thuật toán K-means
• Tư tưởng: Xem mỗi đối tượng trong tập dữ liệu là một điểm
trong không gian d chiều (với d là số lượng thuộc tính của đối
tượng)
• Giải thuật K-means:
• Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
• Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu
các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với
kết quả của lần phân chia trước nó thì ta dừng thuật toán.
• Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình
cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi
phân chia ở bước 2.
• Bước 4: Quay lại bước 2.
• Bài toán: Có bộ dữ liệu gồm 4 đối tượng là 4 lọ thuốc bị mất
nhãn. Biết rằng 4 lọ này thuộc 2 loại khác nhau và mỗi lọ thuốc
có 2 thuộc tính là chỉ số khối và độ pH như bảng bên dưới. Áp
dụng thuật toán K-means để phân 4 đối tượng này vào 2 cụm
Ví dụ: phân cụm phân hoạch tính trực tiếp (K-mean)
Biểu diễn trực quan dữ liệu của bài toán
• Do đối tượng dữ liệu cho sẵn
có 2 thuộc tính nên ta có thể
xem mỗi đối tượng là một
điểm trong không gian hai
chiều với:
x: chỉ số khối.
y: độ pH.
• 04 lọ thuốc được biểu diễn
thành 04 điểm A, B, C, D trong
không gian hai chiều với các
tọa độ (x, y) tương ứng.
Độ
pH
Chỉ số khối
A (1;1)
B (2;1)
C (4;3)
D (5;4)
Khởi tạo thuật toán K-means
• Bước 1: Chọn 2 điểm ngẫu nhiên
C1 trùng A (1;1) và C2 trùng
B(2;1) làm 2 trung tâm của 2 cụm.
• Bước 2: Phân cụm cho các điểm
trong không gian dữ liệu bằng
cách tính khoảng cách Euclid từ
mỗi điểm đến từng trung tâm.
Độ
pH
Chỉ số khối
Lập bảng tính khoảng cách
1 0
0 1
0 1
0 1
Xây dựng bảng chuyển với 2
điểm C1 & C2 (Max = 0, Min =1)
Tính khoảng cách từ C1 & C2 đến các điểm
Nhóm các giá trị 1 lại
• Cụm 1: {A}
• Cụm 2: {B,C,D}
Bước 3: Cập nhật lại trung tâm của 2 cụm.
• C1 = (1;1)
• C2 =
𝑥𝐵+𝑥𝐶+𝑥𝐷
3
;
𝑦𝐵+𝑦𝐶+𝑦𝐷
3
= (3.67;2.67)
Xác định điểm trung tâm so điểm khởi tạo
• Bước 4: lặp lại Bước 2: phân cụm lại
cho các đối tượng dựa theo khoảng
cách với 2 trung tâm mới
4
Xây dựng bảng chuyển với 2 điểm C1 & C2 (Max = 0, Min =1)
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Bước 3: Cập nhật lại trung tâm
của 2 cụm.
• C1 = (1.5;1)
• C2 = (4.5;3.5)
Xác định điểm trung tâm so điểm trước
• Bước 4: lặp lại Bước 2: phân cụm lại
cho các đối tượng dựa theo khoảng
cách với 2 trung tâm mới
Xây dựng bảng chuyển với 2 điểm C1 & C2 (Max = 0, Min =1)
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Bước 3: Cập nhật lại trung tâm
của 2 cụm.
• C1 = (1.5;1)
• C2 = (4.5;3.5)
Kết quả phân cụm không đổi => Kết thúc
Nhận xét về phân cụm phân cấp (Partitioning
Clustering)
• Cần biết trước số lượng cụm k
• Nhạy cảm với nhiễu và ngoại biên (outliers)
• Không phù hợp với phân bố dữ liệu dạng
không lồi (non-convex)
• Kết quả (nghiệm) bài toán phụ thuộc vào cách
khởi tạo các trung tâm cụm ban đầu.
o Trường hợp 1: tốc độ hội tụ chậm
o Trường hợp 2: kết quả gom cụm không chính xác
(do chỉ tìm được các cực trị địa phương chứ không
phải toàn cục)
• Khắc phục:
o Áp dụng một số phương pháp tính số cụm
o Chạy thuật toán nhiều lần với các trung tâm khác
nhau để tìm giá trị cực tiểu của hàm mất mát
5. Đánh giá mô hình phân cụm
• Một số tiêu chí để đánh giá chất lượng
phân cụm là:
• Độ nén (compactness): các phần tử của cụm
phải “gần nhau”
• Độ phân cách (separation): khoảng cách
giữa các cụm nên “xa nhau”, phân cách rõ
ràng.
• Các phương pháp đánh giá việc phân
cụm dữ liệu: đánh giá ngoài, đánh giá
nội bộ, đánh giá tương đối.
Đánh giá nội bộ (Internal Validation)
• Ý tưởng: Là đánh giá kết quả phân cụm mà không có thông tin
từ bên ngoài, chủ yếu dựa trên các vector chính của dữ thông
qua ma trận xấp xỉ (proximity matrix).
• Tối ưu hóa các chỉ số nội bộ: độ nén (compactness), độ phân
tách (separation)
• Các độ đo được sử dụng trong
phương pháp này: Hubert’s statistic,
Silhouette index, Dunn’s index, F-
ratio, DBI (Davies Bouldin Index) ….
Đánh giá ngoài (External Validation)
• Ý tưởng: Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu
hướng phân cụm được chỉ định trước cho tập dữ liệu.
o So sánh độ sai khác giữa các cụm
oSo sánh với kết quả mẫu (đáp án)
Các độ đo được sử dụng
trong phương pháp này:
• Rand statistic
• Jaccard coefficient
• Folkes
• Mallows index
• ….
Đánh giá tương đối (Relative Validation)
• Đánh giá kết quả gom cụm bằng việc so sánh với:
oKết quả gom cụm ứng với các bộ trị thông số khác nhau.
oKết quả gom cụm của các phương pháp khác
Thank You
Vietnam
https://future.ueh.edu.v
n/

More Related Content

Similar to Phan-cum-du lieu V2.pdf

Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filteringBui Loc
 
Dm -chapter_4_-_classification
Dm  -chapter_4_-_classificationDm  -chapter_4_-_classification
Dm -chapter_4_-_classificationDuy Vọng
 
Bai1_GioiThieuOOP.pptx
Bai1_GioiThieuOOP.pptxBai1_GioiThieuOOP.pptx
Bai1_GioiThieuOOP.pptxHLan34
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayTráng Hà Viết
 
Thuật toán Brich , Khai phá dữ liệu
Thuật toán Brich , Khai phá dữ liệu Thuật toán Brich , Khai phá dữ liệu
Thuật toán Brich , Khai phá dữ liệu Lương Bá Hợp
 
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...Development and Policies Research Center (DEPOCEN)
 
Tổng hợp thống kê 2
Tổng hợp thống kê 2Tổng hợp thống kê 2
Tổng hợp thống kê 2Võ Thùy Linh
 
Thuat toan pca full 24-5-2017
Thuat toan pca full   24-5-2017 Thuat toan pca full   24-5-2017
Thuat toan pca full 24-5-2017 Tuan Remy
 
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKALựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKAHo Quang Thanh
 
Bai 1 tong quan ve ctdl&amp;gt
Bai 1   tong quan ve ctdl&amp;gtBai 1   tong quan ve ctdl&amp;gt
Bai 1 tong quan ve ctdl&amp;gtTrangThu251076
 
Lớp 11 --chương 4 -- bài 11 --Kiểu mảng
Lớp 11 --chương 4 -- bài 11 --Kiểu mảngLớp 11 --chương 4 -- bài 11 --Kiểu mảng
Lớp 11 --chương 4 -- bài 11 --Kiểu mảngHoàng Kỳ Anh
 
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdf
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdfKết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdf
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdfMan_Ebook
 
10 đề tổng hợp
10 đề tổng hợp10 đề tổng hợp
10 đề tổng hợpHỹ Thành
 
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5Tổng hợp các công thức Toán lớp 4 - Toán lớp 5
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5BOIDUONGTOAN.COM
 
Chon mau va co mau hvm
Chon mau va co mau hvmChon mau va co mau hvm
Chon mau va co mau hvmNgoc Hoang
 

Similar to Phan-cum-du lieu V2.pdf (20)

Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filtering
 
Dm -chapter_4_-_classification
Dm  -chapter_4_-_classificationDm  -chapter_4_-_classification
Dm -chapter_4_-_classification
 
Bai1_GioiThieuOOP.pptx
Bai1_GioiThieuOOP.pptxBai1_GioiThieuOOP.pptx
Bai1_GioiThieuOOP.pptx
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc may
 
Thuật toán Brich , Khai phá dữ liệu
Thuật toán Brich , Khai phá dữ liệu Thuật toán Brich , Khai phá dữ liệu
Thuật toán Brich , Khai phá dữ liệu
 
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
 
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc ParticleLuận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
 
Tổng hợp thống kê 2
Tổng hợp thống kê 2Tổng hợp thống kê 2
Tổng hợp thống kê 2
 
Thuat toan pca full 24-5-2017
Thuat toan pca full   24-5-2017 Thuat toan pca full   24-5-2017
Thuat toan pca full 24-5-2017
 
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKALựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
 
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTITKHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
 
Bai 1 tong quan ve ctdl&amp;gt
Bai 1   tong quan ve ctdl&amp;gtBai 1   tong quan ve ctdl&amp;gt
Bai 1 tong quan ve ctdl&amp;gt
 
Thiet ke csdl pt
Thiet ke csdl ptThiet ke csdl pt
Thiet ke csdl pt
 
Emailing buoi 2 thuat toan
Emailing buoi 2   thuat toanEmailing buoi 2   thuat toan
Emailing buoi 2 thuat toan
 
Lớp 11 --chương 4 -- bài 11 --Kiểu mảng
Lớp 11 --chương 4 -- bài 11 --Kiểu mảngLớp 11 --chương 4 -- bài 11 --Kiểu mảng
Lớp 11 --chương 4 -- bài 11 --Kiểu mảng
 
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdf
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdfKết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdf
Kết hợp giải thuật di truyền và logic mờ giải bài toán tối ưu đa mục tiêu.pdf
 
10 đề tổng hợp
10 đề tổng hợp10 đề tổng hợp
10 đề tổng hợp
 
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5Tổng hợp các công thức Toán lớp 4 - Toán lớp 5
Tổng hợp các công thức Toán lớp 4 - Toán lớp 5
 
Chon mau va co mau hvm
Chon mau va co mau hvmChon mau va co mau hvm
Chon mau va co mau hvm
 

Phan-cum-du lieu V2.pdf

  • 1. PHÂN CỤM DỮ LIỆU - CLUSTERING Digitally signed by hungngq@ueh.edu.vn DN: cn=hungngq@ueh.edu.vn Date: 2023.07.03 18:21:36 +07'00' Adobe Acrobat Reader version: 2023.003.20215
  • 2. Nội dung 01 02 Bài toán phân cụm dữ liệu Mô hình quá trình phân cụm 03 04 Đặc điểm, phân loại và độ đo phân cụm dữ liệu Phân cụm dựa trên Phân cấp 05 Phân cụm dựa trên Phân hoạch 06 Đánh giá mô hình phân cụm
  • 3. 1. Giới thiệu phân cụm dữ liệu • Định nghĩa: Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng. Trong đó: • Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau. • Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau. • Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn. Đây là dữ liệu tự nhiên thường thấy trong thực tế.
  • 4. Minh họa quá trình phân cụm
  • 5. 2. Mô hình quá trình phân cụm dữ liệu
  • 6. Các ứng dụng phân cụm trong kinh tế • Dự báo khách hàng tiềm năng • Phân tích xu hướng hành vi khách hàng • Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp • Phân tích đặc tính sản phẩm dịch vụ • Đánh giá kết quả hoạt động kinh doanh • Phân tích hành vi người dùng mạng xã hội
  • 7. 3. Đặc điểm, phân loại và độ đo phân cụm dữ liệu • Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. • Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp) • Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: o Độ tương đồng bên trong cụm cao o Độ tương tự giữa các cụm thấp (khác biệt cao) • Các ứng dụng điển hình: o Công cụ phân cụm dữ liệu độc lập. o Là giai đoạn tiền xử lý cho các thuật toán khác
  • 8. Phân loại quá trình phân cụm dữ liệu
  • 9. Độ đo phân cụm dữ liệu • Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm • Một số độ đo phân cụm: • Euclid • Cosin • Minkowski:
  • 10. Một số phương pháp tính khoảng cách • Single-link: khoảng cách nhỏ nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác. • Complete-link: khoảng cách lớn nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.
  • 11. Một số phương pháp tính khoảng cách • Average-link: khoảng cách trung bình giữa 1 phần tử trong một cụm với một phần tử ở cụm khác. • Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.
  • 12. Một số phương pháp tính khoảng cách • Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm. Medoid là phần tử nằm ở trung tâm cụm • Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm. • Với mi và mj là trung bình của các phần tử trong cụm Ci và Cj • Với Mi và Mj là trung tâm của các phần tử trong cụm Ci và Cj
  • 13. 4. Phân cụm phân cấp (Hierarchical clustering) • Ý tưởng: Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên: o Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) o Độ đo khoảng cách giữa các cụm (single link, complete link…) o Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng. • Các phương pháp điển hình: Diana Agnes
  • 14. • Giải thuật Diana và Agnes đề xuất bởi Kaufmann và Rousseeuw và được cài đặt vào các gói ứng dụng thống kê. Đây là hai phương pháp có thứ tự thực hiện trái ngược nhau • Sử dụng ma trận sai khác (dissimilarity matrix) và phương pháp single-link. Giải thuật xây dựng cây phân cấp
  • 15. So sánh 02 giải thuật xây dựng cây phân cấp Giải thuật: Agnes • Theo chiến lược bottom up: • Bắt đầu với những cụm chỉ là 1 phần tử. • Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm. o Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. o Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn. • Kết quả quá trình phát là một dendrogram (cây phân cấp) Giải thuật: Diana • Theo chiến lược top down: • Bắt đầu với 1 cụm gồm tất cả phần tử. • Ở mỗi bước, chia cụm ban đầu thành 2 cụm. o Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. o Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần tử là 1 cụm. • Kết quả quá trình phát là một dendrogram (cây phân cấp)
  • 16. Minh họa xây dựng cây phân cấp: Agnes
  • 17. ……… • Nhận xét: Kết quả là sơ đồ/cây biểu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau. Diễn giải quá trình xây dựng cây phân cấp Cây phân cấp (Dendrogram)
  • 18. Một số cây phân cấp được xây dựng
  • 19. Ví dụ: phân cụm phân cấp tính trực tiếp (AGNES) Độ đo: Euclid Phương pháp đo: Single
  • 20. Kết quả xây dựng cây phân cấp Di chuyển đường cắt xác định số cụm mong muốn
  • 21. Nhận xét về phân cụm phân cấp (Hierarchical clustering) • Ưu điểm 1. Giải thuật đơn giản 2. Kết quả dễ hiểu 3. Không cần tham số đầu vào • Nhược điểm 1. Không quay lui được 2. Tốc độ chậm khi dữ liệu lớn 3. Không xử lý với dữ liệu bị thiếu 4. Nhạy cảm với nhiễu
  • 22. 4. Phân cụm phân hoạch (Partitioning Clustering) • Ý tưởng: Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm. • Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho: o Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau. o Mỗi cụm có ít nhất 1 phần tử • Thuật toán điển hình: K-means, K- mediods, Fuzzy C-means
  • 23. Thuật toán K-means • Tư tưởng: Xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng) • Giải thuật K-means: • Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm. • Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán. • Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2. • Bước 4: Quay lại bước 2.
  • 24. • Bài toán: Có bộ dữ liệu gồm 4 đối tượng là 4 lọ thuốc bị mất nhãn. Biết rằng 4 lọ này thuộc 2 loại khác nhau và mỗi lọ thuốc có 2 thuộc tính là chỉ số khối và độ pH như bảng bên dưới. Áp dụng thuật toán K-means để phân 4 đối tượng này vào 2 cụm Ví dụ: phân cụm phân hoạch tính trực tiếp (K-mean)
  • 25. Biểu diễn trực quan dữ liệu của bài toán • Do đối tượng dữ liệu cho sẵn có 2 thuộc tính nên ta có thể xem mỗi đối tượng là một điểm trong không gian hai chiều với: x: chỉ số khối. y: độ pH. • 04 lọ thuốc được biểu diễn thành 04 điểm A, B, C, D trong không gian hai chiều với các tọa độ (x, y) tương ứng. Độ pH Chỉ số khối A (1;1) B (2;1) C (4;3) D (5;4)
  • 26. Khởi tạo thuật toán K-means • Bước 1: Chọn 2 điểm ngẫu nhiên C1 trùng A (1;1) và C2 trùng B(2;1) làm 2 trung tâm của 2 cụm. • Bước 2: Phân cụm cho các điểm trong không gian dữ liệu bằng cách tính khoảng cách Euclid từ mỗi điểm đến từng trung tâm. Độ pH Chỉ số khối
  • 27. Lập bảng tính khoảng cách 1 0 0 1 0 1 0 1 Xây dựng bảng chuyển với 2 điểm C1 & C2 (Max = 0, Min =1) Tính khoảng cách từ C1 & C2 đến các điểm Nhóm các giá trị 1 lại • Cụm 1: {A} • Cụm 2: {B,C,D} Bước 3: Cập nhật lại trung tâm của 2 cụm. • C1 = (1;1) • C2 = 𝑥𝐵+𝑥𝐶+𝑥𝐷 3 ; 𝑦𝐵+𝑦𝐶+𝑦𝐷 3 = (3.67;2.67)
  • 28. Xác định điểm trung tâm so điểm khởi tạo • Bước 4: lặp lại Bước 2: phân cụm lại cho các đối tượng dựa theo khoảng cách với 2 trung tâm mới 4 Xây dựng bảng chuyển với 2 điểm C1 & C2 (Max = 0, Min =1) Cụm 1 :{A, B} Cụm 2 :{C, D} Bước 3: Cập nhật lại trung tâm của 2 cụm. • C1 = (1.5;1) • C2 = (4.5;3.5)
  • 29. Xác định điểm trung tâm so điểm trước • Bước 4: lặp lại Bước 2: phân cụm lại cho các đối tượng dựa theo khoảng cách với 2 trung tâm mới Xây dựng bảng chuyển với 2 điểm C1 & C2 (Max = 0, Min =1) Cụm 1 :{A, B} Cụm 2 :{C, D} Bước 3: Cập nhật lại trung tâm của 2 cụm. • C1 = (1.5;1) • C2 = (4.5;3.5) Kết quả phân cụm không đổi => Kết thúc
  • 30. Nhận xét về phân cụm phân cấp (Partitioning Clustering) • Cần biết trước số lượng cụm k • Nhạy cảm với nhiễu và ngoại biên (outliers) • Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex) • Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu. o Trường hợp 1: tốc độ hội tụ chậm o Trường hợp 2: kết quả gom cụm không chính xác (do chỉ tìm được các cực trị địa phương chứ không phải toàn cục) • Khắc phục: o Áp dụng một số phương pháp tính số cụm o Chạy thuật toán nhiều lần với các trung tâm khác nhau để tìm giá trị cực tiểu của hàm mất mát
  • 31. 5. Đánh giá mô hình phân cụm • Một số tiêu chí để đánh giá chất lượng phân cụm là: • Độ nén (compactness): các phần tử của cụm phải “gần nhau” • Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng. • Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.
  • 32. Đánh giá nội bộ (Internal Validation) • Ý tưởng: Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ thông qua ma trận xấp xỉ (proximity matrix). • Tối ưu hóa các chỉ số nội bộ: độ nén (compactness), độ phân tách (separation) • Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F- ratio, DBI (Davies Bouldin Index) ….
  • 33. Đánh giá ngoài (External Validation) • Ý tưởng: Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân cụm được chỉ định trước cho tập dữ liệu. o So sánh độ sai khác giữa các cụm oSo sánh với kết quả mẫu (đáp án) Các độ đo được sử dụng trong phương pháp này: • Rand statistic • Jaccard coefficient • Folkes • Mallows index • ….
  • 34. Đánh giá tương đối (Relative Validation) • Đánh giá kết quả gom cụm bằng việc so sánh với: oKết quả gom cụm ứng với các bộ trị thông số khác nhau. oKết quả gom cụm của các phương pháp khác