Tập thô và bài toán phân cụm.pdf

1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ BÍCH THẢO
TẬP THÔ VÀ BÀI TOÁN
PHÂN CỤM DỮ LIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2014

2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ BÍCH THẢO
TẬP THÔ VÀ BÀI TOÁN
PHÂN CỤM DỮ LIỆU
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN
Hà Nội - 2014

3
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Kết quả
trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kì công
trình nào khác.
Tác giả
Vũ Thị Bích Thảo

4
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn với lòng kính trọng và biết ơn sâu sắc tới PGS.TS
Hoàng Xuân Huấn. Thầy đã hƣớng dẫn, chỉ bảo tận tình, cung cấp cho tôi những
kiến thức bổ ích đồng thời tạo động lực giúp tôi hoàn thành luận văn đúng thời
hạn. Thầy luôn theo sát, hỗ trợ nhiệt tình, giải đáp những vƣớng mắc trong quá
trình tôi thực hiện luận văn. Tôi xin chân thành cảm ơn các Thầy, Cô trong khoa
Công nghệ thông tin, trƣờng Đại học Công nghệ, đã tạo điều kiện cũng nhƣ môi
trƣờng học tập tốt trong suốt quá trình tôi theo học ở đây.
Tôi cũng xin gửi lời cảm ơn tới BGH trƣờng CĐCN Thực Phẩm, lãnh đạo
Khoa CNTT cùng toàn thể cán bộ, giáo viên trong khoa đã hỗ trợ, tạo điều kiện
tốt nhất để tôi có thể hoàn thành chƣơng trình học.
Cuối cùng tôi xin cảm ơn gia đình hai bên nội, ngoại đã ủng hộ giúp đỡ
tôi rất nhiều về mặt tinh thần trong tất cả những công việc mà tôi đã thực hiện.

5
MỤC LỤC
LỜI CAM ĐOAN............................................................................................................3
LỜI CẢM ƠN..................................................................................................................4
MỤC LỤC.......................................................................................................................5
DANH MỤC KÝ HIỆU VIẾT TẮT ...............................................................................7
DANH MỤC CÁC HÌNH VẼ .....................................................................................8
MỞ ĐẦU .........................................................................................................................9
CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU ...........................................12
1.1. Độ tƣơng đồng ....................................................................................................13
1.2. Các phƣơng pháp và các thuật toán phân cụm dữ liệu .......................................15
1.2.1 Phƣơng pháp dựa vào hàm mục tiêu................................................................16
1.2.2. Các phƣơng pháp phân cụm phân cấp ............................................................20
1.2.3. Các phƣơng pháp dựa vào mật độ...................................................................25
1.2.4. Các phƣơng pháp phân cụm dựa trên lƣới......................................................29
CHƢƠNG 2: LÝ THUYẾT TẬP THÔ.........................................................................34
2.1 Hệ thông tin và hệ quyết định ..............................................................................34
2.2 Tính không phân biệt đƣợc (Indiscernibility) ......................................................36
2.3 Xấp xỉ tập hợp......................................................................................................38
CHƢƠNG 3: TẬP THÔ VÀ BÀI TOÁN PHÂN CỤM...............................................43
3.1. Phân cụm thô (Rough C-means) .........................................................................44
3.2. Phân cụm mờ.......................................................................................................47
3.3. Phân cụm thô-mờ (Rough-Fuzzy C-means) .......................................................50

6
3.4. Phân cụm bóng....................................................................................................52
CHƢƠNG 4. ỨNG DỤNG RCM TRONG PHÂN CỤM ẢNH...................................58
4.1 Phân vùng ảnh:.....................................................................................................58
4.2 Ảnh và những khái niệm liên quan ......................................................................59
4.2.1 Điểm ảnh (Picture Element).............................................................................59
4.2.2 Độ phân giải của ảnh........................................................................................60
4.2.3 Mức xám của ảnh.............................................................................................60
4.2 Phân cụm ảnh sử dụng phân cụm thô và phân cụm mờ.......................................61
4.3 Thử nghiệm phân cụm ảnh sử dụng phân cụm thô và phân cụm mờ ..................61
4.4 So sánh và đánh giá:............................................................................................65
KẾT LUẬN ...................................................................................................................68
Tài liệu tham khảo.........................................................................................................69

7
DANH MỤC KÝ HIỆU VIẾT TẮT
STT Từ viết tắt Từ hoặc cụm từ
1 FCM
Fuzzy C-Means
(Thuật toán phân cụm mờ)
2 RCM
Rough C-Means
(Thuật toán phân cụm thô)
3 RFCM
Rough Fuzzy C-Means
(Thuật toán phân cụm thô- mờ)
4 SCM
Shadowed C-Means
(Thuật toán phân cụm bóng)
5 RGB Red Green Blue
6 BIRCH
Balanced Iterative Reducing and
Clustering using Hierarchies
7 CURE Clustering Using Representatives
8 OPTICS
Ordering Point To Identify the Clustering
Structure
9 STING A STatistical INformation Grid approach
10 CF Clustering Feature

8
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Ví dụ về phân cụm..........................................................................................12
Hình 1.2 Biểu đồ hình sao thể hiện 3 cụm trong ma trận bộ phận U............................17
Hình 1.3 Biểu đồ biểu diễn các mẫu trong phân cụm phân cấp....................................21
Hình 1.4 Ba cách tính khoảng cách giữa hai cụm.........................................................22
Hình 1.5 Trộn 2 cụm theo thuật toán CURE.................................................................25
Hình 1.6 Hai cụm đƣợc tìm bởi thuật toán DBSCAN...................................................27
Hình 1.7 Thứ tự cụm theo OPTICS...............................................................................29
Hình 1.8 Ba tầng liên tiếp nhau của cấu trúc STING....................................................30
Hình 1.9 CLIQUE xác định các vùng tiềm năng dựa trên các đơn vị dày đặc .............33
Hình 2.1: Hình minh họa khái niệm tập thô..................................................................34
Hình 3.1 Ba vùng của một cụm.....................................................................................45
Hình 3.2: Hình minh họa cụm mờ.................................................................................47
Hình 3.3. Các tập bóng đƣợc tạo bởi tập mờ thông qua một ngƣỡng ...........................54
Hình 3.4. Các tập bóng đƣợc tạo ra bởi hàm thành viên mờ f(x)..................................56
Hình 4.1 Minh họa ảnh đã phân vùng ...........................................................................58
Hình 4.2: Chuyển hình ảnh từ hệ màu RGB sang ảnh xám ..........................................62
Hình 4.3 Hình ảnh chụp cắt lớp sọ ngƣời......................................................................63
Hình 4.4 Kết quả sau khi sử dụng phân cụm mờ ..........................................................64
Hình 4.5 Kết quả sau khi sử dụng phân cụm thô...........Error! Bookmark not defined.
Hình 4.7 Kết quả sau khi sử dụng phân cụm mờ ..........................................................65
Hình 4.8 Kết quả sau khi sử dụng phân cụm thô...........Error! Bookmark not defined.

9
MỞ ĐẦU
Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó
đƣợc ứng dụng rộng rãi và đa dạng trong các ngành khoa học nhƣ sinh học, tâm
lý học, y học, ngành marketing, thị giác máy tính, và điều kiển học v.v. Phân
cụm dữ liệu tổ chức dữ liệu bằng cách nhóm các đối tƣợng có độ tƣơng đồng
cao vào một cụm, các đối tƣợng thuộc các cụm khác nhau có độ tƣơng đồng
thấp hơn so với các đối tƣợng trong cùng một cụm. Tùy theo đặc điểm cấu trúc
của tập dữ liệu và mục đích sử dụng, có các phƣơng pháp giải quyết khác nhau
nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào
mật độ và phân cụm dựa vào lƣới.
Thông thƣờng, thông tin về thế giới xung quanh là không chính xác,
không đầy đủ, không chắc chắn hoặc chồng chéo. Đó cũng là vấn đề gặp phải
khi phân cụm dữ liệu. Phân cụm đƣợc chia làm hai loại phân cụm là phân cụm
cứng và phân cụm mềm. Trong phân cụm cứng đối tƣợng đƣợc phân thành các
cụm khác nhau, mỗi đối tƣợng thuộc về chính xác một cụm, ngƣợc lại ở phân
cụm mềm các đối tƣợng có thể thuộc về nhiều hơn một cụm và mỗi đối tƣợng có
độ thuộc với cụm. Cụ thể trong luận văn, tôi sẽ nghiên cứu các thuật toán phân
cụm trong cả hai loại phân cụm này: Phân cụm thô (phân cụm cứng) và phân
cụm mờ (phân cụm mềm). Ngoài ra tôi cũng nghiên cứu thêm về 2 thuật toán
kết hợp từ hai loại phân cụm trên là phân cụm thô mờ và phân cụm bóng.
Năm 1965, giáo sƣ Lotfi A. Zadeh (Đại học California ở Berkeley) đề
xuất lý thuyết tập mờ (fuzzy set), là phần mở rộng của lý thuyết tập hợp truyền
thống. Ý tƣởng chính của lý thuyết tập mờ là các phần tử của tập có độ thuộc
trong khoảng [0,1] thay vì giá trị nhị phân. Nó là công cụ mô hình hóa sự không
chắc chắn, không rõ ràng trong hệ thống phức tạp. Trong phân cụm mờ, thuật
toán thƣờng đƣợc sử dụng nhất là Fuzzy C-Means (FCM) đƣợc đề xuất vào năm
1973 bởi J.C Dunn và đƣợc cải tiến lại bởi Bezděk vào năm 1981. FCM thƣờng
đƣợc sử dụng để xử lý trƣờng hợp các cụm chồng chéo nhau, tức là một số đối
tƣợng có thể thuộc về nhiều hơn một cụm. Trong đó, mỗi một đối tƣợng có độ
thuộc khác nhau đối với các cụm, chứ không hoàn toàn chỉ thuộc về một cụm
đƣợc biểu diễn qua ma trận phân hoạch. FCM sử dụng giá trị trung bình (mean)
độ thuộc của các đối tƣợng trong ma trận phân hoạch làm tâm cụm. Các bƣớc

10
trong thuật toán là quá trình thực hiện cập nhật các đối tƣợng của cụm và ma
trận phân hoạch. Thuật toán chi tiết sẽ đƣợc trình bày cụ thể trong luận văn.
Đến năm 1982, Zdzislaw Pawlak đề xuất ra lý thuyết tập thô với mục đích
là để phân loại thông tin và tri thức không chính xác hoặc không đầy đủ. Khái
niệm cơ bản của lý thuyết tập thô là xấp xỉ trên và xấp xỉ dƣới của một tập dữ
liệu. Xấp xỉ dƣới bao gồm những đối tƣợng chắc chắn thuộc về cụm, trong khi
xấp xỉ trên bao gồm những đối tƣợng có thể đƣợc phân lớp là thành viên không
chắc chắn của cụm. Mỗi tập đƣợc xác định thông qua xấp xỉ trên và xấp xỉ dƣới
đƣợc gọi là tập thô. Trong khuôn khổ luận văn, tôi tìm hiểu và trình bày cụ thể
thuật toán Rough C-Means (RCM). Thuật toán RCM đƣợc Lingras và West đề
xuất năm 2004 [4]. Trong đó, mỗi cụm có vùng xấp xỉ trên và vùng xấp xỉ dƣới
của riêng mình. Việc xác định cụm phụ thuộc vào hai vùng xấp xỉ, không phải
tất cả các đối tƣợng nhƣ trong FCM. Cụ thể, nếu nhƣ FCM xác định cụm dựa
vào độ thuộc của đối tƣợng vào cụm thì RCM lựa chọn cụm bằng cách so sánh
khoảng cách từ đối tƣợng tới tâm cụm so với một ngƣỡng mà ngƣời dùng tự
chọn. Tất cả các đối tƣợng đƣợc chia vào ba vùng, cụ thể là, vùng lõi (Core
level), vùng biên (Boundary level) và vùng loại trừ (Exclusion level). Các đối
tƣợng nằm ở vùng lõi chắc chắn thuộc về cụm. Các đối tƣợng ở vùng biên có thể
thuộc về cụm. Các đối tƣợng khác thuộc phạm vi vùng loại trừ không thuộc
cụm.
Ngoài ra, trong luận văn tôi trình bày chi tiết hai thuật toán nữa là phân
cụm thô-mờ, phân cụm bóng tƣơng ứng là Rough Fuzzy C-Means (RFCM) và
Shadowed C –Means (SCM). RFCM là thuật toán kết hợp từ FCM và RCM,
trong đó cách xác định cụm của RFCM giống nhƣ RCM là dựa vào hai vùng xấp
xỉ trên và xấp xỉ dƣới. Tuy nhiên cách xác định các vùng xấp xỉ này không dựa
vào khoảng cách từ các đối tƣợng tới tâm mà dựa vào độ thuộc của phần tử đối
với cụm giống nhƣ FCM. Thuật toán này giúp cho việc phân cụm mạnh hơn so
với hai thuật toán phân cụm trƣớc.
Đối với SCM, các đối tƣợng cũng đƣợc chia vào ba vùng tƣơng tự nhƣ
trong RCM nhƣng tên gọi và cách xác định mỗi vùng là khác nhau. Ba vùng lõi,
vùng biên và vùng loại trừ trong lý thuyết tập thô tƣơng ứng với ba giá trị logic
0,1, và [0,1] trong tập bóng, cụ thể, lõi (Core), loại trừ (Exclusion), bóng

11
(shadow). Ngoài ra, SCM tạo ra sự khác biệt với FCM là nó tăng độ thuộc của
một số phần tử tới 1 và giảm độ thuộc của một số phần tử khác về 0 để làm tăng
sự tƣơng phản của các phần tử nhằm làm giảm sự chồng chéo không chắc chắn
nhƣ ở trong FCM. Theo khía cạnh này, tập bóng có thể đƣợc coi là cầu nối giữa
tập mờ và thô.
Hiện nay phân cụm ảnh là một vấn đề đang nhận đƣợc nhiều sự quan tâm
từ các nhà nghiên cứu. Mục đích là để đơn giản hóa hoặc làm nổi bật một số đối
tƣợng nhằm dễ dàng hơn trong việc phân tích hình ảnh. Để phân cụm ảnh, phải
chuyển các điểm màu của ảnh sang hệ màu xám với giá trị từ 0 đến 255 sau đó
áp dụng thuật toán phân cụm. Trƣớc đây, FCM đƣợc sử dụng nhiều trong phân
cụm ảnh và nó đƣợc ứng dụng trong nhiều lĩnh vực khác nhau nhƣ phân tích
hình ảnh y tế, phát hiện các đối tƣợng,… Trong cuốn luận văn này, tôi đã nghiên
cứu và áp dụng RCM cho phân cụm ảnh, từ đó so sánh sự khác biệt so với phân
cụm ảnh sử dụng FCM.
Luận văn của tôi đƣợc chia làm 4 chƣơng với nội dung nhƣ sau:
Chƣơng 1: Tổng quan về phân cụm dữ liệu. Giới thiệu về phân cụm dữ
liệu và các phƣơng pháp phân cụm với mỗi phƣơng pháp trình bày một thuật
toán tƣơng ứng.
Chƣơng 2: Lý thuyết tập thô. Trình bày tổng quan về lý thuyết tập thô bao
gồm hệ thông tin, hệ quyết định, tính không phân biệt đƣợc và xấp xỉ tập hợp.
Chƣơng 3: Tập thô và bài toán phân cụm. Giới thiệu các thuật toán phân
cụm: Phân cụm thô, phân cụm mờ, phân cụm thô-mờ, phân cụm bóng, các bƣớc
phân cụm và công thức chi tiết của từng thuật toán.
Chƣơng 4: Ứng dụng RCM trong phân cụm ảnh. Xây dựng phân cụm ảnh
bằng RCM, đƣa ra kết quả phân cụm, đánh giá và so sánh với phân cụm ảnh
bằng FCM.

12
CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Bài toán phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu thuộc
lĩnh vực học không giám sát, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ
liệu tự nhiên tiềm ẩn đƣợc quan tâm trong tập dữ liệu lớn, từ đó cung cấp các
thông tin hữu ích hỗ trợ cho việc ra quyết định. Các thuật toán phân cụm hƣớng
tới việc tìm kiếm cấu trúc trong dữ liệu. Phƣơng pháp này còn đƣợc gọi là “học
không thầy” hay “học không có giám sát” (Unsupervised Learning) trong lĩnh
vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo nói
chung.
Một cụm bao gồm một tập các đối tƣợng có độ tƣơng đồng cao. Định
nghĩa về cụm đƣợc phát biểu một cách không hình thức nhƣ sau: Một cụm là
một tập các thực thể (các đối tƣợng) tƣơng tự nhau, và các thực thể ở các cụm
khác nhau thì không giống nhau.
Hình 1.1 Ví dụ về phân cụm
Tùy vào từng ứng dụng, đặc tính của dữ liệu và từng phƣơng pháp phân
cụm cụ thể, chúng ta có thể xem xét các dữ liệu nhƣ là các điểm trong không
gian thỏa mãn điều kiện độ tƣơng đồng giữa hai điểm bất kỳ trong một cụm lớn
hơn độ tƣơng đồng giữa một điểm bất kỳ trong cụm đó với một điểm bất kỳ
không thuộc cụm hoặc các cụm có thể đƣợc mô tả nhƣ là các vùng chứa các đối

13
tƣợng có mật độ cao trong không gian nhiều chiều, đƣợc tách với các vùng chứa
các đối tƣợng có mật độ thấp hơn.
Chúng ta có thể dễ dàng phát biểu không hình thức về một cụm, nhƣng lại
rất khó để có thể đƣa ra một định nghĩa hình thức về cụm. Bởi vì thực tế thì các
đối tƣợng đƣợc nhóm vào trong các cụm theo các mục đích khác nhau trong
từng ứng dụng. Dữ liệu có thể cho thấy các cụm theo hình dạng và theo các kích
thƣớc cụm.
Các vấn đề liên quan tới bài toán phân cụm dữ liệu là vấn đề biểu diễn dữ
liệu trong máy tính, xác định phƣơng pháp, từ đó đƣa ra thuật toán cụ thể để áp
dụng, đồng thời xác định độ tƣơng đồng giữa các đối tƣợng. Đối với các thuật
toán trong phƣơng pháp dựa vào phân hoạch thì chúng ta còn phải xây dựng
hàm đánh giá phù hợp để thuật toán cho ra kết quả phân cụm tốt.
1.1. Độ tương đồng
Độ tƣơng đồng giữa các đối tƣợng mô tả tính chất giống hoặc khác nhau
giữa chúng theo một ý nghĩa nào đó. Có rất nhiều hàm đƣợc dùng để biểu diễn
độ tƣơng đồng giữa các đối tƣợng. Tuy nhiên, trong khuôn khổ của luận văn chỉ
trình bày một số các hàm đo tƣơng đồng phổ biến gọi là các hàm khoảng cách.
Khoảng cách giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k) phải thỏa mãn
các tính chất sau:
1. d(i,i)=0 với mọi i.
2. d(i,k)=d(k,i) với mọi cặp (i,k).
3. d(i,k)>=0 với mọi cặp (i,k).
Hàm đánh giá độ tƣơng đồng có thể đƣợc xác định theo một số cách. Giả
sử rằng chúng ta có một ma trận mẫu [xij] với xij là giá trị của đặc trƣng thứ j của
mẫu i. Tất cả các đặc trƣng là liên tục và đƣợc ƣớc lƣợng theo tỷ lệ xích. Hàm
khoảng cách phổ biến là khoảng cách Minkowski (1) dùng để ƣớc lƣợng độ
tƣơng đồng. Mẫu thứ i tƣơng ứng với dòng thứ i của ma trận mẫu đƣợc ký hiệu
là một vector cột xi.
n
i
x
x
x
x T
in
i
i
i ,...,
2
,
1
,
)
,.....,
,
( 2
1 


14
Với d là số đặc trƣng, n là số lƣợng mẫu, T ký hiệu là vector chuyển vị.
Khoảng cách Minkowski đƣợc định nghĩa nhƣ sau:
r
d
j
r
kj
ij x
x
k
i
d /
1
1
)
|
|
(
)
,
( 


 với r>=1 (1.1)
Các hàm khoảng cách Minkowski thỏa mãn tính chất các tính chất sau:
4. d(i,k)=0 nếu và chỉ nếu xi=xk
5. d(i,k) )
,
(
)
,
( k
m
d
m
i
d 
 với mọi (i,m,k)
Có ba khoảng cách phổ biến sử dụng khoảng cách Minkowsky đƣợc định
nghĩa nhƣ sau:
Khoảng cách Euclide (r=2):
2
/
1
2
/
1
1
2
)]
(
)
[(
)
|
|
(
)
,
( k
i
T
k
i
d
j
kj
ij x
x
x
x
x
x
k
i
d 



 

(1.2)
Khoảng cách Manhattan (r=1)
)
|
|
(
)
,
(
1




d
j
kj
ij x
x
k
i
d (1.3)
Khoảng cách Max (r):
|)
|
1
max
(
)
,
( kj
ij x
x
d
j
k
i
d 


 (1.4)
Khoảng cách Euclide là chuẩn đƣợc dùng phổ biến nhất trong các chuẩn
theo khoảng cách Minkowski. Các khái niệm hình học quen thuộc về tính bất
biến của phép tịnh tiến và phép quay của không gian mẫu là phù hợp với chuẩn
Euclide. Các ứng dụng cụ thể tác động lớn đến việc chọn ra hàm khoảng cách
nào đƣợc sử dụng.
Ngoài các hàm khoảng cách đƣợc sử dụng để đánh giá độ tƣơng đồng của
các đối tƣợng nêu trên còn có rất nhiều cách đánh giá độ tƣơng đồng khác, tùy
thuộc vào tính chất của tập dữ liệu.

15
Để biểu diễn độ tƣơng đồng của tất cả các đối tƣợng trong tập dữ liệu,
ngƣời ta thƣờng sử dụng ma trận để lƣu lại giá trị tƣơng đồng giữa các cặp đối
tƣợng. Ma trận này đƣợc gọi là ma trận tƣơng đồng. Có thể đƣa ra khái niệm về
ma trận tƣơng đồng nhƣ sau:
Ma trận tƣơng đồng [d(i,j)] lƣu giá trị tƣơng đồng trong một ma trận, mỗi
dòng và mỗi cột của ma trận biểu diễn một mẫu. Trong đó d(i,j) là độ tƣơng tự
giữa mẫu thứ i và mẫu thứ j. Chúng ta bỏ qua các giá trị nằm trên đƣờng chéo
chính của ma trận tƣơng đồng khi giả sử rằng tất cả các mẫu có cùng mức độ
tƣơng đồng với chính nó. Giả sử rằng ma trận tƣơng đồng là ma trận có tính đối
xứng, tất cả các cặp đối tƣợng có cùng một giá trị tƣơng đồng, không phụ thuộc
vào thứ tự sắp xếp.
Một ma trận tƣơng đồng có thể là đƣợc gọi là ma trận độ tƣơng tự hoặc
cũng có thể gọi là ma trận bất tƣơng đồng.
Các giá trị tƣơng đồng cũng có thể là nhận giá trị nhị phân, rời rạc hoặc
nhận giá trị liên tục. Ví dụ, giả sử rằng một tập đối tƣợng đƣợc phân hoạch vào
các tập con. Giá trị nhị phân đo độ tƣơng đồng nhận giá trị 0 với các cặp đối
tƣợng ở hai tập con khác nhau và nhận giá trị bằng 1 với các cặp ở cùng một tập
con. Nếu giá trị tƣơng đồng là một số nguyên từ 1 tới n(n-1)/2 với n là số lƣợng
các đối tƣợng đƣợc xem là ma trận tƣơng đồng nhận giá trị rời rạc. Nếu ma trận
tƣơng đồng mà các phần tử nhận giá trị là khoảng cách Euclide giữa các mẫu
trong không gian mẫu thì đƣợc xem là ma trận tƣơng đồng nhận giá trị liên tục.
Các thuật toán phân cụm nhóm các đối tƣợng, hay các dữ liệu thành phần
dựa trên độ tƣơng đồng giữa các cặp đối tƣợng. Các đối tƣợng đƣợc gọi là các
điểm, các trƣờng hợp, các thành phần trong các ứng dụng khác nhau.
1.2. Các phương pháp và các thuật toán phân cụm dữ liệu
Phân cụm dữ liệu biểu diễn mối quan hệ giữa các đối tƣợng trong ma trận
tƣơng đồng. Nếu các đối tƣợng đƣợc đặc tả nhƣ là các mẫu hoặc các điểm trong
không gian metric, thì độ tƣơng đồng có thể là khoảng cách giữa các cặp đối
tƣợng, nhƣ là khoảng cách Euclide. Ma trận mẫu và ma trận tƣơng đồng là
những dữ liệu vào cho các thuật toán phân cụm. Đã có rất nhiều thuật toán phân

16
cụm đƣợc xây dựng nhằm áp dụng vào các mục đích cụ thể. Các thuật toán này
có thể đƣợc phân vào một trong 4 phƣơng pháp sau đây:
1. Phƣơng pháp phân cụm dựa vào hàm mục tiêu (Object Function-
Based Clustering).
2. Phƣơng pháp phân cụm phân cấp (Hierarchical Clustering).
3. Phƣơng pháp phân cụm dựa trên mật độ (Density-Based
Clustering).
4. Phƣơng pháp phân cụm dựa trên lƣới (Grid-Based Clustering).
1.2.1 Phương pháp dựa vào hàm mục tiêu
Loại phân cụm này liên quan tới phân chia các tập dữ liệu dựa trên một
vài chỉ số đƣợc biết đến là hàm mục tiêu. Về mặt bản chất, phân chia N mẫu vào
c cụm. Đầu tiên, số lƣợng phân chia đƣợc tính theo công thức
1
1
( 1)
!
c
c i N
i
c
i
i
c


 
  
 

Con số này tăng lên rất nhanh nên không thể liệt kê số lƣợng phân chia
này. Tối thiểu hàm mục tiêu có thể coi nhƣ phƣơng pháp tối ƣu hóa. Thách thức
thiết kế chính chấp nhận tính toán một hàm mục tiêu có khả năng phản ảnh bản
chất của vấn đề nên tối thiểu bộc lộ cấu trúc có nhiều nghĩa trong bộ dữ liệu. Tối
thiểu sự khác biệt tiêu chuẩn là một trong những lựa chọn chung nhất. Có N mẫu
trong Rn
, chúng ta tính tổng khoảng cách giữa các mẫu và tập các nguyên mẫu
v1, v2,…,vc
2
1 1
c N
ik k i
i k
Q u x v
 
 

Với k i
x v
 là khoảng cách giữa xk và vi. Thành phần quan trọng của tổng
trên là ma trận bộ phận U=[uik], i=1,2,…,c,k=1,2,...,N là đóng vai trò phân chia
các mẫu vào các cụm. Các giá trị trong U là nhị phân. Mẫu k thuộc về cụm i khi
uik=1. Ngƣợc lại k không thuộc về cụm i khi uik=0. Ma trận bộ phận thỏa mãn
các điều kiện sau:

17
Mỗi cụm đều có giá trị, vì thế nó không chứa tất cả các mẫu và nó không
rỗng:
1
0
N
ik
k
u N

 
 , i=1,2,…,c
Mỗi mẫu thuộc về một cụm riêng:
1
1
c
ik
i
u


 , k=1,2,…,N
Ma trận bộ phận kí hiệu là U (U là ma trận nhị phân). Ma trận bộ phận thể
hiện trực quan cấu trúc của các cụm. Ví dụ, cho ma trận N=8 mẫu chia vào 3
cụm nhƣ sau:
1 0 0 1 0 1 0 1
0 1 1 0 0 0 0 0
0 0 0 0 1 0 1 0
U
 
 
  
 
 
Mỗi hàng thể hiện 1 cụm riêng biệt. Nhƣ vậy chúng ta có sự sắp xếp: Cụm
đầu tiên chứa các mẫu {1,4,6,8}, cụm thứ hai chứa các mẫu {2,3} và cụm thứ ba
chứa các mẫu còn lại {5,7}.
Biểu diễn ma trận bộ phận bằng đồ thị hình sao (hay gọi là đồ thị radar)
Hình 1.2 Biểu đồ hình sao thể hiện 3 cụm trong ma trận bộ phận U
Một vài thuật toán đã đƣợc sử dụng để đạt đƣợc tối ƣu hóa. Thuật toán
phổ biến nhất là C-Means (Duda và cộng sự, 2001; Webb, 2002), là cách thiết
lập dữ liệu phân cụm tốt.

18
Phần này sẽ giới thiệu các thuật toán phân cụm dựa vào phân hoạch sau:
Thuật toán K-Means (MacQueen, 1967), Thuật toán EM (Expectation
Maximazation) (Dempster et al.,1977; Yu et al.,1998; Braley et al 1998), thuật
toán K-Medoids. Ba thuật toán này có các cách biểu diễn các cụm khác nhau.
Thuật toán K-Means sử dụng tâm (điểm trung bình) của các đối tƣợng trong một
cụm làm tâm của cụm đó trong khi thuật toán K-Medoids sử dụng đối tƣợng gần
điểm trung bình nhất làm tâm. Không giống nhƣ thuật toán K-Means và K-
Medoid, thuật toán EM sử dụng điểm trung bình và ma trận hệ số kích thƣớc
d*d biểu diễn mỗi cụm. Thay thế cho việc kết gán mỗi đối tƣợng tới một tâm
duy nhất, thuật toán EM kết gán mỗi đối tƣợng tới một cụm theo một xác xuất
đƣợc tính toán từ phân bố của mỗi cụm.
Mặc dù các thuật toán phân cụm khác nhau tạo ra kết quả phân cụm là
khác nhau, tuy nhiên ba thuật toán phân hoạch đều có một tiếp cận chung khi
tính toán các lời giải của chúng. Thật vậy, quan sát ba thuật toán tìm kiếm K tâm
và các phân bố để làm tối ƣu hàm mục tiêu. Một khi đã xác định đƣợc K tâm
hay các phân bố tối ƣu, các đối tƣợng trong K cụm đƣợc xác định. Tuy nhiên, để
tìm kiếm K tâm hay các phân bố tối ƣu là một bài toán NP-Hard (Garey và
Johnson,1979). Do đó, một cách để tìm ra các tâm tối ƣu cục bộ phải dùng
phƣơng pháp cập nhật tâm nhiều lần cho đến khi hàm mục tiêu đạt giá trị cực
tiểu. Ba thuật toán này có các hàm mục tiêu khác nhau và các cách thực hiện
khác nhau đƣợc thể hiện ở bƣớc 3 và 4 của thuật toán A. Một trở ngại của các
thuật toán dựa vào hàm mục tiêu là yêu cầu phải biết trƣớc tham số K và chúng
không có khả năng để tìm kiếm các cụm theo hình dạng bất kỳ. Chúng ta sẽ
xem xét các thuật toán một cách chi tiết hơn.
Thuật toán A :
Input: Số lƣợng cụm K, và một cơ sở dữ liệu chứa N đối tƣợng.
Output: Một tập gồm K cụm thỏa mãn điều kiện cực tiểu hóa hàm mục tiêu
E.
Phƣơng pháp:
1) Khởi tạo chọn ngẫu nhiên K tâm cho lời giải ban đầu.
2) Repeat

19
3) Phân hoạch các đối tƣợng trong cơ sở dữ liệu theo lời giải hiện tại.
4) Cập nhật các tâm theo các đối tƣợng đã đƣợc phân hoạch ở bƣớc 3
5) Until (E không thay đổi);
Thuật toán K-Means
Thuật toán K-Means (MacQueue, 1967) sử dụng giá trị trung bình của các
đối tƣợng trong một cụm là tâm cụm. Hàm mục tiêu đƣợc sử dụng trong thuật
toán là hàm sai số bình phƣơng đƣợc định nghĩa nhƣ sau:
 
 


k
i C
x i
i
m
x
E 1
2
|
| (4)
Với x là một điểm trong không gian biểu diễn các đối tƣợng, và mi là giá
trị trung bình của cụm Ci.
Thuật toán K-Means cơ bản dựa theo cấu trúc của thuật toán A. Trong
bƣớc 3 của thuật toán, K-Means gán mỗi đối tƣợng vào trong tâm gần nhất của
nó tạo ra tập các cụm mới. Trong bƣớc 4, tất cả các tâm của cụm mới đƣợc tính
toán bằng giá trị trung bình của các đối tƣợng trong mỗi cụm. Quá trình này lặp
đi lặp lại cho tới khi hàm mục tiêu E không thay đổi.
Thuật toán K-Means là tƣơng đối mềm dẻo và hiệu quả trong việc xử lý
các tập dữ liệu lớn bởi vì độ phức tạp tính toán của thuật toán là O(NKt), với N
là tổng số các đối tƣợng, K là số lƣợng cụm, và t là số vòng lặp. Thông thƣờng
thì K<<N và t<<N. Thuật toán dừng khi đạt đƣợc lời giải cục bộ.
Nhƣợc điểm của thuật toán K-Means là sẽ phân cụm tồi khi dữ liệu chứa
nhiễu và các phần tử ngoại lại, chỉ cần một số lƣợng nhỏ dữ liệu nhiễu nhƣ thế
cũng đã ảnh hƣởng tới giá trị trung bình.
Thuật toán phân cụm K-Medoids
Không giống nhƣ thuật toán K-Means và thuật toán EM, thuật toán K-
Medoids sử dụng đối tƣợng trong một cụm là tâm cụm đó để thay thế cho việc
lấy giá trị trung bình của các đối tƣợng trong một cụm. Điều này làm cho thuật
toán K-Medoids tránh đƣợc nhiễu và phần tử ngoại lai. Tuy nhiên, độ phức tạp
của thuật toán này cao hơn độ phức tạp của thuật toán K-Means.

20
Để thực hiện bƣớc 4 trong thuật toán A, thuật toán K-Medoids trƣớc đây
nhƣ PAM (Partitioning Around Medoids) (Kaufman & Rousseeuw, 1990) lặp tất
cả K tâm và cố gắng thay thế mỗi tâm bởi N-K đối tƣợng còn lại. Với mỗi sự
thay thế này, nếu hàm sai số bình phƣơng E giảm, thì sự thay thế đƣợc giữ lại,
và vòng lặp tiếp theo của thuật toán A đƣợc thực hiện. Tuy nhiên, nếu không có
sự thay thế nào đƣợc tìm thấy sau khi đã thực hiện xong K tâm, tức là không làm
giảm hàm E thì thuật toán sẽ kết thúc với nghiệm tối ƣu cục bộ.
Do độ phức tạp lớn nên thuật toán phân hoạch nhƣ PAM chỉ thực hiện
hiệu quả đối với các tập dữ liệu nhỏ, không phù hợp với các tập dữ liệu lớn. Để
thực hiện với các tập dữ liệu lớn, phƣơng pháp phân cụm dựa trên mẫu
(Sampling – based method) là CLARA (Clustering LARge Applications) đã
đƣợc phát triển bởi Kaufman & Rousseeuw. Thuật toán chọn một phần của dữ
liệu thực làm mẫu thay cho việc xem toàn bộ tập dữ liệu. Các tâm đƣợc chọn từ
các mẫu sử dụng thuật toán PAM và độ bất tƣơng đồng trung bình đƣợc tính cho
toàn bộ tập dữ liệu. Nếu có một tập các tâm mới có độ bất tƣơng đồng thấp hơn
lời giải tốt nhất trƣớc đó, thì lời giải tốt nhất đƣợc thay thế bởi tập tâm mới này,
chi tiết thuật toán xem ở.
1.2.2. Các phương pháp phân cụm phân cấp
Phƣơng pháp phân cụm này tạo ra đồ thị dữ liệu. Cấu trúc của các đồ thị
đƣợc thực hiện theo hai cách: bottom-up và top-down.
Trong mô hình bottom-up, chúng ta xét từng mẫu nhƣ là cụm đơn lẻ và
sau đó lần lƣợt kết hợp các cụm gần nhất. Qua từng lƣợt của thuật toán, chúng ta
kết hợp hai cụm gần nhất. Quá trình đƣợc lặp lại cho đến khi chúng ta lấy đƣợc
tập dữ liệu riêng biệt hoặc xác định chắc chắn giá trị ngƣỡng.
Phƣơng pháp top-down, làm việc theo cách ngƣợc lại mô hình bottom-up:
chúng ta bắt đầu bằng việc xét toàn bộ các tập nhƣ là cụm đơn và phân chia
chúng vào các cụm nhỏ hơn. Xét về bản chất, những phƣơng thức này thƣờng
không có khả năng tính toán, và có thể có ngoại lệ với các mẫu có giá trị nhị
phân.

21
Kết quả của phân cụm phân cấp thƣờng đƣợc biểu diễn theo dạng biểu đồ
hình cây. Tỉ lệ khoảng cách đƣợc biểu diễn ở phía bên phải của đồ thị giúp
chúng ta xác định khoảng cách giữa các cụm. Chúng đƣa đến một tiêu chuẩn
đơn giản: đƣa ra giá trị ngƣỡng khoảng cách chắc chắn, chúng ta dừng việc kết
hợp các cụm khi khoảng cách giữa chúng vƣợt quá ngƣỡng này, có nghĩa là kết
hợp 2 cấu trúc riêng biệt dƣờng nhƣ không khả thi.
Hình 1.3 Biểu đồ biểu diễn các mẫu trong phân cụm phân cấp
Một vấn đề quan trọng là làm thế nào để đo khoảng cách giữa hai cụm. Ở
đây, mỗi cụm có thể chứa nhiều mẫu, tính toán khoảng cách không phải là hiển
nhiên hay duy nhất. Coi 2 cụm, A và B minh họa trong hình 1.4, khoảng cách
giữa 2 cụm đƣợc kí hiệu d(A,B) và số lƣợng mẫu của A và B tƣơng ứng kí hiệu
là n1 và n2. Nhìn bằng mắt, chúng ta có thể dễ dàng hình dung ra ba cách tính
toán khoảng cách giữa hai cụm

22
Hình 1.4 Ba cách tính khoảng cách giữa hai cụm
(a) Liên kết đơn, (b) liên kết đầy đủ, (c) liên kết trung bình cụm
Phƣơng thức liên kết đơn. Khoảng cách d(A,B) đƣợc tính dựa trên khoảng
cách nhỏ nhất giữa các mẫu của A và B. Nó đƣợc tính theo công thức sau:
,
( , ) min ( , )
x A y B
d A B d x y
 

Phƣơng thức liên kết đầy đủ. Phƣơng thức này tính toán dựa trên khoảng
cách của hai mẫu xa nhất của hai cụm
,
( , ) max ( , )
x A y B
d A B d x y
 

Phƣơng thức liên kết trung bình cụm. Khoảng cách đƣợc xác định dựa
vào các giá trị của hàm khoảng cách, phƣơng thức này xét giá trị trung bình của
những khoảng cách đã đƣợc tính toán giữa tất cả các cặp mẫu của các cụm
,
1
( , ) ( , )
( ) ( ) x A y B
d A B d x y
card A card B  
 
Các thuật toán phân cụm trƣớc đây theo phƣơng pháp phân cấp nhƣ
AGNES và DIANA (Kaufman & Rousseeuw, 1990) thƣờng phải sử dụng các
hàm đánh giá đơn giản để tách hoặc trộn các cụm. Thực tế thì các bƣớc trộn
hoặc tách là không thuận nghịch, do đó các phƣơng pháp đƣa ra thƣờng cho kết
quả phân cụm sai.
Để nâng cao hiệu quả của thuật toán theo phân cấp, các phƣơng pháp gần
đây cố gắng theo một trong hai tiếp cận sau đây. Tiếp cận đầu tiên đƣợc trình
bày bởi các thuật toán nhƣ CURE (Guha et al., 1998) và CHAMELEON

23
(Karypis et al., 1999) sử dụng các quy tắc phức tạp hơn khi tách hoặc trộn các
cụm. Mặc dù việc tách hoặc trộn các cụm vẫn không thuận nghịch trong tiếp cận
này, nhƣng các lỗi tạo ra là rất ít bởi vì đây là một phƣơng pháp tốt hơn đƣợc sử
dụng để trộn và tách. Tiếp cận thứ hai đƣợc biểu diễn bởi các thuật toán nhƣ
BIRCH (Zhang et all., 1996) là để xác định kết quả ban đầu bằng cách sử dụng
thuật toán “vun đống” và sau đó sử dụng lặp tìm vị trí tâm để làm mịn kết quả.
Thuật toán BIRCH: Balanced Iterative Reducing and Clustering using
Hierarchies
BIRCH là một phƣơng pháp phân cụm phân cấp theo “Bottom - Up”. Tƣ
tƣởng chính của BIRCH là nén các đối tƣợng dữ liệu vào trong các cụm con và
sau đó thực hiện phân cụm với các cụm con này. Để trộn các cụm con, số lƣợng
các cụm phải bé hơn hoặc bằng số lƣợng đối tƣợng dữ liệu và do đó cho phép
quá trình phân cụm thực hiện trong bộ nhớ trong. Các kết quả trong thuật toán
chỉ cần quét qua cơ sở dữ liệu một lần.
Trong thuật toán BIRCH, mỗi một cụm con đƣợc biểu diễn bởi đặc trƣng
của cụm đó là bộ ba mô tả tóm tắt thông tin về nhóm các đối tƣợng trong cụm
đó. Cho N đối tƣợng {Xi} trong không gian d chiều. Một cụm của một cụm con
đƣợc định nghĩa là:
( , , )
CF N LS SS

uur
Trong đó, N là số lƣợng các đối tƣợng trong một cụm,
1
N
i
i
LS X

 
uur uu
r
là tổng
của N điểm và
2
1
N
i
i
SS X

 
uu
r
là tổng bình phƣơng của N điểm dữ liệu.
Các CF này đƣợc lƣu trong cây đặc trƣng cụm (Clustering feature tree:
CF tree), đƣợc sử dụng để mô tả tóm tắt cụm. Cây CF đƣợc gọi là cây cân bằng
theo độ cao nếu cây đó chứa các CF cho thuật toán phân cụm theo phân cấp. Các
đỉnh không phải là lá lƣu các tổng các CF của các đỉnh còn lại và do đó, mô tả
tóm tắt thông tin phân cụm về các đỉnh con của chúng. Một cây CF có hai tham
số: Nhân tố nhánh B, và ngƣỡng T. Nhân tố nhánh là số lƣợng cực đại các đỉnh
con mà một đỉnh trong có thể có. Tham số ngƣỡng là đƣờng kính tối đa của các

24
cụm con đƣợc lƣu trữ tại mỗi đỉnh lá của cây. Hai tham số này ảnh hƣởng đển
cỡ của cây kết quả.
Cây CF đƣợc xây dựng một cách tự động theo cách các đối tƣợng đƣợc
chèn vào. Một đối tƣợng đƣợc chèn vào một lá gần nhất (Cụm con). Nếu đƣờng
kính của một cụm con đƣợc lƣu trữ trong đỉnh lá sau khi chèn lớn hơn giá trị
ngƣỡng thì sau đó đỉnh lá này và có thể có các đỉnh khác sẽ đƣợc tách. Sau khi
chèn một đối tƣợng mới, thông tin đƣợc truyền về gốc của cây. Cỡ của cây có
thể bị thay đổi bằng cách thay đổi giá trị ngƣỡng. Nếu giá trị ngƣỡng tạo ra cây
CF không lƣu đƣợc trong bộ nhớ trong thì giá trị ngƣỡng đƣợc tăng lên và cây
CF đƣợc xây dựng lại mà không cần thiết đọc lại tất cả các đối tƣợng trong cơ sở
dữ liệu. Sau khi cây CF đƣợc xây dựng, một thuật toán phân cụm bất kỳ, nhƣ
các thuật toán phân cụm theo phân hoạch đƣợc sử dụng để thực hiện quá trình
phân cụm trong bộ nhớ trong. Để cải tiến chất lƣợng phân cụm hơn nữa, một
hoặc nhiều lần quét cơ sở dữ liệu có thể đƣợc thực hiện. Độ phức tạp thuật toán
là O(N), với N là số lƣợng đối tƣợng đƣợc phân cụm.
Các kết quả thực hiện cho thấy thuật toán có tính mềm dẻo đối với số
lƣợng các đối tƣợng, và chất lƣợng phân cụm là tốt. Tuy nhiên, khi một đỉnh
trong cây CF chỉ thỏa mãn về giới hạn số lƣợng các đối tƣợng theo kích thƣớc
của nó, một đỉnh không phải luôn luôn tƣơng ứng với một cụm thực mang tính
tự nhiên nhƣ ngƣời sử dụng mong muốn. Hơn nữa, nếu các cụm không phải có
hình dạng là hình cầu, BIRCH không thực hiện tốt bởi vì nó sử dụng khái niệm
bán kính hoặc đƣờng kính để điều khiển giới hạn của một cụm.
Thuật toán CURE: Clustering Using Representatives
Không giống các phƣơng pháp vun đống truyền thống nhƣ AGNES,
CURE là một phƣơng pháp vun đống sử dụng quy tắc phức tạp để trộn các cụm.
Có hai ý tƣởng chính mà CURE sử dụng để đạt đƣợc các cụm có chất
lƣợng cao. Đầu tiên, thay cho việc sử dụng các tâm hoặc các đối tƣợng để biểu
diễn tâm một cụm, số lƣợng các đối tƣợng xác định đƣợc lựa chọn để biểu diễn
mỗi cụm. Thứ hai, các đối tƣợng đƣợc lựa chọn để biểu diễn cụm đƣợc co tới
các tâm của cụm bằng nhân tố co  nằm trong đoạn [0,1].

25
Tại mỗi bƣớc của thuật toán, hai cụm có các cặp biểu diễn các cụm gần
nhau nhất đƣợc trộn vào với nhau. Tiếp cận này cho phép CURE điều chỉnh tốt
hình dạng của các cụm không phải là hình cầu. Các cụm co trợ giúp loại bỏ ảnh
hƣởng của các phần tử ngoại lai. Do đó, CURE là một thuật toán mạnh tránh
đƣợc các phần tử ngoại lai và nhận ra các cụm không phải là hình cầu và có cỡ
tùy ý. Nó mềm dẻo đối với các cơ sở dữ liệu lớn mà không ảnh hƣởng với chất
lƣợng cụm. Hình 1.5 biểu diễn quá trình trộn hai cum con với nhau theo CURE
và việc co các điểm dữ liệu tới tâm cụm đƣợc tạo ra. Các điểm đen ở trong hình
là các điểm đƣợc chọn để biểu diễn mỗi cụm con.
Hình 1.5 Trộn 2 cụm theo thuật toán CURE
1.2.3. Các phương pháp dựa vào mật độ
Hầu hết các phƣơng pháp phân cụm dựa trên hàm mục tiêu truyền thống
phân cụm đều dựa trên khoảng cách giữa các đối tƣợng. Các phƣơng pháp này
chủ yếu tìm ra các cụm có dạng hình cầu và rất khó để tìm ra các cụm có hình
dạng ngẫu nhiên. Phƣơng pháp phân cụm dựa vào mật độ xem các cụm nhƣ là
các vùng có mật độ các đổi tƣợng lớn trong không gian dữ liệu. Các phƣơng
pháp dựa vào mật độ có thể sử dụng để loại bỏ nhiễu, và phát hiện ra các cụm có
hình dạng ngẫu nhiên.
Thuật toán dựa vào mật độ đầu tiên là thuật toán DBSCAN (Ester và cộng
sự, 1996), thuật toán này xem xét mật độ theo lân cận của mỗi đối tƣợng, nếu số
lƣợng các đối tƣợng trong khoảng cách  của một đối tƣợng lớn hơn MinPts thì
đối tƣợng đó đƣợc xem là nằm trong một cụm. Bởi vì các cụm tìm đƣợc phụ
Các điểm đại diện
gần nhau nhất
Trộn

26
thuộc vào tham số  và MinPts, nên thuật toán DBSCAN dựa trên khả năng của
ngƣời sử dụng để lựa chọn tập tham số tốt.
Để tránh đƣợc vấn đề này, năm 1999 Ankerst đề xuất phƣơng pháp sắp
xếp các cụm đƣợc gọi là OPTICS. OPTICS tính toán việc sắp xếp các cụm có
tham số để phân cụm tự động.
DBSCAN: phương pháp phân cụm dựa trên mật độ của các vùng được
liên kết với mật độ đủ lớn
DBSCAN là một thuật toán phân cụm dựa vào mật độ. Thuật toán nhóm
các vùng có mật độ đủ cao vào trong các cụm, và tìm kiếm các cụm với hình
dạng tự nhiên trong các tập dữ liệu không gian. Thuật toán yêu cầu 2 tham số
đầu vào là  và Minpts. Các đối tƣợng nằm trong hình cầu bán kính  của một
đối tƣợng đƣợc gọi là  -lận cận của đối tƣợng đó và và đối tƣợng có ít nhất là
Minpts đối tƣợng khác là  -lân cận thì đƣợc gọi là đối tƣợng lõi (Core Object).
Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật sau đây:
- Một đối tƣợng có thể nằm trong một cụm nếu và chỉ nếu nó nằm trong
 -lân cận của một đối tƣợng lõi thuộc cụm đó.
- Một đối tƣợng lõi o nằm thuộc  -lân cận của một đối tƣợng lõi p khác
thì o bắt buộc phải nằm cùng một cụm với p.
- Một đối tƣợng không lõi q nằm trong  -lân cận của các đối tƣợng
p1,…, pi, i>0, thì q phải nằm cùng một cụm chứa ít nhất một đói tƣợng
lõi thuộc p1,…, pi.
- Một đối tƣợng không lõi r không nằm thuộc  -lân cận của một đối
tƣợng lõi bất kỳ thì đƣợc xem là nhiễu.
Ví dụ: Xem xét hình 1.6 dƣới đây với  là bán kính của hình tròn và
Minpts =3. Chúng ta biểu diễn các đối tƣợng lõi là các điểm hình tròn, còn các
đối tƣợng không lõi là các điểm có dạng hình tròn. Trong hình 1.6 biểu diễn hai
cụm, C1 và C2 đƣợc tìm kiếm bởi thuật toán DBSCAN. Các đối tƣợng dữ liệu
nằm trong C1 hoặc C2 đều thuộc  - lân cận của ít nhất một đối tƣợng lõi nằm
trong C1 hoặc C2 và không có hai đối tƣợng lõi nào thỏa mãn thuộc  -lân cận
của nhau và do đó chúng có thể năm ở các cụm khác nhau. Đối tƣợng không lõi

27
M nằm trong  -lân cận của T và R, với T là đối tƣợng lõi thuộc C1 và R là đối
tƣợng lõi thuộc C2. Điều này dẫn tới có thể phân M vào C1 hoặc C2 khi nó là
biên của hai cụm. Cuối cùng, đối tƣợng S có thể đƣợc xem là nhiễu bởi vì nó là
một đối tƣợng không lõi và không thuộc  -lân cận của các đối tƣợng lõi.
Hình 1.6 Hai cụm đƣợc tìm bởi thuật toán DBSCAN
Để tìm kiếm các cụm , DBSCAN kiểm tra  - lân cận của mỗi đối tƣợng
trong cơ sở dữ liệu. Nếu  -lân cận của một điểm p chứa nhiều hơn MinPts, một
cụm mới với p là đối tƣợng lõi đƣợc tạo ra. Các đối tƣợng trong  -lân cận của p
đƣợc phân vào cụm mới này. Các đối tƣợng lõi trong lân cận này sẽ đƣợc xử lý
tƣợng tự nhƣ p và điều này làm cho kích thƣớc của cụm tăng lên. Khi không còn
đối tƣợng lõi để xử lý, các đối tƣợng lõi khác trong cơ sở dữ liệu sẽ đƣợc tìm
kiếm và tạo nên một cụm mới khác. Chú ý rằng trong quá trình làm tăng kích
thƣớc của cụm theo thuật toán DBSCAN, một đối tƣợng lõi đã nằm trong một
cụm khác có thể tiếp tục bị phân cụm và kết quả là làm trộn hai cụm với nhau.
Quá trình kết thúc khi không có điểm nào đƣợc phân vào các cụm.
OPTICS: Ordering Point To Identify the Clustering Structure
Mặc dù thuật toán DBSCAN có thể tìm kiếm các cụm với hình dạng tự
nhiên trong tập dữ liệu chứa nhiễu, nó cũng bị ảnh hƣởng rất lớn bởi hai tham số
là  và MinPts. Để tìm kiếm các cụm đƣợc xem là chấp nhận đƣợc, ngƣời sử
dụng có thể chạy thuật toán này nhiều lần trong các tập giá trị khác nhau của hai

28
tham số. Nếu không có một hƣớng dẫn nào để lựa chọn hai tham số này thì tổng
thời gian thực hiện có thể là rất lớn và dẫn đến không khả thi.
Để khắc phục khó khăn này, phƣơng pháp xếp loại một cụm đƣợc gọi là
OPTICS (Ordering Point To Identify the Clustering Structure) đã đƣợc đề xuất.
Cũng giống nhƣ thuật toán DBSCAN, thuật toán OPTICS yếu cầu hai tham số
đầu vào là  và MinPts. Tuy nhiên, thay cho việc tạo ra kết quả phân cụm của
một cặp giá trị của hai tham số này, thuật toán OPTICS một dãy các điểm dữ
liệu có thứ tự là kết quả của việc phân cụm với giá trị thấp hơn  và với cùng
một giá trị của MinPts có thể dễ dàng xác định và tính toán.
Bằng cách kiểm tra thuật toán DBSCAN, có thể dễ dàng thấy rằng mới
một hằng số MinPts, giảm  tới giá trị mới  ’ sẽ tạo ra hai tác động:
Một đối tƣợng lõi có thể trở thành không lõi bởi vì nó không có ít nhất
MinPts đối tƣợng trong  ’- lân cận của nó.
Một đối tƣợng không lõi ban đầu trong  -lân cận của một số đối tƣợng lõi
có thể trở thành nhiễu bởi vì chúng không nằm trong  ’- lân cận của các đối
tƣợng lõi hoặc bởi vì các đối tƣợng lõi này đã trở thành các đối tƣợng không
phải là lõi.
Do đó có thể thấy rằng, hai tác động này sẽ tạo ra kết quả tập các cụm mà
các tập này nằm hoàn toàn trong các tập các cụm đƣợc tìm thấy với giá trị  cao
hơn. Do đó, để tạo ra một tập các cụm đƣợc sắp xếp, chỉ cần lƣu các giá trị
ngƣỡng cho mỗi đối tƣợng dữ liệu thỏa mãn tự động của một giá trị  nào đó.
Các giá trị cần đƣợc lƣu là khoảng cách lõi và khoảng đạt đƣợc:
Khoảng cách lõi của một đối tƣợng p ký hiệu là core(p) là khoảng cách
nhỏ nhất thỏa mãn core(p)-lân cận chứa đúng MinPts đối tƣợng. Nếu p không là
đối tƣợng lõi với  ban đầu thì khoảng cách lõi của p không xác định.

29
Khoảng cách đạt đƣợc của đối tƣợng p đối với đối tƣợng o, ký hiệu là
reach(o,p) là khoảng cách nhỏ nhất thỏa mãn p nằm trong reach(o,p)-lân cận của
o và o còn là đối tƣợng lõi đối với reach(o,p). Nếu o không là đối tƣợng lõi với
 , thì reach(o,p) không xác định.
Thuật toán OPTICS tạo ra một thứ tự các đối tƣợng trong cơ sở dữ liệu,
ngoài ra còn lƣu khoảng cách lõi và khoảng cách đạt đƣợc phù hợp cho mỗi đối
tƣợng. Những thông tin này đủ để tìm kiếm tất cả các cụm với  ’ bất kỳ nhỏ
hơn đƣợc sử dụng để xếp loại.
Xếp phân cụm cho một tập dữ liệu có thể đƣợc biểu diễn bởi đồ họa, điều
này trở giúp cho chúng ta có thể hiểu hơn về cụm. Ví dụ, trong hình 1.6 là biểu
đồ cho tập dữ liệu 2 chiều, biểu đồ biểu diễn tổng quan về dữ liệu và các cụm
của chúng. Đã có mốt số phƣơng pháp đƣợc phát triển để hiển thị các cấu trúc
cụm trong không gian nhiều chiều.
Hình 1.7 Thứ tự cụm theo OPTICS
1.2.4. Các phương pháp phân cụm dựa trên lưới
Các phƣơng pháp phân cụm dựa vào mật độ nhƣ DBSCAN, OPTICS có
thể sẽ thất bại trong không gian dữ liệu với số chiều cao và phải thiết lập các

30
tham số  và MinPts. Để nâng cao hiệu quả của phân cụm, tiếp cận phân cụm
dựa trên lƣới sử dụng cấu trúc dữ liệu dạng lƣới. Tiếp cận này phân chia không
gian dữ liệu vào một số lƣợng hữu hạn các ô tạo nên dạng hình lƣới. Tiện lợi
chính của tiếp cận này là thời gian xử lý nhanh và nó không phụ thuộc vào số
lƣợng các đối tƣợng dữ liệu, chỉ phụ thuộc vào số lƣợng các ô ở mỗi chiều trong
không gian lƣợng hóa.
Một số thuật toán cơ bản của tiếp cận dựa trên lƣới là thuật toán STING,
thuật toán này tìm kiếm theo thống kê các thông tin nằm trong các ô. Thuật toán
WaveCluster phân cụm dữ liệu sử dụng phƣơng pháp biến đổi sóng và thuật
toán CLIQUE trình bày cách tiếp cận dựa vào mật độ và dựa vào lƣới để phân
cụm dữ liệu nằm trong không gian với số chiều lớn.
STING: A STatistical INformation Grid approach
STING là một cấu trúc dữ liệu đa mức dựa trên lƣới, trong không gian dữ
liệu đƣợc chia thành các ô hình chữ nhật. Có các ô tƣơng ứng với các mức khác
nhau để giải quyết bài toán, cách phân chia ô nhƣ vậy tạo ra một cấu trúc phân
cấp: mỗi ô ở mức cao đƣợc phân chia thành một số ô ở mức thấp hơn tiếp theo.
Thông tin thống kê liên quan tới thuộc tính của mỗi ô nhƣ mean, maximum,
minimum đƣợc tính toán trƣớc và lƣu trữ. Những thông tin thông kê này sẽ trợ
giúp cho quá trình truy vấn nhƣ sau:
Hình 1.8 Ba tầng liên tiếp nhau của cấu trúc STING
Trong hình 1.8 trình bày 3 tầng liên tiếp nhau của cấu trúc STING, mỗi ô
ở tầng trên đƣợc phân chia thành bốn ô ở tầng tiếp theo. Các tham số thống kê ở

31
mức cao có thể đƣợc dễ dàng tính toán bởi các tham số từ các ô ở mức thấp hơn.
Các tham số này bao gồm: số lƣợng đối tƣợng trong ô: count; giá trị trung bình:
mean; độ lệch chuẩn: s; giá trị nhỏ nhất của thuộc tính của các đối tƣợng trong
ô: min; giá trị lớn nhất của thuộc tính của các đối tƣợng trong ô: max và kiểu
phân bố trong các ô. Dữ liệu đƣợc đƣa vào trong cấu trúc lƣới bắt đầu từ mức
thấp nhất. Các tham số count, m, s, min, max ở mức này đƣợc tính toán trực tiếp
từ dữ liệu. Giá trị của phân bố có thể đƣợc đặt bởi ngƣời sử dụng. Kiểu phân bố
ở ô mức cao đƣợc tính toán dựa trên các kiểu phân bố ở các ô tƣơng ứng ở mức
thấp kề nó theo một ngƣỡng cho trƣớc. Nếu các phân bố ở mức thấp giống nhau
và bị lỗi khi kiểm tra bởi ngƣỡng, kiểu phân bố ở ô mức cao sẽ là không xác
định (đƣợc đặt là none).
Để thực hiện phân cụm trên cấu trúc lƣới, ngƣời sử dụng cung cấp mật độ
ở các ô nhƣ là tham số đầu vào. Sử dụng tham số này, áp dụng tiếp cận Top-
down, phƣơng pháp dựa trên lƣới tìm các vùng có mật độ chấp nhận đƣợc bằng
việc thực hiện các thao tác sau:
Một tầng với cấu trúc phân cấp đƣợc xác định để thực hiện tiến trình trả
lời truy vấn. Tầng này bao gồm một số lƣợng nhỏ các ô. Với mỗi ô trong tầng,
tính khoảng chắc chắn mà các ô trong đó sẽ trở thành một cụm. Các ô không
chắc chắn sẽ bị loại bỏ.
Các ô thỏa mãn truy vấn đƣợc tinh chỉnh lại bằng cách lặp lại thủ tục tại
mức tiếp theo của cấu trúc.
Tiến trình này đƣợc lặp lại cho đến khi mức cuối cùng đƣợc tìm thấy. Tại
đó, nếu truy vấn xác định đƣợc kết quả, các vùng chứa các ô thích hợp thỏa mãn
truy vấn đƣợc trả về. Trƣờng hợp khác, dữ liệu rơi vào các ô thích hợp đƣợc
khôi phục lại, và tiến trình tiếp theo đƣợc thực hiện cho đến khi chúng gặp các
yêu cầu của truy vấn.

32
CLIQUE : Phân cụm với dữ liệu đa chiều
Thuật toán CLIQUE tích hợp cả hai phƣơng pháp phân cụm dựa trên mật
độ và trên lƣới. CLIQUE tìm kiếm các cụm trong không gian con của dữ liệu.
Nó đƣợc sử dụng rộng rãi để phân cụm dữ liệu đa chiều phân bố thƣa thớt và
khó nhận ra các cụm trong không gian nhiều chiều này.
Trong thuật toán CLIQUE, không gian dữ liệu đƣợc chia thành các khối
chữ nhật không chồng nhau lên bằng phân đoạn dọc theo mỗi chiều. Một khối là
dày đặc nếu nó có số lƣợng các điểm dữ liệu bao gồm nó vƣợt quá thông số vào
của mô hình. Một cụm đƣợc định nghĩa là một tập lớn nhất của các khối dày đặc
liên kết với nhau.
CLIQUE thực hiện phân cụm dữ liệu nhiều chiều bằng di chuyển từ
không gian ít chiều tới không gian nhiều chiều hơn. Khi tìm các khối có mật độ
dày đặc tại vùng k-chiều, CLIQUE sử dụng thông tin phân cụm đạt đƣợc từ
vùng (k-1)-chiều để làm giảm quá trình tìm kiếm không cần thiết. Điều này
đƣợc thực hiện bằng cách quan sát thông tin tiên nghiệm đƣợc sử dụng trong
khám phá luật kết hợp (Argawal & Srikant, 1994). Việc sử dụng thông tin biết
trƣớc này nhằm làm giảm quá trình tìm kiếm trong không gian tìm kiếm. Áp
dụng tính chất này vào thuật toán QLIQUE có thể phát biểu nhƣ sau:
Nếu một khối k-chiều là dày đặc thì đó là các ánh xạ của chúng trong
không gian (k-1)-chiều. Điều đó có nghĩa: một khối đƣợc xem là mật độ dày đặc
trong k-chiều, nếu chúng ta kiểm tra các khối ánh xạ của nó trong không gian
(k-1) chiều hình thành các khối và tìm xem nếu có bất kỳ một khối nào thƣa thì
chúng ta biết rằng khối trong không gian k-chiều sẽ không dày đặc.

33
Hình 1.9 CLIQUE xác định các vùng tiềm năng dựa trên các đơn vị dày đặc
Thuật toán CLIQUE đƣợc minh họa trong hình 1.9. Thông thƣờng, kết
quả vùng tìm kiếm là nhỏ hơn so với vùng ban đầu. Các khối dày đặc đại diện
để xác định các cụm.
Điều kiện tìm ra các cụm, thuật toán CLIQUE mô tả thông tin tối thiểu về
các cụm nhƣ sau:
Với mỗi cụm, nó xác định vùng lớn nhất phủ các khối liên kết dày đặc.
Sau đó nó xác định một phủ tối thiểu cho mỗi cụm.
CLIQUE tự động tìm các không gian con của không gian có số chiều cao
nhất thỏa mãn các cụm mật độ cao tồn tại trong các không gian con. Nó sẽ
không nhạy cảm với thứ tự của các điểm dữ liệu và phân bố dữ liệu. Thuật toán
phân chia tuyến tính với cỡ của dữ liệu vào và có thang chia tốt theo số chiều
khi số lƣợng dữ liệu tăng. Tuy nhiên, tính chính xác của các cụm kết quả có thể
giảm tại tính đơn giản hóa của phƣơng pháp.

34
CHƢƠNG 2: LÝ THUYẾT TẬP THÔ
Tập thô đƣợc Zdzislaw Pawlak (một nhà toán học và khoa học máy tính
ngƣời Ba Lan) đề xuất năm 1982, với ý tƣởng coi nó là công cụ toán học để đối
phó với các khái niệm mơ hồ, nó đƣợc phát triển từ giả định là để định nghĩa
một tập hợp ta cần phải biết một số thông tin (hay tri thức) về các phần tử của
tập, không giống nhƣ định nghĩa tập hợp trƣớc đây (Georg Cantor, ngƣời đƣợc
coi là ông tổ của lý thuyết tập hợp đã đƣa ra là để định nghĩa tập hợp, cách duy
nhất là dựa trên các phần tử của tập đó và không cần thông tin về các phần tử
của tập hợp). Đối với một số phần tử, thông tin của chúng có thể tƣơng tự nhau,
do đó các phần tử này không thể phân biệt đƣợc một cách rõ ràng. Quan hệ
không phân biệt đƣợc là điểm khởi đầu của lý thuyết tập thô. Quan hệ này chỉ ra
sự mập mờ và không chắc chắn, có quan hệ chặt chẽ với tính không phân biệt
đƣợc.
Hình 2.1: Hình minh họa khái niệm tập thô
2.1 Hệ thông tin và hệ quyết định
Một tập dữ liệu về các loại đối tƣợng đƣợc biểu diễn dƣới dạng một bảng,
trong đó mỗi dòng biểu diễn một đối tƣợng (có thể là một sự vật, một ngƣời,
một tình huống,…). Mỗi cột biểu diễn một thuộc tính (một biến, một quan sát,

35
một đặc tính,…) của đối tƣợng, thuộc tính này có thể đo đƣợc cho mỗi đối
tƣợng, thuộc tính cũng có thể do chuyên gia hoặc ngƣời sử dụng cung cấp. Bảng
này đƣợc gọi là hệ thông tin.
Định nghĩa Hệ thông tin:
Hệ thông tin là một cặp I=(U,A), trong đó U là một tập hữu hạn không
rỗng các đối tƣợng đƣợc gọi là tập vũ trụ và A là một tập hữu hạn không rỗng
các thuộc tính mà a:UVa với aA, các thuộc tính này đƣợc gọi là các thuộc
tính điều kiện. Tập Va đƣợc gọi là tập giá trị của a.
Ví dụ:
Tiếng Anh Tiếng Pháp Tin học
t1 Trình độ A Trình độ B Trình độ A
t2 Trình độ B Trình độ A Trình độ C
t4 Trình độ B Trình độ C Trình độ C
t5 Trình độ C Trình độ A Trình độ C
Bảng 2.1 Ví dụ hệ thông tin
Trong ví dụ trên, ta thấy các thuộc tính điều kiện của các đối tƣợng
{t1,t3,t6} có cùng giá trị, những đối tƣợng này không phân biệt đƣợc với nhau
dựa trên giá trị của các thuộc tính cho trƣớc đó.
Trong nhiều ứng dụng các đối tƣợng đã đƣợc phân lớp trƣớc. Tri thức về
lớp của các đối tƣợng này đƣợc biểu diễn bằng một thuộc tính khác đƣợc gọi là
thuộc tính quyết định. Hệ thông tin loại này đƣợc gọi là hệ quyết định
Tải bản FULL (70 trang): https://bit.ly/3UFXHTi
Dự phòng: fb.com/TaiHo123doc.net

36
Định nghĩa Hệ quyết định
Một hệ quyết định là một hệ thông tin đƣợc biểu diễn dƣới dạng
I=(U,A{d}), trong đó A là tập thuộc tính điều kiện, dA là thuộc tính quyết
định.
Các phần tử của A đƣợc gọi là các thuộc tính điều kiện hoặc có thể gọi tắt
là các điều kiện. Miền giá trị của thuộc tính quyết định có thể chứa nhiều giá trị
khác nhau nhƣng trong hầu hết bài toán thực tế, miền này thƣờng chỉ có hai giá
trị
Ví dụ:
Tiếng Anh Tiếng Pháp Tin học Tuyển dụng
t1 Trình độ A Trình độ B Trình độ A Không
t2 Trình độ B Trình độ A Trình độ C Có
t3 Trình độ A Trình độ B Trình độ A Có
t4 Trình độ B Trình độ C Trình độ C Có
t5 Trình độ C Trình độ A Trình độ C Không
t6 Trình độ A Trình độ B Trình độ A Không
Bảng 2.2 Ví dụ về hệ quyết định
Trong bảng trên, các thuộc tính điều kiện của các đối tƣợng {t1,t3} có
cùng giá trị nhƣng giá trị của thuộc tính quyết định “Tuyển dụng” lại khác nhau.
2.2 Tính không phân biệt được (Indiscernibility)
Một hệ quyết định biểu diễn toàn bộ tri thức của mô hình, hệ này không
nhất thiết phải có kích thƣớc lớn vì các dữ liệu trong đó có thể dƣ thừa nhƣ: các
đối tƣợng giống nhau hoặc không phân biệt đƣợc có thể xuất hiện nhiều lần,
hoặc một số thuộc tính có thể không cần thiết. Để thể hiện tính không phân biệt
đƣợc cho các đối tƣợng, ta tìm hiểu một số khái niệm liên quan
6813766

Tập thô và bài toán phân cụm.pdf

Recommended

Recommended

More Related Content

More from TieuNgocLy

More from TieuNgocLy (20)

Tập thô và bài toán phân cụm.pdf