SlideShare a Scribd company logo
1 of 27
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
LƯƠNG VĂN NGHĨA
THIẾT KẾ CƠ SỞ DỮ LIỆU
PHÂN TÁN THEO TIẾP CẬN
KHAI PHÁ DỮ LIỆU
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62 48 01 01
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - 2019
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Công trình được hoàn thành tại:
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học:
1. PGS.TS. Lê Văn Sơn
2. PGS.TS. Đoàn Văn Ban
Phản biện 1: GS.TS. Vũ Đức Thi
Phản biện 2: PGS.TS. Nguyễn Thị Kim Anh
Phản biện 3: TS. Trương Ngọc Châu
Luận án đã được bảo vệ trước Hội đồng chấm luận án cấp Đại
học Đà Nẵng
Vào hồi 14 giờ 30 ngày 01 tháng 03 năm 2019
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Học liệu và Truyền thông, Đại học Đà Nẵng
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
1
MỞ ĐẦU
1. TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU
Ngày nay, với việc dữ liệu đa dạng, được phân tán ở nhiều nơi trên toàn
cầu làm cho các ứng dụng cơ sở dữ liệu (CSDL), các phương pháp quản trị và
khai thác CSDL phân tán truyền thống tỏ ra ít hiệu quả, không đáp ứng được
mục tiêu chia sẻ và còn khó khăn trong việc tích hợp và trao đổi thông tin. Để
khắc phục được những hạn chế trên, các CSDL phân tán cần được thiết kế sao
cho phù hợp hơn với yêu cầu sử dụng, truy xuất và xử lý dữ liệu phân tán.
Điều này có thể thực hiện được nhờ vào kỹ thuật khai phá dữ liệu (KPDL), cụ
thể là dựa vào các kỹ thuật phân cụm phục vụ cho việc phân mảnh và phân
tán, định vị dữ liệu trong thiết kế CSDL phân tán.
Hiện có nhiều nghiên cứu liên quan đến bài toán thiết kế CSDL phân
tán dựa vào các kỹ thuật phân cụm trong lĩnh vực KPDL, cụ thể:
- Bài toán phân mảnh dữ liệu dựa vào phân cụm đã được nhiều tác
giả quan tâm và sau đó được phát triển tiếp bởi Özsu M. Tamer và các
cộng sự. Tuy nhiên, các kỹ thuật phân mảnh dựa vào các đối tượng được
phân cụm có cùng độ tương đồng giữa các nhóm thuộc tính dừng lại cho
bài toán phân mảnh dọc dữ liệu trên các lược đồ quan hệ.
- Hui ma và các cộng sự đề xuất thuật toán phân cụm CA (Clustered
Affinity) để nhóm thuộc tính có mối quan hệ chặt chẽ với nhau (ái lực) và
sau đó Navathe và các cộng sự phát triển thuật toán BEA (Bond Enegy
Algorithm), phục vụ cho bài toán phân mảnh dọc dữ liệu phân tán. Các
thuật toán trên dựa theo ý tưởng các thuộc tính có tần suất xuất hiện đồng
thời càng lớn thì thường thuộc về một cụm (phân mảnh). Phương án giải
quyết bài toán này đưa về tối ưu hóa một biểu thức bậc 2 có độ phức tạp
khá lớn.
- Bài toán tối ưu hóa thuật toán phân mảnh được Navathe và các
cộng sự đề xuất tìm điểm phân tách t sao cho biểu thức q = CTQ * CBQ -
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
2
COQ2
là cực đại. Tuy nhiên, với các quan hệ có số thuộc tính lớn, bài toán
không thể giải quyết bằng phân hoạch thành hai mảnh, cần phải thực hiện
theo một phân mảnh hỗn hợp, gổm ít nhất một phân mảnh ngang và một
phân mảnh dọc.
- Các nghiên cứu gần đây, một số tác giả kết hợp giải bài toán phân
mảnh và bài toán định vị bằng các kỹ thuật tối ưu, kết hợp với các kỹ thuật
heuristic. Thời gian thực hiện các thuật toán này giảm đáng kể so với các
thuật toán ban đầu. Tuy nhiên, các độ đo sự liên kết các thuộc tính là chưa
được sự nhất trí chung của các nhà khoa học.
- Thuật toán tối ưu đàn kiến heuristic - ACO (Ant Colony
Optimazation) lần đầu tiên Dorigo và các cộng sự đề xuất năm 2011, được
ứng dụng nhiều trong tìm kiếm và khai phá dữ liệu. Hầu hết các nghiên
cứu gần đây về ACO chỉ tập trung vào việc phát triển các biến thể của thuật
toán để làm tăng hiệu năng tính toán của thuật toán hệ kiến AS (Ant
System) ban đầu.
- Một số nghiên cứu trong nước về ACO tập trung giải quyết các bài
toán tối ưu rời rạc như bài toán người bán hàng, bài toán lập lịch, bài toán
an ninh mạng.... Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờ
cũng đang tập trung giải quyết cho một số bài toán kỹ thuật công nghệ cao.
Tuy nhiên, cách tiếp cận và các thử nghiệm trong bài toán phân cụm hay sử
dụng các tiếp cận tìm kiếm heuristic để tìm lời giải tối ưu cục bộ cho các
bài toán phân mảnh dữ liệu phân tán, cho kết quả nhanh nhưng không thể
cải thiện thêm lời giải tìm được.
- Về kỹ thuật phân cụm tích hợp, các nghiên cứu trong nước gần đây
được nhiều nhóm tác giả quan tâm và đã đề xuất các thuật toán hiệu năng
cao. Trong luận án này, tác giả đã vận dụng tích hợp giữa thuật toán tối ưu
hóa đàn kiến ACO và phân cụm thô với các kỹ thuật phân cụm nguyên
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
3
thủy để đề xuất các thuật toán phân cụm dọc dữ liệu phân tán nhằm tối ưu
các chi phí tính toán và chất lượng sau phân cụm cho các bộ dữ liệu lớn.
Để tham gia giải quyết những vấn đề nêu trên, đề tài luận án “Thiết
kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu” được thực hiện
theo các định hướng như sau:
- Kết hợp kỹ thuật phân cụm phân cấp tích tụ với phân cụm phân
hoạch cho thuật toán cải tiến phân mảnh ngang, phân mảnh dọc dữ liệu
phân tán trên cơ sở phát triển các độ đo tương đồng và phương thức xử lý
các cụm sau phân mảnh.
- Sử dụng lý thuyết tập thô và lý thuyết tối ưu hóa đàn kiến ACO để
phát triển mới thuật toán phân mảnh dọc dữ liệu phân tán bằng kỹ thuật
phân cụm thô KR và phân cụm kiến FAC.
- Tiến hành so sánh, đánh giá và thử nghiệm các thuật toán cải tiến
và thuật toán đề xuất mới với các thuật toán nguyên thủy trên các bộ dữ
liệu lớn để làm rõ tính hiệu quả về chi phí, cũng như những ưu điểm nổi
trội qua thực nghiệm về số cụm sau phân mảnh.
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1. Mục tiêu nghiên cứu
Mục tiêu chính của luận án nhằm giải quyết bài toán phân mảnh dữ
liệu phân tán bằng cách kết hợp một số kỹ thuật phân cụm trong KPDL, lý
thuyết tập thô và phương pháp tối ưu hóa ACO, cụ thể là:
- Nghiên cứu cải tiến thuật toán phân mảnh dọc và phân mảnh
ngang dựa vào các kỹ thuật phân cụm tích hợp trong khai phá dữ
liệu.
- Nghiên cứu đề xuất mới thuật toán phân mảnh dọc dựa trên kỹ
thuật phân cụm thô KR và phân cụm đàn kiến VFAC.
2.2. Đối tượng và phạm vi nghiên cứu
Các đối tượng và phạm vi nghiên cứu luận án:
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
4
Các độ đo tương đồng, việc xử lý khoảng cách cụm trong các thuật
toán phân mảnh ngang, phân mảnh dọc dựa trên kỹ thuật phân cụm phân
hoạch và phân cụm phân cấp tích tụ.
Kỹ thuật phân mảnh dọc dữ liệu phân tán dựa trên kỹ thuật phân
cụm thô KR và phân cụm đàn kiến VFAC.
Vận dụng lý thuyết tập thô, các tiếp cận Meta-heuristic trong
phương pháp tối ưu hóa đàn kiến ACO để giải quyết bài toán phân cụm dữ
liệu phục vụ cho các kỹ thuật phân mảnh trong thiết kế CSDL phân tán.
3. PHƯƠNG PHÁP NGHIÊN CỨU
Các phương pháp nghiên cứu của luận án:
Phương pháp nghiên cứu lý thuyết: Nghiên cứu tổng quan tài liệu
liên quan đến lý thuyết thiết kế CSDL phân tán và các kỹ thuật phân cụm
trong khai phá dữ liệu để cải tiến, đề xuất các thuật toán phân mảnh dữ liệu
phân tán theo kỹ thuật phân cụm thô và kỹ thuật phân cụm kiến FAC.
Phương pháp thực nghiệm: Trên cơ sở các thuật toán phân mảnh đã
cải tiến, đề xuất (VFC, HFC, KR và VAFC), luận án tiến hành cài đặt thử
nghiệm với bộ công cụ mô phỏng SPMS, ngôn ngữ lập trình Java để phân
tích, so sánh kết quả phân cụm các thuật toán đề xuất với những kỹ thuật
phân mảnh nguyên thủy tiêu biểu như k-Means, k-Medoids.
4. ĐÓNG GÓP CỦA LUẬN ÁN
4.1. Về mặt khoa học
Vận dụng thành công cách tiếp cận tập thô và tối ưu hóa đàn kiến
ACO cho bài toán phân mảnh dọc trong thiết kế CSDL phân tán
theo tiếp cận KPDL.
Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC và phân
mảnh dọc VFC bằng việc phát triển các độ đo tương đồng và các
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
5
kỹ thuật xử lý cụm trong phân cụm.
Nghiên cứu đề xuất mới thuật toán phân mảnh dọc theo kỹ thuật
phân cụm thô KR và kỹ thuật phân cụm đàn kiến VFAC.
4.2. Về mặt thực tiễn
Kết quả cài đặt thử nghiệm trong luận án cho thấy kết quả phân
mảnh bằng các thuật toán cải tiến HFC, VFC và các thuật toán đề xuất mới
KR, VFAC tốt hơn về thời gian tính toán, chi phí bộ nhớ, số cụm sau phân
mảnh và đặc biệt khi thực hiện trên các bộ dữ liệu với số đối tượng cần
phân cụm lớn.
5. BỐ CỤC CỦA LUẬN ÁN
Ngoài phần mở đầu và kết luận, luận án được bố cục trong ba
chương:
Chương 1 trình bày các nghiên cứu về thiết kế cơ sở dữ liệu phân tán
bao gồm các kỹ thuật phân mảnh dọc, phân mảnh ngang và thuật toán phân
mảnh theo phân cụm FC (Fragmentation Cluster).
Chương 2 trình bày các nghiên cứu liên quan đến các kỹ thuật phân
cụm trong khai phá dữ liệu được áp dụng cho các bài toán phân mảnh
ngang, phân mảnh dọc dữ liệu phân tán và đề xuất cải tiến hai thuật toán
VFC và HFC.
Chương 3 trình bày các nghiên cứu và đề xuất mới bài toán phân
mảnh dọc dữ liệu phân tán theo tiếp cận khai phá dữ liệu bằng các kỹ thuật
phân cụm thô KR (k-Means Rough) và phân cụm đàn kiến FAC
(Fragmentation Ants Cluster). Cài đặt thực nghiệm và so sánh đối chiếu kết
quả các thuật toán cải tiến, đề xuất mới so với thuật toán nguyên thủy k-
Means, HAC.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
6
Chương 1. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
Nội dung chương 1 gồm hai phần chính: phần đầu giới thiệu tổng
quan về hệ cơ sở dữ liệu phân tán, phần thứ hai giới thiệu về bài toán phân
mảnh trong thiết kế cơ sở dữ liệu phân tán với các yêu cầu, mục tiêu, chiến
lược thỏa mãn: tính đúng, tính đầy đủ và tính tái thiết được.
Các thuật toán cơ bản được xem xét trong chương là bài toán phân
mảnh dọc và phân mảnh ngang dữ liệu phân tán từ các thuật toán nguyên
thủy như thuật toán BEA, thuật toán PHORIZONTAL hay thuật toán phân
mảnh FC dùng kỹ thuật phân cụm CA.
1.1. TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN
1.2. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
1.2.1. Các chiến lược thiết kế
1.2.2. Các vấn đề thiết kế cơ sở dữ liệu phân tán
1.2.3. Kỹ thuật thiết kế cơ sở dữ liệu phân tán
1.2.4. Các quy tắc phân mảnh đúng đắn
1.2.5. Thảo luận về thiết kế cơ sở dữ liệu phân tán
1.3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG CÁC KỸ
THUẬT PHÂN MẢNH
1.3.1. Kỹ thuật phân mảnh ngang
1.3.2. Kỹ thuật phân mảnh dọc
1.3.3. Thuật toán phân mảnh FC
1.3.4. Kỹ thuật phân mảnh hỗn hợp
1.3.5. Thảo luận các kỹ thuật phân mảnh
1.4. KẾT CHƯƠNG
Trong chương này, luận án trình bày tổng quan về thiết kế một hệ
CSDL phân tán, trong đó đề cập một cách đầy đủ về sự cần thiết cho bài
toán phân mảnh dữ liệu, các quy tắc phân mảnh đúng đắn bao gồm tính
đầy đủ, tính tái thiết được và tính tách biệt cũng như các yêu cầu thông tin
về cơ sở dữ liệu, thông tin về ứng dụng.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
7
Luận án cũng trình bày một số thảo luận chi tiết cuối mỗi mục để làm
rõ hơn vấn đề nghiên cứu trong chương, đồng thời xác định những nội
dung cần tiếp tục đề xuất trong luận án cho các chương tiếp theo.
Nội dung chính của chương là chuyển đổi ý tưởng giải bài toán phân rã
dữ liệu trên CSDL tập trung sang giải bài toán phân mảnh dữ liệu phân tán
theo phân cụm dựa trên hai thuật toán nguyên thủy HF cho phân mảnh ngang
và CA cho phân mảnh dọc bằng cách áp dụng kỹ thuật phân cụm FC.
Chi tiết các thuật toán cải tiến về kỹ thuật phân cụm trong KPDL cho
bài toán phân mảnh sẽ được trình bày ở Chương 2. Vận dụng một số tiếp
cận mới cho kỹ thuật phân cụm, đề xuất một số thuật toán phân cụm, sẽ
được luận án đề cập trong Chương 3.
Chương 2. PHÂN CỤM DỮ LIỆU TRONG THIẾT KẾ
CSDL PHÂN TÁN
Chương này tập trung trình bày một số vấn đề về khai phá dữ liệu
(KPDL), các kỹ thuật phân cụm dữ liệu (PCDL) áp dụng cho bài toán phân
mảnh trong thiết kế CSDL phân tán. Các kỹ thuật phân cụm liên quan được
trình bày trong chương gồm phân cụm phân cấp, phân cụm phân hoạch và
phân cụm dựa vào tập thô. Kết quả nghiên cứu chính của chương này được
công bố tại các bài báo [I], [II] trong danh mục công trình tác giả.
2.1. TIẾP CẬN KHAI PHÁ DỮ LIỆU
2.1.1. Khai phá tri thức và khai phá dữ liệu
2.1.2. Những thách thức trong khai phá dữ liệu
2.1.3. Các bài toán khai phá dữ liệu
2.2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU
2.2.1. Kỹ thuật phân cụm
2.2.2. Các kiểu dữ liệu và độ đo trong phân cụm
2.2.3. Các phương pháp phân cụm dữ liệu
2.2.4. Thảo luận về các kỹ thuật phân cụm
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
8
2.3. PHÂN MẢNH DỮ LIỆU DỰA VÀO KỸ THUẬT PHÂN CỤM
Áp dụng các kỹ thuật phân cụm đã trình bày trong chương này, vận
dụng với thuật toán CA và FC trong chương 1, luận án đề xuất hai thuật
toán cải tiến: phân mảnh dọc VFC (Vertical Fragmentation Cluster) và
phân mảnh ngang HFC (Horizontal Fragmentation Cluster) [I] bằng cách
vận dụng kết hợp các phương pháp phân cụm theo các độ đo tương đồng
và xử lý cụm dựa trên các thuật toán nguyên thủy.
2.3.1. Đề xuất cải tiến thuật toán phân mảnh dọc VFC
Thuật toán VFC [I]:
Đầu vào: - D: Tập n đối tương cần phân cụm;
- do: Ngưỡng khoảng cách;
- k: Số lượng cụm;
- E: Hàm mục tiêu;
Đầu ra: Tập các phân cụm của D;
Thuật toán:
Begin
1. Chọn k đối tượng mi làm trọng tâm ban đầu cho k
cụm; /* vận dụng theo k-Means */
2. Repeat
3. C = {{r} | r ∈ D}; /* Khởi tạo C là tập các cụm chỉ gồm 1 đối tượng */
4. Tìm hai cụm Si , Sj ∈ C có khoảng cách d(Si, Sj) là nhỏ nhất;
5. Nếu d(Si, Sj) > do thì dừng thuật toán; /*Khoảng
cách 2 cụm gần nhất đã lớn hơn ngưỡng cho phép */
6. C = C{Si, Sj}; /* Loại bỏ 2 cụm Si ,Sj khỏi tập các cụm */
7. S = Si ∪ Sj; /* vận dụng theo thuật toán HAC */
8. C = C ∪ {S}; /* Kết nạp cụm mới S vào C */
9. Tính lại khoảng cách giữa cụm mới với các cụm cũ;
10. Cập nhật lại trọng tâm cụm mi;
11. Until <Hàm mục tiêu E tối thiểu >
End.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
9
Đánh giá thuật toán VFC:
- Ưu điểm thuật toán VFC là có tính mở rộng cao, phù hợp với các
bộ dữ liệu lớn. Thuật toán kết thúc ở điểm tối ưu cục bộ, có thể dùng thuật
toán di truyền để tìm tối ưu toàn cục. Nhược điểm VFC là cần chỉ trước k
cụm, không xử lý tốt dữ liệu nhiễu, các phần tử ngoại lệ
- Thuật toán VFC vận dụng kết hợp thuật toán HAC và k-Means nên
độ phức tạp là O(min(HAC, k-Means)) = O(Min(O(n2
), O(t*k*n))). Thực
tế, số lần lặp t và số cụm k thường rất bé so với số đối tượng n, vì thế độ
phức tạp VFC là O(n), bằng với trường hợp hội tụ tốt nhất của k-Means.
2.3.2. Đề xuất cải tiến thuật toán phân mảnh ngang HFC
Thuật toán HFC [I]
Đầu vào: - D: Tập n đối tượng cần phân cụm;
- k: số lượng cụm;
- Ma trận OCM;
- Hàm mục tiêu E;
Đầu ra: Tập các phân cụm của D;
Thuật toán:
Begin
1.Chọn k đối tượng medoid bất kỳ;
2.Khởi tạo k cụm với k đối tượng phân biệt đầu tiên
dựa trên ma trận OCM;
3.Repeat
4.Gán đối tượng vào cụm có medoids gần nó nhất;
5. Gán các đối tượng còn lại của OCM vào cụm có các đối
tượng tới medoid là gần nhất; /*theo thuật toán PAM */
6.Hoán đổi medoid cho các đối tượng của ma trận OCM
đến khi làm giảm đi hàm mục tiêu E;
7.Until <Hàm mục tiêu E đạt tối thiểu>;
End.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
10
Đánh giá thuật toán HFC:
- Ưu điểm cơ bản trong thuật toán cải tiến HFC theo phân cụm k-
Medoids là khởi tạo k cụm đầu vào (không lấy ngẫu nhiên) theo quy tắc lấy
k đối tượng phân biệt đầu tiên của tập dữ liệu vào (k dòng phân biệt đầu
tiên của OCM) làm phần tử trung tâm của k cụm khởi tạo.
- Khả năng hai bộ trùng nhau trên các quan hệ có thể xảy ra, vì dữ
liệu phân cụm lấy từ ma trận OCM, được xây dựng từ quan hệ ban đầu và
căn cứ vào các vị từ đơn Pr. Nhược điểm của HFC tương tự như k-
Medoids vì HFC chỉ tập trung phát huy ưu điểm trên ma trận OCM khi xử
lý các medoid.
- Độ phức tạp thuật toán HFC là O(k2
*n), trong đó có hai lần k cụm
và k đối tượng tham gia trong một lần lặp đơn, n là số đối tượng cần phân
cụm. Thực tế, k cụm thường rất bé so với k đối tượng, nên độ phức tạp
HFC là O(k*n). Độ phức tạp này bé hơn thuật toán PAM nguyên thủy là
O(k(n-k)2
).
2.3.3. Đánh giá kết quả thực nghiệm
2.3.3.1. Đánh giá kết quả thực nghiệm theo VFC
(1). So sánh đánh giá thực nghiệm với phân cụm phân cấp tích đống HAC
(2). So sánh đánh giá thực nghiệm với phân cụm k-Means nguyên thủy
Luận án tiến hành so sánh kết quả thực nghiệm VFC với k-Means
nguyên thủy theo các tiêu chí về chi phí thời gian xử lý, chi phí bộ nhớ với 5
kịch bản tương ứng với số cụm được chọn (k = 3, k = 5, k = 9, k = 11, k = 15).
Bảng 2.10 Tập D gồm 20 đối tượng cần phân cụm
@NAME=Đối tượng 1
5.1 3.5 1.4 0.2
@NAME=Đối tượng 2
4.9 3.0 1.4 0.2
@NAME=Đối tượng 3
4.7 3.2 1.3 0.2
@NAME=Đối tượng 4
4.6 3.4 1.7 0.2
@NAME=Đối tượng 5
5.0 3.6 1.4 0.2
@NAME=Đối tượng 6
4.4 2.9 1.4 0.2
@NAME=Đối tượng 7
4.9 3.1 1.4 0.2
@NAME=Đối tượng 8
5.4 3.7 1.5 0.2
@NAME=Đối tượng 9
4.8 3.7 1.5 0.2
@NAME=Đối tượng
10 4.8 3 1.4 0.1
@NAME=Đối tượng 11
5321
@NAME=Đối tượng 12
15 13 12 11
@NAME=Đối tượng 13
30 60 52 51
@NAME=Đối tượng 14
50 40 42 41
@NAME=Đối tượng 15
30 50 42 31
@NAME=Đối tượng
16 20 50 52 21
@NAME=Đối tượng
17 10 15 52 21
@NAME=Đối tượng
18 21 25 25 22
@NAME=Đối tượng
19 11 15 35 42
@NAME=Đối tượng
20 11 25 45 45
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
11
Qua hai kết quả thử nghiệm như trên, luận án xây dựng bảng so sánh
cho giữa hai thuật toán k-Means nguyên thủy và thuật toán cải tiến VFC
theo 5 lần test, số lượng cụm k được chọn (k = 3; k = 5; k = 9; k = 11, k =
15) như (Bảng 2.11), thống nhất lấy 4 số lẽ phần kết quả:
Bảng 2.11 So sánh kết quả với phân cụm k-Means và VFC
Số Tổng Chi phí trung bình Bộ nhớ tối đa (Mb) Số lần
Thuật cụm k Thời lỗi (Min) lặp
toán so gian
sánh (ms)
k = 3 16 4728,4549 1.2986 3
Phân cụm
k = 5 16 3582,955 1.2987 3
k-Means
k = 9 16 2909,955 1.2987 3
k = 11 16 2855,455 1.2987 2
k = 15 16 5437,3716 1.3000 2
k = 3 15 5437,3716 1.2879
Phân cụm
k = 5 15 5237,3716 1.2879
cải tiến
VFC k = 9 15 5444,3716 1.2879
k = 11 15 5397,3716 1.2879
k = 15 15 5267,3716 1.2879
Nhận xét đánh giá thực nghiệm VFC:
- Với số cụm k nhỏ (k = 3), thuật toán cải tiến VFC có tổng thời gian
và chi phí bộ nhớ sử dụng nhỏ hơn k-Means nguyên thủy. Tuy nhiên, chi
phí trung bình lỗi VFC thường lớn hơn vì do tích hợp giữa HAC và k-
Means khi gặp dữ liệu nhiễu hoặc phần tử ngoại lệ.
- Với số cụm k tăng lên, thuật toán VFC vẫn thực hiện ổn định với
các chi phí thời gian, chi phí bộ nhớ và chi phí trung bình lỗi. Đặc tính này
thể hiện việc phát huy được yếu tố hội tụ tốt nhất theo k-Means.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
12
2.3.3.2. Đánh giá kết quả thực nghiệm theo HFC
Xét quan hệ r(R) = {T1, T2, ..., Tl}, tập Pr = {Pr1, Pr2, ..., Prm} các
vị từ đơn trích rút từ các ứng dụng trên r(R). Vector hóa nhị phân các bản
ghi như (Bảng 2.7) và có ma trận OCM như (Bảng 2.8), chọn trước số
lượng cụm k thử nghiệm (k = 2, k = 3, k = 4). Kết quả phân mảnh ngang
HFC như (Bảng 2.12 ):
Bảng 2.12 Kết quả phân mảnh ngang cải tiến HFC [I]
k=9 k=11 k=15
Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3
Cụm 2: E2, E4, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8
Cụm 3: E4 Cụm 3: E4
// kết quả tương tự Cụm 4: E6, E7
k-Medoids [I]
Tương tự, cùng số cụm k như trên, kết quả phân mảnh ngang theo phân
cụm phân hoạch k-Medoids với thuật toán PAM, kết quả như (Bảng 2.13 ):
Bảng 2.13 Kết quả phân mảnh ngang theo k-Medoids
k=9 k=11 k=15
Cụm 1: E1, E3,E4, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7
Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8
Cụm 3: E4 Cụm 3: E4
Cụm 4: “rỗng”
Nhận xét đánh giá thực nghiệm HFC:
- Kết quả phân mảnh ngang cải tiến HFC và PAM gần tương tự nhau
khi k = 9 và k = 11. Khi tăng số cụm với k = 15, kết quả không giống nhau.
Kết quả thuật toán cải tiến HFC ở (Bảng 2.12) phân cụm đều cho các đối
tượng trên 4 cụm. Tuy nhiên, thuật toán PAM trên (Bảng 2.13) lại chứa
cụm 4 = “rỗng”.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
13
- Với thực nghiệm như trên, việc cải tiến các thuật toán phân mảnh
ngang cần xem xét khi áp dụng cho các bộ dữ liệu lớn. Nếu cần thiết phải
cải thiện được kết quả phân cụm, có thể chấp nhận có cụm rỗng hay các
cụm không đều.
2.4. KẾT CHƯƠNG
Nội dung chương 2 đã trình bày một số phương pháp phân cụm
nguyên thủy có liên quan đến các thuật toán cải tiến, đề xuất, đó là các
phương pháp phân cụm phân cấp tích tụ lồng, phân cụm phân hoạch, phân
cụm dựa trên mật độ, phân cụm theo lý thuyết tập thô. Một số thuật toán
điển hình cũng được đề cập như k-Means, k-Medoids để làm cơ sở so sánh,
đánh giá thực nghiệm với các thuật toán cải tiến VFC, HFC và các thuật
toán đề xuất mới trong chương 3.
Chương này đã đề xuất hai thuật toán VFC và HFC [I] được cải tiến
từ thuật toán phân cụm CA kết hợp thuật toán phân mảnh FC trên cơ sở kết
hợp giữa phương pháp phân cụm phân cấp tích tụ và phân cụm phân hoạch
k-Means, k-Medoids.
Việc sử dụng phối hợp các kỹ thuật phân cụm như trong bài toán
thiết kế phân mảnh VFC, HFC cải tiến là một giải pháp tối ưu cả về số cụm
phân mảnh cũng như các độ đo được phát triển. Tuy nhiên, thuật toán
HFC, VFC sử dụng các kỹ thuật phân cụm nguyên thủy, nên số lượng phân
cụm k phụ thuộc vào người dùng. Vì thế, cần kết hợp với tri thức chuyên
gia để tính toán số lượng cụm thích hợp, định nghĩa lại các độ đo mối quan
hệ giữa các thuộc tính, các bản ghi tích hợp theo các thuật toán hiệu năng
cao.
Một số cách tiếp cận mới về kỹ thuật phân cụm như phân cụm thô,
phân cụm theo phương pháp tối ưu hóa đàn kiến ACO sẽ được luận án trình
bày tiếp tục trong Chương 3.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
14
Chương 3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO PHÂN
CỤM THÔ VÀ TỐI ƯU ĐÀN KIẾN
Nội dung chương này trình bày bài toán thiết kế phân mảnh dọc dữ
liệu phân tán theo tiếp cận tập thô với kỹ thuật phân cụm thô KR và tiếp
cận tối ưu hóa đàn kiến ACO với kỹ thuật phân cụm đàn kiến VFAC. Kết
quả nghiên cứu chính của chương được công bố tại [III], [IV], [V] trong
danh mục công trình tác giả.
3.1. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN
TẬP THÔ
3.1.1 Rời rạc hoá dữ liệu và trích chọn thuộc tính theo tiếp cận tập thô
3.1.2. Hệ thông tin
3.1.3. Quan hệ không phân biệt, bất khả phân biệt trong hệ thông tin
3.1.4. Thuộc tính và vector đặc trưng tham chiếu
3.2. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ
3.2.1. Thuật toán phân cụm thô KR
3.2.1.1. Kỹ thuật phân cụm thô
3.2.1.2. Đề xuất thuật toán phân cụm thô KR
Thuật toán KR [V]
Đầu vào: - D: Tập n đối tượng cần phân cụm;
- k: Số lượng cụm;
- Ngưỡng Thi;
Đầu ra: Tập các phân cụm của D;
Thuật toán
Begin
1. Khởi tạo ngẫu nhiên k tâm của các đối tượng xuất phát
x={x1,… xk};
2. Repeat
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
15
3. Gán các đối tượng v vào các xấp xỉ trên và xấp xỉ
dưới của các cụm; /* tiến hành gom cụm*/
4. Tính khoảng cách d(v, xi),d(v, xj) giữa các đối
tượng v với trọng tâm cụm xi, xj; /* 1 ≤ I, j ≤ k */
5. If (d(v, xi) - d(v, xj) Thi) Then véc tơ đối tượng v sẽ
không thuộc bất kỳ xấp xỉ dưới nào /* theo tính chất 3*/ ;
6. Else d(v, xi) là tối thiểu;
7. Cập nhật lại trọng tâm xi bằng trọng tâm mới;
8. If (trung tâm cụm trùng với lần lặp trước) Then
dừng thuật toán;
9. Until <Trọng tâm các cụm không thay đổi>
End.
3.2.1.3. Đánh giá thuật toán phân cụm thô KR
- Giải pháp phân cụm thô KR [V], tương tự như KO [III], có khả
năng nhóm đối tượng trong nhiều cụm khác nhau. Ngoài ra, KR còn tạo
được nhiều cụm hơn với số lượng cụm cần thiết để mô tả dữ liệu phụ thuộc
vào khoảng cách đo. Điều này, cơ hội dành cho một đối tượng là cao khi
tiến hành gom cụm trong cùng một cụm.
- Tuy nhiên, giải pháp phân cụm thô KR tiến hành với bộ dữ liệu lớn,
làm cho lời giải phức tạp hơn, mức độ trùng lặp giữa các cụm có thể tăng
lên, vì thế việc tính toán trọng tâm cũng chậm hơn so với k-Means nguyên
thủy.
- Độ phức tạp thuật toán KR là O(t*n*k), trong đó t là số lần lặp, n là
số đối tượng cần phân cụm và k là số lượng cụm. Tuy nhiên t, k thường rất
bé so với n khi tập dữ liệu đủ lớn và chứa nhiều đối tượng. Vì vậy, độ phức
tạp thường được tính là O(n). Độ phức tạp này tối ưu hơn thuật toán phân
cụm dọc theo ái lực thuộc tính như thuật toán BEA là O(n2
).
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
16
3.2.2. Kết quả thực nghiệm thuật toán phân cụm thô KR
Bảng 3.1 Tập D gồm 20 đối tượng cần phân cụm
@NAME=Đối tượng 1 @NAME=Đối tượng 6 @NAME=Đối tượng 11 @NAME=Đối tượng 16
5.1 3.5 1.4 0.2 4.4 2.9 1.4 0.2 5 3 2 1 20 50 52 21
@NAME=Đối tượng 2 @NAME=Đối tượng 7 @NAME=Đối tượng 12 @NAME=Đối tượng 17
4.9 3.0 1.4 0.2 4.9 3.1 1.4 0.2 15 13 12 11 10 15 52 21
@NAME=Đối tượng 3 @NAME=Đối tượng 8 @NAME=Đối tượng 13 @NAME=Đối tượng 18
4.7 3.2 1.3 0.2 5.4 3.7 1.5 0.2 30 60 52 51 21 25 25 22
@NAME=Đối tượng 4 @NAME=Đối tượng 9 @NAME=Đối tượng 14 @NAME=Đối tượng 19
4.6 3.4 1.7 0.2 4.8 3.7 1.5 0.2 50 40 42 41 11 15 35 42
@NAME=Đối tượng 5 @NAME=Đối tượng 10 @NAME=Đối tượng 15 @NAME=Đối tượng 20
5.0 3.6 1.4 0.2 4.8 3 1.4 0.1 30 50 42 31 11 25 45 45
Qua hai kết quả thử nghiệm như trên, luận án xây dựng bảng so sánh
giữa hai thuật toán k-Means nguyên thủy và thuật toán đề xuất KR theo 3 lần
Test, tương ứng số cụm k được chọn (k = 6; k = 13, k = 15) như (Bảng 3.2):
Bảng 3.2 So sánh kết quả phân cụm thô KR và k-Means
Số cụm Tổng Chi phí trung Bộ nhớ tối đa Số lần
Thuật k Thời binh lỗi (Min) (Mb) lặp
toán so gian
sánh (ms)
k = 6 80 2438.6216 1.2986 3
k-Means k = 13 26 2455.4550 1.3000 3
nguyên k = 15 16 2751.6216 1.3000 3
thủy
k = 6 15 5048.8960 1.2879
Phân cụm k = 13 15 5048.4550 1.2879
thô KR k = 15 15 5048.1554 1.2879
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
17
Nhận xét đánh giá thực nghiệm KR:
- Với số cụm k nhỏ (k = 6), thuật toán k-Means có tổng thời gian
lớn, chi phí trung bình lỗi và chi phí bộ nhớ đạt yêu cầu. Trong khi đó,
thuật toán phân cụm thô KR tối ưu cả 3 tiêu chí.
- Khi tăng số cụm k lên (k = 13, k = 15), thuật toán KR thể hiện rõ
các tối ưu trên cả ba tiêu chí so với thuật toán k-Means. Tuy nhiên, chi phí
trung bình lỗi của KR cao vì phải xem xét cả bộ xấp xỉ trên và xấp xỉ dưới
trong suốt các quá trình cập nhật lại trong tâm mới.
3.3. THIẾT KẾ CSDL PHÂN TÁN THEO PHƯƠNG PHÁP ACO
3.3.1. Phương pháp tối ưu hóa đàn kiến ACO
3.3.2. Từ đàn kiến tự nhiên đến đàn kiến nhân tạo
3.3.3. Thuật toán ACO tổng quát
3.3.4. Thuật toán hệ kiến AS
3.3.5. Tổ chức dữ liệu và các khái niệm độ đo
3.4. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN ACO
3.4.1. Phân cụm dữ liệu phân tán theo tiếp cận ACO
3.4.2. Đề xuất các thuật toán phân mảnh dọc theo phân cụm đàn kiến
3.4.2.1 Đề xuất thuật toán phân cụm đàn kiến FAC
Thuật toán FAC [IV]
Đầu vào: - Tập các thuộc tính Att={A1, A2,…, Ak};
- Tập các giao tác T={t1, t2.,..., tm};
- Số kiến Ant={ant1, ant2,…,antn};
Đầu ra: Tập phân cụm tối ưu KQ;
Thuật toán
1. Tính độ tương đồng f(i);
2. Tính xác suất nhặt Pnhặt; /* công thức (3.7) */
3. Tính xác suất thả Pthả; /* công thức (3.8) */
4. Foreach anti Ant do
5. Chọn hai số ngẫu nhiên 1 và 2;
6. Foreach ai Att do
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
18
7. If (Pnhặt >= số ngẫu nhiên 1) Then Kiến sẽ nhặt đối tượng;
8. If (Pthả >= số ngẫu nhiên 2) Then Kiến sẽ thả đối
tượng vào danh sách đỉnh đã thả;
9. End for
10. Tính nồng độ mùi uv trên từng cạnh; /*công thức 3.3*/
11. End for
12. Repeat
13. If ( > ) Then Gom hai đối tượng vào một cụm;
14. Else Gom hai đối tượng khác cụm;
15. If (Tồn tại cụm chỉ có một đối tượng duy nhất) Then
16. Tính khoảng cách trung bình từ đối tượng đó đến
các cụm khác;
17. So sánh các khoảng cách trung bình và lấy khoảng
cách nhỏ nhất để gom cụm;
18. Until <khoảng cách cụm nhỏ nhất>;
19.Return KQ.
3.4.2.2. Đề xuất thuật toán phân mảnh dọc theo phân cụm đàn kiến -
VFAC
Thuật toán VFAC [IV]
Đầu vào: - Tập các thuộc tính Att={A1, A2,…, Ak}
- Tập các giao tác T={t1, t2.,..., tm}
- Số kiến Ant={ant1, ant2,…,antn};
- Số giao tác m;
Đầu ra: Tập phân cụm tối ưu
KQ; Thuật toán:
1. T = m; T_Counter = 0; Omax = ∞; Ocurrent = 0;
2. Repeat
3. Foreach anti Ant do
4. If (anti Att) Then Xét các Ai;
5. If (Ai Att) Then Anti = Ai;
6. Loại Ai ra khỏi Att;
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
19
7. Else /* danh sách thuộc tính rỗng */
8. Kiến nhặt thuộc tính theo Pnhặt;
9. Else tính f(i); /*theo công thức 3.12 */
10. Kiến thả thuộc tính theo Pthả;
11. End For
12. If Att = ;
13. Đánh giá chi phí của kết quả hiện tại;
14. If Ocurrent < Omax;
15. Khi (F_cur)Ai = (F_Opt)Ai;
16. Ocurrent = Omax;
17. Else T_Counter = T_Counter + 1;
18. Until (khi Omax ∞ và T_Counter > m);
19. Return KQ;
Đánh giá thuật toán VFAC:
- Đề xuất việc đánh giá trước được đặc trưng của thuộc tính trong
một <DS thuộc tính> cho trước với kiến mang thuộc tính hay không.
- Thuật toán VFAC sử dụng tham số (F_Opt)Ai = (F_Cur)Ai để đánh
giá và tính toán đặc trưng của từng thuộc tính so với từng cụm, việc này sẽ
giúp chúng ta giảm chi phí trong quá trình phân mảnh dữ liệu [79].
- Xử lý bộ nhớ cho từng kiến bằng việc tính độ tương đồng thuộc tính
theo xác suất nhặt và xác suất thả thuộc tính.
-Độ phức tạp các thuật toán VFAC được xác định:
O(max((Nant * NT) ; (N2
F * NT * Natt)))
trong đó, Nant là số lượng kiến tham gia, NT là số lượng giao tác quan
trọng của hệ thống, NF là số lượng mảnh sinh ra, Natt là số lượng thuộc
tính. Trong thực tế, bít dành cho số mảnh tối ưu (F_Opt) là rất bé so với số
mảnh hiện tại (F_cur), hơn nữa số giao tác thường không quá lớn trên các
giao dịch, vì thế độ phức tạp sẽ là O(NF * NT * Natt). Độ phức tạp này bé
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
20
hơn độ phức tạp của phân cụm k-Means là O(t*k*n*d), của phân cụm k-
Medoids là O(k*(n - k)2
) và phân cụm theo ái lực thuộc tính BEA là O(n2
).
- Độ phức tạp VFAC sẽ tăng khi số lượng giao tác và số thuộc tính
tăng, do đó cần xem xét yếu tố này cho các bộ dữ liệu lớn.
3.4.3. Kết quả thực nghiệm thuật toán đề xuất VFAC
3.4.3.1. Kết quả cài đặt thực nghiệm thuật toán đề xuất VFAC
Bảng 3.4 Tập dữ liệu D gồm 20 giao tác
@NAME=Giao tác 1 @NAME=Giao tác 6 @NAME=Giao tác 11 @NAME=Giao tác 16
5.1 3.5 1.4 0.2 4.4 2.9 1.4 0.2 5 3 2 1 20 50 52 21
@NAME=Giao tác 2 @NAME=Giao tác 7 @NAME=Giao tác 12 @NAME=Giao tác 17
4.9 3.0 1.4 0.2 4.9 3.1 1.4 0.2 15 13 12 11 10 15 52 21
@NAME=Giao tác 3 @NAME=Giao tác 8 @NAME=Giao tác 13 @NAME=Giao tác 18
4.7 3.2 1.3 0.2 5.4 3.7 1.5 0.2 30 60 52 51 21 25 25 22
@NAME=Giao tác 4 @NAME=Giao tác 9 @NAME=Giao tác 14 @NAME=Giao tác 19
4.6 3.4 1.7 0.2 4.8 3.7 1.5 0.2 50 40 42 41 11 15 35 42
@NAME=Giao tác 5 @NAME=Giao tác 10 @NAME=Giao tác 15 @NAME=Giao tác 20
5.0 3.6 1.4 0.2 4.8 3 1.4 0.1 30 50 42 31 11 25 45 45
3.4.3.2. So sánh đánh giá kết quả thử nghiệm trên thuật toán VFAC
Qua ba kết quả thử nghiệm như trên, luận án tiến hành lập bảng so sánh
giữa hai thuật toán k-Means nguyên thủy và thuật toán VFAC theo 5 lần Test,
tương ứng số cụm (k = 3; k = 7, k = 10, k = 15 và k = 19) như (Bảng 3.5 ):
Bảng 3.5 So sánh kết quả với phân cụm k-Means với VFAC
Số cụm Tổng Chi phí trung bình Bộ nhớ tối đa (Mb) Số lần
Thuật toán k Thời lỗi (Min) lặp
so sánh gian
(ms)
k = 3 16 4728.4549 1.2986 3
Phân cụm k = 7 16 2582.9550 1.2987 3
k-Means k = 10 16 5437.3716 1.3000 5
nguyên k = 15 16 1455.4550 1.2987 2
thủy k = 19 16 5437.3716 1.3000 2
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
21
k = 3 16 2633.4550 1.2800 10
Phân cụm k = 7 16 2633.7012 1.2800 10
VFAC k = 10 15 2632.7272 1.2801 10
k = 15 15 2632.0085 1.2801 9
k = 19 15 2632.0016 1.2802 8
3.4.3.3. Đánh giá kết quả thuật toán VFAC
Hình 3.8 So sánh chi phí trung bình lỗi trên k-Means và VFAC
Hình 3.9 Đánh giá độ ổn định theo số cụm trên k-Means và VFAC
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
22
Đánh giá chung về thuật toán đề xuất VFAC:
- Xem xét thuật toán VFAC với (k = 3) như kết quả trên (Hình 3.6.),
(Hình 3.7.) và kết quả đánh giá bằng biểu đồ trên các (Hình 3.8.), (hình
3.9.), dễ dàng nhận thấy rằng, khi tăng số cụm k thì tổng thời gian giảm,
chi phí trung bình lỗi như nhau và số lần lặp cũng giảm đi. Điều này cho
thấy thuật toán VFAC có ưu điểm khi xử lý với các bộ dữ liệu lớn, có số
đối tượng cần phân cụm nhiều.
- Với (k = 10), thuật toán VFAC tối ưu hơn thuật toán k-Means về
nhiều chỉ số như: tổng thời gian, chi phí lỗi và chi phí bộ nhớ. Khi số cụm
k tăng dần, thuật toán VFAC sẽ giảm được về tổng thời gian tính toán và số
trường hợp lặp so với k-Means.
- Qua so sánh đánh giá theo đồ thị như trên (Hình 3.8), (Hình 3.9 ),
cũng đã thể hiện rõ độ ổn định khi áp dụng trên thuật toán VFAC.
3.5. KẾT CHƯƠNG
Chương 3 trình bày các nghiên cứu về bài toán phân mảnh dọc trong
thiết kế cơ sở dữ liệu phân tán trên cơ sở kết hợp phân cụm dựa vào lý thuyết
tập thô và phân cụm kiến FAC dựa vào lý thuyết tối ưu hóa đàn kiến ACO.
Dựa vào phân cụm theo tiếp cận thô, luận án đã đề xuất xây dựng
một ma trận độ tương tự cho việc phân cụm, ứng với mỗi cặp đối tượng
trong ma trận, gán cụm hiện tại hoặc cụm mới dựa vào bộ xấp xỉ dưới và
xấp xỉ trên. Việc cải tiến thuật toán phân cụm nguyên thủy k-Means thành
phân cụm thô KR bằng cách kết hợp các khoảng cách, các độ tương đồng
với các bộ xấp xỉ trên và xấp xỉ dưới đã có những ưu điểm về sự cải thiện
độ đo và sự chọn lựa các cụm.
Dựa vào phân cụm theo phương pháp ACO, luận án đề xuất nội dung
phát triển các độ đo tương đồng cho thuật toán phân cụm kiến FAC và bài
toán phân mảnh dọc dữ liệu theo phân cụm kiến VFAC. Các kết quả so
sánh thử nghiệm đã được đánh giá đầy đủ, cho thấy tính hiệu quả về độ
phức tạp tính toán của các thuật toán đề xuất.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
23
Qua phân tích, so sánh và chương trình thực nghiệm cho thấy việc
tiếp cận các kỹ thuật phân cụm đề xuất để phân cụm thô kết hợp với phân
cụm đàn kiến VFAC có một số ưu điểm đối với những bộ dữ liệu lớn, như
chi phí bộ nhớ tăng không đáng kể và số trường hợp lặp giảm khá nhiều,
làm giảm độ phức tạp tính toán khi k lớn.
KẾT LUẬN
Với những mục tiêu đặt ra là tập trung nghiên cứu một số phương
pháp phân mảnh trong thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai
phá dữ liệu bằng các kỹ thuật phân cụm nguyên thủy, tích hợp với phân
cụm thô và phân cụm đàn kiến, Luận án đạt được một số kết quả nghiên
cứu như sau:
1. Trình bày hai tiếp cận mới về tập thô và tối ưu hóa đàn kiến ACO
trong việc áp dụng đề xuất mới bài toán phân cụm dọc trong thiết kế CSDL
phân tán theo tiếp cận khai phá dữ liệu.
2. Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC và phân
mảnh dọc VFC bằng kỹ thuật phân cụm tích hợp dựa trên cơ sở phát triển
các độ đo tương đồng từ các thuật toán phân cụm nguyên thủy.
3. Nghiên cứu đề xuất thuật toán phân cụm thô KR theo tiếp cận lý
thuyết tập thô cho bài toán phân mảnh dọc dữ liệu thô phân tán.
4. Nghiên cứu đề xuất thuật toán phân cụm dọc VFAC dựa trên phân
cụm đàn kiến FAC theo tiếp cận lý thuyết tối ưu hóa đàn kiến ACO, cho
phép từng bước thu h p không gian tìm kiếm nhằm nâng cao hiệu quả của
các thuật toán phân cụm dữ liệu trong bài toán thiết kế cơ sở dữ liệu phân
tán.
Hướng phát triển luận án là tiếp tục nghiên cứu bổ sung và hoàn
thiện bài toán thiết kế cơ sở dữ liệu phân tán theo một số tiếp cận mới như:
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
24
- Tiếp tục nghiên cứu đề xuất thuật toán phân mảnh dọc dữ liệu
phân tán theo tiếp cận phân cụm mờ và thuật toán phân mảnh ngang dữ
liệu phân tán theo hướng tiếp cận phân cụm thô và phân cụm đàn kiến.
- Đánh giá, thử nghiệm các thuật toán phân cụm đã đề xuất như KR,
VFAC trên nhiều bộ dữ liệu lớn của các hệ CSDL phân tán không thuần
nhất.
- Đối với bài toán phân cụm khi có n đối tượng cần phân cụm và số
k cụm lớn, độ phức tạp tính toán sẽ cao. Vì vậy, việc nghiên cứu cải tiến
thuật toán về các chi phí xử lý tính toán là một hướng phát triển cần thiết
sau luận án này./.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[I] Lương Văn Nghĩa (2013), Phân mảnh dọc, ngang trong thiết kế
cơ sở dữ liệu phân tán dự trên kỹ thuật phân cụm, Tạp chí
KH&CN, ISSN 1859-1531 - Đại học Đà Nẵng, số 03(64), pp.
159-162.
[II] Lương Văn Nghĩa, Lê Văn Sơn (2014), Phân mảnh dữ liệu
trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm
hướng tri thức, Tạp chí KH&CN, ISSN 1859-1531 - Đại học Đà
Nẵng, số 1(74), Quyển II, pp. 59-63.
[III] Van Nghia Luong, Ha Huy Cuong Nguyen, Van Son Le
(2015), An Improvement on Fragmentation in Distribution
Database Design Based on Knowledge-Oriented Clustering
Techniques, International Journal of Computer Science &
Information Security (IJCSIS) - USA, ©IJCSIS publication
2015 Pennsylvania, Vol 13 (No. 5), pp. 13-17.
[IV] Van Nghia Luong, Vijender Kumar Solanki, Ha Huy Cuong
Nguyen (2019), “Fragmentation in Distributed Database
Design Based on ACO Clustering Technique”, IGI Global
eEditorial Discovery®. International Journal of Information
Retrieval Research (IJIRR). Published by IGI Global
Publishing, Hershey,USA, Vol 9, Issue 2, Article 3, pp. 28-37.
[V] Van Nghia Luong, Van Son Le, and Van Ban Doan (2017),
“Fragmentation in Distributed Database Design Based on KR
Rough Clustering Technique”, 6th International Conference,
ICCASA 2017 and 3rd International Conference. ICTCC 2017
Tam Ky, Vietnam, November 23–24, 2017, pp. 166-172.

More Related Content

Similar to Thiết Kế Cơ Sở Dữ Liệu Phân Tán Theo Tiếp Cận Khai Phá Dữ Liệu.doc

Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.docỨng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.docDịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Luận Văn Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docx
Luận Văn  Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docxLuận Văn  Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docx
Luận Văn Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docxsividocz
 
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.docLuận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doctcoco3199
 
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.docLuận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doctcoco3199
 
4 ds07 10 15 bai anh huy da sua
4 ds07 10 15 bai anh huy  da sua4 ds07 10 15 bai anh huy  da sua
4 ds07 10 15 bai anh huy da suagaquaysieugion
 
Luận Văn Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...
Luận Văn  Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...Luận Văn  Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...
Luận Văn Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...sividocz
 
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...Dịch vụ viết đề tài trọn gói 0934.573.149
 

Similar to Thiết Kế Cơ Sở Dữ Liệu Phân Tán Theo Tiếp Cận Khai Phá Dữ Liệu.doc (20)

Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.docỨng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
 
Luận Văn Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docx
Luận Văn  Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docxLuận Văn  Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docx
Luận Văn Đề Cương Công Nghệ Thông Tin Cơ Sở Dữ Liệu.docx
 
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAYĐề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
 
Luận án: Xây dựng thuật toán điều khiển dự báo theo mô hình, HAY
Luận án: Xây dựng thuật toán điều khiển dự báo theo mô hình, HAYLuận án: Xây dựng thuật toán điều khiển dự báo theo mô hình, HAY
Luận án: Xây dựng thuật toán điều khiển dự báo theo mô hình, HAY
 
Phương pháp phần tử chuyển động cho bài toán động lực học kết cấu
Phương pháp phần tử chuyển động cho bài toán động lực học kết cấuPhương pháp phần tử chuyển động cho bài toán động lực học kết cấu
Phương pháp phần tử chuyển động cho bài toán động lực học kết cấu
 
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.docLuận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
 
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.docLuận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
Luận Văn Tối Ưu Hoá Truy Vấn Trong Hệ Cơ Sở Dữ Liệu Phân Tán.doc
 
4 ds07 10 15 bai anh huy da sua
4 ds07 10 15 bai anh huy  da sua4 ds07 10 15 bai anh huy  da sua
4 ds07 10 15 bai anh huy da sua
 
Luận Văn Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...
Luận Văn  Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...Luận Văn  Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...
Luận Văn Đề Cương Dùng Cho Ngành Công Nghệ Thông Tin Cấu Trúc Dữ Liệu Và Giả...
 
Song Song Hóa Các Thuật Toán Trên Mạng Đồ Thị.doc
Song Song Hóa Các Thuật Toán Trên Mạng Đồ Thị.docSong Song Hóa Các Thuật Toán Trên Mạng Đồ Thị.doc
Song Song Hóa Các Thuật Toán Trên Mạng Đồ Thị.doc
 
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAYKhai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
 
Phương pháp thiết kế tối ưu và bình sai hỗn hợp lưới tự do mặt đất
Phương pháp thiết kế tối ưu và bình sai hỗn hợp lưới tự do mặt đấtPhương pháp thiết kế tối ưu và bình sai hỗn hợp lưới tự do mặt đất
Phương pháp thiết kế tối ưu và bình sai hỗn hợp lưới tự do mặt đất
 
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụngLuận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
 
Một số thuật toán phân tích số nguyên hiện đại và ứng dụng.doc
Một số thuật toán phân tích số nguyên hiện đại và ứng dụng.docMột số thuật toán phân tích số nguyên hiện đại và ứng dụng.doc
Một số thuật toán phân tích số nguyên hiện đại và ứng dụng.doc
 
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờLuận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
 
Luận án: Điều khiển công bằng luồng trong mạng chuyển mạch
Luận án: Điều khiển công bằng luồng trong mạng chuyển mạchLuận án: Điều khiển công bằng luồng trong mạng chuyển mạch
Luận án: Điều khiển công bằng luồng trong mạng chuyển mạch
 
Phương Pháp Tìm Nghiệm Của Hệ Phương Trình Tuyến Tính Gần Suy Biến.doc
Phương Pháp Tìm Nghiệm Của Hệ Phương Trình Tuyến Tính Gần Suy Biến.docPhương Pháp Tìm Nghiệm Của Hệ Phương Trình Tuyến Tính Gần Suy Biến.doc
Phương Pháp Tìm Nghiệm Của Hệ Phương Trình Tuyến Tính Gần Suy Biến.doc
 
Xác Định Đồng Thời Một Số Kháng Sinh Nhóm Carbapenem Bằng Phương Pháp Điện Di...
Xác Định Đồng Thời Một Số Kháng Sinh Nhóm Carbapenem Bằng Phương Pháp Điện Di...Xác Định Đồng Thời Một Số Kháng Sinh Nhóm Carbapenem Bằng Phương Pháp Điện Di...
Xác Định Đồng Thời Một Số Kháng Sinh Nhóm Carbapenem Bằng Phương Pháp Điện Di...
 
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.docNghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
 
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...
Ứng Dụng Hình Học Giải Tích Vào Giải Phương Trình, Bất Phương Trình Và Hệ Phư...
 

More from Dịch vụ viết thuê Luận Văn - ZALO 0932091562

Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 

More from Dịch vụ viết thuê Luận Văn - ZALO 0932091562 (20)

Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
 
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
 
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.docXây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
 
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.docPhát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
 
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
 
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
 
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
 
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
 
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
 
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.docÁnh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
 
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
 
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
 
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
 
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
 
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
 
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.docDiễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
 
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.docQuản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
 

Recently uploaded

TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...Nguyen Thanh Tu Collection
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoámyvh40253
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfVyTng986513
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...Nguyen Thanh Tu Collection
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...Nguyen Thanh Tu Collection
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................TrnHoa46
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGhoinnhgtctat
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docxTHAO316680
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxAnAn97022
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdfTrnHoa46
 

Recently uploaded (20)

TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptx
 
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdf
 

Thiết Kế Cơ Sở Dữ Liệu Phân Tán Theo Tiếp Cận Khai Phá Dữ Liệu.doc

  • 1. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LƯƠNG VĂN NGHĨA THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019
  • 2. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: 1. PGS.TS. Lê Văn Sơn 2. PGS.TS. Đoàn Văn Ban Phản biện 1: GS.TS. Vũ Đức Thi Phản biện 2: PGS.TS. Nguyễn Thị Kim Anh Phản biện 3: TS. Trương Ngọc Châu Luận án đã được bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng Vào hồi 14 giờ 30 ngày 01 tháng 03 năm 2019 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Học liệu và Truyền thông, Đại học Đà Nẵng
  • 3. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 1 MỞ ĐẦU 1. TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU Ngày nay, với việc dữ liệu đa dạng, được phân tán ở nhiều nơi trên toàn cầu làm cho các ứng dụng cơ sở dữ liệu (CSDL), các phương pháp quản trị và khai thác CSDL phân tán truyền thống tỏ ra ít hiệu quả, không đáp ứng được mục tiêu chia sẻ và còn khó khăn trong việc tích hợp và trao đổi thông tin. Để khắc phục được những hạn chế trên, các CSDL phân tán cần được thiết kế sao cho phù hợp hơn với yêu cầu sử dụng, truy xuất và xử lý dữ liệu phân tán. Điều này có thể thực hiện được nhờ vào kỹ thuật khai phá dữ liệu (KPDL), cụ thể là dựa vào các kỹ thuật phân cụm phục vụ cho việc phân mảnh và phân tán, định vị dữ liệu trong thiết kế CSDL phân tán. Hiện có nhiều nghiên cứu liên quan đến bài toán thiết kế CSDL phân tán dựa vào các kỹ thuật phân cụm trong lĩnh vực KPDL, cụ thể: - Bài toán phân mảnh dữ liệu dựa vào phân cụm đã được nhiều tác giả quan tâm và sau đó được phát triển tiếp bởi Özsu M. Tamer và các cộng sự. Tuy nhiên, các kỹ thuật phân mảnh dựa vào các đối tượng được phân cụm có cùng độ tương đồng giữa các nhóm thuộc tính dừng lại cho bài toán phân mảnh dọc dữ liệu trên các lược đồ quan hệ. - Hui ma và các cộng sự đề xuất thuật toán phân cụm CA (Clustered Affinity) để nhóm thuộc tính có mối quan hệ chặt chẽ với nhau (ái lực) và sau đó Navathe và các cộng sự phát triển thuật toán BEA (Bond Enegy Algorithm), phục vụ cho bài toán phân mảnh dọc dữ liệu phân tán. Các thuật toán trên dựa theo ý tưởng các thuộc tính có tần suất xuất hiện đồng thời càng lớn thì thường thuộc về một cụm (phân mảnh). Phương án giải quyết bài toán này đưa về tối ưu hóa một biểu thức bậc 2 có độ phức tạp khá lớn. - Bài toán tối ưu hóa thuật toán phân mảnh được Navathe và các cộng sự đề xuất tìm điểm phân tách t sao cho biểu thức q = CTQ * CBQ -
  • 4. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 2 COQ2 là cực đại. Tuy nhiên, với các quan hệ có số thuộc tính lớn, bài toán không thể giải quyết bằng phân hoạch thành hai mảnh, cần phải thực hiện theo một phân mảnh hỗn hợp, gổm ít nhất một phân mảnh ngang và một phân mảnh dọc. - Các nghiên cứu gần đây, một số tác giả kết hợp giải bài toán phân mảnh và bài toán định vị bằng các kỹ thuật tối ưu, kết hợp với các kỹ thuật heuristic. Thời gian thực hiện các thuật toán này giảm đáng kể so với các thuật toán ban đầu. Tuy nhiên, các độ đo sự liên kết các thuộc tính là chưa được sự nhất trí chung của các nhà khoa học. - Thuật toán tối ưu đàn kiến heuristic - ACO (Ant Colony Optimazation) lần đầu tiên Dorigo và các cộng sự đề xuất năm 2011, được ứng dụng nhiều trong tìm kiếm và khai phá dữ liệu. Hầu hết các nghiên cứu gần đây về ACO chỉ tập trung vào việc phát triển các biến thể của thuật toán để làm tăng hiệu năng tính toán của thuật toán hệ kiến AS (Ant System) ban đầu. - Một số nghiên cứu trong nước về ACO tập trung giải quyết các bài toán tối ưu rời rạc như bài toán người bán hàng, bài toán lập lịch, bài toán an ninh mạng.... Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờ cũng đang tập trung giải quyết cho một số bài toán kỹ thuật công nghệ cao. Tuy nhiên, cách tiếp cận và các thử nghiệm trong bài toán phân cụm hay sử dụng các tiếp cận tìm kiếm heuristic để tìm lời giải tối ưu cục bộ cho các bài toán phân mảnh dữ liệu phân tán, cho kết quả nhanh nhưng không thể cải thiện thêm lời giải tìm được. - Về kỹ thuật phân cụm tích hợp, các nghiên cứu trong nước gần đây được nhiều nhóm tác giả quan tâm và đã đề xuất các thuật toán hiệu năng cao. Trong luận án này, tác giả đã vận dụng tích hợp giữa thuật toán tối ưu hóa đàn kiến ACO và phân cụm thô với các kỹ thuật phân cụm nguyên
  • 5. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 3 thủy để đề xuất các thuật toán phân cụm dọc dữ liệu phân tán nhằm tối ưu các chi phí tính toán và chất lượng sau phân cụm cho các bộ dữ liệu lớn. Để tham gia giải quyết những vấn đề nêu trên, đề tài luận án “Thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu” được thực hiện theo các định hướng như sau: - Kết hợp kỹ thuật phân cụm phân cấp tích tụ với phân cụm phân hoạch cho thuật toán cải tiến phân mảnh ngang, phân mảnh dọc dữ liệu phân tán trên cơ sở phát triển các độ đo tương đồng và phương thức xử lý các cụm sau phân mảnh. - Sử dụng lý thuyết tập thô và lý thuyết tối ưu hóa đàn kiến ACO để phát triển mới thuật toán phân mảnh dọc dữ liệu phân tán bằng kỹ thuật phân cụm thô KR và phân cụm kiến FAC. - Tiến hành so sánh, đánh giá và thử nghiệm các thuật toán cải tiến và thuật toán đề xuất mới với các thuật toán nguyên thủy trên các bộ dữ liệu lớn để làm rõ tính hiệu quả về chi phí, cũng như những ưu điểm nổi trội qua thực nghiệm về số cụm sau phân mảnh. 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2.1. Mục tiêu nghiên cứu Mục tiêu chính của luận án nhằm giải quyết bài toán phân mảnh dữ liệu phân tán bằng cách kết hợp một số kỹ thuật phân cụm trong KPDL, lý thuyết tập thô và phương pháp tối ưu hóa ACO, cụ thể là: - Nghiên cứu cải tiến thuật toán phân mảnh dọc và phân mảnh ngang dựa vào các kỹ thuật phân cụm tích hợp trong khai phá dữ liệu. - Nghiên cứu đề xuất mới thuật toán phân mảnh dọc dựa trên kỹ thuật phân cụm thô KR và phân cụm đàn kiến VFAC. 2.2. Đối tượng và phạm vi nghiên cứu Các đối tượng và phạm vi nghiên cứu luận án:
  • 6. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 4 Các độ đo tương đồng, việc xử lý khoảng cách cụm trong các thuật toán phân mảnh ngang, phân mảnh dọc dựa trên kỹ thuật phân cụm phân hoạch và phân cụm phân cấp tích tụ. Kỹ thuật phân mảnh dọc dữ liệu phân tán dựa trên kỹ thuật phân cụm thô KR và phân cụm đàn kiến VFAC. Vận dụng lý thuyết tập thô, các tiếp cận Meta-heuristic trong phương pháp tối ưu hóa đàn kiến ACO để giải quyết bài toán phân cụm dữ liệu phục vụ cho các kỹ thuật phân mảnh trong thiết kế CSDL phân tán. 3. PHƯƠNG PHÁP NGHIÊN CỨU Các phương pháp nghiên cứu của luận án: Phương pháp nghiên cứu lý thuyết: Nghiên cứu tổng quan tài liệu liên quan đến lý thuyết thiết kế CSDL phân tán và các kỹ thuật phân cụm trong khai phá dữ liệu để cải tiến, đề xuất các thuật toán phân mảnh dữ liệu phân tán theo kỹ thuật phân cụm thô và kỹ thuật phân cụm kiến FAC. Phương pháp thực nghiệm: Trên cơ sở các thuật toán phân mảnh đã cải tiến, đề xuất (VFC, HFC, KR và VAFC), luận án tiến hành cài đặt thử nghiệm với bộ công cụ mô phỏng SPMS, ngôn ngữ lập trình Java để phân tích, so sánh kết quả phân cụm các thuật toán đề xuất với những kỹ thuật phân mảnh nguyên thủy tiêu biểu như k-Means, k-Medoids. 4. ĐÓNG GÓP CỦA LUẬN ÁN 4.1. Về mặt khoa học Vận dụng thành công cách tiếp cận tập thô và tối ưu hóa đàn kiến ACO cho bài toán phân mảnh dọc trong thiết kế CSDL phân tán theo tiếp cận KPDL. Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC và phân mảnh dọc VFC bằng việc phát triển các độ đo tương đồng và các
  • 7. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 5 kỹ thuật xử lý cụm trong phân cụm. Nghiên cứu đề xuất mới thuật toán phân mảnh dọc theo kỹ thuật phân cụm thô KR và kỹ thuật phân cụm đàn kiến VFAC. 4.2. Về mặt thực tiễn Kết quả cài đặt thử nghiệm trong luận án cho thấy kết quả phân mảnh bằng các thuật toán cải tiến HFC, VFC và các thuật toán đề xuất mới KR, VFAC tốt hơn về thời gian tính toán, chi phí bộ nhớ, số cụm sau phân mảnh và đặc biệt khi thực hiện trên các bộ dữ liệu với số đối tượng cần phân cụm lớn. 5. BỐ CỤC CỦA LUẬN ÁN Ngoài phần mở đầu và kết luận, luận án được bố cục trong ba chương: Chương 1 trình bày các nghiên cứu về thiết kế cơ sở dữ liệu phân tán bao gồm các kỹ thuật phân mảnh dọc, phân mảnh ngang và thuật toán phân mảnh theo phân cụm FC (Fragmentation Cluster). Chương 2 trình bày các nghiên cứu liên quan đến các kỹ thuật phân cụm trong khai phá dữ liệu được áp dụng cho các bài toán phân mảnh ngang, phân mảnh dọc dữ liệu phân tán và đề xuất cải tiến hai thuật toán VFC và HFC. Chương 3 trình bày các nghiên cứu và đề xuất mới bài toán phân mảnh dọc dữ liệu phân tán theo tiếp cận khai phá dữ liệu bằng các kỹ thuật phân cụm thô KR (k-Means Rough) và phân cụm đàn kiến FAC (Fragmentation Ants Cluster). Cài đặt thực nghiệm và so sánh đối chiếu kết quả các thuật toán cải tiến, đề xuất mới so với thuật toán nguyên thủy k- Means, HAC.
  • 8. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 6 Chương 1. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN Nội dung chương 1 gồm hai phần chính: phần đầu giới thiệu tổng quan về hệ cơ sở dữ liệu phân tán, phần thứ hai giới thiệu về bài toán phân mảnh trong thiết kế cơ sở dữ liệu phân tán với các yêu cầu, mục tiêu, chiến lược thỏa mãn: tính đúng, tính đầy đủ và tính tái thiết được. Các thuật toán cơ bản được xem xét trong chương là bài toán phân mảnh dọc và phân mảnh ngang dữ liệu phân tán từ các thuật toán nguyên thủy như thuật toán BEA, thuật toán PHORIZONTAL hay thuật toán phân mảnh FC dùng kỹ thuật phân cụm CA. 1.1. TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2.1. Các chiến lược thiết kế 1.2.2. Các vấn đề thiết kế cơ sở dữ liệu phân tán 1.2.3. Kỹ thuật thiết kế cơ sở dữ liệu phân tán 1.2.4. Các quy tắc phân mảnh đúng đắn 1.2.5. Thảo luận về thiết kế cơ sở dữ liệu phân tán 1.3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG CÁC KỸ THUẬT PHÂN MẢNH 1.3.1. Kỹ thuật phân mảnh ngang 1.3.2. Kỹ thuật phân mảnh dọc 1.3.3. Thuật toán phân mảnh FC 1.3.4. Kỹ thuật phân mảnh hỗn hợp 1.3.5. Thảo luận các kỹ thuật phân mảnh 1.4. KẾT CHƯƠNG Trong chương này, luận án trình bày tổng quan về thiết kế một hệ CSDL phân tán, trong đó đề cập một cách đầy đủ về sự cần thiết cho bài toán phân mảnh dữ liệu, các quy tắc phân mảnh đúng đắn bao gồm tính đầy đủ, tính tái thiết được và tính tách biệt cũng như các yêu cầu thông tin về cơ sở dữ liệu, thông tin về ứng dụng.
  • 9. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 7 Luận án cũng trình bày một số thảo luận chi tiết cuối mỗi mục để làm rõ hơn vấn đề nghiên cứu trong chương, đồng thời xác định những nội dung cần tiếp tục đề xuất trong luận án cho các chương tiếp theo. Nội dung chính của chương là chuyển đổi ý tưởng giải bài toán phân rã dữ liệu trên CSDL tập trung sang giải bài toán phân mảnh dữ liệu phân tán theo phân cụm dựa trên hai thuật toán nguyên thủy HF cho phân mảnh ngang và CA cho phân mảnh dọc bằng cách áp dụng kỹ thuật phân cụm FC. Chi tiết các thuật toán cải tiến về kỹ thuật phân cụm trong KPDL cho bài toán phân mảnh sẽ được trình bày ở Chương 2. Vận dụng một số tiếp cận mới cho kỹ thuật phân cụm, đề xuất một số thuật toán phân cụm, sẽ được luận án đề cập trong Chương 3. Chương 2. PHÂN CỤM DỮ LIỆU TRONG THIẾT KẾ CSDL PHÂN TÁN Chương này tập trung trình bày một số vấn đề về khai phá dữ liệu (KPDL), các kỹ thuật phân cụm dữ liệu (PCDL) áp dụng cho bài toán phân mảnh trong thiết kế CSDL phân tán. Các kỹ thuật phân cụm liên quan được trình bày trong chương gồm phân cụm phân cấp, phân cụm phân hoạch và phân cụm dựa vào tập thô. Kết quả nghiên cứu chính của chương này được công bố tại các bài báo [I], [II] trong danh mục công trình tác giả. 2.1. TIẾP CẬN KHAI PHÁ DỮ LIỆU 2.1.1. Khai phá tri thức và khai phá dữ liệu 2.1.2. Những thách thức trong khai phá dữ liệu 2.1.3. Các bài toán khai phá dữ liệu 2.2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 2.2.1. Kỹ thuật phân cụm 2.2.2. Các kiểu dữ liệu và độ đo trong phân cụm 2.2.3. Các phương pháp phân cụm dữ liệu 2.2.4. Thảo luận về các kỹ thuật phân cụm
  • 10. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 8 2.3. PHÂN MẢNH DỮ LIỆU DỰA VÀO KỸ THUẬT PHÂN CỤM Áp dụng các kỹ thuật phân cụm đã trình bày trong chương này, vận dụng với thuật toán CA và FC trong chương 1, luận án đề xuất hai thuật toán cải tiến: phân mảnh dọc VFC (Vertical Fragmentation Cluster) và phân mảnh ngang HFC (Horizontal Fragmentation Cluster) [I] bằng cách vận dụng kết hợp các phương pháp phân cụm theo các độ đo tương đồng và xử lý cụm dựa trên các thuật toán nguyên thủy. 2.3.1. Đề xuất cải tiến thuật toán phân mảnh dọc VFC Thuật toán VFC [I]: Đầu vào: - D: Tập n đối tương cần phân cụm; - do: Ngưỡng khoảng cách; - k: Số lượng cụm; - E: Hàm mục tiêu; Đầu ra: Tập các phân cụm của D; Thuật toán: Begin 1. Chọn k đối tượng mi làm trọng tâm ban đầu cho k cụm; /* vận dụng theo k-Means */ 2. Repeat 3. C = {{r} | r ∈ D}; /* Khởi tạo C là tập các cụm chỉ gồm 1 đối tượng */ 4. Tìm hai cụm Si , Sj ∈ C có khoảng cách d(Si, Sj) là nhỏ nhất; 5. Nếu d(Si, Sj) > do thì dừng thuật toán; /*Khoảng cách 2 cụm gần nhất đã lớn hơn ngưỡng cho phép */ 6. C = C{Si, Sj}; /* Loại bỏ 2 cụm Si ,Sj khỏi tập các cụm */ 7. S = Si ∪ Sj; /* vận dụng theo thuật toán HAC */ 8. C = C ∪ {S}; /* Kết nạp cụm mới S vào C */ 9. Tính lại khoảng cách giữa cụm mới với các cụm cũ; 10. Cập nhật lại trọng tâm cụm mi; 11. Until <Hàm mục tiêu E tối thiểu > End.
  • 11. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 9 Đánh giá thuật toán VFC: - Ưu điểm thuật toán VFC là có tính mở rộng cao, phù hợp với các bộ dữ liệu lớn. Thuật toán kết thúc ở điểm tối ưu cục bộ, có thể dùng thuật toán di truyền để tìm tối ưu toàn cục. Nhược điểm VFC là cần chỉ trước k cụm, không xử lý tốt dữ liệu nhiễu, các phần tử ngoại lệ - Thuật toán VFC vận dụng kết hợp thuật toán HAC và k-Means nên độ phức tạp là O(min(HAC, k-Means)) = O(Min(O(n2 ), O(t*k*n))). Thực tế, số lần lặp t và số cụm k thường rất bé so với số đối tượng n, vì thế độ phức tạp VFC là O(n), bằng với trường hợp hội tụ tốt nhất của k-Means. 2.3.2. Đề xuất cải tiến thuật toán phân mảnh ngang HFC Thuật toán HFC [I] Đầu vào: - D: Tập n đối tượng cần phân cụm; - k: số lượng cụm; - Ma trận OCM; - Hàm mục tiêu E; Đầu ra: Tập các phân cụm của D; Thuật toán: Begin 1.Chọn k đối tượng medoid bất kỳ; 2.Khởi tạo k cụm với k đối tượng phân biệt đầu tiên dựa trên ma trận OCM; 3.Repeat 4.Gán đối tượng vào cụm có medoids gần nó nhất; 5. Gán các đối tượng còn lại của OCM vào cụm có các đối tượng tới medoid là gần nhất; /*theo thuật toán PAM */ 6.Hoán đổi medoid cho các đối tượng của ma trận OCM đến khi làm giảm đi hàm mục tiêu E; 7.Until <Hàm mục tiêu E đạt tối thiểu>; End.
  • 12. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 10 Đánh giá thuật toán HFC: - Ưu điểm cơ bản trong thuật toán cải tiến HFC theo phân cụm k- Medoids là khởi tạo k cụm đầu vào (không lấy ngẫu nhiên) theo quy tắc lấy k đối tượng phân biệt đầu tiên của tập dữ liệu vào (k dòng phân biệt đầu tiên của OCM) làm phần tử trung tâm của k cụm khởi tạo. - Khả năng hai bộ trùng nhau trên các quan hệ có thể xảy ra, vì dữ liệu phân cụm lấy từ ma trận OCM, được xây dựng từ quan hệ ban đầu và căn cứ vào các vị từ đơn Pr. Nhược điểm của HFC tương tự như k- Medoids vì HFC chỉ tập trung phát huy ưu điểm trên ma trận OCM khi xử lý các medoid. - Độ phức tạp thuật toán HFC là O(k2 *n), trong đó có hai lần k cụm và k đối tượng tham gia trong một lần lặp đơn, n là số đối tượng cần phân cụm. Thực tế, k cụm thường rất bé so với k đối tượng, nên độ phức tạp HFC là O(k*n). Độ phức tạp này bé hơn thuật toán PAM nguyên thủy là O(k(n-k)2 ). 2.3.3. Đánh giá kết quả thực nghiệm 2.3.3.1. Đánh giá kết quả thực nghiệm theo VFC (1). So sánh đánh giá thực nghiệm với phân cụm phân cấp tích đống HAC (2). So sánh đánh giá thực nghiệm với phân cụm k-Means nguyên thủy Luận án tiến hành so sánh kết quả thực nghiệm VFC với k-Means nguyên thủy theo các tiêu chí về chi phí thời gian xử lý, chi phí bộ nhớ với 5 kịch bản tương ứng với số cụm được chọn (k = 3, k = 5, k = 9, k = 11, k = 15). Bảng 2.10 Tập D gồm 20 đối tượng cần phân cụm @NAME=Đối tượng 1 5.1 3.5 1.4 0.2 @NAME=Đối tượng 2 4.9 3.0 1.4 0.2 @NAME=Đối tượng 3 4.7 3.2 1.3 0.2 @NAME=Đối tượng 4 4.6 3.4 1.7 0.2 @NAME=Đối tượng 5 5.0 3.6 1.4 0.2 @NAME=Đối tượng 6 4.4 2.9 1.4 0.2 @NAME=Đối tượng 7 4.9 3.1 1.4 0.2 @NAME=Đối tượng 8 5.4 3.7 1.5 0.2 @NAME=Đối tượng 9 4.8 3.7 1.5 0.2 @NAME=Đối tượng 10 4.8 3 1.4 0.1 @NAME=Đối tượng 11 5321 @NAME=Đối tượng 12 15 13 12 11 @NAME=Đối tượng 13 30 60 52 51 @NAME=Đối tượng 14 50 40 42 41 @NAME=Đối tượng 15 30 50 42 31 @NAME=Đối tượng 16 20 50 52 21 @NAME=Đối tượng 17 10 15 52 21 @NAME=Đối tượng 18 21 25 25 22 @NAME=Đối tượng 19 11 15 35 42 @NAME=Đối tượng 20 11 25 45 45
  • 13. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 11 Qua hai kết quả thử nghiệm như trên, luận án xây dựng bảng so sánh cho giữa hai thuật toán k-Means nguyên thủy và thuật toán cải tiến VFC theo 5 lần test, số lượng cụm k được chọn (k = 3; k = 5; k = 9; k = 11, k = 15) như (Bảng 2.11), thống nhất lấy 4 số lẽ phần kết quả: Bảng 2.11 So sánh kết quả với phân cụm k-Means và VFC Số Tổng Chi phí trung bình Bộ nhớ tối đa (Mb) Số lần Thuật cụm k Thời lỗi (Min) lặp toán so gian sánh (ms) k = 3 16 4728,4549 1.2986 3 Phân cụm k = 5 16 3582,955 1.2987 3 k-Means k = 9 16 2909,955 1.2987 3 k = 11 16 2855,455 1.2987 2 k = 15 16 5437,3716 1.3000 2 k = 3 15 5437,3716 1.2879 Phân cụm k = 5 15 5237,3716 1.2879 cải tiến VFC k = 9 15 5444,3716 1.2879 k = 11 15 5397,3716 1.2879 k = 15 15 5267,3716 1.2879 Nhận xét đánh giá thực nghiệm VFC: - Với số cụm k nhỏ (k = 3), thuật toán cải tiến VFC có tổng thời gian và chi phí bộ nhớ sử dụng nhỏ hơn k-Means nguyên thủy. Tuy nhiên, chi phí trung bình lỗi VFC thường lớn hơn vì do tích hợp giữa HAC và k- Means khi gặp dữ liệu nhiễu hoặc phần tử ngoại lệ. - Với số cụm k tăng lên, thuật toán VFC vẫn thực hiện ổn định với các chi phí thời gian, chi phí bộ nhớ và chi phí trung bình lỗi. Đặc tính này thể hiện việc phát huy được yếu tố hội tụ tốt nhất theo k-Means.
  • 14. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 12 2.3.3.2. Đánh giá kết quả thực nghiệm theo HFC Xét quan hệ r(R) = {T1, T2, ..., Tl}, tập Pr = {Pr1, Pr2, ..., Prm} các vị từ đơn trích rút từ các ứng dụng trên r(R). Vector hóa nhị phân các bản ghi như (Bảng 2.7) và có ma trận OCM như (Bảng 2.8), chọn trước số lượng cụm k thử nghiệm (k = 2, k = 3, k = 4). Kết quả phân mảnh ngang HFC như (Bảng 2.12 ): Bảng 2.12 Kết quả phân mảnh ngang cải tiến HFC [I] k=9 k=11 k=15 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3 Cụm 2: E2, E4, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 3: E4 Cụm 3: E4 // kết quả tương tự Cụm 4: E6, E7 k-Medoids [I] Tương tự, cùng số cụm k như trên, kết quả phân mảnh ngang theo phân cụm phân hoạch k-Medoids với thuật toán PAM, kết quả như (Bảng 2.13 ): Bảng 2.13 Kết quả phân mảnh ngang theo k-Medoids k=9 k=11 k=15 Cụm 1: E1, E3,E4, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 3: E4 Cụm 3: E4 Cụm 4: “rỗng” Nhận xét đánh giá thực nghiệm HFC: - Kết quả phân mảnh ngang cải tiến HFC và PAM gần tương tự nhau khi k = 9 và k = 11. Khi tăng số cụm với k = 15, kết quả không giống nhau. Kết quả thuật toán cải tiến HFC ở (Bảng 2.12) phân cụm đều cho các đối tượng trên 4 cụm. Tuy nhiên, thuật toán PAM trên (Bảng 2.13) lại chứa cụm 4 = “rỗng”.
  • 15. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 13 - Với thực nghiệm như trên, việc cải tiến các thuật toán phân mảnh ngang cần xem xét khi áp dụng cho các bộ dữ liệu lớn. Nếu cần thiết phải cải thiện được kết quả phân cụm, có thể chấp nhận có cụm rỗng hay các cụm không đều. 2.4. KẾT CHƯƠNG Nội dung chương 2 đã trình bày một số phương pháp phân cụm nguyên thủy có liên quan đến các thuật toán cải tiến, đề xuất, đó là các phương pháp phân cụm phân cấp tích tụ lồng, phân cụm phân hoạch, phân cụm dựa trên mật độ, phân cụm theo lý thuyết tập thô. Một số thuật toán điển hình cũng được đề cập như k-Means, k-Medoids để làm cơ sở so sánh, đánh giá thực nghiệm với các thuật toán cải tiến VFC, HFC và các thuật toán đề xuất mới trong chương 3. Chương này đã đề xuất hai thuật toán VFC và HFC [I] được cải tiến từ thuật toán phân cụm CA kết hợp thuật toán phân mảnh FC trên cơ sở kết hợp giữa phương pháp phân cụm phân cấp tích tụ và phân cụm phân hoạch k-Means, k-Medoids. Việc sử dụng phối hợp các kỹ thuật phân cụm như trong bài toán thiết kế phân mảnh VFC, HFC cải tiến là một giải pháp tối ưu cả về số cụm phân mảnh cũng như các độ đo được phát triển. Tuy nhiên, thuật toán HFC, VFC sử dụng các kỹ thuật phân cụm nguyên thủy, nên số lượng phân cụm k phụ thuộc vào người dùng. Vì thế, cần kết hợp với tri thức chuyên gia để tính toán số lượng cụm thích hợp, định nghĩa lại các độ đo mối quan hệ giữa các thuộc tính, các bản ghi tích hợp theo các thuật toán hiệu năng cao. Một số cách tiếp cận mới về kỹ thuật phân cụm như phân cụm thô, phân cụm theo phương pháp tối ưu hóa đàn kiến ACO sẽ được luận án trình bày tiếp tục trong Chương 3.
  • 16. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 14 Chương 3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO PHÂN CỤM THÔ VÀ TỐI ƯU ĐÀN KIẾN Nội dung chương này trình bày bài toán thiết kế phân mảnh dọc dữ liệu phân tán theo tiếp cận tập thô với kỹ thuật phân cụm thô KR và tiếp cận tối ưu hóa đàn kiến ACO với kỹ thuật phân cụm đàn kiến VFAC. Kết quả nghiên cứu chính của chương được công bố tại [III], [IV], [V] trong danh mục công trình tác giả. 3.1. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ 3.1.1 Rời rạc hoá dữ liệu và trích chọn thuộc tính theo tiếp cận tập thô 3.1.2. Hệ thông tin 3.1.3. Quan hệ không phân biệt, bất khả phân biệt trong hệ thông tin 3.1.4. Thuộc tính và vector đặc trưng tham chiếu 3.2. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ 3.2.1. Thuật toán phân cụm thô KR 3.2.1.1. Kỹ thuật phân cụm thô 3.2.1.2. Đề xuất thuật toán phân cụm thô KR Thuật toán KR [V] Đầu vào: - D: Tập n đối tượng cần phân cụm; - k: Số lượng cụm; - Ngưỡng Thi; Đầu ra: Tập các phân cụm của D; Thuật toán Begin 1. Khởi tạo ngẫu nhiên k tâm của các đối tượng xuất phát x={x1,… xk}; 2. Repeat
  • 17. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 15 3. Gán các đối tượng v vào các xấp xỉ trên và xấp xỉ dưới của các cụm; /* tiến hành gom cụm*/ 4. Tính khoảng cách d(v, xi),d(v, xj) giữa các đối tượng v với trọng tâm cụm xi, xj; /* 1 ≤ I, j ≤ k */ 5. If (d(v, xi) - d(v, xj) Thi) Then véc tơ đối tượng v sẽ không thuộc bất kỳ xấp xỉ dưới nào /* theo tính chất 3*/ ; 6. Else d(v, xi) là tối thiểu; 7. Cập nhật lại trọng tâm xi bằng trọng tâm mới; 8. If (trung tâm cụm trùng với lần lặp trước) Then dừng thuật toán; 9. Until <Trọng tâm các cụm không thay đổi> End. 3.2.1.3. Đánh giá thuật toán phân cụm thô KR - Giải pháp phân cụm thô KR [V], tương tự như KO [III], có khả năng nhóm đối tượng trong nhiều cụm khác nhau. Ngoài ra, KR còn tạo được nhiều cụm hơn với số lượng cụm cần thiết để mô tả dữ liệu phụ thuộc vào khoảng cách đo. Điều này, cơ hội dành cho một đối tượng là cao khi tiến hành gom cụm trong cùng một cụm. - Tuy nhiên, giải pháp phân cụm thô KR tiến hành với bộ dữ liệu lớn, làm cho lời giải phức tạp hơn, mức độ trùng lặp giữa các cụm có thể tăng lên, vì thế việc tính toán trọng tâm cũng chậm hơn so với k-Means nguyên thủy. - Độ phức tạp thuật toán KR là O(t*n*k), trong đó t là số lần lặp, n là số đối tượng cần phân cụm và k là số lượng cụm. Tuy nhiên t, k thường rất bé so với n khi tập dữ liệu đủ lớn và chứa nhiều đối tượng. Vì vậy, độ phức tạp thường được tính là O(n). Độ phức tạp này tối ưu hơn thuật toán phân cụm dọc theo ái lực thuộc tính như thuật toán BEA là O(n2 ).
  • 18. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 16 3.2.2. Kết quả thực nghiệm thuật toán phân cụm thô KR Bảng 3.1 Tập D gồm 20 đối tượng cần phân cụm @NAME=Đối tượng 1 @NAME=Đối tượng 6 @NAME=Đối tượng 11 @NAME=Đối tượng 16 5.1 3.5 1.4 0.2 4.4 2.9 1.4 0.2 5 3 2 1 20 50 52 21 @NAME=Đối tượng 2 @NAME=Đối tượng 7 @NAME=Đối tượng 12 @NAME=Đối tượng 17 4.9 3.0 1.4 0.2 4.9 3.1 1.4 0.2 15 13 12 11 10 15 52 21 @NAME=Đối tượng 3 @NAME=Đối tượng 8 @NAME=Đối tượng 13 @NAME=Đối tượng 18 4.7 3.2 1.3 0.2 5.4 3.7 1.5 0.2 30 60 52 51 21 25 25 22 @NAME=Đối tượng 4 @NAME=Đối tượng 9 @NAME=Đối tượng 14 @NAME=Đối tượng 19 4.6 3.4 1.7 0.2 4.8 3.7 1.5 0.2 50 40 42 41 11 15 35 42 @NAME=Đối tượng 5 @NAME=Đối tượng 10 @NAME=Đối tượng 15 @NAME=Đối tượng 20 5.0 3.6 1.4 0.2 4.8 3 1.4 0.1 30 50 42 31 11 25 45 45 Qua hai kết quả thử nghiệm như trên, luận án xây dựng bảng so sánh giữa hai thuật toán k-Means nguyên thủy và thuật toán đề xuất KR theo 3 lần Test, tương ứng số cụm k được chọn (k = 6; k = 13, k = 15) như (Bảng 3.2): Bảng 3.2 So sánh kết quả phân cụm thô KR và k-Means Số cụm Tổng Chi phí trung Bộ nhớ tối đa Số lần Thuật k Thời binh lỗi (Min) (Mb) lặp toán so gian sánh (ms) k = 6 80 2438.6216 1.2986 3 k-Means k = 13 26 2455.4550 1.3000 3 nguyên k = 15 16 2751.6216 1.3000 3 thủy k = 6 15 5048.8960 1.2879 Phân cụm k = 13 15 5048.4550 1.2879 thô KR k = 15 15 5048.1554 1.2879
  • 19. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 17 Nhận xét đánh giá thực nghiệm KR: - Với số cụm k nhỏ (k = 6), thuật toán k-Means có tổng thời gian lớn, chi phí trung bình lỗi và chi phí bộ nhớ đạt yêu cầu. Trong khi đó, thuật toán phân cụm thô KR tối ưu cả 3 tiêu chí. - Khi tăng số cụm k lên (k = 13, k = 15), thuật toán KR thể hiện rõ các tối ưu trên cả ba tiêu chí so với thuật toán k-Means. Tuy nhiên, chi phí trung bình lỗi của KR cao vì phải xem xét cả bộ xấp xỉ trên và xấp xỉ dưới trong suốt các quá trình cập nhật lại trong tâm mới. 3.3. THIẾT KẾ CSDL PHÂN TÁN THEO PHƯƠNG PHÁP ACO 3.3.1. Phương pháp tối ưu hóa đàn kiến ACO 3.3.2. Từ đàn kiến tự nhiên đến đàn kiến nhân tạo 3.3.3. Thuật toán ACO tổng quát 3.3.4. Thuật toán hệ kiến AS 3.3.5. Tổ chức dữ liệu và các khái niệm độ đo 3.4. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN ACO 3.4.1. Phân cụm dữ liệu phân tán theo tiếp cận ACO 3.4.2. Đề xuất các thuật toán phân mảnh dọc theo phân cụm đàn kiến 3.4.2.1 Đề xuất thuật toán phân cụm đàn kiến FAC Thuật toán FAC [IV] Đầu vào: - Tập các thuộc tính Att={A1, A2,…, Ak}; - Tập các giao tác T={t1, t2.,..., tm}; - Số kiến Ant={ant1, ant2,…,antn}; Đầu ra: Tập phân cụm tối ưu KQ; Thuật toán 1. Tính độ tương đồng f(i); 2. Tính xác suất nhặt Pnhặt; /* công thức (3.7) */ 3. Tính xác suất thả Pthả; /* công thức (3.8) */ 4. Foreach anti Ant do 5. Chọn hai số ngẫu nhiên 1 và 2; 6. Foreach ai Att do
  • 20. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 18 7. If (Pnhặt >= số ngẫu nhiên 1) Then Kiến sẽ nhặt đối tượng; 8. If (Pthả >= số ngẫu nhiên 2) Then Kiến sẽ thả đối tượng vào danh sách đỉnh đã thả; 9. End for 10. Tính nồng độ mùi uv trên từng cạnh; /*công thức 3.3*/ 11. End for 12. Repeat 13. If ( > ) Then Gom hai đối tượng vào một cụm; 14. Else Gom hai đối tượng khác cụm; 15. If (Tồn tại cụm chỉ có một đối tượng duy nhất) Then 16. Tính khoảng cách trung bình từ đối tượng đó đến các cụm khác; 17. So sánh các khoảng cách trung bình và lấy khoảng cách nhỏ nhất để gom cụm; 18. Until <khoảng cách cụm nhỏ nhất>; 19.Return KQ. 3.4.2.2. Đề xuất thuật toán phân mảnh dọc theo phân cụm đàn kiến - VFAC Thuật toán VFAC [IV] Đầu vào: - Tập các thuộc tính Att={A1, A2,…, Ak} - Tập các giao tác T={t1, t2.,..., tm} - Số kiến Ant={ant1, ant2,…,antn}; - Số giao tác m; Đầu ra: Tập phân cụm tối ưu KQ; Thuật toán: 1. T = m; T_Counter = 0; Omax = ∞; Ocurrent = 0; 2. Repeat 3. Foreach anti Ant do 4. If (anti Att) Then Xét các Ai; 5. If (Ai Att) Then Anti = Ai; 6. Loại Ai ra khỏi Att;
  • 21. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 19 7. Else /* danh sách thuộc tính rỗng */ 8. Kiến nhặt thuộc tính theo Pnhặt; 9. Else tính f(i); /*theo công thức 3.12 */ 10. Kiến thả thuộc tính theo Pthả; 11. End For 12. If Att = ; 13. Đánh giá chi phí của kết quả hiện tại; 14. If Ocurrent < Omax; 15. Khi (F_cur)Ai = (F_Opt)Ai; 16. Ocurrent = Omax; 17. Else T_Counter = T_Counter + 1; 18. Until (khi Omax ∞ và T_Counter > m); 19. Return KQ; Đánh giá thuật toán VFAC: - Đề xuất việc đánh giá trước được đặc trưng của thuộc tính trong một <DS thuộc tính> cho trước với kiến mang thuộc tính hay không. - Thuật toán VFAC sử dụng tham số (F_Opt)Ai = (F_Cur)Ai để đánh giá và tính toán đặc trưng của từng thuộc tính so với từng cụm, việc này sẽ giúp chúng ta giảm chi phí trong quá trình phân mảnh dữ liệu [79]. - Xử lý bộ nhớ cho từng kiến bằng việc tính độ tương đồng thuộc tính theo xác suất nhặt và xác suất thả thuộc tính. -Độ phức tạp các thuật toán VFAC được xác định: O(max((Nant * NT) ; (N2 F * NT * Natt))) trong đó, Nant là số lượng kiến tham gia, NT là số lượng giao tác quan trọng của hệ thống, NF là số lượng mảnh sinh ra, Natt là số lượng thuộc tính. Trong thực tế, bít dành cho số mảnh tối ưu (F_Opt) là rất bé so với số mảnh hiện tại (F_cur), hơn nữa số giao tác thường không quá lớn trên các giao dịch, vì thế độ phức tạp sẽ là O(NF * NT * Natt). Độ phức tạp này bé
  • 22. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 20 hơn độ phức tạp của phân cụm k-Means là O(t*k*n*d), của phân cụm k- Medoids là O(k*(n - k)2 ) và phân cụm theo ái lực thuộc tính BEA là O(n2 ). - Độ phức tạp VFAC sẽ tăng khi số lượng giao tác và số thuộc tính tăng, do đó cần xem xét yếu tố này cho các bộ dữ liệu lớn. 3.4.3. Kết quả thực nghiệm thuật toán đề xuất VFAC 3.4.3.1. Kết quả cài đặt thực nghiệm thuật toán đề xuất VFAC Bảng 3.4 Tập dữ liệu D gồm 20 giao tác @NAME=Giao tác 1 @NAME=Giao tác 6 @NAME=Giao tác 11 @NAME=Giao tác 16 5.1 3.5 1.4 0.2 4.4 2.9 1.4 0.2 5 3 2 1 20 50 52 21 @NAME=Giao tác 2 @NAME=Giao tác 7 @NAME=Giao tác 12 @NAME=Giao tác 17 4.9 3.0 1.4 0.2 4.9 3.1 1.4 0.2 15 13 12 11 10 15 52 21 @NAME=Giao tác 3 @NAME=Giao tác 8 @NAME=Giao tác 13 @NAME=Giao tác 18 4.7 3.2 1.3 0.2 5.4 3.7 1.5 0.2 30 60 52 51 21 25 25 22 @NAME=Giao tác 4 @NAME=Giao tác 9 @NAME=Giao tác 14 @NAME=Giao tác 19 4.6 3.4 1.7 0.2 4.8 3.7 1.5 0.2 50 40 42 41 11 15 35 42 @NAME=Giao tác 5 @NAME=Giao tác 10 @NAME=Giao tác 15 @NAME=Giao tác 20 5.0 3.6 1.4 0.2 4.8 3 1.4 0.1 30 50 42 31 11 25 45 45 3.4.3.2. So sánh đánh giá kết quả thử nghiệm trên thuật toán VFAC Qua ba kết quả thử nghiệm như trên, luận án tiến hành lập bảng so sánh giữa hai thuật toán k-Means nguyên thủy và thuật toán VFAC theo 5 lần Test, tương ứng số cụm (k = 3; k = 7, k = 10, k = 15 và k = 19) như (Bảng 3.5 ): Bảng 3.5 So sánh kết quả với phân cụm k-Means với VFAC Số cụm Tổng Chi phí trung bình Bộ nhớ tối đa (Mb) Số lần Thuật toán k Thời lỗi (Min) lặp so sánh gian (ms) k = 3 16 4728.4549 1.2986 3 Phân cụm k = 7 16 2582.9550 1.2987 3 k-Means k = 10 16 5437.3716 1.3000 5 nguyên k = 15 16 1455.4550 1.2987 2 thủy k = 19 16 5437.3716 1.3000 2
  • 23. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 21 k = 3 16 2633.4550 1.2800 10 Phân cụm k = 7 16 2633.7012 1.2800 10 VFAC k = 10 15 2632.7272 1.2801 10 k = 15 15 2632.0085 1.2801 9 k = 19 15 2632.0016 1.2802 8 3.4.3.3. Đánh giá kết quả thuật toán VFAC Hình 3.8 So sánh chi phí trung bình lỗi trên k-Means và VFAC Hình 3.9 Đánh giá độ ổn định theo số cụm trên k-Means và VFAC
  • 24. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 22 Đánh giá chung về thuật toán đề xuất VFAC: - Xem xét thuật toán VFAC với (k = 3) như kết quả trên (Hình 3.6.), (Hình 3.7.) và kết quả đánh giá bằng biểu đồ trên các (Hình 3.8.), (hình 3.9.), dễ dàng nhận thấy rằng, khi tăng số cụm k thì tổng thời gian giảm, chi phí trung bình lỗi như nhau và số lần lặp cũng giảm đi. Điều này cho thấy thuật toán VFAC có ưu điểm khi xử lý với các bộ dữ liệu lớn, có số đối tượng cần phân cụm nhiều. - Với (k = 10), thuật toán VFAC tối ưu hơn thuật toán k-Means về nhiều chỉ số như: tổng thời gian, chi phí lỗi và chi phí bộ nhớ. Khi số cụm k tăng dần, thuật toán VFAC sẽ giảm được về tổng thời gian tính toán và số trường hợp lặp so với k-Means. - Qua so sánh đánh giá theo đồ thị như trên (Hình 3.8), (Hình 3.9 ), cũng đã thể hiện rõ độ ổn định khi áp dụng trên thuật toán VFAC. 3.5. KẾT CHƯƠNG Chương 3 trình bày các nghiên cứu về bài toán phân mảnh dọc trong thiết kế cơ sở dữ liệu phân tán trên cơ sở kết hợp phân cụm dựa vào lý thuyết tập thô và phân cụm kiến FAC dựa vào lý thuyết tối ưu hóa đàn kiến ACO. Dựa vào phân cụm theo tiếp cận thô, luận án đã đề xuất xây dựng một ma trận độ tương tự cho việc phân cụm, ứng với mỗi cặp đối tượng trong ma trận, gán cụm hiện tại hoặc cụm mới dựa vào bộ xấp xỉ dưới và xấp xỉ trên. Việc cải tiến thuật toán phân cụm nguyên thủy k-Means thành phân cụm thô KR bằng cách kết hợp các khoảng cách, các độ tương đồng với các bộ xấp xỉ trên và xấp xỉ dưới đã có những ưu điểm về sự cải thiện độ đo và sự chọn lựa các cụm. Dựa vào phân cụm theo phương pháp ACO, luận án đề xuất nội dung phát triển các độ đo tương đồng cho thuật toán phân cụm kiến FAC và bài toán phân mảnh dọc dữ liệu theo phân cụm kiến VFAC. Các kết quả so sánh thử nghiệm đã được đánh giá đầy đủ, cho thấy tính hiệu quả về độ phức tạp tính toán của các thuật toán đề xuất.
  • 25. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 23 Qua phân tích, so sánh và chương trình thực nghiệm cho thấy việc tiếp cận các kỹ thuật phân cụm đề xuất để phân cụm thô kết hợp với phân cụm đàn kiến VFAC có một số ưu điểm đối với những bộ dữ liệu lớn, như chi phí bộ nhớ tăng không đáng kể và số trường hợp lặp giảm khá nhiều, làm giảm độ phức tạp tính toán khi k lớn. KẾT LUẬN Với những mục tiêu đặt ra là tập trung nghiên cứu một số phương pháp phân mảnh trong thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu bằng các kỹ thuật phân cụm nguyên thủy, tích hợp với phân cụm thô và phân cụm đàn kiến, Luận án đạt được một số kết quả nghiên cứu như sau: 1. Trình bày hai tiếp cận mới về tập thô và tối ưu hóa đàn kiến ACO trong việc áp dụng đề xuất mới bài toán phân cụm dọc trong thiết kế CSDL phân tán theo tiếp cận khai phá dữ liệu. 2. Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC và phân mảnh dọc VFC bằng kỹ thuật phân cụm tích hợp dựa trên cơ sở phát triển các độ đo tương đồng từ các thuật toán phân cụm nguyên thủy. 3. Nghiên cứu đề xuất thuật toán phân cụm thô KR theo tiếp cận lý thuyết tập thô cho bài toán phân mảnh dọc dữ liệu thô phân tán. 4. Nghiên cứu đề xuất thuật toán phân cụm dọc VFAC dựa trên phân cụm đàn kiến FAC theo tiếp cận lý thuyết tối ưu hóa đàn kiến ACO, cho phép từng bước thu h p không gian tìm kiếm nhằm nâng cao hiệu quả của các thuật toán phân cụm dữ liệu trong bài toán thiết kế cơ sở dữ liệu phân tán. Hướng phát triển luận án là tiếp tục nghiên cứu bổ sung và hoàn thiện bài toán thiết kế cơ sở dữ liệu phân tán theo một số tiếp cận mới như:
  • 26. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 24 - Tiếp tục nghiên cứu đề xuất thuật toán phân mảnh dọc dữ liệu phân tán theo tiếp cận phân cụm mờ và thuật toán phân mảnh ngang dữ liệu phân tán theo hướng tiếp cận phân cụm thô và phân cụm đàn kiến. - Đánh giá, thử nghiệm các thuật toán phân cụm đã đề xuất như KR, VFAC trên nhiều bộ dữ liệu lớn của các hệ CSDL phân tán không thuần nhất. - Đối với bài toán phân cụm khi có n đối tượng cần phân cụm và số k cụm lớn, độ phức tạp tính toán sẽ cao. Vì vậy, việc nghiên cứu cải tiến thuật toán về các chi phí xử lý tính toán là một hướng phát triển cần thiết sau luận án này./.
  • 27. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [I] Lương Văn Nghĩa (2013), Phân mảnh dọc, ngang trong thiết kế cơ sở dữ liệu phân tán dự trên kỹ thuật phân cụm, Tạp chí KH&CN, ISSN 1859-1531 - Đại học Đà Nẵng, số 03(64), pp. 159-162. [II] Lương Văn Nghĩa, Lê Văn Sơn (2014), Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức, Tạp chí KH&CN, ISSN 1859-1531 - Đại học Đà Nẵng, số 1(74), Quyển II, pp. 59-63. [III] Van Nghia Luong, Ha Huy Cuong Nguyen, Van Son Le (2015), An Improvement on Fragmentation in Distribution Database Design Based on Knowledge-Oriented Clustering Techniques, International Journal of Computer Science & Information Security (IJCSIS) - USA, ©IJCSIS publication 2015 Pennsylvania, Vol 13 (No. 5), pp. 13-17. [IV] Van Nghia Luong, Vijender Kumar Solanki, Ha Huy Cuong Nguyen (2019), “Fragmentation in Distributed Database Design Based on ACO Clustering Technique”, IGI Global eEditorial Discovery®. International Journal of Information Retrieval Research (IJIRR). Published by IGI Global Publishing, Hershey,USA, Vol 9, Issue 2, Article 3, pp. 28-37. [V] Van Nghia Luong, Van Son Le, and Van Ban Doan (2017), “Fragmentation in Distributed Database Design Based on KR Rough Clustering Technique”, 6th International Conference, ICCASA 2017 and 3rd International Conference. ICTCC 2017 Tam Ky, Vietnam, November 23–24, 2017, pp. 166-172.