Báo cáo
viên
Đề tài
PHÂN CỤM DỮ LIỆU ỨNG DỤNG
TRONG PHÂN TÍCH DỮ LIỆU
CÔNG THỨC DƯỢC PHẨM
Hà Siu
1
HỘI NGHỊ KHOA HỌC – KỸ THUẬT LẦN THỨ 34
1. Giới thiệu đề tài
2
NỘI DUNG CHÍNH
2. Cơ sở lý thuyết
3. Chương trình minh họa
4. Kết quả thực nghiệm
5. Kết luận và hướng phát triển
1.
3
Giới thiệu đề tài
4
Công thức dược phẩm
Công
thức
dược
phẩm
Thành
phần
Liều
lượng
Tỉ
trọng
Kinh
nghiệm
Mới
5
Nhiệm vụ nhà bào chế
Kiểm tra lại
Phân tích lại
Mâu thuẫn tiềm tàng
6
Các phương pháp nghiên cứu
Mâu thuẫn tiềm tàng
Phương
pháp
thống kê
cổ điển
-Tuyến tính
- Chậm
- Đơn giản
- Hiệu quả
tốt (95%)
Các kỹ
thuật khai
phá dữ
liệu
- Phi tuyến
- Nhanh
- Phức tạp
- Hiệu quả
tốt (98%)
vs
7
Cơ sở lý thuyết2.
8
Phân cụm dữ liệu
Mâu thuẫn tiềm tàng
• Phân cụm dữ liệu là kỹ thuật rất quan trọng trong khai phá dữ liệu
• Có rất nhiều định nghĩa khác nhau về kỹ thuật này
• Về bản chất có thể hiểu phân cụm là các quy trình tìm cách nhóm các
đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong
cùng một cụm tương tự nhau và các đối tượng khác cụm thì không
tương tự nhau
• Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ
liệu
• Tuy nhiên, không có tiêu chí nào được xem là tốt nhất để đánh giá hiệu
quả của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân
cụm như: giảm dữ liệu (data reduction), “cụm tự nhiên” (“natural
clusters”), cụm “có ích” (“useful” clusters), phát hiện phần tử ngoại lai
(outlier detection).
9
Công thức dược phẩm
Mâu thuẫn tiềm tàng
• Dược phẩm hay thuốc là những chất dưới dạng đơn chất hoặc hỗn
hợp có nguồn gốc rõ ràng, được dùng cho người hoặc sinh vật để chẩn
đoán, phòng và chữa bệnh, hạn chế hoặc thay đổi điều kiện bệnh lý hay
sinh lý.
• Thiết lập công thức dược phẩm là thiết lập các dạng công thức có liều
lượng khác nhau. Thiết lập công thức dược phẩm có thể được định
nghĩa là một tập hợp các hoạt động với mục tiêu tạo ra thuốc có thông
số kỹ thuật nhất định và đảm bảo việc duy trì các đặc điểm hiệu quả và
an toàn của thuốc. Mục tiêu chính của thiết lập công thức dược phẩm là
làm cho thuốc có thể vận chuyển dễ dàng trong cơ thể và tương thích
với bệnh nhân. Hiện nay mục tiêu mới được quan tâm trong thiết lập
công thức dược phẩm là sinh khả dụng của thuốc.
10
Thuật toán k-means
Mâu thuẫn tiềm tàng
• K-means là thuật toán rất quan trọng và được sử dụng phổ
biến trong kỹ thuật phân cụm dữ liệu
• Ý tưởng chính của thuật toán k-means là tìm cách phân
nhóm các đối tượng (objects) đã cho vào k cụm (k là số các
cụm được xác định trước, k là số nguyên dương) sao cho
tổng bình phương khoảng cách giữa các đối tượng đến tâm
nhóm (centroid) là nhỏ nhất.
• Thuật toán k-means áp dụng cho các đối tượng được biểu
diễn bởi các điểm trong không gian vectơ d chiều U = {xi | i =
1, … , N}, với xi ∈ ℜ biểu thị đối tượng (hay điểm dữ liệu) thứ
i.
11
Thuật toán k-means
Mâu thuẫn tiềm tàng
• Thuật toán k-means gom cụm toàn bộ các điểm dữ liệu trong U
thành k cụm C = {C1, C2,…, Ck} sao cho mỗi điểm dữ liệu xi nằm trong
một cụm duy nhất. Để biết điểm dữ liệu thuộc cụm nào người ta
gán cho nó một mã cụm. Các điểm có cùng mã cụm thì ở cùng cụm,
trong khi các điểm khác mã cụm thì ở trong các cụm khác nhau.
Một cụm có thể biểu thị bằng vectơ liên thuộc cụm v có độ dài N,
với vi là mã cụm của xi. Giá trị k là đầu vào của thuật toán. Giá trị k
dựa trên tiêu chuẩn tri thức trước đó.
• Trong các thuật toán gom cụm, các điểm được nhóm theo khái
niệm “độ gần” hay “độ tương tự”. Với k-means, phép đo mặc định
cho “độ tương tự” là khoảng cách Euclide.
12
Thuật toán k-means
Mâu thuẫn tiềm tàng
• Thuật toán k-means thực hiện qua các bước chính sau:
1. Chọn ngẫu nhiên k tâm (centroid) cho k cụm (cluster). Mỗi cụm
được đại diện bằng các tâm của cụm.
2. Tính khoảng cách giữa các đối tượng (objects) đến k tâm
(thường dùng khoảng cách Euclide).
3. Nhóm các đối tượng vào nhóm gần nhất.
4. Xác định lại tâm mới cho các nhóm.
5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm
nào của các đối tượng.
• Thuật toán k-means được phát triển bởi nhiều nhà nghiên cứu
khác nhau, điển hình là Lloyd (1957), Forgey (1965), Friedman
(1967), Rubin (1967), McQueen (1967).
13
Thuật toán k-means
Mâu thuẫn tiềm tàng
Hình 1: Lưu đồ thuật toán k-means
14
Logic mờ
Mâu thuẫn tiềm tàng
• Trong logic cổ điển, hàm thành viên chỉ có một
trong hai giá trị là 1 (Đúng) hay 0 (Sai). Điều này
không phản ánh đầy đủ thế giới khách quan, vì
giữa hai màu “trắng” và “đen” còn có màu “xám”.
• Trong logic mờ, hàm thành viên có thể cho các
giá trị ở giữa 0 và 1. Hàm thành viên càng tiến đến
1 thì giá trị của nó càng gần Đúng. Nhờ đó, logic
mờ có tính hiện thực hơn logic cổ điển.
15
Logic mờ
Mâu thuẫn tiềm tàng
(a) (b)
Hình 2: Minh họa khái niệm logic cổ điển (a) và logic mờ (b)
16
Chương trình minh họa3.
17
Cấu hình
• Intel® Core™ i3-3227U CPU @ 1.90 GHz 1.90
GHz, 4.00 GB RAM
• Windows 7 32-bit
• C# 2013
• 2 module chính:
• Dữ liệu
• Phân cụm dữ liệu với thuật toán k-means
18
Bộ dữ liệu
• Công thức viên nén matrix
• Công trình của Bodea và Leucuta, năm 1997
• 13 công thức thực nghiệm
• 3 biến độc lập x1, x2 và x3
• 3 biến phụ thuộc y1, y2 và y3
19
Các biến số
Biến độc lập
x1 tỉ lệ HPMC
x2 tỉ lệ CMCNa
x3 tỉ lệ propranolol HCL
Biến phụ thuộc
y1 % hoạt chất hòa tan sau 1 giờ
y2 % hoạt chất hòa tan sau 6 giờ
y3 % hoạt chất hòa tan sau 12 giờ
Bảng 1: Các biến số của viên nén matrix
20
Dữ liệu cụ thể
x1 x2 x3 y1 y2 y3
1 0,34 0 0,66 0,152 0,683 0,992
2 0,2 0,46 0,34 0,104 0,545 0,902
3 0,2 0,14 0,66 0,112 0,612 0,986
4 0,66 0 0,34 0,122 0,448 0,712
5 0,446 0 0,553 0,148 0,585 0,866
6 0,506 0,153 0,34 0,074 0,388 0,68
7 0,2 0,353 0,446 0,098 0,576 0,925
8 0,35 0,15 0,5 0,084 0,512 0,856
9 0,35 0,15 0,5 0,087 0,518 0,862
10 0,35 0,15 0,5 0,084 0,507 0,851
11 0,35 0,15 0,5 0,089 0,525 0,87
12 0,353 0,306 0,34 0,052 0,352 0,672
13 0,553 0 0,446 0,143 0,518 0,792
Bảng 2: Dữ liệu thực nghiệm của viên nén matrix
21
Giao diện chương trình – Module 1: Dữ liệu
Hình 3: Giao diện module 1 – Dữ liệu
22
Giao diện chương trình – Module 2: Phân cụm dữ liệu
Hình 4: Giao diện module 2 – Phân cụm dữ liệu với thuật toán k-means
23
Kết quả thực nghiệm4.
24
Thống kê
x1 x2 x3 y1 y2 y3
Giá trị
nhỏ nhất
0,2 0 0,34 0,052 0,352 0,672
Giá trị lớn
nhất
0,66 0,46 0,66 0,152 0,683 0,992
Trung
bình
0,373692 0,154769 0,471154 0,103769 0,520692 0,843538
Độ chính
xác
0,0177825 0,0193429 0,011648 0,000854024 0,00723929 0,0100212
Độ lệch
chuẩn
0,133351 0,139079 0,107926 0,0292237 0,085084 0,100106
25
Phân cụm dữ liệu bằng Weka
Thuộc tính Dữ liệu ban đầu Cụm 1 Cụm 2 Cụm 3
x1 0.3737 0.2 0.393 0.3872
x2 0.1548 0.14 0 0.1872
x3 0.4712 0.66 0.6065 0.4252
y1 0.1038 0.112 0.15 0.0937
y2 0.5207 0.612 0.634 0.4889
y3 0.8435 0.986 0.929 0.8122
Tổng số thực thể 13 1 2 10
Tỉ lệ 100% 8% 15% 77%
•Thực tế không cần thiết phân tích
mối quan hệ nhân-quả giữa các
biến phụ thuộc yi với nhau
•Không phù hợp
26
Nhận xét phân cụm dữ liệu bằng Weka
27
Phân cụm dữ liệu biến phụ thuộc y1 bằng phần mềm
Cụm trọng tâm Record x1 x2 x3 y1 y2 y3
Cụm 1
1 0,34 0 0,66 0,152 0,683 0,992
5 0,446 0 0,553 0,148 0,585 0,866
13 0,553 0 0,446 0,143 0,518 0,792
Cụm 2
2 0,2 0,46 0,34 0,104 0,545 0,902
3 0,2 0,14 0,66 0,112 0,612 0,986
4 0,66 0 0,34 0,122 0,448 0,712
7 0,2 0,353 0,446 0,098 0,576 0,925
Cụm 3
6 0,506 0,153 0,34 0,074 0,388 0,68
8 0,35 0,15 0,5 0,084 0,512 0,856
9 0,35 0,15 0,5 0,087 0,518 0,862
10 0,35 0,15 0,5 0,084 0,507 0,851
11 0,35 0,15 0,5 0,089 0,525 0,87
12 0,353 0,306 0,34 0,052 0,352 0,672
28
Cụm trọng tâm
Record x1 x2 x3 y1 y2 y3
Cụm 1 1 0,34 0 0,66 0,152 0,683 0,992
Cụm 2
2 0,2 0,46 0,34 0,104 0,545 0,902
3 0,2 0,14 0,66 0,112 0,612 0,986
5 0,446 0 0,553 0,148 0,585 0,866
7 0,2 0,353 0,446 0,098 0,576 0,925
Cụm 3
4 0,66 0 0,34 0,122 0,448 0,712
6 0,506 0,153 0,34 0,074 0,388 0,68
8 0,35 0,15 0,5 0,084 0,512 0,856
9 0,35 0,15 0,5 0,087 0,518 0,862
10 0,35 0,15 0,5 0,084 0,507 0,851
11 0,35 0,15 0,5 0,089 0,525 0,87
12 0,353 0,306 0,34 0,052 0,352 0,672
13 0,553 0 0,446 0,143 0,518 0,792
Phân cụm dữ liệu biến phụ thuộc y2 bằng phần mềm
29
Cụm trọng tâm
Record x1 x2 x3 y1 y2 y3
Cụm 1
1 0,34 0 0,66 0,152 0,683 0,992
2 0,2 0,46 0,34 0,104 0,545 0,902
3 0,2 0,14 0,66 0,112 0,612 0,986
7 0,2 0,353 0,446 0,098 0,576 0,925
Cụm 2
4 0,66 0 0,34 0,122 0,448 0,712
5 0,446 0 0,553 0,148 0,585 0,866
8 0,35 0,15 0,5 0,084 0,512 0,856
9 0,35 0,15 0,5 0,087 0,518 0,862
10 0,35 0,15 0,5 0,084 0,507 0,851
12 0,353 0,306 0,34 0,052 0,352 0,672
13 0,553 0 0,446 0,143 0,518 0,792
Cụm 3
6 0,506 0,153 0,34 0,074 0,388 0,68
11 0,35 0,15 0,5 0,089 0,525 0,87
Phân cụm dữ liệu biến phụ thuộc y3 bằng phần mềm
•Phần mềm ứng dụng tiến hành
phân cụm dữ liệu theo từng biến
phụ thuộc y, điều này là cần thiết và
phù hợp đối với bài toán trong
ngành Dược.
30
Phân cụm dữ liệu bằng phần mềm
31
Kết luận và hướng phát triển5.
• Loại trừ được trường hợp học quá mức
và dự đoán sai
• Phù hợp với yêu cầu ngành Dược
32
Nhận xét
• Ứng dụng thực tế tại Bộ môn Bào chế
• Ứng dụng thêm nguồn dữ liệu từ thực phẩm
• Mở rộng đề tài bằng nhiều kỹ thuật khai phá dữ liệu
khác như rút luật kết hợp và cây quyết định (đây
cũng là đề tài mà tác giả đã đăng ký nghiên cứu và
báo cáo trong Hội nghị Khoa học – Kỹ thuật lần thứ
35, năm 2018)
33
Hướng phát triển của đề tài
34
XIN CHÂN THÀNH CẢM ƠN

PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM

  • 1.
    Báo cáo viên Đề tài PHÂNCỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM Hà Siu 1 HỘI NGHỊ KHOA HỌC – KỸ THUẬT LẦN THỨ 34
  • 2.
    1. Giới thiệuđề tài 2 NỘI DUNG CHÍNH 2. Cơ sở lý thuyết 3. Chương trình minh họa 4. Kết quả thực nghiệm 5. Kết luận và hướng phát triển
  • 3.
  • 4.
    4 Công thức dượcphẩm Công thức dược phẩm Thành phần Liều lượng Tỉ trọng Kinh nghiệm Mới
  • 5.
    5 Nhiệm vụ nhàbào chế Kiểm tra lại Phân tích lại Mâu thuẫn tiềm tàng
  • 6.
    6 Các phương phápnghiên cứu Mâu thuẫn tiềm tàng Phương pháp thống kê cổ điển -Tuyến tính - Chậm - Đơn giản - Hiệu quả tốt (95%) Các kỹ thuật khai phá dữ liệu - Phi tuyến - Nhanh - Phức tạp - Hiệu quả tốt (98%) vs
  • 7.
    7 Cơ sở lýthuyết2.
  • 8.
    8 Phân cụm dữliệu Mâu thuẫn tiềm tàng • Phân cụm dữ liệu là kỹ thuật rất quan trọng trong khai phá dữ liệu • Có rất nhiều định nghĩa khác nhau về kỹ thuật này • Về bản chất có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng một cụm tương tự nhau và các đối tượng khác cụm thì không tương tự nhau • Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu • Tuy nhiên, không có tiêu chí nào được xem là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: giảm dữ liệu (data reduction), “cụm tự nhiên” (“natural clusters”), cụm “có ích” (“useful” clusters), phát hiện phần tử ngoại lai (outlier detection).
  • 9.
    9 Công thức dượcphẩm Mâu thuẫn tiềm tàng • Dược phẩm hay thuốc là những chất dưới dạng đơn chất hoặc hỗn hợp có nguồn gốc rõ ràng, được dùng cho người hoặc sinh vật để chẩn đoán, phòng và chữa bệnh, hạn chế hoặc thay đổi điều kiện bệnh lý hay sinh lý. • Thiết lập công thức dược phẩm là thiết lập các dạng công thức có liều lượng khác nhau. Thiết lập công thức dược phẩm có thể được định nghĩa là một tập hợp các hoạt động với mục tiêu tạo ra thuốc có thông số kỹ thuật nhất định và đảm bảo việc duy trì các đặc điểm hiệu quả và an toàn của thuốc. Mục tiêu chính của thiết lập công thức dược phẩm là làm cho thuốc có thể vận chuyển dễ dàng trong cơ thể và tương thích với bệnh nhân. Hiện nay mục tiêu mới được quan tâm trong thiết lập công thức dược phẩm là sinh khả dụng của thuốc.
  • 10.
    10 Thuật toán k-means Mâuthuẫn tiềm tàng • K-means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm dữ liệu • Ý tưởng chính của thuật toán k-means là tìm cách phân nhóm các đối tượng (objects) đã cho vào k cụm (k là số các cụm được xác định trước, k là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất. • Thuật toán k-means áp dụng cho các đối tượng được biểu diễn bởi các điểm trong không gian vectơ d chiều U = {xi | i = 1, … , N}, với xi ∈ ℜ biểu thị đối tượng (hay điểm dữ liệu) thứ i.
  • 11.
    11 Thuật toán k-means Mâuthuẫn tiềm tàng • Thuật toán k-means gom cụm toàn bộ các điểm dữ liệu trong U thành k cụm C = {C1, C2,…, Ck} sao cho mỗi điểm dữ liệu xi nằm trong một cụm duy nhất. Để biết điểm dữ liệu thuộc cụm nào người ta gán cho nó một mã cụm. Các điểm có cùng mã cụm thì ở cùng cụm, trong khi các điểm khác mã cụm thì ở trong các cụm khác nhau. Một cụm có thể biểu thị bằng vectơ liên thuộc cụm v có độ dài N, với vi là mã cụm của xi. Giá trị k là đầu vào của thuật toán. Giá trị k dựa trên tiêu chuẩn tri thức trước đó. • Trong các thuật toán gom cụm, các điểm được nhóm theo khái niệm “độ gần” hay “độ tương tự”. Với k-means, phép đo mặc định cho “độ tương tự” là khoảng cách Euclide.
  • 12.
    12 Thuật toán k-means Mâuthuẫn tiềm tàng • Thuật toán k-means thực hiện qua các bước chính sau: 1. Chọn ngẫu nhiên k tâm (centroid) cho k cụm (cluster). Mỗi cụm được đại diện bằng các tâm của cụm. 2. Tính khoảng cách giữa các đối tượng (objects) đến k tâm (thường dùng khoảng cách Euclide). 3. Nhóm các đối tượng vào nhóm gần nhất. 4. Xác định lại tâm mới cho các nhóm. 5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng. • Thuật toán k-means được phát triển bởi nhiều nhà nghiên cứu khác nhau, điển hình là Lloyd (1957), Forgey (1965), Friedman (1967), Rubin (1967), McQueen (1967).
  • 13.
    13 Thuật toán k-means Mâuthuẫn tiềm tàng Hình 1: Lưu đồ thuật toán k-means
  • 14.
    14 Logic mờ Mâu thuẫntiềm tàng • Trong logic cổ điển, hàm thành viên chỉ có một trong hai giá trị là 1 (Đúng) hay 0 (Sai). Điều này không phản ánh đầy đủ thế giới khách quan, vì giữa hai màu “trắng” và “đen” còn có màu “xám”. • Trong logic mờ, hàm thành viên có thể cho các giá trị ở giữa 0 và 1. Hàm thành viên càng tiến đến 1 thì giá trị của nó càng gần Đúng. Nhờ đó, logic mờ có tính hiện thực hơn logic cổ điển.
  • 15.
    15 Logic mờ Mâu thuẫntiềm tàng (a) (b) Hình 2: Minh họa khái niệm logic cổ điển (a) và logic mờ (b)
  • 16.
  • 17.
    17 Cấu hình • Intel®Core™ i3-3227U CPU @ 1.90 GHz 1.90 GHz, 4.00 GB RAM • Windows 7 32-bit • C# 2013 • 2 module chính: • Dữ liệu • Phân cụm dữ liệu với thuật toán k-means
  • 18.
    18 Bộ dữ liệu •Công thức viên nén matrix • Công trình của Bodea và Leucuta, năm 1997 • 13 công thức thực nghiệm • 3 biến độc lập x1, x2 và x3 • 3 biến phụ thuộc y1, y2 và y3
  • 19.
    19 Các biến số Biếnđộc lập x1 tỉ lệ HPMC x2 tỉ lệ CMCNa x3 tỉ lệ propranolol HCL Biến phụ thuộc y1 % hoạt chất hòa tan sau 1 giờ y2 % hoạt chất hòa tan sau 6 giờ y3 % hoạt chất hòa tan sau 12 giờ Bảng 1: Các biến số của viên nén matrix
  • 20.
    20 Dữ liệu cụthể x1 x2 x3 y1 y2 y3 1 0,34 0 0,66 0,152 0,683 0,992 2 0,2 0,46 0,34 0,104 0,545 0,902 3 0,2 0,14 0,66 0,112 0,612 0,986 4 0,66 0 0,34 0,122 0,448 0,712 5 0,446 0 0,553 0,148 0,585 0,866 6 0,506 0,153 0,34 0,074 0,388 0,68 7 0,2 0,353 0,446 0,098 0,576 0,925 8 0,35 0,15 0,5 0,084 0,512 0,856 9 0,35 0,15 0,5 0,087 0,518 0,862 10 0,35 0,15 0,5 0,084 0,507 0,851 11 0,35 0,15 0,5 0,089 0,525 0,87 12 0,353 0,306 0,34 0,052 0,352 0,672 13 0,553 0 0,446 0,143 0,518 0,792 Bảng 2: Dữ liệu thực nghiệm của viên nén matrix
  • 21.
    21 Giao diện chươngtrình – Module 1: Dữ liệu Hình 3: Giao diện module 1 – Dữ liệu
  • 22.
    22 Giao diện chươngtrình – Module 2: Phân cụm dữ liệu Hình 4: Giao diện module 2 – Phân cụm dữ liệu với thuật toán k-means
  • 23.
  • 24.
    24 Thống kê x1 x2x3 y1 y2 y3 Giá trị nhỏ nhất 0,2 0 0,34 0,052 0,352 0,672 Giá trị lớn nhất 0,66 0,46 0,66 0,152 0,683 0,992 Trung bình 0,373692 0,154769 0,471154 0,103769 0,520692 0,843538 Độ chính xác 0,0177825 0,0193429 0,011648 0,000854024 0,00723929 0,0100212 Độ lệch chuẩn 0,133351 0,139079 0,107926 0,0292237 0,085084 0,100106
  • 25.
    25 Phân cụm dữliệu bằng Weka Thuộc tính Dữ liệu ban đầu Cụm 1 Cụm 2 Cụm 3 x1 0.3737 0.2 0.393 0.3872 x2 0.1548 0.14 0 0.1872 x3 0.4712 0.66 0.6065 0.4252 y1 0.1038 0.112 0.15 0.0937 y2 0.5207 0.612 0.634 0.4889 y3 0.8435 0.986 0.929 0.8122 Tổng số thực thể 13 1 2 10 Tỉ lệ 100% 8% 15% 77%
  • 26.
    •Thực tế khôngcần thiết phân tích mối quan hệ nhân-quả giữa các biến phụ thuộc yi với nhau •Không phù hợp 26 Nhận xét phân cụm dữ liệu bằng Weka
  • 27.
    27 Phân cụm dữliệu biến phụ thuộc y1 bằng phần mềm Cụm trọng tâm Record x1 x2 x3 y1 y2 y3 Cụm 1 1 0,34 0 0,66 0,152 0,683 0,992 5 0,446 0 0,553 0,148 0,585 0,866 13 0,553 0 0,446 0,143 0,518 0,792 Cụm 2 2 0,2 0,46 0,34 0,104 0,545 0,902 3 0,2 0,14 0,66 0,112 0,612 0,986 4 0,66 0 0,34 0,122 0,448 0,712 7 0,2 0,353 0,446 0,098 0,576 0,925 Cụm 3 6 0,506 0,153 0,34 0,074 0,388 0,68 8 0,35 0,15 0,5 0,084 0,512 0,856 9 0,35 0,15 0,5 0,087 0,518 0,862 10 0,35 0,15 0,5 0,084 0,507 0,851 11 0,35 0,15 0,5 0,089 0,525 0,87 12 0,353 0,306 0,34 0,052 0,352 0,672
  • 28.
    28 Cụm trọng tâm Recordx1 x2 x3 y1 y2 y3 Cụm 1 1 0,34 0 0,66 0,152 0,683 0,992 Cụm 2 2 0,2 0,46 0,34 0,104 0,545 0,902 3 0,2 0,14 0,66 0,112 0,612 0,986 5 0,446 0 0,553 0,148 0,585 0,866 7 0,2 0,353 0,446 0,098 0,576 0,925 Cụm 3 4 0,66 0 0,34 0,122 0,448 0,712 6 0,506 0,153 0,34 0,074 0,388 0,68 8 0,35 0,15 0,5 0,084 0,512 0,856 9 0,35 0,15 0,5 0,087 0,518 0,862 10 0,35 0,15 0,5 0,084 0,507 0,851 11 0,35 0,15 0,5 0,089 0,525 0,87 12 0,353 0,306 0,34 0,052 0,352 0,672 13 0,553 0 0,446 0,143 0,518 0,792 Phân cụm dữ liệu biến phụ thuộc y2 bằng phần mềm
  • 29.
    29 Cụm trọng tâm Recordx1 x2 x3 y1 y2 y3 Cụm 1 1 0,34 0 0,66 0,152 0,683 0,992 2 0,2 0,46 0,34 0,104 0,545 0,902 3 0,2 0,14 0,66 0,112 0,612 0,986 7 0,2 0,353 0,446 0,098 0,576 0,925 Cụm 2 4 0,66 0 0,34 0,122 0,448 0,712 5 0,446 0 0,553 0,148 0,585 0,866 8 0,35 0,15 0,5 0,084 0,512 0,856 9 0,35 0,15 0,5 0,087 0,518 0,862 10 0,35 0,15 0,5 0,084 0,507 0,851 12 0,353 0,306 0,34 0,052 0,352 0,672 13 0,553 0 0,446 0,143 0,518 0,792 Cụm 3 6 0,506 0,153 0,34 0,074 0,388 0,68 11 0,35 0,15 0,5 0,089 0,525 0,87 Phân cụm dữ liệu biến phụ thuộc y3 bằng phần mềm
  • 30.
    •Phần mềm ứngdụng tiến hành phân cụm dữ liệu theo từng biến phụ thuộc y, điều này là cần thiết và phù hợp đối với bài toán trong ngành Dược. 30 Phân cụm dữ liệu bằng phần mềm
  • 31.
    31 Kết luận vàhướng phát triển5.
  • 32.
    • Loại trừđược trường hợp học quá mức và dự đoán sai • Phù hợp với yêu cầu ngành Dược 32 Nhận xét
  • 33.
    • Ứng dụngthực tế tại Bộ môn Bào chế • Ứng dụng thêm nguồn dữ liệu từ thực phẩm • Mở rộng đề tài bằng nhiều kỹ thuật khai phá dữ liệu khác như rút luật kết hợp và cây quyết định (đây cũng là đề tài mà tác giả đã đăng ký nghiên cứu và báo cáo trong Hội nghị Khoa học – Kỹ thuật lần thứ 35, năm 2018) 33 Hướng phát triển của đề tài
  • 34.