SlideShare a Scribd company logo
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN
BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU
TÌM HIỂU WEKA VÀ ỨNG DỤNG
THUẬT TOÁN APRIORI
TRONG KHAI PHÁ LUẬT KẾT HỢP
Người hướng dẫn:TS NGUYỄN ĐỨC CƯỜNG
Người thực hiện: DƯƠNG NHẬT QUANG – MSSV:51303134
Lớp : 13050303
Khoá : 17
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN
BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU
TÌM HIỂU WEKA VÀ ỨNG DỤNG
THUẬT TOÁN APRIORI
TRONG KHAI PHÁ LUẬT KẾT HỢP
Người hướng dẫn: TS NGUYỄN ĐỨC CƯỜNG
Người thực hiện: DƯƠNG NHẬT QUANG-MSSV:51303134
Lớp : 13050303
Khoá : 17
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016
1
LỜI CẢM ƠN
Em xin trân thành cảm ơn cùng các bạn sinh viên khoa công nghệ thông tin
trường Đại học Tôn Đức Thắng đã tạo điều kiện giúp em hoàn thành
Trong quá trình làm bài tập lớn em đã cố gắng tìm hiểu trao đổi kiến thức để
hoàn thành tốt bài tập lớn của mình. Tuy bài tập lớn đã được hoàn thành nhưng khó
tránh khỏi những sai sót em mong thầy cô sẽ bỏ qua và mong thầy cô đưa ra ý kiến để
em rút kinh nghiệm cho những bài tập lớn tiếp theo.
2
BÀI TẬP LỚN ĐƯỢC HOÀN THÀNH
TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
Em xin cam đoan đây là sản phẩm bài tập lớn của riêng em và được sự hướng
dẫn của TS Nguyễn Đức Cường . Những số liệu trong các bảng biểu phục vụ cho việc
phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có
ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong bài tập lớn còn sử dụng một số nhận xét, đánh giá cũng như số
liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn
gốc.
Nếu phát hiện có bất kỳ sự gian lận nào em xin hoàn toàn chịu trách nhiệm
về nội dung bài tập lớn của mình. Trường đại học Tôn Đức Thắng không liên quan
đến những vi phạm tác quyền, bản quyền do em gây ra trong quá trình thực hiện (nếu
có).
TP. Hồ Chí Minh, ngày tháng năm
Tác giả
(ký tên và ghi rõ họ tên)
Dương Nhật Quang
3
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN
Phần xác nhận của GV hướng dẫn
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)
Phần đánh giá của GV chấm bài
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)
4
MỤC LỤC
LỜI CẢM ƠN .............................................................................................................................
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN.................................................
CHƯƠNG 1 – CÀI ĐẶT WEKA VÀ MÔ TẢ TẬP TÍNH DỬ LIỆU ...........................5
1.1 Tìm hiểu và cài đặt Weka .....................................................................................5
1.2 Tìm hiểu đăc tính dử liệu ......................................................................................6
CHƯƠNG 2 – TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION ....................................25
2.1 Khái niệm về cơ sở dử liệu giao dịch ................................................................25
2.2 Khái niệm giao dịch.............................................................................................25
CHƯƠNG 3 – Dùng thuật toán Apriori trong Weka để tìm luật kết hợp…………….25
3.1Tổng quan thuật toán Apriori ..............................................................................25
3.2 Ứng dụng thuật toán Apriori tìm luật kết hợp trên Weka ..............................27
TÀI LIỆU THAM KHẢO.............................................................................................35
5
CHƯƠNG 1 – CÀI ĐẶT PHẦN MỀM WEKA VÀ TÌM HIỂU
ĐẶC TÍNH CỦA TẬP DỬ LIỆU
1.1 Tìm hiểu và cài đặt Weka 3.8
Weka được viết tắt là Waikato Environment for Knowledge Analysis , là phần
mềm khai thác dử liệu , thuôc dự án nghiên cứu của đại học Waikato- New Zealand.
Mục tiêu của Weka được xây dựng là một công cụ hiện đại nhằm phát triển các kỹ
năng máy học và áp dụng chúng vào bài toán khai thác dử liệu trong thực tế.
Weka được xây dựng bằng ngôn ngữ JAVA, cấu trúc gồm hơn 600 lớp. tổ chức
thành 10 packages. Weka có 1 số chức năng chính gồm :
- Khảo sát dử liệu : tiền xử lí dử liệu, phân lớp , gom nhóm dử liệu và khac
thác luật kết hợp.
- Thực nghiêm mô hình: cung cấp phương tiện để kiểm chứng , đánh giá các
mô hình môn học.
- Biểu diển trực quan dử liệu bằng nhiều đồ thị khác nhau.
Cài đặt Weka 3.8:
Dowload Weka phiên bản 3.8 từ trang chủ :
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
6
Hình 1: Trang chủ Dowload Weka 3.8
Hình 2: Phần mềm Weka phiên bản 3.8 sau khi cài đặt
1.2 Tìm hiểu đặc tính tập dử liệu
1.2.1 Khái quátvềtập dử liệu
Một tập dữ liệu (dataset) là một tậphợp các đối tượng (objects) và các thuộc tính
của chúng. Mỗi thuộc tính (attribute) mô tả một đặc điểm của một đối tượng. Một tập
giá trị của các thuộc tính mô tả một đối tượng.
1.2.2 Cáckiểu tập dử liệu chính :
 Bản ghi (Record)
7
- Các bản ghi trong csdl quan hệ
- Ma trận dữ liệu
- Biểu diễn văn bản (document)
- Dữ liệu giao dịch
 Đồ thị (Graph)
- World Wide Web
- Mạng thông tin, hoặc mạng xã hội
- Các cấu trúc phân tử (Molecular structures)
 Có trật tự (Ordered)
- Dữ liệu không gian (vd: bản đồ)
- Dữ liệu thời gian (vd: time-series data)
- Dữ liệu chuỗi (vd: chuỗi giao dịch)
- Dữ liệu chuỗi di truyền(genetic sequence data)
1.2.3 Cáckiểu giá trị thuộc tính
Kiểu định danh/chuỗi (norminal): không có thứ tự. Nó được lấy giá trị từ một
tập không có thứ tự các giá trị (định danh). Ví dụ: Các thuộc tính như: Name,
Profession, …
Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh. Tập các
giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F).
Kiểu có thứ tự (ordinal): Lấy giá trị từ một tập có thứ tự các giá trị. Ví dụ như
các thuộc tính lấy các giá trị số như: Age, Highv … hay thuộc tính lấy các giá trị từ tập
{low,medium,high}
1.2.4 Tiến hànhmô tả tập dử liệu File
Ta tiến hành load file supermarket.arff trong gói data của chương trình
8
Hình 3: Load file supermarket.arff
Thông tin tập dử liệu thu được:
- @Relation : supermarket.
- Có 217 Attribute(thuộc tính), các thuộc tính có kiểu giá trị là norminal.
- Số data là 4627
- Tất cả các thuộc tính đều mang kiểu Nominal.
- No. of rows : 4627 rows.
- No. of columns : 217 columns.
Sau đây là số liệu cho từng mẩu thử bao gồm tổng trọng lượng của từng mẫu so
với trọng lượng từng bản ghi.
- Deparment1 với tổng số 1047 và còn trống 3580 tức 77% so với tổng số
trường hợp đưa ra.
- Deparment2 với tổng số 131 và còn trống 4469 tức 97% so với tổng số
trường hợp đưa ra.
- Deparment3 với tổng số 90 và còn trống 4537 tức 98% so với tổng số
trường hợp đưa ra.
9
- Deparment4 với tổng số 84 và còn trống 4543 tức 98% so với tổng số
trường hợp đưa ra.
- Deparment5 với tổng số 175 và còn trống 4452 tức 96% so với tổng số
trường hợp đưa ra.
- Deparment6 với tổng số 2 và còn trống 4625 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment7 với tổng số 67 và còn trống 4560 tức 99% so với tổng số
trường hợp đưa ra.
- Deparment8 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment9 với tổng số 82 và còn trống 4545 tức 98% so với tổng số
trường hợp đưa ra.
- Grocery misc với tổng số 178 và còn trống 4449 tức 96% so với tổng số
trường hợp đưa ra.
- Deparment11 với tổng số 5 và còn trống 4622 tức 100% so với tổng số
trường hợp đưa ra.
- Baby needs với tổng số 619 và còn trống 4008 tức 87% so với tổng số
trường hợp đưa ra.
- Bread and cake với tổng số 3330 và còn trống 1297 tức 28% so với tổng
số trường hợp đưa ra.
- Baking needs với tổng số 2795 và còn trống 1832 tức 40% so với tổng số
trường hợp đưa ra.
- coupons với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường
hợp đưa ra.
- Juice sat cord ms với tổng số 2463 và còn trống 2164 tức 47% so với
tổng số trường hợp đưa ra.
10
- Tea với tổng số 896 và còn trống 3731 tức 81% so với tổng số trường
hợp đưa ra.
- Biscuits với tổng số 2605 và còn trống 2022 tức 44% so với tổng số
trường hợp đưa ra.
- Canned fish meat với tổng số 941 và còn trống 3686 tức 80% so với tổng
số trường hợp đưa ra.
- Canned fruit với tổng số 1283 và còn trống 3344 tức 72% so với tổng số
trường hợp đưa ra.
- Canned vegetables với tổng số 1557 và còn trống 3050 tức 66% so với
tổng số trường hợp đưa ra.
- Breakfast food với tổng số 1862 và còn trống 2756 tức 60% so với tổng
số trường hợp đưa ra.
- Cigs tobacco pkts với tổng số 699 và còn trống 3928 tức 85% so với tổng
số trường hợp đưa ra.
- Cigarette cartons với tổng số 37 và còn trống 4590 tức 99% so với tổng
số trường hợp đưa ra.
- Cleaner polishers với tổng số 1262 và còn trống 3365 tức 73% so với
tổng số trường hợp đưa ra.
- Coffee với tổng số 1094 và còn trống 3533 tức 76% so với tổng số
trường hợp đưa ra.
- Sauces gravy pkle với tổng số 2201 và còn trống 2426 tức 52% so với
tổng số trường hợp đưa ra.
- Confectionary với tổng số 1690 và còn trống 2937 tức 63% so với tổng
số trường hợp đưa ra.
- Puddings deserts với tổng số 788 và còn trống 3839 tức 83% so với tổng
số trường hợp đưa ra.
11
- Dishcloths scour với tổng số 362 và còn trống 4265 tức 92% so với tổng
số trường hợp đưa ra.
- Deod disinfectant với tổng số 379 và còn trống 4248 tức 92% so với tổng
số trường hợp đưa ra.
- Frozen foods với tổng số 2717 và còn trống 1910 tức 41% so với tổng số
trường hợp đưa ra.
- Razor blades với tổng số 200 và còn trống 4427 tức 96% so với tổng số
trường hợp đưa ra.
- Fuels garden aids với tổng số 169 và còn trống 4458 tức 96% so với tổng
số trường hợp đưa ra.
- Spices với tổng số 359 và còn trống 4268 tức 92% so với tổng số trường
hợp đưa ra.
- Jams spreads với tổng số 1278 và còn trống 3349 tức 72% so với tổng số
trường hợp đưa ra.
- Insecticides với tổng số 485 và còn trống 4142 tức 90% so với tổng số
trường hợp đưa ra.
- Pet food với tổng số 1867 và còn trống 2760 tức 60% so với tổng số
trường hợp đưa ra.
- Laundry needs với tổng số 1563 và còn trống 3064 tức 66% so với tổng
số trường hợp đưa ra.
- Party snack foods với tổng số 2330 và còn trống 2297 tức 50% so với
tổng số trường hợp đưa ra.
- Tissues paper prd với tổng số 2247 và còn trống 2380 tức 51% so với
tổng số trường hợp đưa ra.
- Wrapping với tổng số 1336 và còn trống 3291 tức 71% so với tổng số
trường hợp đưa ra.
12
- Dried vegetables với tổng số 29 và còn trống 4598 tức 99% so với tổng
số trường hợp đưa ra.
- Pkt canned soup với tổng số 453 và còn trống 4174 tức 90% so với tổng
số trường hợp đưa ra.
- Soft drink với tổng số 1888 và còn trống 2739 tức 59% so với tổng số
trường hợp đưa ra.
- Health food other với tổng số 341 và còn trống 4286 tức 93% so với tổng
số trường hợp đưa ra.
- Beverages hot với tổng số 455 và còn trống 4172 tức 90% so với tổng số
trường hợp đưa ra.
- Health&beuty misc với tổng số 78 và còn trống 4549 tức 98% so với
tổng số trường hợp đưa ra.
- Deodorants soap với tổng số 1078 và còn trống 3549 tức 77% so với tổng
số trường hợp đưa ra.
- Mens toiletries với tổng số 259 và còn trống 4368 tức 94% so với tổng số
trường hợp đưa ra.
- Medicines với tổng số 204 và còn trống 4423 tức 96% so với tổng số
trường hợp đưa ra.
- Haircare với tổng số 846 và còn trống 3781 tức 82% so với tổng số
trường hợp đưa ra.
- Dental needs với tổng số 1064 và còn trống 3563 tức 77% so với tổng số
trường hợp đưa ra.
- Lotions creams với tổng số 294 và còn trống 4333 tức 94% so với tổng
số trường hợp đưa ra.
- Sanitary pads với tổng số 416 và còn trống 4211 tức 91% so với tổng số
trường hợp đưa ra.
13
- Cough cold pain với tổng số 362 và còn trống 4265 tức 92% so với tổng
số trường hợp đưa ra.
- Deparment57 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Meat misc với tổng số 131 và còn trống 4496 tức 97% so với tổng số
trường hợp đưa ra.
- Cheese với tổng số 1879 và còn trống 2748 tức 59% so với tổng số
trường hợp đưa ra.
- chickens với tổng số 21 và còn trống 4606 tức 100% so với tổng số
trường hợp đưa ra.
- Milk cream với tổng số 2939 và còn trống 1688 tức 36% so với tổng số
trường hợp đưa ra.
- Cold meat với tổng số 672 và còn trống 3955 tức 85% so với tổng số
trường hợp đưa ra.
- Deli gourmet với tổng số 208 và còn trống 4419 tức 96% so với tổng số
trường hợp đưa ra.
- Margarine với tổng số 2288 và còn trống 2339 tức 51% so với tổng số
trường hợp đưa ra.
- salads với tổng số 6 và còn trống 4621 tức 100% so với tổng số trường
hợp đưa ra.
- Small goods với tổng số 1116 và còn trống 3511 tức 76% so với tổng số
trường hợp đưa ra.
- Dairy foods với tổng số 1669 và còn trống 2958 tức 64% so với tổng số
trường hợp đưa ra.
- Fruit drinks với tổng số 32 và còn trống 4595 tức 99% so với tổng số
trường hợp đưa ra.
14
- Delicatessen misc với tổng số 108 và còn trống 4519 tức 98% so với tổng
số trường hợp đưa ra.
- Deparment70 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Beef với tổng số 1739 và còn trống 2888 tức 62% so với tổng số trường
hợp đưa ra.
- Hogget với tổng số 95 và còn trống 4532 tức 98% so với tổng số trường
hợp đưa ra.
- Lamb với tổng số 473 và còn trống 4154 tức 90% so với tổng số trường
hợp đưa ra.
- Pet food với tổng số 533 và còn trống 4094 tức 88% so với tổng số
trường hợp đưa ra.
- Pork với tổng số 345 và còn trống 4282 tức 93% so với tổng số trường
hợp đưa ra.
- Poultry với tổng số 739 và còn trống 3888 tức 84% so với tổng số trường
hợp đưa ra.
- Veal với tổng số 91 và còn trống 4536 tức 98% so với tổng số trường hợp
đưa ra.
- Gourmet meat với tổng số 2 và còn trống 4625 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment79 với tổng số 390 và còn trống 4237 tức 92% so với tổng số
trường hợp đưa ra.
- Deparment80 với tổng số 156 và còn trống 4471 tức 97% so với tổng số
trường hợp đưa ra.
- Deparment81 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
15
- Produce misc với tổng số 243 và còn trống 4384 tức 95% so với tổng số
trường hợp đưa ra.
- Fruit với tổng số 2962 và còn trống 1665 tức 36% so với tổng số trường
hợp đưa ra.
- Plants với tổng số 29 và còn trống 4598 tức 99% so với tổng số trường
hợp đưa ra.
- Potatoes với tổng số 734 và còn trống 3893 tức 84% so với tổng số
trường hợp đưa ra.
- Vegetables với tổng số 2961 và còn trống 1666 tức 36% so với tổng số
trường hợp đưa ra.
- Flower với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường
hợp đưa ra.
- Deparment88 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment89 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Variety misc với tổng số 319 và còn trống 4308 tức 93% so với tổng số
trường hợp đưa ra.
- Brushware với tổng số 109 và còn trống 4518 tức 98% so với tổng số
trường hợp đưa ra.
- Electrical với tổng số 514 và còn trống 4113 tức 89% so với tổng số
trường hợp đưa ra.
- Haberdashery với tổng số 45 và còn trống 4582 tức 99% so với tổng số
trường hợp đưa ra.
- Kitchen với tổng số 326 và còn trống 4301 tức 93% so với tổng số trường
hợp đưa ra.
16
- Manchester với tổng số 173 và còn trống 4454 tức 96% so với tổng số
trường hợp đưa ra.
- Pantyhose với tổng số 43 và còn trống 4584 tức 99% so với tổng số
trường hợp đưa ra.
- Plasticware với tổng số 69 và còn trống 4558 tức 99% so với tổng số
trường hợp đưa ra.
- Deparment98 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Stationary với tổng số 1457 và còn trống 3170 tức 69% so với tổng số
trường hợp đưa ra.
- Deparment100 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment101 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment102 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Perpared meals với tổng số 1271 và còn trống 3356 tức 73% so với tổng
số trường hợp đưa ra.
- Preserving needs với tổng số 56 và còn trống 4571 tức 99% so với tổng
số trường hợp đưa ra.
- Condiments với tổng số 263 và còn trống 4364 tức 94% so với tổng số
trường hợp đưa ra.
- Cooking oils với tổng số 478 và còn trống 4149 tức 90% so với tổng số
trường hợp đưa ra.
- Deparment107 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
17
- Deparment108 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment109 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment110 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment111 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment112 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment113 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment114 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Health food bulk với tổng số 0 và còn trống 4627 tức 100% so với tổng
số trường hợp đưa ra.
- Deparment116 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment117 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment118 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment119 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment120 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
18
- Bake off products với tổng số 562 và còn trống 4065 tức 88% so với tổng
số trường hợp đưa ra.
- Deparment122 với tổng số 1112 và còn trống 3515 tức 76% so với tổng
số trường hợp đưa ra.
- Deparment123 với tổng số 39 và còn trống 4588 tức 99% so với tổng số
trường hợp đưa ra.
- Deparment124 với tổng số 95 và còn trống 4532 tức 98% so với tổng số
trường hợp đưa ra.
- Deparment125 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment126 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment127 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment128 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment129 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment130 với tổng số 329 và còn trống 4298 tức 93% so với tổng số
trường hợp đưa ra.
- Small goods2 với tổng số 962 và còn trống 3665 tức 79% so với tổng số
trường hợp đưa ra.
- Offal với tổng số 99 và còn trống 4528 tức 98% so với tổng số trường
hợp đưa ra.
- Mutton với tổng số 23 và còn trống 4604 tức 100% so với tổng số trường
hợp đưa ra.
19
- Trim pork với tổng số 127 và còn trống 4500 tức 97% so với tổng số
trường hợp đưa ra.
- Trim lamb với tổng số 46 và còn trống 4581 tức 99% so với tổng số
trường hợp đưa ra.
- Imported cheese với tổng số 233 và còn trống 4394 tức 95% so với tổng
số trường hợp đưa ra.
- Deparment137 với tổng số 1854 và còn trống 2773 tức 60% so với tổng
số trường hợp đưa ra.
- Deparment138 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment139 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment140 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment141 với tổng số 10 và còn trống 4617 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment142 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment143 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment144 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment145 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment146 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
20
- Deparment147 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment148 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment149 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment150 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment151 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment152 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment153 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment154 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment155 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment156 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment157 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment158 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment159 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
21
- Deparment160 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment161 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment162 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment163 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment164 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment165 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment166 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment167 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment168 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment169 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment170 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment171 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment172 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
22
- Deparment173 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment174 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment175 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment176 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment177 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment178 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment179 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Casks white wine với tổng số 174 và còn trống 4453 tức 96% so với tổng
số trường hợp đưa ra.
- Casks red wine với tổng số 51 và còn trống 4576 tức 99% so với tổng số
trường hợp đưa ra.
- 750ml white nz với tổng số 281 và còn trống 4346 tức 94% so với tổng
số trường hợp đưa ra.
- 750ml red nz với tổng số 91 và còn trống 4536 tức 98% so với tổng số
trường hợp đưa ra.
- 750ml white imp với tổng số 99 và còn trống 4528 tức 98% so với tổng
số trường hợp đưa ra.
- 750ml red imp với tổng số 97 và còn trống 4530 tức 98% so với tổng số
trường hợp đưa ra.
23
- Sparking nz với tổng số 129 và còn trống 4498 tức 97% so với tổng số
trường hợp đưa ra.
- Spaking imp với tổng số 23 và còn trống 4606 tức 100% so với tổng số
trường hợp đưa ra.
- Brew kít/accesry với tổng số 0 và còn trống 4627 tức 100% so với tổng
số trường hợp đưa ra.
- Deparment189 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Port and sherry với tổng số 25 và còn trống 4602 tức 99% so với tổng số
trường hợp đưa ra.
- Ctrled label wine với tổng số 0 và còn trống 4627 tức 100% so với tổng
số trường hợp đưa ra.
- Deparment192 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment193 với tổng số 10 và còn trống 4617 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment194 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment195 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment196 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment197 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment198 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
24
- Deparment199 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Non host support với tổng số 87 và còn trống 4540 tức 98% so với tổng
số trường hợp đưa ra.
- Deparment201 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment202 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment203 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment204 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment205 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment206 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment207 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment208 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment209 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment210 với tổng số 191 và còn trống 4436 tức 96% so với tổng số
trường hợp đưa ra.
- Deparment211 với tổng số 207 và còn trống 4420 tức 96% so với tổng số
trường hợp đưa ra.
25
- Deparment212 với tổng số 38 và còn trống 4589 tức 99% so với tổng số
trường hợp đưa ra.
- Deparment213 với tổng số 22 và còn trống 4605 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment214 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment215 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Deparment216 với tổng số 0 và còn trống 4627 tức 100% so với tổng số
trường hợp đưa ra.
- Những thuộc tính này đều có tổng nhỏ hơn tổng số đưa ra là 4627 mẩu
thử.có những thuộc tính trống hoàn toàn so với mẩu thử đưa ra.
CHƯƠNG 2 - TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION
2.1 Khái niệm về cơ sở dử liệu giao dịch
Cơ sỡ dư liệu giao dịch (transaction database )là cơ cở dử liệu thường được thu
thập từ một dữ liệu bán hàng hay một trung tâm thương mại.Trong đó số liệu thống kê
được phân tích là trong một lần mua hàng khách hàng sẽ mua những sản phẩm gì.
2.2 Khái niệm về giao dịch
Hạng mục(item): được định nghĩa là mặt hàng trong giỏ hay một thuộc tính. Ta
xét tập các hạng mục (itemset) I = {i1, i2, i3, i4…, in} trong ví dụ : I = {sữa,bánh mì,ngũ
cốc,sữa chua} thì các i1, i2, i3, i4…, in là các mặt hàng.
Giao dịch(Transaction):là tập các hạng mục được mua trong một giỏ (có TID-
mã giao dịch).
Dưới đây là bảng transaction chứa các transaction chứa nhiều item nhất(t1) và ít
item nhất được phân tích từ file supermarkert.arff:
26
Transaction Item
t1 {department1, Baby needs ,Bread and
cake, Baking needs, Juice sat cord ms,
Tea, Biscuits, Canned fish meat, Canned
fruit, Canned vegetables, Breakfast food,
Cleaner polishers, Coffee, Sauces gravy
pkle, Confectionary, Puddings deserts,
Frozen foods, Spices, Jams spreads,
Insecticides, Pet food, Laundry needs,
Party snack foods, Tissues paper prd,
Wrapping, Pkt canned soup, Soft drink,
Health food other, Beverages hot,
Deodorants soap, Haircare, Dental needs,
Sanitary pads, Cheese, Milk cream,
Margarine, Small goods, Dairy foods,
Beef, Fruit, Potatoes, Vegetables,
Brushware, Electrical, Kitchen , Perpared
meals , Preserving needs , Small goods2 }
t84 {department1}
t267 {department1}
t373 { Cigarette cartons }
t662 {department2}
t663 {department2}
t666 { Cigarette cartons }
t667 { Cigarette cartons }
27
t1229 {department1}
t1601 {department79}
t1869 { Cigarette cartons }
t1929 {department1}
t2281 {department2}
t2283 {department2}
t2332 {750ml red imp }
t2350 {750ml red nz }
t2429 {department1}
t2675 { Cigarette cartons }
t2701 {soft drinks}
t2789 {department6}
t2836 {department79}
t2897 {department79}
t2961 {department11}
t2970 {department1}
t3230 {soft drinks}
t3541 { Cigarette cartons }
t3889 {department2}
t3900 {department2}
t3930 {pork}
t3998 { Cigarette cartons }
t4034 { Cigarette cartons }
t4291 {department 211}
t4322 {750ml red imp }
t4432 {750ml red imp }
28
t4437 {department2}
t4472 {department1}
t4527 {department1}
CHƯƠNG 3 - DÙNG THUẬT TOÁN APRIORI TRONG WEKA
ĐỂ TÌM LUẬT KẾT HỢP
3.1 Tổng quan về thuật toán Apriori
Apriori là một thuật toán cổ điển dùng để khai thác các hạng mục theo tần suất
và kết hợp việc nghiên cứu luật để quản lý những cơ sở dữ liệu. Bài toán được dặt ra
cho thuật toán là tìm tất cả các tập mục phổ biến với minsup nào đó và sử dụng các tập
mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nhất định.
3.1.1 Nguyên tắc Apriori
- Đếm số lượng của từng item , tìm các item xuất hiện nhiều nhất.
- Tìm các cặp ứng viên :Đếm các cặp => cặp item xuất hiện nhiều nhất.
- Tìm các bộ ứng viên : Đếm các bộ ba => bộ ba item xuất hiện nhiều nhất. Và
tiếp tục với các bộ 4, bộ 5….
- Nguyên tắc chủ yếu : Mọi tập con của tập phổ biến là tập con phổ biến.
3.1.2 Mô tả thuật toán Apriori trong việc tìm luậtluậtkết hợp
Bước 1. Duyệt (Scan) toàn bộ transaction database để có được support S của 1-
itemset, so sánh S với min_sup, để có được 1-itemset (L1)
Bước 2. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các
itemsets không phải là frequent itemsets thu được k-itemset
Bước 3. Scan transaction database để có được support của mỗi candidate k-
itemset, so sánh S với min_sup để thu được frequent k –itemset (Lk)
29
Bước 4. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm
thấy frequent itemsets)
Bước 5. Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I
Bước 6. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ
tin cậy (Confidence) của nó > =min_conf
3.2 Ứng dụng thuật toán Apriori tìm luật kếthợp trên Weka
Đầu tiên ta tiến hành nạp dử liệu file supermarket.arff vào Weka:
Sau đó loại bỏ 2 thuộc tính “Total” và “bread and cake”:
Hình 4 : Loại bỏ 2 thuộc tính “Total” và “bread and cake”
30
Hình 5 : Kết quả số thuộc tính còn lại
Tiếp tục ta áp dụng thuật toán Apriori để khai phá luật kết hợp, với các thông số
sau :
Hình 6: Khai phá luật kết hợp với các tham số minsup = 0.3; minconf = 0,7 ;
numRules = 10 trong apriori
31
Với tham số minsup = 0,3 ; minconf = 0,7 ; numRules(Số luật tìm được) = 10
thì ta chon ra 3 luật kết hợp có độ chính xác cao nhất dạng: M1 ^ M2 => M3(M là các
item) là :
R1 : biscuits ^ vegetables => fruit (conf = 80%)
R2 : baking needs ^ fruit => vegetables(conf= 78%)
R3: frozens foods ^ fruit => vegetables (conf = 78%)
Tổng số luật thu được là : 10
Thực hiện lần lượt với các tham số
 minsup = 0.2; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật
là :
Hình 7: Khai phá luật kết hợp với các tham số minsup = 0.2;
minconf = 0,7 ; numRules = 1000 trong apriori
R1 : beef ^ fruit => vegetables (conf = 83%)
R2 : dairy foods ^ vegetables => fruit(conf= 81%)
R3: breakfast food ^ vegetables => fruit (conf = 80%)
Tổng số luật thu được là 273
32
 minsup = 0,1; minconf = 0,7 ; numRules = 1000 thì ta thu được kết quả
là:
Hình 8: Khai phá luật kết hợp với các tham số minsup = 0,1;
minconf = 0,7 ; numRules = 1000 trong apriori
R1: canned fruit ^ vegetables = > fruit = 744(conf=82%)
R2: canned vegetables ^ fruit => vegetables (conf = 82%)
R3: dairy foods ^ vegetables =>fruit(conf= 81%)
Tổng số luật thu được là 1000
 minsup = 0,4; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật
là:
33
Hình 9: Khai phá luật kết hợp với các tham số minsup = 0,4;
minconf = 0,7 ; numRules = 1000 trong apriori
R1:vegetables=>fruit (conf = 75% )
R2: fruit => vegetables(conf = 75%)
Tổng số luật tìm được là 2.
Như vậy ở trường hợp này ta không thu được luật nào thõa dạng :M1 ^
M2 => M3.
Nhận xét: Ta thấy dử liệu số giao dịch trong file supermarket.arff là dữ liệu
không nhỏ (4627 giao dịch ) , khi tiến hành khai phá luật kết hợp nếu ta đặt giá trị cho
minsup quá lớn cho dử liệu này thì không đảm bảo tìm được số luật theo yêu cầu.
34
TÀI LIỆU THAM KHẢO
Tiếng Anh
Ebook: Jiawei Han, Micheline Kamber. Data Mining: Concepts and
Techniques, 3rd Edition. Boston, Morgan Kaufmann Publishers, 2012.
Website: https://en.wikipedia.org/wiki/Apriori_algorithm
Tiếng Việt
Website: http://bis.net.vn/forums/p/389/683.aspx
Slide: Tập slide bài giảng môn Data Mining , khoa Công Nghệ Thông Tin, Đai
học Tôn Đức Thắng

More Related Content

What's hot

Giới thiệu về Rational Rose và Các diagram
Giới thiệu về Rational Rose và Các diagramGiới thiệu về Rational Rose và Các diagram
Giới thiệu về Rational Rose và Các diagram
Huy Vũ
 
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPTBài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
MasterCode.vn
 
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
nataliej4
 
Hệ thống quản lý mua hàng siêu thị mini
Hệ thống quản lý mua hàng siêu thị miniHệ thống quản lý mua hàng siêu thị mini
Hệ thống quản lý mua hàng siêu thị mini
Han Nguyen
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
Haokillboom Aăâ
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
Man_Ebook
 
Quản lý bệnh viện
Quản lý bệnh việnQuản lý bệnh viện
Quản lý bệnh việnTam Nguyen
 
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoaỨng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệpĐề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin TứcBáo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Dịch Vụ Viết Thuê Luận Văn Zalo : 0932.091.562
 
Chương 3: Các Phương Pháp Dự Báo Định Tính
Chương 3: Các Phương Pháp Dự Báo Định TínhChương 3: Các Phương Pháp Dự Báo Định Tính
Chương 3: Các Phương Pháp Dự Báo Định Tính
Le Nguyen Truong Giang
 
Các kỹ thuật bảo trì phần mềm
Các kỹ thuật bảo trì phần mềmCác kỹ thuật bảo trì phần mềm
Các kỹ thuật bảo trì phần mềm
Nguyễn Anh
 
[14HCB]-Tìm Hiểu Weka
[14HCB]-Tìm Hiểu Weka[14HCB]-Tìm Hiểu Weka
[14HCB]-Tìm Hiểu Weka
Tran Van Cuong
 
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYLuận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
Thạc sĩ Vũ Ngọc Hiếu
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khátPhân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Minh Nguyển
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Khoa Hồ Anh
 

What's hot (20)

Giới thiệu về Rational Rose và Các diagram
Giới thiệu về Rational Rose và Các diagramGiới thiệu về Rational Rose và Các diagram
Giới thiệu về Rational Rose và Các diagram
 
Bai tap thuc hanh
Bai tap thuc hanhBai tap thuc hanh
Bai tap thuc hanh
 
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
Đề tài: Nghiên cứu áp dụng phần mềm Moodle trong giảng dạy tiếng Anh tại trườ...
 
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPTBài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
Bài 6: Kiến thức cơ sở về điều khiển truy cập - Giáo trình FPT
 
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
 
Hệ thống quản lý mua hàng siêu thị mini
Hệ thống quản lý mua hàng siêu thị miniHệ thống quản lý mua hàng siêu thị mini
Hệ thống quản lý mua hàng siêu thị mini
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
 
Quản lý bệnh viện
Quản lý bệnh việnQuản lý bệnh viện
Quản lý bệnh viện
 
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoaỨng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
 
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệpĐề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
Đề tài: Chương trình quản lý nhân sự tiền lương tại doanh nghiệp
 
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin TứcBáo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
 
Chương 3: Các Phương Pháp Dự Báo Định Tính
Chương 3: Các Phương Pháp Dự Báo Định TínhChương 3: Các Phương Pháp Dự Báo Định Tính
Chương 3: Các Phương Pháp Dự Báo Định Tính
 
Các kỹ thuật bảo trì phần mềm
Các kỹ thuật bảo trì phần mềmCác kỹ thuật bảo trì phần mềm
Các kỹ thuật bảo trì phần mềm
 
[14HCB]-Tìm Hiểu Weka
[14HCB]-Tìm Hiểu Weka[14HCB]-Tìm Hiểu Weka
[14HCB]-Tìm Hiểu Weka
 
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYLuận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
 
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
Chương 7: thương mại điện tử và các hệ thống thông tin quản lý giữa các tổ chức
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
 
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khátPhân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khát
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
 

Similar to Khai phá dử liệu

Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
Dịch vụ viết thuê đề tài trọn gói 📢📢📢 Liên hệ ZALO/TELE: 0973.287.149
 
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụngLuận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Xd he thong thong tin dia ly
Xd he thong thong tin dia lyXd he thong thong tin dia ly
Xd he thong thong tin dia lyVcoi Vit
 
Quan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyQuan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyViet Nam
 
Quan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyQuan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyDuy Vọng
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
TieuNgocLy
 
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết địnhLuận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
Dịch vụ viết thuê đề tài trọn gói ☎☎☎ Liên hệ ZALO/TELE: 0973.287.149 👍👍
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
HanaTiti
 
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụThử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
anh hieu
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứngLuận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAYLuận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
Viết thuê trọn gói ZALO 0934573149
 
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
DV Viết Luận văn luanvanmaster.com ZALO 0973287149
 
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tínhLuận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
Dịch vụ viết bài trọn gói ZALO 0917193864
 
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
nataliej4
 
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
PinkHandmade
 
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 

Similar to Khai phá dử liệu (20)

Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
Yếu tố tác động đến xuất khẩu hàng nông sản việt nam vào thị trường EU - cách...
 
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụngLuận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Luận án: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
 
Xd he thong thong tin dia ly
Xd he thong thong tin dia lyXd he thong thong tin dia ly
Xd he thong thong tin dia ly
 
Quan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyQuan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_ly
 
Quan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_lyQuan ly he_thong_thong_tin_dia_ly
Quan ly he_thong_thong_tin_dia_ly
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
 
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết địnhLuận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
 
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm...
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
 
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
Đề tài: Nghiên cứu giá trị của siêu âm Doppler động mạch tử cung động mạch nã...
 
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụThử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
Thử nghiệm nhịp tim thai không kích thích trong tiên lượng thai nhi ở thai phụ
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp...
 
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng. Trường hợp nghiên cứ...
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứngLuận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng
 
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAYLuận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
Luận văn: Yếu tố tác động đến mức độ hợp tác trong chuỗi cung ứng, HAY
 
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
 
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tínhLuận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
Luận văn: Tính toán khoảng giải các ràng buộc không tuyến tính
 
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG
 
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
LUẬN ÁN NÂNG CAO CHỈ SỐ NĂNG LỰC CẠNH TRANH CẤP TỈNH CHO TỈNH BẮC GIANG_10240...
 
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở d...
 

Khai phá dử liệu

  • 1. TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU TÌM HIỂU WEKA VÀ ỨNG DỤNG THUẬT TOÁN APRIORI TRONG KHAI PHÁ LUẬT KẾT HỢP Người hướng dẫn:TS NGUYỄN ĐỨC CƯỜNG Người thực hiện: DƯƠNG NHẬT QUANG – MSSV:51303134 Lớp : 13050303 Khoá : 17 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016
  • 2. TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU TÌM HIỂU WEKA VÀ ỨNG DỤNG THUẬT TOÁN APRIORI TRONG KHAI PHÁ LUẬT KẾT HỢP Người hướng dẫn: TS NGUYỄN ĐỨC CƯỜNG Người thực hiện: DƯƠNG NHẬT QUANG-MSSV:51303134 Lớp : 13050303 Khoá : 17 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016
  • 3. 1 LỜI CẢM ƠN Em xin trân thành cảm ơn cùng các bạn sinh viên khoa công nghệ thông tin trường Đại học Tôn Đức Thắng đã tạo điều kiện giúp em hoàn thành Trong quá trình làm bài tập lớn em đã cố gắng tìm hiểu trao đổi kiến thức để hoàn thành tốt bài tập lớn của mình. Tuy bài tập lớn đã được hoàn thành nhưng khó tránh khỏi những sai sót em mong thầy cô sẽ bỏ qua và mong thầy cô đưa ra ý kiến để em rút kinh nghiệm cho những bài tập lớn tiếp theo.
  • 4. 2 BÀI TẬP LỚN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG Em xin cam đoan đây là sản phẩm bài tập lớn của riêng em và được sự hướng dẫn của TS Nguyễn Đức Cường . Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong bài tập lớn còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào em xin hoàn toàn chịu trách nhiệm về nội dung bài tập lớn của mình. Trường đại học Tôn Đức Thắng không liên quan đến những vi phạm tác quyền, bản quyền do em gây ra trong quá trình thực hiện (nếu có). TP. Hồ Chí Minh, ngày tháng năm Tác giả (ký tên và ghi rõ họ tên) Dương Nhật Quang
  • 5. 3 PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận của GV hướng dẫn _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên) Phần đánh giá của GV chấm bài _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ _________________________________________________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)
  • 6. 4 MỤC LỤC LỜI CẢM ƠN ............................................................................................................................. PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN................................................. CHƯƠNG 1 – CÀI ĐẶT WEKA VÀ MÔ TẢ TẬP TÍNH DỬ LIỆU ...........................5 1.1 Tìm hiểu và cài đặt Weka .....................................................................................5 1.2 Tìm hiểu đăc tính dử liệu ......................................................................................6 CHƯƠNG 2 – TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION ....................................25 2.1 Khái niệm về cơ sở dử liệu giao dịch ................................................................25 2.2 Khái niệm giao dịch.............................................................................................25 CHƯƠNG 3 – Dùng thuật toán Apriori trong Weka để tìm luật kết hợp…………….25 3.1Tổng quan thuật toán Apriori ..............................................................................25 3.2 Ứng dụng thuật toán Apriori tìm luật kết hợp trên Weka ..............................27 TÀI LIỆU THAM KHẢO.............................................................................................35
  • 7. 5 CHƯƠNG 1 – CÀI ĐẶT PHẦN MỀM WEKA VÀ TÌM HIỂU ĐẶC TÍNH CỦA TẬP DỬ LIỆU 1.1 Tìm hiểu và cài đặt Weka 3.8 Weka được viết tắt là Waikato Environment for Knowledge Analysis , là phần mềm khai thác dử liệu , thuôc dự án nghiên cứu của đại học Waikato- New Zealand. Mục tiêu của Weka được xây dựng là một công cụ hiện đại nhằm phát triển các kỹ năng máy học và áp dụng chúng vào bài toán khai thác dử liệu trong thực tế. Weka được xây dựng bằng ngôn ngữ JAVA, cấu trúc gồm hơn 600 lớp. tổ chức thành 10 packages. Weka có 1 số chức năng chính gồm : - Khảo sát dử liệu : tiền xử lí dử liệu, phân lớp , gom nhóm dử liệu và khac thác luật kết hợp. - Thực nghiêm mô hình: cung cấp phương tiện để kiểm chứng , đánh giá các mô hình môn học. - Biểu diển trực quan dử liệu bằng nhiều đồ thị khác nhau. Cài đặt Weka 3.8: Dowload Weka phiên bản 3.8 từ trang chủ : http://www.cs.waikato.ac.nz/ml/weka/downloading.html
  • 8. 6 Hình 1: Trang chủ Dowload Weka 3.8 Hình 2: Phần mềm Weka phiên bản 3.8 sau khi cài đặt 1.2 Tìm hiểu đặc tính tập dử liệu 1.2.1 Khái quátvềtập dử liệu Một tập dữ liệu (dataset) là một tậphợp các đối tượng (objects) và các thuộc tính của chúng. Mỗi thuộc tính (attribute) mô tả một đặc điểm của một đối tượng. Một tập giá trị của các thuộc tính mô tả một đối tượng. 1.2.2 Cáckiểu tập dử liệu chính :  Bản ghi (Record)
  • 9. 7 - Các bản ghi trong csdl quan hệ - Ma trận dữ liệu - Biểu diễn văn bản (document) - Dữ liệu giao dịch  Đồ thị (Graph) - World Wide Web - Mạng thông tin, hoặc mạng xã hội - Các cấu trúc phân tử (Molecular structures)  Có trật tự (Ordered) - Dữ liệu không gian (vd: bản đồ) - Dữ liệu thời gian (vd: time-series data) - Dữ liệu chuỗi (vd: chuỗi giao dịch) - Dữ liệu chuỗi di truyền(genetic sequence data) 1.2.3 Cáckiểu giá trị thuộc tính Kiểu định danh/chuỗi (norminal): không có thứ tự. Nó được lấy giá trị từ một tập không có thứ tự các giá trị (định danh). Ví dụ: Các thuộc tính như: Name, Profession, … Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh. Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F). Kiểu có thứ tự (ordinal): Lấy giá trị từ một tập có thứ tự các giá trị. Ví dụ như các thuộc tính lấy các giá trị số như: Age, Highv … hay thuộc tính lấy các giá trị từ tập {low,medium,high} 1.2.4 Tiến hànhmô tả tập dử liệu File Ta tiến hành load file supermarket.arff trong gói data của chương trình
  • 10. 8 Hình 3: Load file supermarket.arff Thông tin tập dử liệu thu được: - @Relation : supermarket. - Có 217 Attribute(thuộc tính), các thuộc tính có kiểu giá trị là norminal. - Số data là 4627 - Tất cả các thuộc tính đều mang kiểu Nominal. - No. of rows : 4627 rows. - No. of columns : 217 columns. Sau đây là số liệu cho từng mẩu thử bao gồm tổng trọng lượng của từng mẫu so với trọng lượng từng bản ghi. - Deparment1 với tổng số 1047 và còn trống 3580 tức 77% so với tổng số trường hợp đưa ra. - Deparment2 với tổng số 131 và còn trống 4469 tức 97% so với tổng số trường hợp đưa ra. - Deparment3 với tổng số 90 và còn trống 4537 tức 98% so với tổng số trường hợp đưa ra.
  • 11. 9 - Deparment4 với tổng số 84 và còn trống 4543 tức 98% so với tổng số trường hợp đưa ra. - Deparment5 với tổng số 175 và còn trống 4452 tức 96% so với tổng số trường hợp đưa ra. - Deparment6 với tổng số 2 và còn trống 4625 tức 100% so với tổng số trường hợp đưa ra. - Deparment7 với tổng số 67 và còn trống 4560 tức 99% so với tổng số trường hợp đưa ra. - Deparment8 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment9 với tổng số 82 và còn trống 4545 tức 98% so với tổng số trường hợp đưa ra. - Grocery misc với tổng số 178 và còn trống 4449 tức 96% so với tổng số trường hợp đưa ra. - Deparment11 với tổng số 5 và còn trống 4622 tức 100% so với tổng số trường hợp đưa ra. - Baby needs với tổng số 619 và còn trống 4008 tức 87% so với tổng số trường hợp đưa ra. - Bread and cake với tổng số 3330 và còn trống 1297 tức 28% so với tổng số trường hợp đưa ra. - Baking needs với tổng số 2795 và còn trống 1832 tức 40% so với tổng số trường hợp đưa ra. - coupons với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Juice sat cord ms với tổng số 2463 và còn trống 2164 tức 47% so với tổng số trường hợp đưa ra.
  • 12. 10 - Tea với tổng số 896 và còn trống 3731 tức 81% so với tổng số trường hợp đưa ra. - Biscuits với tổng số 2605 và còn trống 2022 tức 44% so với tổng số trường hợp đưa ra. - Canned fish meat với tổng số 941 và còn trống 3686 tức 80% so với tổng số trường hợp đưa ra. - Canned fruit với tổng số 1283 và còn trống 3344 tức 72% so với tổng số trường hợp đưa ra. - Canned vegetables với tổng số 1557 và còn trống 3050 tức 66% so với tổng số trường hợp đưa ra. - Breakfast food với tổng số 1862 và còn trống 2756 tức 60% so với tổng số trường hợp đưa ra. - Cigs tobacco pkts với tổng số 699 và còn trống 3928 tức 85% so với tổng số trường hợp đưa ra. - Cigarette cartons với tổng số 37 và còn trống 4590 tức 99% so với tổng số trường hợp đưa ra. - Cleaner polishers với tổng số 1262 và còn trống 3365 tức 73% so với tổng số trường hợp đưa ra. - Coffee với tổng số 1094 và còn trống 3533 tức 76% so với tổng số trường hợp đưa ra. - Sauces gravy pkle với tổng số 2201 và còn trống 2426 tức 52% so với tổng số trường hợp đưa ra. - Confectionary với tổng số 1690 và còn trống 2937 tức 63% so với tổng số trường hợp đưa ra. - Puddings deserts với tổng số 788 và còn trống 3839 tức 83% so với tổng số trường hợp đưa ra.
  • 13. 11 - Dishcloths scour với tổng số 362 và còn trống 4265 tức 92% so với tổng số trường hợp đưa ra. - Deod disinfectant với tổng số 379 và còn trống 4248 tức 92% so với tổng số trường hợp đưa ra. - Frozen foods với tổng số 2717 và còn trống 1910 tức 41% so với tổng số trường hợp đưa ra. - Razor blades với tổng số 200 và còn trống 4427 tức 96% so với tổng số trường hợp đưa ra. - Fuels garden aids với tổng số 169 và còn trống 4458 tức 96% so với tổng số trường hợp đưa ra. - Spices với tổng số 359 và còn trống 4268 tức 92% so với tổng số trường hợp đưa ra. - Jams spreads với tổng số 1278 và còn trống 3349 tức 72% so với tổng số trường hợp đưa ra. - Insecticides với tổng số 485 và còn trống 4142 tức 90% so với tổng số trường hợp đưa ra. - Pet food với tổng số 1867 và còn trống 2760 tức 60% so với tổng số trường hợp đưa ra. - Laundry needs với tổng số 1563 và còn trống 3064 tức 66% so với tổng số trường hợp đưa ra. - Party snack foods với tổng số 2330 và còn trống 2297 tức 50% so với tổng số trường hợp đưa ra. - Tissues paper prd với tổng số 2247 và còn trống 2380 tức 51% so với tổng số trường hợp đưa ra. - Wrapping với tổng số 1336 và còn trống 3291 tức 71% so với tổng số trường hợp đưa ra.
  • 14. 12 - Dried vegetables với tổng số 29 và còn trống 4598 tức 99% so với tổng số trường hợp đưa ra. - Pkt canned soup với tổng số 453 và còn trống 4174 tức 90% so với tổng số trường hợp đưa ra. - Soft drink với tổng số 1888 và còn trống 2739 tức 59% so với tổng số trường hợp đưa ra. - Health food other với tổng số 341 và còn trống 4286 tức 93% so với tổng số trường hợp đưa ra. - Beverages hot với tổng số 455 và còn trống 4172 tức 90% so với tổng số trường hợp đưa ra. - Health&beuty misc với tổng số 78 và còn trống 4549 tức 98% so với tổng số trường hợp đưa ra. - Deodorants soap với tổng số 1078 và còn trống 3549 tức 77% so với tổng số trường hợp đưa ra. - Mens toiletries với tổng số 259 và còn trống 4368 tức 94% so với tổng số trường hợp đưa ra. - Medicines với tổng số 204 và còn trống 4423 tức 96% so với tổng số trường hợp đưa ra. - Haircare với tổng số 846 và còn trống 3781 tức 82% so với tổng số trường hợp đưa ra. - Dental needs với tổng số 1064 và còn trống 3563 tức 77% so với tổng số trường hợp đưa ra. - Lotions creams với tổng số 294 và còn trống 4333 tức 94% so với tổng số trường hợp đưa ra. - Sanitary pads với tổng số 416 và còn trống 4211 tức 91% so với tổng số trường hợp đưa ra.
  • 15. 13 - Cough cold pain với tổng số 362 và còn trống 4265 tức 92% so với tổng số trường hợp đưa ra. - Deparment57 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Meat misc với tổng số 131 và còn trống 4496 tức 97% so với tổng số trường hợp đưa ra. - Cheese với tổng số 1879 và còn trống 2748 tức 59% so với tổng số trường hợp đưa ra. - chickens với tổng số 21 và còn trống 4606 tức 100% so với tổng số trường hợp đưa ra. - Milk cream với tổng số 2939 và còn trống 1688 tức 36% so với tổng số trường hợp đưa ra. - Cold meat với tổng số 672 và còn trống 3955 tức 85% so với tổng số trường hợp đưa ra. - Deli gourmet với tổng số 208 và còn trống 4419 tức 96% so với tổng số trường hợp đưa ra. - Margarine với tổng số 2288 và còn trống 2339 tức 51% so với tổng số trường hợp đưa ra. - salads với tổng số 6 và còn trống 4621 tức 100% so với tổng số trường hợp đưa ra. - Small goods với tổng số 1116 và còn trống 3511 tức 76% so với tổng số trường hợp đưa ra. - Dairy foods với tổng số 1669 và còn trống 2958 tức 64% so với tổng số trường hợp đưa ra. - Fruit drinks với tổng số 32 và còn trống 4595 tức 99% so với tổng số trường hợp đưa ra.
  • 16. 14 - Delicatessen misc với tổng số 108 và còn trống 4519 tức 98% so với tổng số trường hợp đưa ra. - Deparment70 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Beef với tổng số 1739 và còn trống 2888 tức 62% so với tổng số trường hợp đưa ra. - Hogget với tổng số 95 và còn trống 4532 tức 98% so với tổng số trường hợp đưa ra. - Lamb với tổng số 473 và còn trống 4154 tức 90% so với tổng số trường hợp đưa ra. - Pet food với tổng số 533 và còn trống 4094 tức 88% so với tổng số trường hợp đưa ra. - Pork với tổng số 345 và còn trống 4282 tức 93% so với tổng số trường hợp đưa ra. - Poultry với tổng số 739 và còn trống 3888 tức 84% so với tổng số trường hợp đưa ra. - Veal với tổng số 91 và còn trống 4536 tức 98% so với tổng số trường hợp đưa ra. - Gourmet meat với tổng số 2 và còn trống 4625 tức 100% so với tổng số trường hợp đưa ra. - Deparment79 với tổng số 390 và còn trống 4237 tức 92% so với tổng số trường hợp đưa ra. - Deparment80 với tổng số 156 và còn trống 4471 tức 97% so với tổng số trường hợp đưa ra. - Deparment81 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 17. 15 - Produce misc với tổng số 243 và còn trống 4384 tức 95% so với tổng số trường hợp đưa ra. - Fruit với tổng số 2962 và còn trống 1665 tức 36% so với tổng số trường hợp đưa ra. - Plants với tổng số 29 và còn trống 4598 tức 99% so với tổng số trường hợp đưa ra. - Potatoes với tổng số 734 và còn trống 3893 tức 84% so với tổng số trường hợp đưa ra. - Vegetables với tổng số 2961 và còn trống 1666 tức 36% so với tổng số trường hợp đưa ra. - Flower với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment88 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment89 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Variety misc với tổng số 319 và còn trống 4308 tức 93% so với tổng số trường hợp đưa ra. - Brushware với tổng số 109 và còn trống 4518 tức 98% so với tổng số trường hợp đưa ra. - Electrical với tổng số 514 và còn trống 4113 tức 89% so với tổng số trường hợp đưa ra. - Haberdashery với tổng số 45 và còn trống 4582 tức 99% so với tổng số trường hợp đưa ra. - Kitchen với tổng số 326 và còn trống 4301 tức 93% so với tổng số trường hợp đưa ra.
  • 18. 16 - Manchester với tổng số 173 và còn trống 4454 tức 96% so với tổng số trường hợp đưa ra. - Pantyhose với tổng số 43 và còn trống 4584 tức 99% so với tổng số trường hợp đưa ra. - Plasticware với tổng số 69 và còn trống 4558 tức 99% so với tổng số trường hợp đưa ra. - Deparment98 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Stationary với tổng số 1457 và còn trống 3170 tức 69% so với tổng số trường hợp đưa ra. - Deparment100 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment101 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment102 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Perpared meals với tổng số 1271 và còn trống 3356 tức 73% so với tổng số trường hợp đưa ra. - Preserving needs với tổng số 56 và còn trống 4571 tức 99% so với tổng số trường hợp đưa ra. - Condiments với tổng số 263 và còn trống 4364 tức 94% so với tổng số trường hợp đưa ra. - Cooking oils với tổng số 478 và còn trống 4149 tức 90% so với tổng số trường hợp đưa ra. - Deparment107 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 19. 17 - Deparment108 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment109 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment110 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment111 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment112 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment113 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment114 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Health food bulk với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment116 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment117 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment118 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment119 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment120 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 20. 18 - Bake off products với tổng số 562 và còn trống 4065 tức 88% so với tổng số trường hợp đưa ra. - Deparment122 với tổng số 1112 và còn trống 3515 tức 76% so với tổng số trường hợp đưa ra. - Deparment123 với tổng số 39 và còn trống 4588 tức 99% so với tổng số trường hợp đưa ra. - Deparment124 với tổng số 95 và còn trống 4532 tức 98% so với tổng số trường hợp đưa ra. - Deparment125 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment126 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment127 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment128 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment129 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment130 với tổng số 329 và còn trống 4298 tức 93% so với tổng số trường hợp đưa ra. - Small goods2 với tổng số 962 và còn trống 3665 tức 79% so với tổng số trường hợp đưa ra. - Offal với tổng số 99 và còn trống 4528 tức 98% so với tổng số trường hợp đưa ra. - Mutton với tổng số 23 và còn trống 4604 tức 100% so với tổng số trường hợp đưa ra.
  • 21. 19 - Trim pork với tổng số 127 và còn trống 4500 tức 97% so với tổng số trường hợp đưa ra. - Trim lamb với tổng số 46 và còn trống 4581 tức 99% so với tổng số trường hợp đưa ra. - Imported cheese với tổng số 233 và còn trống 4394 tức 95% so với tổng số trường hợp đưa ra. - Deparment137 với tổng số 1854 và còn trống 2773 tức 60% so với tổng số trường hợp đưa ra. - Deparment138 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment139 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment140 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment141 với tổng số 10 và còn trống 4617 tức 100% so với tổng số trường hợp đưa ra. - Deparment142 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment143 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment144 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment145 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment146 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 22. 20 - Deparment147 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment148 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment149 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment150 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment151 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment152 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment153 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment154 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment155 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment156 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment157 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment158 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment159 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 23. 21 - Deparment160 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment161 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment162 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment163 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment164 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment165 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment166 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment167 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment168 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment169 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment170 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment171 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment172 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 24. 22 - Deparment173 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment174 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment175 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment176 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment177 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment178 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment179 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Casks white wine với tổng số 174 và còn trống 4453 tức 96% so với tổng số trường hợp đưa ra. - Casks red wine với tổng số 51 và còn trống 4576 tức 99% so với tổng số trường hợp đưa ra. - 750ml white nz với tổng số 281 và còn trống 4346 tức 94% so với tổng số trường hợp đưa ra. - 750ml red nz với tổng số 91 và còn trống 4536 tức 98% so với tổng số trường hợp đưa ra. - 750ml white imp với tổng số 99 và còn trống 4528 tức 98% so với tổng số trường hợp đưa ra. - 750ml red imp với tổng số 97 và còn trống 4530 tức 98% so với tổng số trường hợp đưa ra.
  • 25. 23 - Sparking nz với tổng số 129 và còn trống 4498 tức 97% so với tổng số trường hợp đưa ra. - Spaking imp với tổng số 23 và còn trống 4606 tức 100% so với tổng số trường hợp đưa ra. - Brew kít/accesry với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment189 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Port and sherry với tổng số 25 và còn trống 4602 tức 99% so với tổng số trường hợp đưa ra. - Ctrled label wine với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment192 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment193 với tổng số 10 và còn trống 4617 tức 100% so với tổng số trường hợp đưa ra. - Deparment194 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment195 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment196 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment197 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment198 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra.
  • 26. 24 - Deparment199 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Non host support với tổng số 87 và còn trống 4540 tức 98% so với tổng số trường hợp đưa ra. - Deparment201 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment202 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment203 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment204 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment205 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment206 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment207 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment208 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment209 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment210 với tổng số 191 và còn trống 4436 tức 96% so với tổng số trường hợp đưa ra. - Deparment211 với tổng số 207 và còn trống 4420 tức 96% so với tổng số trường hợp đưa ra.
  • 27. 25 - Deparment212 với tổng số 38 và còn trống 4589 tức 99% so với tổng số trường hợp đưa ra. - Deparment213 với tổng số 22 và còn trống 4605 tức 100% so với tổng số trường hợp đưa ra. - Deparment214 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment215 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Deparment216 với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường hợp đưa ra. - Những thuộc tính này đều có tổng nhỏ hơn tổng số đưa ra là 4627 mẩu thử.có những thuộc tính trống hoàn toàn so với mẩu thử đưa ra. CHƯƠNG 2 - TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION 2.1 Khái niệm về cơ sở dử liệu giao dịch Cơ sỡ dư liệu giao dịch (transaction database )là cơ cở dử liệu thường được thu thập từ một dữ liệu bán hàng hay một trung tâm thương mại.Trong đó số liệu thống kê được phân tích là trong một lần mua hàng khách hàng sẽ mua những sản phẩm gì. 2.2 Khái niệm về giao dịch Hạng mục(item): được định nghĩa là mặt hàng trong giỏ hay một thuộc tính. Ta xét tập các hạng mục (itemset) I = {i1, i2, i3, i4…, in} trong ví dụ : I = {sữa,bánh mì,ngũ cốc,sữa chua} thì các i1, i2, i3, i4…, in là các mặt hàng. Giao dịch(Transaction):là tập các hạng mục được mua trong một giỏ (có TID- mã giao dịch). Dưới đây là bảng transaction chứa các transaction chứa nhiều item nhất(t1) và ít item nhất được phân tích từ file supermarkert.arff:
  • 28. 26 Transaction Item t1 {department1, Baby needs ,Bread and cake, Baking needs, Juice sat cord ms, Tea, Biscuits, Canned fish meat, Canned fruit, Canned vegetables, Breakfast food, Cleaner polishers, Coffee, Sauces gravy pkle, Confectionary, Puddings deserts, Frozen foods, Spices, Jams spreads, Insecticides, Pet food, Laundry needs, Party snack foods, Tissues paper prd, Wrapping, Pkt canned soup, Soft drink, Health food other, Beverages hot, Deodorants soap, Haircare, Dental needs, Sanitary pads, Cheese, Milk cream, Margarine, Small goods, Dairy foods, Beef, Fruit, Potatoes, Vegetables, Brushware, Electrical, Kitchen , Perpared meals , Preserving needs , Small goods2 } t84 {department1} t267 {department1} t373 { Cigarette cartons } t662 {department2} t663 {department2} t666 { Cigarette cartons } t667 { Cigarette cartons }
  • 29. 27 t1229 {department1} t1601 {department79} t1869 { Cigarette cartons } t1929 {department1} t2281 {department2} t2283 {department2} t2332 {750ml red imp } t2350 {750ml red nz } t2429 {department1} t2675 { Cigarette cartons } t2701 {soft drinks} t2789 {department6} t2836 {department79} t2897 {department79} t2961 {department11} t2970 {department1} t3230 {soft drinks} t3541 { Cigarette cartons } t3889 {department2} t3900 {department2} t3930 {pork} t3998 { Cigarette cartons } t4034 { Cigarette cartons } t4291 {department 211} t4322 {750ml red imp } t4432 {750ml red imp }
  • 30. 28 t4437 {department2} t4472 {department1} t4527 {department1} CHƯƠNG 3 - DÙNG THUẬT TOÁN APRIORI TRONG WEKA ĐỂ TÌM LUẬT KẾT HỢP 3.1 Tổng quan về thuật toán Apriori Apriori là một thuật toán cổ điển dùng để khai thác các hạng mục theo tần suất và kết hợp việc nghiên cứu luật để quản lý những cơ sở dữ liệu. Bài toán được dặt ra cho thuật toán là tìm tất cả các tập mục phổ biến với minsup nào đó và sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nhất định. 3.1.1 Nguyên tắc Apriori - Đếm số lượng của từng item , tìm các item xuất hiện nhiều nhất. - Tìm các cặp ứng viên :Đếm các cặp => cặp item xuất hiện nhiều nhất. - Tìm các bộ ứng viên : Đếm các bộ ba => bộ ba item xuất hiện nhiều nhất. Và tiếp tục với các bộ 4, bộ 5…. - Nguyên tắc chủ yếu : Mọi tập con của tập phổ biến là tập con phổ biến. 3.1.2 Mô tả thuật toán Apriori trong việc tìm luậtluậtkết hợp Bước 1. Duyệt (Scan) toàn bộ transaction database để có được support S của 1- itemset, so sánh S với min_sup, để có được 1-itemset (L1) Bước 2. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các itemsets không phải là frequent itemsets thu được k-itemset Bước 3. Scan transaction database để có được support của mỗi candidate k- itemset, so sánh S với min_sup để thu được frequent k –itemset (Lk)
  • 31. 29 Bước 4. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy frequent itemsets) Bước 5. Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I Bước 6. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy (Confidence) của nó > =min_conf 3.2 Ứng dụng thuật toán Apriori tìm luật kếthợp trên Weka Đầu tiên ta tiến hành nạp dử liệu file supermarket.arff vào Weka: Sau đó loại bỏ 2 thuộc tính “Total” và “bread and cake”: Hình 4 : Loại bỏ 2 thuộc tính “Total” và “bread and cake”
  • 32. 30 Hình 5 : Kết quả số thuộc tính còn lại Tiếp tục ta áp dụng thuật toán Apriori để khai phá luật kết hợp, với các thông số sau : Hình 6: Khai phá luật kết hợp với các tham số minsup = 0.3; minconf = 0,7 ; numRules = 10 trong apriori
  • 33. 31 Với tham số minsup = 0,3 ; minconf = 0,7 ; numRules(Số luật tìm được) = 10 thì ta chon ra 3 luật kết hợp có độ chính xác cao nhất dạng: M1 ^ M2 => M3(M là các item) là : R1 : biscuits ^ vegetables => fruit (conf = 80%) R2 : baking needs ^ fruit => vegetables(conf= 78%) R3: frozens foods ^ fruit => vegetables (conf = 78%) Tổng số luật thu được là : 10 Thực hiện lần lượt với các tham số  minsup = 0.2; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật là : Hình 7: Khai phá luật kết hợp với các tham số minsup = 0.2; minconf = 0,7 ; numRules = 1000 trong apriori R1 : beef ^ fruit => vegetables (conf = 83%) R2 : dairy foods ^ vegetables => fruit(conf= 81%) R3: breakfast food ^ vegetables => fruit (conf = 80%) Tổng số luật thu được là 273
  • 34. 32  minsup = 0,1; minconf = 0,7 ; numRules = 1000 thì ta thu được kết quả là: Hình 8: Khai phá luật kết hợp với các tham số minsup = 0,1; minconf = 0,7 ; numRules = 1000 trong apriori R1: canned fruit ^ vegetables = > fruit = 744(conf=82%) R2: canned vegetables ^ fruit => vegetables (conf = 82%) R3: dairy foods ^ vegetables =>fruit(conf= 81%) Tổng số luật thu được là 1000  minsup = 0,4; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật là:
  • 35. 33 Hình 9: Khai phá luật kết hợp với các tham số minsup = 0,4; minconf = 0,7 ; numRules = 1000 trong apriori R1:vegetables=>fruit (conf = 75% ) R2: fruit => vegetables(conf = 75%) Tổng số luật tìm được là 2. Như vậy ở trường hợp này ta không thu được luật nào thõa dạng :M1 ^ M2 => M3. Nhận xét: Ta thấy dử liệu số giao dịch trong file supermarket.arff là dữ liệu không nhỏ (4627 giao dịch ) , khi tiến hành khai phá luật kết hợp nếu ta đặt giá trị cho minsup quá lớn cho dử liệu này thì không đảm bảo tìm được số luật theo yêu cầu.
  • 36. 34 TÀI LIỆU THAM KHẢO Tiếng Anh Ebook: Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques, 3rd Edition. Boston, Morgan Kaufmann Publishers, 2012. Website: https://en.wikipedia.org/wiki/Apriori_algorithm Tiếng Việt Website: http://bis.net.vn/forums/p/389/683.aspx Slide: Tập slide bài giảng môn Data Mining , khoa Công Nghệ Thông Tin, Đai học Tôn Đức Thắng