SlideShare a Scribd company logo
LỰA CHỌN THUỘC TÍNH &
KHAI PHÁ LUẬT KẾT HỢP
TRÊN WEKA
THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ
KHAI PHÁ LUẬT KẾT HỢP
DATA MINING 1
MỤC LỤC
1. GIỚI THIỆU VỀ BÀI TOÁN
2. CHUẨN BỊ DỮ LIỆU
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT
KẾT HỢP
5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH
DATA MINING 2
1. Giới thiệu về WEKA và dữ liệu
WEKA - Waikato Enviroment for
Knowledge Analysis – là một tập
hợp các giải thuật học máy và các
công cụ xử lý dữ liệu.
Ngôn ngữ: Java, phân phối dưới
giấy phép GNU General Public
Hình 1. Logo của Weka khi chương trình được
khởi động
DATA MINING 3
Mô tả dữ liệu bank-data
Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ
mô phỏng từ dữ liệu ngân hàng
Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ
các đơn đăng ký của các khách hàng đến mở dịch vụ và thực
hiện đăng ký online của 1 ngân hàng
DATA MINING 4
id Số định danh (mỗi tài khoản 1 thứ tự)
age Số tuổi của khách hàng (tính bằng năm, dạng số)
sex 2 giá trị giới tính: MALE/FEMALE
region 4 giá trị về khu vực: inner_city/rural/suburban/town
income Thu nhập của khách hàng (dạng số)
married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO
children Số lượng con cái của khách hàng (dữ liệu dạng số)
car Khách hàng có xe hơi hay không: YES/NO
save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO
current_acc Khách hàng có TK vãng lai hay không: YES/NO
mortgage Khách hàng có tài sản thế chấp hay không: YES/NO
pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên
lạc gần nhất: YES/NO
DATA MINING 5
2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA
Chuyển file CSV > ARFF: dữ liệu dạng Attribute-
Relation File Format (ARFF) là dữ liệu được Weka
chấp nhận, trong khi dữ liệu chúng ta thường có ở
dạng csv hoặc tsv
DATA MINING 6
Chuyển file CSV > ARFF
Chọn Tools > ArffViewer
để mở hộp thoại
ArffViewer
Mở file định dạng CSV,
sau đó lưu lại với định
dạng ARFF
DATA MINING 7
Lưu ý
Chọn Invoke options
dialog là vì các giải
thuật khai phá luật kết
hợp như Apriori,
FPGrowth yêu cầu
thuộc tính dạng
Nominal attributes
(dữ liệu phân loại
DATA MINING 8

DATA MINING 9
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
Mục đích: Tìm, sửa đổi hoặc loại bỏ các record
dữ liệu không hoàn thiện, không chính xác hoặc
không liên quan đến dữ liệu hiện có
Data Cleansing là 1 phần trong quá trình Tiền xử
lý dữ liệu
DATA MINING 10
DATA MINING 11
Tại sao cần làm sạch dữ liệu?
Thực hiện data cleaning bằng weka
Với các giá trị bị mất
◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất
◦Dùng bộ lọc: ReplaceMissingValues
Với dữ liệu nhiễu
◦Weka sẽ báo cáo về các dữ liệu cá biệt
◦Các bộ lọc có thể sử dụng: RemoveMisclassified,
MergeTwoValues
DATA MINING 12
Thực hiện làm sạch dữ liệu bank-data
DATA MINING 13
Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ
liệu và cũng không có dữ liệu ngoại lai
Làm sạch dữ liệu bầu cử: vote
Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ
liệu ngoại lai
DATA MINING 14
Xử lý dữ liệu bị mất
DATA MINING 15
Các ô bị mất sẽ được tô đậm
DATA MINING 16
DATA MINING 17
Làm sạch dữ liệu segment-test
Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có
số lượng dữ liệu ngoại lai: 34, chiếm 4%
DATA MINING 18
Xử lý dữ liệu ngoại lai
DATA MINING 19
RemoveMisclassified MergeTwoValues
Dùng RemoveMisclassified
DATA MINING 20
Dùng MergeTwoValues
DATA MINING 21
5. KHAI PHÁ LUẬT KẾT HỢP
Mục đích: của luật kết hợp (Association Rule - AR) là
tìm ra các mối kết hợp (association) hay tương quan
(correlation) giữa các đối tượng trong khối lượng lớn
dữ liệu.
DATA MINING 22
Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh
doanh như Market Basket Analysis: Cross selling –
bán hàng chéo, Product placement – sắp xếp sản
phẩm, Affinity promotion – quảng cáo liên kết,
Customer behavior Analysis – phân tích hành vi khách
hàng.
DATA MINING 23
Một số khái niệm thường gặp khi khai
phá luật kết hợp với weka:
•Item: phần tử
•ItemSet: tập phần tử
•Transaction: giao dịch
•Association: sự kết hợp
•Association rule: luật kết hợp
•Support: độ hỗ trợ
•Confidence: độ tin cậy
DATA MINING 24
•Frequent itemset: tập phần tử phổ biến
•Strong association rule: luật kết hợp mạnh
•Minimum support threshold: ngưỡng hỗ trợ tối
thiểu
•Minimum confidence threshold: ngưỡng tin cậy tối
thiểu
DATA MINING 25
Thực hiện khai phá luật kết hợp với
giải thuật Apriori:
Mục tiêu khai phá được mối quan hệ của các thuộc
tính thu thập được từ khách hàng
DATA MINING 26
DATA MINING 27
DATA MINING 28
• car: khai phá luật kết hợp phân lớp
• classindex: -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
Một số thông số lưu ý:
Chi tiết các thông số
• car: khai phá luật kết hợp phân lớp
• classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng
Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
DATA MINING 29
5. ATTRIBUTE SELECTION
Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc
tính, nhưng không phải tất cả chúng đều cần thiết để
khai phá tri thức.
DATA MINING 30
Lựa chọn thuộc tính trong Weka
Để chọn lựa thuộc tính trong weka bạn cần xác định
attribute evaluator và serch method, sau đó nó sẽ tìm
kiếm trong không gian các thuộc tính con, và đánh giá
từng tập con một. Mỗi attribute evaluator được sử
dụng với một phương pháp tìm kiếm tương ứng
31
Attribute Subset Evaluators
Subset Evaluators sẽ lấy một tập thuộc tính con và trả
ra một giá trị để tìm kiếm.
32
"Wrapper" method
Đánh giá tập thuộc tính bằng một giải thuật học. Độ
chính xác của giải thuật học trên tập thuộc tính này
được xấp xỉ nhờ cross-validation.
33
"Wrapper" method
•Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation
•Search method: BestFirst, chọn backward.
•Áp dụng với bank-data, ta được tập thuộc tính là income, married, children,
save_act, mortgage có merit = 0.863
•Tổng số tập được đánh giá: 72 với search termination là 5
34
• Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search
termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6).
• Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính.
• Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit =
0.863
Chú ý: tối ưu cục bộ vs tối ưu toàn cục
• search termination > 1 sẽ giúp bạn vượt qua được thung lũng.
• Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau.
• Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm.
35
Scheme-Indepedent attribute selection
Wrapper đơn giản, trực tiếp nhưng rất chậm.
Chúng ta chú ý:
1. Sử dụng single-attribute evaluator với ranking.
- Giúp loại bỏ những thuộc tính không thích hợp
2. Sử dụng attribute subset evaluator cùng với search method.
- Giúp loại bỏ những thuộc tính dư thừa.
Attribute subset evaluator:
- wrapper method là scheme-dependent subset evaluators
- Còn có scheme-independent subset evaluators
36
Scheme-Indepedent attribute selection
CfsSubsetEval: là một scheme-independent subset evaluators
Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn:
- Có tương quan cao với thuộc tính phân lớp (class attribute).
- Tương quan yếu với các thuộc tính trong cùng tập.
Nó được thể hiện qua công thức sau:
C là hàm đánh giá tương quan giữa 2 thuộc tính
37
Attribute Selected classifier
38
Attribute Selected classifier
AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên
tập huấn luyện, thậm chí khi được đánh giá bằng cross-
validation. Đây là cách làm đúng.
Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc
wrapper.
39
Attribute Selected classifier
So sánh CfsSubsetEval với Wrapper trên bank-data.arff
Naive Bayes J48 IBK
No attribute selection 70.33% 85% 75.33%
Attribute selection sử dụng AttributeSelectedClassifier
CfsSubsetEval (rất nhanh) 69.83% 79% 77.66%
Wrapper selection (khá chậm) 72% 85.5% 85.16%
GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83%
(giữ lại 4 thuộc tính)
Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper
selection nhưng nhanh hơn nhiều.
40
Fast attribute selection sử dụng ranking
Single-attribute evaluator: có thể loại bỏ những thuộc tính không
thích hợp, nhưng thuộc tính dư thừa thì không.
- Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá
trị đánh giá.
- Single-attribute evaluator đánh giá mối tương quan của từng thuộc
tính với với thuộc tính phân lớp.
Mỗi phương pháp thì có công thức riêng.
VD: InfoGainAttributeEval sử dụng information gain, hay
GainRatioAttributeEval sử dụng công thức gain ratio.
41
Ranker method có các tham số: số lượng tham số cần
giữ, ngưỡng cần chọn.
Do đó Single-attribute evaluation tuy nhanh nhưng
khó xác định số lượng tham số cần giữ lại.
Không loại được thuộc tính dư
42
Thành viên đóng góp
Tên
Nguyễn Tuấn Vũ
Nguyễn Anh Việt
Hồ Quang Thanh
Đoàn Vương Bính Tú
Vũ Văn Thống
Nguyễn Tường Vi
DATA MINING 43

More Related Content

What's hot

Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánNgo Trung
 
Do an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuDo an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tu
ThiênĐàng CôngDân
 
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đĐề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
Man_Ebook
 
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨMPHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
SoM
 
Tài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhTài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhJojo Kim
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đĐề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Thuật toán mã hóa rsa
Thuật toán mã hóa rsaThuật toán mã hóa rsa
Thuật toán mã hóa rsa
Bảo Điệp
 
Đề tài: Quản lý cửa hàng điện thoại di động, HAY
Đề tài: Quản lý cửa hàng điện thoại di động, HAYĐề tài: Quản lý cửa hàng điện thoại di động, HAY
Đề tài: Quản lý cửa hàng điện thoại di động, HAY
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Nguyễn Danh Thanh
 
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý ĐiểmPhân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
Học viện Công nghệ Bưu chính Viễn thông
 
Báo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngBáo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngJojo Kim
 
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạnbáo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
nataliej4
 
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Duc Dinh
 
Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm
nataliej4
 
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYLuận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Chương 2. Các khái niệm trong CSDL
Chương 2. Các khái niệm trong CSDL Chương 2. Các khái niệm trong CSDL
Chương 2. Các khái niệm trong CSDL
Hoa Le
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
MasterCode.vn
 

What's hot (20)

Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
 
Do an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuDo an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tu
 
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đĐề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨMPHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
 
Tài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhTài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tính
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
 
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đĐề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
Đề tài: Xây dựng Website quản lý điểm trường Phổ thông, 9đ
 
Thuật toán mã hóa rsa
Thuật toán mã hóa rsaThuật toán mã hóa rsa
Thuật toán mã hóa rsa
 
Đề tài: Quản lý cửa hàng điện thoại di động, HAY
Đề tài: Quản lý cửa hàng điện thoại di động, HAYĐề tài: Quản lý cửa hàng điện thoại di động, HAY
Đề tài: Quản lý cửa hàng điện thoại di động, HAY
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
 
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý ĐiểmPhân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
 
Báo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngBáo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thống
 
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạnbáo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
 
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
 
Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm
 
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYLuận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAY
 
Chương 2. Các khái niệm trong CSDL
Chương 2. Các khái niệm trong CSDL Chương 2. Các khái niệm trong CSDL
Chương 2. Các khái niệm trong CSDL
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
 

Similar to Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

qdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdfqdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdf
minhtd9a
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tin
MasterCode.vn
 
Tableau business intelligence
Tableau business intelligenceTableau business intelligence
Tableau business intelligence
BSD SOLUTIONS
 
Slide duyetgiang
Slide duyetgiangSlide duyetgiang
Slide duyetgiang
Vũ Văn Giang
 
[Cntt] all java
[Cntt] all java[Cntt] all java
[Cntt] all java
Hong Phuoc Nguyen
 
Chương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptxChương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptx
DucNguyen959737
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
GiaPhcNguyn4
 
Qtu.vn sql - chuong 7
Qtu.vn  sql - chuong 7Qtu.vn  sql - chuong 7
Qtu.vn sql - chuong 7Hoang le Minh
 
LTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.pptLTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.ppt
ssuserf603dc1
 
Cursor & Function trong SQL Server
Cursor & Function trong SQL ServerCursor & Function trong SQL Server
Cursor & Function trong SQL Server
Huy Vũ
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Phan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdfPhan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdf
BnhBnh47
 
[Cntt] bài giảng java khtn hcm
[Cntt] bài giảng java   khtn hcm[Cntt] bài giảng java   khtn hcm
[Cntt] bài giảng java khtn hcm
Hong Phuoc Nguyen
 
Ky thuat l.trinh_java
Ky thuat l.trinh_javaKy thuat l.trinh_java
Ky thuat l.trinh_javaLam Man
 
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGiNghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghia Minh
 
Nhóm 4_Network service monitoring with log.pptx
Nhóm 4_Network service monitoring with log.pptxNhóm 4_Network service monitoring with log.pptx
Nhóm 4_Network service monitoring with log.pptx
20020454
 
Huong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong JiraHuong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong Jira
Ngô Hoàn
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Vu Tuan
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
Diem Cong Hoang
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filteringBui Loc
 

Similar to Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA (20)

qdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdfqdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdf
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tin
 
Tableau business intelligence
Tableau business intelligenceTableau business intelligence
Tableau business intelligence
 
Slide duyetgiang
Slide duyetgiangSlide duyetgiang
Slide duyetgiang
 
[Cntt] all java
[Cntt] all java[Cntt] all java
[Cntt] all java
 
Chương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptxChương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptx
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
 
Qtu.vn sql - chuong 7
Qtu.vn  sql - chuong 7Qtu.vn  sql - chuong 7
Qtu.vn sql - chuong 7
 
LTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.pptLTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.ppt
 
Cursor & Function trong SQL Server
Cursor & Function trong SQL ServerCursor & Function trong SQL Server
Cursor & Function trong SQL Server
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 
Phan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdfPhan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdf
 
[Cntt] bài giảng java khtn hcm
[Cntt] bài giảng java   khtn hcm[Cntt] bài giảng java   khtn hcm
[Cntt] bài giảng java khtn hcm
 
Ky thuat l.trinh_java
Ky thuat l.trinh_javaKy thuat l.trinh_java
Ky thuat l.trinh_java
 
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGiNghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
 
Nhóm 4_Network service monitoring with log.pptx
Nhóm 4_Network service monitoring with log.pptxNhóm 4_Network service monitoring with log.pptx
Nhóm 4_Network service monitoring with log.pptx
 
Huong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong JiraHuong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong Jira
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filtering
 

More from Ho Quang Thanh

Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WDHướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
Ho Quang Thanh
 
Long mode page traslation
Long mode page traslationLong mode page traslation
Long mode page traslation
Ho Quang Thanh
 
Protection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseProtection in Virtual Memory - Study case
Protection in Virtual Memory - Study case
Ho Quang Thanh
 
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
Ho Quang Thanh
 
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
Ho Quang Thanh
 
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAMĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
Ho Quang Thanh
 
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trìnhLow-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
Ho Quang Thanh
 
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
Ho Quang Thanh
 
Nhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng ViệtNhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng Việt
Ho Quang Thanh
 
Machine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print versionMachine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print version
Ho Quang Thanh
 
HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer
Ho Quang Thanh
 
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryGiải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Ho Quang Thanh
 
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triểnLuận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Ho Quang Thanh
 
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerceAGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
Ho Quang Thanh
 
Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server
Ho Quang Thanh
 
Lean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọnLean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọn
Ho Quang Thanh
 
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Ho Quang Thanh
 

More from Ho Quang Thanh (17)

Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WDHướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
 
Long mode page traslation
Long mode page traslationLong mode page traslation
Long mode page traslation
 
Protection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseProtection in Virtual Memory - Study case
Protection in Virtual Memory - Study case
 
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
 
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
 
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAMĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
 
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trìnhLow-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
 
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
 
Nhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng ViệtNhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng Việt
 
Machine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print versionMachine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print version
 
HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer
 
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryGiải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
 
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triểnLuận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
 
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerceAGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
 
Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server
 
Lean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọnLean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọn
 
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
 

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

  • 1. LỰA CHỌN THUỘC TÍNH & KHAI PHÁ LUẬT KẾT HỢP TRÊN WEKA THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ KHAI PHÁ LUẬT KẾT HỢP DATA MINING 1
  • 2. MỤC LỤC 1. GIỚI THIỆU VỀ BÀI TOÁN 2. CHUẨN BỊ DỮ LIỆU 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU 4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT KẾT HỢP 5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH DATA MINING 2
  • 3. 1. Giới thiệu về WEKA và dữ liệu WEKA - Waikato Enviroment for Knowledge Analysis – là một tập hợp các giải thuật học máy và các công cụ xử lý dữ liệu. Ngôn ngữ: Java, phân phối dưới giấy phép GNU General Public Hình 1. Logo của Weka khi chương trình được khởi động DATA MINING 3
  • 4. Mô tả dữ liệu bank-data Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ mô phỏng từ dữ liệu ngân hàng Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ các đơn đăng ký của các khách hàng đến mở dịch vụ và thực hiện đăng ký online của 1 ngân hàng DATA MINING 4
  • 5. id Số định danh (mỗi tài khoản 1 thứ tự) age Số tuổi của khách hàng (tính bằng năm, dạng số) sex 2 giá trị giới tính: MALE/FEMALE region 4 giá trị về khu vực: inner_city/rural/suburban/town income Thu nhập của khách hàng (dạng số) married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO children Số lượng con cái của khách hàng (dữ liệu dạng số) car Khách hàng có xe hơi hay không: YES/NO save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO current_acc Khách hàng có TK vãng lai hay không: YES/NO mortgage Khách hàng có tài sản thế chấp hay không: YES/NO pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên lạc gần nhất: YES/NO DATA MINING 5
  • 6. 2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA Chuyển file CSV > ARFF: dữ liệu dạng Attribute- Relation File Format (ARFF) là dữ liệu được Weka chấp nhận, trong khi dữ liệu chúng ta thường có ở dạng csv hoặc tsv DATA MINING 6
  • 7. Chuyển file CSV > ARFF Chọn Tools > ArffViewer để mở hộp thoại ArffViewer Mở file định dạng CSV, sau đó lưu lại với định dạng ARFF DATA MINING 7
  • 8. Lưu ý Chọn Invoke options dialog là vì các giải thuật khai phá luật kết hợp như Apriori, FPGrowth yêu cầu thuộc tính dạng Nominal attributes (dữ liệu phân loại DATA MINING 8 
  • 10. 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU Mục đích: Tìm, sửa đổi hoặc loại bỏ các record dữ liệu không hoàn thiện, không chính xác hoặc không liên quan đến dữ liệu hiện có Data Cleansing là 1 phần trong quá trình Tiền xử lý dữ liệu DATA MINING 10
  • 11. DATA MINING 11 Tại sao cần làm sạch dữ liệu?
  • 12. Thực hiện data cleaning bằng weka Với các giá trị bị mất ◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất ◦Dùng bộ lọc: ReplaceMissingValues Với dữ liệu nhiễu ◦Weka sẽ báo cáo về các dữ liệu cá biệt ◦Các bộ lọc có thể sử dụng: RemoveMisclassified, MergeTwoValues DATA MINING 12
  • 13. Thực hiện làm sạch dữ liệu bank-data DATA MINING 13 Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ liệu và cũng không có dữ liệu ngoại lai
  • 14. Làm sạch dữ liệu bầu cử: vote Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ liệu ngoại lai DATA MINING 14
  • 15. Xử lý dữ liệu bị mất DATA MINING 15
  • 16. Các ô bị mất sẽ được tô đậm DATA MINING 16
  • 18. Làm sạch dữ liệu segment-test Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có số lượng dữ liệu ngoại lai: 34, chiếm 4% DATA MINING 18
  • 19. Xử lý dữ liệu ngoại lai DATA MINING 19 RemoveMisclassified MergeTwoValues
  • 22. 5. KHAI PHÁ LUẬT KẾT HỢP Mục đích: của luật kết hợp (Association Rule - AR) là tìm ra các mối kết hợp (association) hay tương quan (correlation) giữa các đối tượng trong khối lượng lớn dữ liệu. DATA MINING 22
  • 23. Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh doanh như Market Basket Analysis: Cross selling – bán hàng chéo, Product placement – sắp xếp sản phẩm, Affinity promotion – quảng cáo liên kết, Customer behavior Analysis – phân tích hành vi khách hàng. DATA MINING 23
  • 24. Một số khái niệm thường gặp khi khai phá luật kết hợp với weka: •Item: phần tử •ItemSet: tập phần tử •Transaction: giao dịch •Association: sự kết hợp •Association rule: luật kết hợp •Support: độ hỗ trợ •Confidence: độ tin cậy DATA MINING 24
  • 25. •Frequent itemset: tập phần tử phổ biến •Strong association rule: luật kết hợp mạnh •Minimum support threshold: ngưỡng hỗ trợ tối thiểu •Minimum confidence threshold: ngưỡng tin cậy tối thiểu DATA MINING 25
  • 26. Thực hiện khai phá luật kết hợp với giải thuật Apriori: Mục tiêu khai phá được mối quan hệ của các thuộc tính thu thập được từ khách hàng DATA MINING 26
  • 28. DATA MINING 28 • car: khai phá luật kết hợp phân lớp • classindex: -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình Một số thông số lưu ý:
  • 29. Chi tiết các thông số • car: khai phá luật kết hợp phân lớp • classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình DATA MINING 29
  • 30. 5. ATTRIBUTE SELECTION Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc tính, nhưng không phải tất cả chúng đều cần thiết để khai phá tri thức. DATA MINING 30
  • 31. Lựa chọn thuộc tính trong Weka Để chọn lựa thuộc tính trong weka bạn cần xác định attribute evaluator và serch method, sau đó nó sẽ tìm kiếm trong không gian các thuộc tính con, và đánh giá từng tập con một. Mỗi attribute evaluator được sử dụng với một phương pháp tìm kiếm tương ứng 31
  • 32. Attribute Subset Evaluators Subset Evaluators sẽ lấy một tập thuộc tính con và trả ra một giá trị để tìm kiếm. 32
  • 33. "Wrapper" method Đánh giá tập thuộc tính bằng một giải thuật học. Độ chính xác của giải thuật học trên tập thuộc tính này được xấp xỉ nhờ cross-validation. 33
  • 34. "Wrapper" method •Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation •Search method: BestFirst, chọn backward. •Áp dụng với bank-data, ta được tập thuộc tính là income, married, children, save_act, mortgage có merit = 0.863 •Tổng số tập được đánh giá: 72 với search termination là 5 34
  • 35. • Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6). • Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính. • Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit = 0.863 Chú ý: tối ưu cục bộ vs tối ưu toàn cục • search termination > 1 sẽ giúp bạn vượt qua được thung lũng. • Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau. • Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm. 35
  • 36. Scheme-Indepedent attribute selection Wrapper đơn giản, trực tiếp nhưng rất chậm. Chúng ta chú ý: 1. Sử dụng single-attribute evaluator với ranking. - Giúp loại bỏ những thuộc tính không thích hợp 2. Sử dụng attribute subset evaluator cùng với search method. - Giúp loại bỏ những thuộc tính dư thừa. Attribute subset evaluator: - wrapper method là scheme-dependent subset evaluators - Còn có scheme-independent subset evaluators 36
  • 37. Scheme-Indepedent attribute selection CfsSubsetEval: là một scheme-independent subset evaluators Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn: - Có tương quan cao với thuộc tính phân lớp (class attribute). - Tương quan yếu với các thuộc tính trong cùng tập. Nó được thể hiện qua công thức sau: C là hàm đánh giá tương quan giữa 2 thuộc tính 37
  • 39. Attribute Selected classifier AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên tập huấn luyện, thậm chí khi được đánh giá bằng cross- validation. Đây là cách làm đúng. Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc wrapper. 39
  • 40. Attribute Selected classifier So sánh CfsSubsetEval với Wrapper trên bank-data.arff Naive Bayes J48 IBK No attribute selection 70.33% 85% 75.33% Attribute selection sử dụng AttributeSelectedClassifier CfsSubsetEval (rất nhanh) 69.83% 79% 77.66% Wrapper selection (khá chậm) 72% 85.5% 85.16% GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83% (giữ lại 4 thuộc tính) Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper selection nhưng nhanh hơn nhiều. 40
  • 41. Fast attribute selection sử dụng ranking Single-attribute evaluator: có thể loại bỏ những thuộc tính không thích hợp, nhưng thuộc tính dư thừa thì không. - Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá trị đánh giá. - Single-attribute evaluator đánh giá mối tương quan của từng thuộc tính với với thuộc tính phân lớp. Mỗi phương pháp thì có công thức riêng. VD: InfoGainAttributeEval sử dụng information gain, hay GainRatioAttributeEval sử dụng công thức gain ratio. 41
  • 42. Ranker method có các tham số: số lượng tham số cần giữ, ngưỡng cần chọn. Do đó Single-attribute evaluation tuy nhanh nhưng khó xác định số lượng tham số cần giữ lại. Không loại được thuộc tính dư 42
  • 43. Thành viên đóng góp Tên Nguyễn Tuấn Vũ Nguyễn Anh Việt Hồ Quang Thanh Đoàn Vương Bính Tú Vũ Văn Thống Nguyễn Tường Vi DATA MINING 43