Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

LỰA CHỌN THUỘC TÍNH &
KHAI PHÁ LUẬT KẾT HỢP
TRÊN WEKA
THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ
KHAI PHÁ LUẬT KẾT HỢP
DATA MINING 1

MỤC LỤC
1. GIỚI THIỆU VỀ BÀI TOÁN
2. CHUẨN BỊ DỮ LIỆU
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT
KẾT HỢP
5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH
DATA MINING 2

1. Giới thiệu về WEKA và dữ liệu
WEKA - Waikato Enviroment for
Knowledge Analysis – là một tập
hợp các giải thuật học máy và các
công cụ xử lý dữ liệu.
Ngôn ngữ: Java, phân phối dưới
giấy phép GNU General Public
Hình 1. Logo của Weka khi chương trình được
khởi động
DATA MINING 3

Mô tả dữ liệu bank-data
Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ
mô phỏng từ dữ liệu ngân hàng
Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ
các đơn đăng ký của các khách hàng đến mở dịch vụ và thực
hiện đăng ký online của 1 ngân hàng
DATA MINING 4

id Số định danh (mỗi tài khoản 1 thứ tự)
age Số tuổi của khách hàng (tính bằng năm, dạng số)
sex 2 giá trị giới tính: MALE/FEMALE
region 4 giá trị về khu vực: inner_city/rural/suburban/town
income Thu nhập của khách hàng (dạng số)
married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO
children Số lượng con cái của khách hàng (dữ liệu dạng số)
car Khách hàng có xe hơi hay không: YES/NO
save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO
current_acc Khách hàng có TK vãng lai hay không: YES/NO
mortgage Khách hàng có tài sản thế chấp hay không: YES/NO
pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên
lạc gần nhất: YES/NO
DATA MINING 5

2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA
Chuyển file CSV > ARFF: dữ liệu dạng Attribute-
Relation File Format (ARFF) là dữ liệu được Weka
chấp nhận, trong khi dữ liệu chúng ta thường có ở
dạng csv hoặc tsv
DATA MINING 6

Chuyển file CSV > ARFF
Chọn Tools > ArffViewer
để mở hộp thoại
ArffViewer
Mở file định dạng CSV,
sau đó lưu lại với định
dạng ARFF
DATA MINING 7

Lưu ý
Chọn Invoke options
dialog là vì các giải
thuật khai phá luật kết
hợp như Apriori,
FPGrowth yêu cầu
thuộc tính dạng
Nominal attributes
(dữ liệu phân loại
DATA MINING 8


3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
Mục đích: Tìm, sửa đổi hoặc loại bỏ các record
dữ liệu không hoàn thiện, không chính xác hoặc
không liên quan đến dữ liệu hiện có
Data Cleansing là 1 phần trong quá trình Tiền xử
lý dữ liệu
DATA MINING 10

DATA MINING 11
Tại sao cần làm sạch dữ liệu?

Thực hiện data cleaning bằng weka
Với các giá trị bị mất
◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất
◦Dùng bộ lọc: ReplaceMissingValues
Với dữ liệu nhiễu
◦Weka sẽ báo cáo về các dữ liệu cá biệt
◦Các bộ lọc có thể sử dụng: RemoveMisclassified,
MergeTwoValues
DATA MINING 12

Thực hiện làm sạch dữ liệu bank-data
DATA MINING 13
Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ
liệu và cũng không có dữ liệu ngoại lai

Làm sạch dữ liệu bầu cử: vote
Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ
liệu ngoại lai
DATA MINING 14

Xử lý dữ liệu bị mất
DATA MINING 15

Các ô bị mất sẽ được tô đậm
DATA MINING 16

Làm sạch dữ liệu segment-test
Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có
số lượng dữ liệu ngoại lai: 34, chiếm 4%
DATA MINING 18

Xử lý dữ liệu ngoại lai
DATA MINING 19
RemoveMisclassified MergeTwoValues

Dùng RemoveMisclassified
DATA MINING 20

Dùng MergeTwoValues
DATA MINING 21

5. KHAI PHÁ LUẬT KẾT HỢP
Mục đích: của luật kết hợp (Association Rule - AR) là
tìm ra các mối kết hợp (association) hay tương quan
(correlation) giữa các đối tượng trong khối lượng lớn
dữ liệu.
DATA MINING 22

Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh
doanh như Market Basket Analysis: Cross selling –
bán hàng chéo, Product placement – sắp xếp sản
phẩm, Affinity promotion – quảng cáo liên kết,
Customer behavior Analysis – phân tích hành vi khách
hàng.
DATA MINING 23

Một số khái niệm thường gặp khi khai
phá luật kết hợp với weka:
•Item: phần tử
•ItemSet: tập phần tử
•Transaction: giao dịch
•Association: sự kết hợp
•Association rule: luật kết hợp
•Support: độ hỗ trợ
•Confidence: độ tin cậy
DATA MINING 24

•Frequent itemset: tập phần tử phổ biến
•Strong association rule: luật kết hợp mạnh
•Minimum support threshold: ngưỡng hỗ trợ tối
thiểu
•Minimum confidence threshold: ngưỡng tin cậy tối
thiểu
DATA MINING 25

Thực hiện khai phá luật kết hợp với
giải thuật Apriori:
Mục tiêu khai phá được mối quan hệ của các thuộc
tính thu thập được từ khách hàng
DATA MINING 26

DATA MINING 28
• car: khai phá luật kết hợp phân lớp
• classindex: -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
Một số thông số lưu ý:

Chi tiết các thông số
• car: khai phá luật kết hợp phân lớp
• classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng
Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
DATA MINING 29

5. ATTRIBUTE SELECTION
Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc
tính, nhưng không phải tất cả chúng đều cần thiết để
khai phá tri thức.
DATA MINING 30

Lựa chọn thuộc tính trong Weka
Để chọn lựa thuộc tính trong weka bạn cần xác định
attribute evaluator và serch method, sau đó nó sẽ tìm
kiếm trong không gian các thuộc tính con, và đánh giá
từng tập con một. Mỗi attribute evaluator được sử
dụng với một phương pháp tìm kiếm tương ứng
31

Attribute Subset Evaluators
Subset Evaluators sẽ lấy một tập thuộc tính con và trả
ra một giá trị để tìm kiếm.
32

"Wrapper" method
Đánh giá tập thuộc tính bằng một giải thuật học. Độ
chính xác của giải thuật học trên tập thuộc tính này
được xấp xỉ nhờ cross-validation.
33

"Wrapper" method
•Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation
•Search method: BestFirst, chọn backward.
•Áp dụng với bank-data, ta được tập thuộc tính là income, married, children,
save_act, mortgage có merit = 0.863
•Tổng số tập được đánh giá: 72 với search termination là 5
34

• Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search
termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6).
• Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính.
• Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit =
0.863
Chú ý: tối ưu cục bộ vs tối ưu toàn cục
• search termination > 1 sẽ giúp bạn vượt qua được thung lũng.
• Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau.
• Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm.
35

Scheme-Indepedent attribute selection
Wrapper đơn giản, trực tiếp nhưng rất chậm.
Chúng ta chú ý:
1. Sử dụng single-attribute evaluator với ranking.
- Giúp loại bỏ những thuộc tính không thích hợp
2. Sử dụng attribute subset evaluator cùng với search method.
- Giúp loại bỏ những thuộc tính dư thừa.
Attribute subset evaluator:
- wrapper method là scheme-dependent subset evaluators
- Còn có scheme-independent subset evaluators
36

Scheme-Indepedent attribute selection
CfsSubsetEval: là một scheme-independent subset evaluators
Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn:
- Có tương quan cao với thuộc tính phân lớp (class attribute).
- Tương quan yếu với các thuộc tính trong cùng tập.
Nó được thể hiện qua công thức sau:
C là hàm đánh giá tương quan giữa 2 thuộc tính
37

Attribute Selected classifier
38

AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên
tập huấn luyện, thậm chí khi được đánh giá bằng cross-
validation. Đây là cách làm đúng.
Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc
wrapper.
39

So sánh CfsSubsetEval với Wrapper trên bank-data.arff
Naive Bayes J48 IBK
No attribute selection 70.33% 85% 75.33%
Attribute selection sử dụng AttributeSelectedClassifier
CfsSubsetEval (rất nhanh) 69.83% 79% 77.66%
Wrapper selection (khá chậm) 72% 85.5% 85.16%
GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83%
(giữ lại 4 thuộc tính)
Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper
selection nhưng nhanh hơn nhiều.
40

Fast attribute selection sử dụng ranking
Single-attribute evaluator: có thể loại bỏ những thuộc tính không
thích hợp, nhưng thuộc tính dư thừa thì không.
- Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá
trị đánh giá.
- Single-attribute evaluator đánh giá mối tương quan của từng thuộc
tính với với thuộc tính phân lớp.
Mỗi phương pháp thì có công thức riêng.
VD: InfoGainAttributeEval sử dụng information gain, hay
GainRatioAttributeEval sử dụng công thức gain ratio.
41

Ranker method có các tham số: số lượng tham số cần
giữ, ngưỡng cần chọn.
Do đó Single-attribute evaluation tuy nhanh nhưng
khó xác định số lượng tham số cần giữ lại.
Không loại được thuộc tính dư
42

Thành viên đóng góp
Tên
Nguyễn Tuấn Vũ
Nguyễn Anh Việt
Hồ Quang Thanh
Đoàn Vương Bính Tú
Vũ Văn Thống
Nguyễn Tường Vi
DATA MINING 43

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

Similar to Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA (20)

More from Ho Quang Thanh

More from Ho Quang Thanh (17)

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA