SlideShare a Scribd company logo
Đạ
Đại h
i họ
ọc Qu
c Quố
ốc Gia Thành ph
c Gia Thành phố
ố H
 Hồ
ồ Chí Minh
 Chí Minh
Trường Đạ
Trường Đại h
i họ
ọc Khoa H
c Khoa Họ
ọc T
c Tự
ự Nhiên
 Nhiên
Khoa Công Ngh
Khoa Công Nghệ
ệ Thông Tin
 Thông Tin
B
Bộ
ộ môn Khoa H
 môn Khoa Họ
ọc Máy Tính
c Máy Tính
Khai thác d
Khai thác dữ
ữ li
 liệ
ệu và
u và ứ
ứng d
ng dụ
ụng
ng
Tài li
Tài liệ
ệu tham kh
u tham khả
ảo
o
HƯỚ
HƯỚNG D
NG D
 Ẫ
 ẪN S
N SỬ
Ử D
 DỤ
ỤNG
NG
WEKA EXPLORER 3.6.3
WEKA EXPLORER 3.6.3
_________
_____________________
_______________________
________________________
________________
___
_________
_____________________
_______________________
________________________
________________
___
Tháng 8/2011
Tháng 8/2011
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
MỤC LỤC
1. Giới thiệu .........................................................................................................................................................................1
1.1. Các chức năng của Weka Explorer...............................................................................................................1
1.2. Khảo sát dữ liệu....................................................................................................................................................1
2. Tiền xử lý dữ liệu .........................................................................................................................................................3
3. Tập phổ biến & luật k 
ết hợp....................................................................................................................................5
4. Phân loại...........................................................................................................................................................................8
5. Gom cụm.......................................................................................................................................................................10
6. Một số định dạng t 
ập tin........................................................................................................................................12
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 1
1. Giới thiệu
1.1. Các chức năng của Weka Explorer
Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình
chính, bao gồm:
 Preprocess: Cho phép mở, điều chỉnh, lưu một t 
ập tin dữ liệu, thẻ này chứa các
thuậtt toán áp dụng trong tiền xử lý dữ liệu.
 Classify: Cung cấp các mô hình phân loại dữ liệu hoặc hồi quy.
 Cluster: Cung cấp các mô hình gom cụm.
  Associate: Khai thác t 
ập phổ biến và luật k 
ết hợp.
 Select 
 Attributes: Lựa chọn các thuộc tính thích hợp nhất trong t 
ập dữ liệu
 Visualize: Thể hiện dữ liệu dưới dạng biểu đồ
1.2. Khảo sát dữ liệu
 Sử dụng thẻ Preprocess
 (1) Open file…: Mở một t 
ập tin dữ liệu.
 (2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết.
 (3) Save…: Lưu dữ liệu hiện t 
ại ra t 
ập tin.
Weka Explorer hỗ trợ một số định dạng trong đó có 2 định dạng chính cần quan tâm là
*.arff và *.csv (Xem phần 6)
 (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc, (xem phần 2).
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 2
 (5) Selected attribute: Thông tin về thuộc tính đang được chọn:
o Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi
số).
o Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét 
o Distinct: Số giá trị phân biệt 
o Unique: Số mẫu không có giá trị trùng với mẫu khác
o Bảng thống kê:
 Dạng phi số: Thể hiện các giá trị và t 
ần suất của mỗi giá trị
 Dạng số: Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn
nhất, giá trị trung bình và độ lệch chuẩn.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 3
2. Tiền xử lý dữ liệu
 Choose: Chọn một bộ lọc.
 Textbox: Các tham số của bộ lọc đã chọn, click vào đây để thay đổi tham số.
o Thông thường, với những bộ lọc có thể áp dụng trên các thuộc tính riêng lẻ sẽ cho
phép lựa chọn t 
ầm ảnh hưởng của bộ lọc đối với những thuộc tính người dùng
quan tâm.
o More: Hiển thị thông tin chi tiết về bộ lọc.
o Capabilities: Các yêu cầu cần thiết đối với dữ liệu để thực hiện bộ lọc.
  Apply: Thực thi bộ lọc với các tham số đã xác định trên dữ liệu hiện t 
ại.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 4
 Ví dụ: Unsupervised.Attribute.Discretize
o Hình bên dưới là màn hình điều chỉnh tham số cho phương pháp chia giỏ, trong
đó có các tham số như số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu
(useEqualFrequency),…
 Ví dụ: Unsupervised.Attribute.Normalize: Chuẩn hóa min-max với tham số giới hạn
(scale) và giá trị nhỏ nhất (translation).
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 5
3. Tập phổ biế n & luật k 
ế t hợp
 Sử dụng thẻ Asscociate
  Associator: Phương pháp khai thác luật k 
ết hợp.
o Choose: Lựa chọn một phương pháp
o Textbox: Thay đổi tham số cho phương pháp đã lựa chọn
 Ví dụ: Apriori: Khai thác t 
ập phổ biến và luật k 
ết hợp.
o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến của các t 
ập
hạng mục khai thác được sẽ nằm trong khoảng này.
o metricType: Độ đo tính lý thú của luật k 
ết hợp, gồm có Confidence, Lift,
Leverage, Conviction.
o minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 6
o numRule và delta: Thuật toán luôn khởi động với mức độ lý thú mục tiêu cao
nhất. Khi số luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của
minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn.
o outputItemsets: Kết xuất t 
ập phổ biến trong k 
ết quả.
 Thể hiện k 
ết quả:
o Tập phổ biến: Danh sách các hạng mục và độ phổ biến
o Luật k 
ết hợp: Luật và độ đo lý thú.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 7
 Ví dụ: FP-Growth, Khai thác luật k 
ết hợp
Ngoài các tham số như của Apriori, FP-Growth trong Weka còn được hỗ trợ một số tiện
ích khác:
o findAllRulesForSupportedLevel: Khai thác t 
ất cả các luật với độ đo đã lượng
chọn.
o maxNumberofItems: Số hạng mục t 
ối đa trong lụât khai thác được.
o rulesMustContain và transactionsMustContain: Chỉ khai thác trên các hạng
mục được quan tâm.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 8
4. Phân loại
 Sử dụng thẻ Classify.
 (1): Classifier: Lựa chọn bộ phân loại và các tham số.
 (2): Test Options: Các tùy chọn để kiểm thử mô hình:
o Use training set: Sử dụng chính t 
ập dữ liệu huấn luyện để kiểm nghiệm.
o Supplied test set: Sử dụng một t 
ập dữ liệu khác.
o Cross-validation: Chia dữ liệu thành nhiều phần (Folds) để thực hiện nhiều lần
đánh giá kết quả.
o Percentage split: Chia dữ liệu thành 2 phần theo t 
ỉ lệ %, một phần dùng để xây
dựng mô hình, phần còn lại dành cho kiểm thử.
o More Options: Điều chỉnh một số tham số khác:
- Output predictions:
Trả ra k 
ết quả phân loại chi tiết cho t 
ừng mẫu
trong dữ liệu kiểm nghiệm.
- Preserve order for % Split:
Chia các mẫu vào t 
ập huấn luyện và kiểm thử
không theo cách lựa chọn ngẫu nhiên. Thứ t 
ự
như trong dữ liệu hiện t 
ại được giữ nguyên.
- Điều chỉnh việc k 
ế t xuất một số thông tin.
 (3): Result list: Danh sách k 
ết quả các lần chạy thuật toán, có thể tương tác trên danh
sách này để thực hiện một các chức năng phụ.
- Load model, Save model: Mở/Lưu mô hình
phân loại ra t 
ập tin.
- Visualize tree: Một số bộ phân loại sử dụng cây
quyết định có thể cho hình ảnh cây.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 9
 (4): Classifier output:
Kết quả sau được liệt kê bằng văn bản với những phần phân biệt như sau:
o Run information:
 Thông tin chung về thuật toán được sử dụng, t 
ập dữ liệu.
o Classifier model
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 10
 Chi tiết mô hình phân loại, tuy nhiên đối với một số bộ phân loại thì mô
hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được.
o Summary
 Liệt kê thông tin t 
ổng quát về mức độ chính xác của bộ phân loại trong thử
nghiệm vừa thực thi.
o Detailed Accuracy By Class và Confusion Matrix
 Chi tiết k 
ết quả độ chính xác của bộ phân loại trên t 
ừng phân lớp.
5. Gom cụm
 Sử dụng thẻ Cluster.
 (1): Clusterer: Lựa chọn mô hình gom cụm và các tham số.
 (2): Cluster mode: Các tùy chọn để kiểm thử mô hình:
o Use training set: Sử dụng chính t 
ập dữ liệu huấn luyện để kiểm nghiệm.
o Supplied test set: Sử dụng một t 
ập dữ liệu khác.
o Percentage split: Chia dữ liệu thành 2 phần theo t 
ỉ lệ %, một phần dùng để xây
dựng mô hình, phần còn lại dành cho kiểm thử.
o Classes to clusters evaluation: Gom cụm trên toàn bộ dữ liệu và đánh giá với
tiêu chí độ lỗi là thấp nhất. Với phương pháp này ta có thể áp dụng các phương
pháp đánh ngoài để khảo sát chất lượng gom cụm.
 Ignore attributes: Bỏ qua các thuộc tính chỉ định khi tiến hành gom cụm.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 11
 (3): Clusterer output: Chứa các k 
ết quả gom cụm.
o Thông tin mô hình: Được thể hiện tùy theo bộ gom cụm được sử dụng
Ví dụ đối với thuật toán Farthest First thì thông tin được hiển thị bao gồm trọng
tâm của các nhóm, còn với thuật toán HAC thì là danh sách các nhóm qua mỗi
vòng lặp. Trong k 
ết quả của thuật toán Kmeans còn có thông tin về chỉ số SSE.
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 12
o K 
ế t quả gom cụm: Thể hiện số mẫu gom cụm được/không gom cụm được. Đối
với phương pháp đánh giá Classes to clusters evaluation thì còn có thông tin về
số mẫu bị gom cụm sai.
6. Một số định dạng t 
ập tin
 Attribute-Relation File Format (*.arff)
o Là t 
ập tin văn bản, gồm 2 phần:
 Phần khai báo (header)
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 13
 Phần dữ liệu (data)
o Phần khai báo:
@relation <tên dữ liệu>
@attribute <tên thuộc tính 1> <Kiểu dữ liệu>
@attribute <tên thuộc tính 2> <Kiểu dữ liệu>
…
@attribute <tên thuộc tính n> <Kiểu dữ liệu>
o Các kiểu dữ liệu
Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric
Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor}
String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string
Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date
Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?”
o Phần dữ liệu:
Mỗi mẫu dữ liệu được đặt trên một dòng, giá trị của các thuộc tính được liệt kê
theo thứ t 
ự t 
ừ trái qua phải và ngăn cách bởi dấu phẩy “,”
 Comma Separated Values (*.csv)
o Là t 
ập tin văn bản
o Cấu trúc tương tự phần dữ liệu của t 
ập tin arff: Các mẫu được lưu trên một dòng,
các thuộc tính được ngăn cách bằng dấu phẩy.
o Dòng đầu tiên chứa tên các thuộc tính.
Ví dụ:
Một t 
ập tin csv có nội dung như sau:
Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 14
Có nghĩa là dữ liệu này gồm có 14 mẫu và 5 thuộc tính (outlook, temperature, humidity,
windy, play).
Hiển thị t 
ập tin này bằng arffViewer:

More Related Content

What's hot

Bài tập thiết kế cơ sở dữ liệu
Bài tập thiết kế cơ sở dữ liệuBài tập thiết kế cơ sở dữ liệu
Bài tập thiết kế cơ sở dữ liệuLê Minh
 
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOTĐề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khátPhân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Minh Nguyển
 
2 matlab ly-thuyet_laptrinh_hamtoanhoc_
2 matlab ly-thuyet_laptrinh_hamtoanhoc_2 matlab ly-thuyet_laptrinh_hamtoanhoc_
2 matlab ly-thuyet_laptrinh_hamtoanhoc_
Thân Văn Ngọc
 
Hệ mật mã elgamal
Hệ mật mã elgamalHệ mật mã elgamal
Hệ mật mã elgamal
Thành phố Đà Lạt
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
leemindinh
 
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiểnTài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
nataliej4
 
Phan tich hệ thống thông tin bằng uml
Phan tich hệ thống thông tin bằng umlPhan tich hệ thống thông tin bằng uml
Phan tich hệ thống thông tin bằng uml
dlmonline24h
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
GMO-Z.com Vietnam Lab Center
 
Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big dataDuy Phan
 
Data mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụngData mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụng
Phien Le
 
Chương 5. KIỂM CHỨNG
Chương 5. KIỂM CHỨNGChương 5. KIỂM CHỨNG
Chương 5. KIỂM CHỨNG
Le Nguyen Truong Giang
 
Bài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lýBài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lý
MasterCode.vn
 
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨMPHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
SoM
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
Haokillboom Aăâ
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
nataliej4
 
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOTĐề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
The Boss
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
Nguyễn Công Hoàng
 

What's hot (20)

Bài tập thiết kế cơ sở dữ liệu
Bài tập thiết kế cơ sở dữ liệuBài tập thiết kế cơ sở dữ liệu
Bài tập thiết kế cơ sở dữ liệu
 
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOTĐề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
Đề tài: Xây dựng chương trình quản lý dịch vụ vận chuyển, HOT
 
Phân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khátPhân tích thiết kế hệ thống quản lý bán nước giải khát
Phân tích thiết kế hệ thống quản lý bán nước giải khát
 
2 matlab ly-thuyet_laptrinh_hamtoanhoc_
2 matlab ly-thuyet_laptrinh_hamtoanhoc_2 matlab ly-thuyet_laptrinh_hamtoanhoc_
2 matlab ly-thuyet_laptrinh_hamtoanhoc_
 
Hệ mật mã elgamal
Hệ mật mã elgamalHệ mật mã elgamal
Hệ mật mã elgamal
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
 
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiểnTài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
Tài liệu học tậpmô hình hóa và mô phỏng hệ thống điều khiển
 
Phan tich hệ thống thông tin bằng uml
Phan tich hệ thống thông tin bằng umlPhan tich hệ thống thông tin bằng uml
Phan tich hệ thống thông tin bằng uml
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
 
Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big data
 
Data mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụngData mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụng
 
Chương 5. KIỂM CHỨNG
Chương 5. KIỂM CHỨNGChương 5. KIỂM CHỨNG
Chương 5. KIỂM CHỨNG
 
Bài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lýBài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lý
 
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨMPHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU CÔNG THỨC DƯỢC PHẨM
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
 
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOTĐề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
 
MATMA - Chuong2
MATMA - Chuong2MATMA - Chuong2
MATMA - Chuong2
 
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
Giáo trình Phân tích và thiết kế giải thuật - CHAP 5
 

Similar to qdoc.tips_huong-dan-su-dung-wekapdf.pdf

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
Man_Ebook
 
Chương 3. PHƯƠNG PHÁP MÔ PHỎNG
Chương 3. PHƯƠNG PHÁP MÔ PHỎNGChương 3. PHƯƠNG PHÁP MÔ PHỎNG
Chương 3. PHƯƠNG PHÁP MÔ PHỎNG
Le Nguyen Truong Giang
 
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdfTÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
NuioKila
 
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAYLuận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờLuận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Chuong trinh hoc phan phan tich thiet ke httt
Chuong trinh hoc phan phan tich thiet ke htttChuong trinh hoc phan phan tich thiet ke httt
Chuong trinh hoc phan phan tich thiet ke httt
lvtoi1403
 
thuật toán c45
thuật toán c45thuật toán c45
thuật toán c45duy10882002
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hộiLuận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.docỨng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Dịch vụ viết đề tài trọn gói 0934.573.149
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Phát triển các thuật toán mới cho truyền thông trong mạng robot
Phát triển các thuật toán mới cho truyền thông trong mạng robotPhát triển các thuật toán mới cho truyền thông trong mạng robot
Phát triển các thuật toán mới cho truyền thông trong mạng robot
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAYĐề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Sudungmacro
SudungmacroSudungmacro
Sudungmacro
Đào Thành
 
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớpLuận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 
7 qc tools japan
7 qc tools   japan7 qc tools   japan
7 qc tools japan
Thành Nguyễn
 
Đồ-Án-1.docx
Đồ-Án-1.docxĐồ-Án-1.docx
Đồ-Án-1.docx
10HongMinhThnDHTI14A
 
04 ham-ket-hop-gom-nhom
04 ham-ket-hop-gom-nhom04 ham-ket-hop-gom-nhom
04 ham-ket-hop-gom-nhom
thai
 
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
Dịch vụ viết bài trọn gói ZALO: 0909232620
 

Similar to qdoc.tips_huong-dan-su-dung-wekapdf.pdf (20)

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
Chương 3. PHƯƠNG PHÁP MÔ PHỎNG
Chương 3. PHƯƠNG PHÁP MÔ PHỎNGChương 3. PHƯƠNG PHÁP MÔ PHỎNG
Chương 3. PHƯƠNG PHÁP MÔ PHỎNG
 
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdfTÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
 
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAYLuận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
 
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờLuận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
 
Chuong trinh hoc phan phan tich thiet ke httt
Chuong trinh hoc phan phan tich thiet ke htttChuong trinh hoc phan phan tich thiet ke httt
Chuong trinh hoc phan phan tich thiet ke httt
 
thuật toán c45
thuật toán c45thuật toán c45
thuật toán c45
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
 
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hộiLuận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
Luận văn: Tìm hiểu giải thuật tìm kiếm cộng đồng trong mạng xã hội
 
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.docỨng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
Phát triển các thuật toán mới cho truyền thông trong mạng robot
Phát triển các thuật toán mới cho truyền thông trong mạng robotPhát triển các thuật toán mới cho truyền thông trong mạng robot
Phát triển các thuật toán mới cho truyền thông trong mạng robot
 
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAYĐề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
Đề tài: Bảo vệ và phục hồi tổn thương gan của quả Dứa dại, HAY
 
Sudungmacro
SudungmacroSudungmacro
Sudungmacro
 
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớpLuận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
 
7 qc tools japan
7 qc tools   japan7 qc tools   japan
7 qc tools japan
 
Đồ-Án-1.docx
Đồ-Án-1.docxĐồ-Án-1.docx
Đồ-Án-1.docx
 
04 ham-ket-hop-gom-nhom
04 ham-ket-hop-gom-nhom04 ham-ket-hop-gom-nhom
04 ham-ket-hop-gom-nhom
 
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
Đề tài: Phát triển các thuật toán mới cho truyền thông trong mạng robot
 
Giao trinhpttkhttt
Giao trinhpttkhtttGiao trinhpttkhttt
Giao trinhpttkhttt
 

qdoc.tips_huong-dan-su-dung-wekapdf.pdf

  • 1. Đạ Đại h i họ ọc Qu c Quố ốc Gia Thành ph c Gia Thành phố ố H  Hồ ồ Chí Minh  Chí Minh Trường Đạ Trường Đại h i họ ọc Khoa H c Khoa Họ ọc T c Tự ự Nhiên  Nhiên Khoa Công Ngh Khoa Công Nghệ ệ Thông Tin  Thông Tin B Bộ ộ môn Khoa H  môn Khoa Họ ọc Máy Tính c Máy Tính Khai thác d Khai thác dữ ữ li  liệ ệu và u và ứ ứng d ng dụ ụng ng Tài li Tài liệ ệu tham kh u tham khả ảo o HƯỚ HƯỚNG D NG D  Ẫ  ẪN S N SỬ Ử D  DỤ ỤNG NG WEKA EXPLORER 3.6.3 WEKA EXPLORER 3.6.3 _________ _____________________ _______________________ ________________________ ________________ ___ _________ _____________________ _______________________ ________________________ ________________ ___ Tháng 8/2011 Tháng 8/2011
  • 2. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng MỤC LỤC 1. Giới thiệu .........................................................................................................................................................................1 1.1. Các chức năng của Weka Explorer...............................................................................................................1 1.2. Khảo sát dữ liệu....................................................................................................................................................1 2. Tiền xử lý dữ liệu .........................................................................................................................................................3 3. Tập phổ biến & luật k  ết hợp....................................................................................................................................5 4. Phân loại...........................................................................................................................................................................8 5. Gom cụm.......................................................................................................................................................................10 6. Một số định dạng t  ập tin........................................................................................................................................12
  • 3. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 1 1. Giới thiệu 1.1. Các chức năng của Weka Explorer Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình chính, bao gồm:  Preprocess: Cho phép mở, điều chỉnh, lưu một t  ập tin dữ liệu, thẻ này chứa các thuậtt toán áp dụng trong tiền xử lý dữ liệu.  Classify: Cung cấp các mô hình phân loại dữ liệu hoặc hồi quy.  Cluster: Cung cấp các mô hình gom cụm.   Associate: Khai thác t  ập phổ biến và luật k  ết hợp.  Select   Attributes: Lựa chọn các thuộc tính thích hợp nhất trong t  ập dữ liệu  Visualize: Thể hiện dữ liệu dưới dạng biểu đồ 1.2. Khảo sát dữ liệu  Sử dụng thẻ Preprocess  (1) Open file…: Mở một t  ập tin dữ liệu.  (2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết.  (3) Save…: Lưu dữ liệu hiện t  ại ra t  ập tin. Weka Explorer hỗ trợ một số định dạng trong đó có 2 định dạng chính cần quan tâm là *.arff và *.csv (Xem phần 6)  (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc, (xem phần 2).
  • 4. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 2  (5) Selected attribute: Thông tin về thuộc tính đang được chọn: o Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số). o Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét  o Distinct: Số giá trị phân biệt  o Unique: Số mẫu không có giá trị trùng với mẫu khác o Bảng thống kê:  Dạng phi số: Thể hiện các giá trị và t  ần suất của mỗi giá trị  Dạng số: Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn nhất, giá trị trung bình và độ lệch chuẩn.
  • 5. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 3 2. Tiền xử lý dữ liệu  Choose: Chọn một bộ lọc.  Textbox: Các tham số của bộ lọc đã chọn, click vào đây để thay đổi tham số. o Thông thường, với những bộ lọc có thể áp dụng trên các thuộc tính riêng lẻ sẽ cho phép lựa chọn t  ầm ảnh hưởng của bộ lọc đối với những thuộc tính người dùng quan tâm. o More: Hiển thị thông tin chi tiết về bộ lọc. o Capabilities: Các yêu cầu cần thiết đối với dữ liệu để thực hiện bộ lọc.   Apply: Thực thi bộ lọc với các tham số đã xác định trên dữ liệu hiện t  ại.
  • 6. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 4  Ví dụ: Unsupervised.Attribute.Discretize o Hình bên dưới là màn hình điều chỉnh tham số cho phương pháp chia giỏ, trong đó có các tham số như số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu (useEqualFrequency),…  Ví dụ: Unsupervised.Attribute.Normalize: Chuẩn hóa min-max với tham số giới hạn (scale) và giá trị nhỏ nhất (translation).
  • 7. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 5 3. Tập phổ biế n & luật k  ế t hợp  Sử dụng thẻ Asscociate   Associator: Phương pháp khai thác luật k  ết hợp. o Choose: Lựa chọn một phương pháp o Textbox: Thay đổi tham số cho phương pháp đã lựa chọn  Ví dụ: Apriori: Khai thác t  ập phổ biến và luật k  ết hợp. o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến của các t  ập hạng mục khai thác được sẽ nằm trong khoảng này. o metricType: Độ đo tính lý thú của luật k  ết hợp, gồm có Confidence, Lift, Leverage, Conviction. o minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này.
  • 8. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 6 o numRule và delta: Thuật toán luôn khởi động với mức độ lý thú mục tiêu cao nhất. Khi số luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn. o outputItemsets: Kết xuất t  ập phổ biến trong k  ết quả.  Thể hiện k  ết quả: o Tập phổ biến: Danh sách các hạng mục và độ phổ biến o Luật k  ết hợp: Luật và độ đo lý thú.
  • 9. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 7  Ví dụ: FP-Growth, Khai thác luật k  ết hợp Ngoài các tham số như của Apriori, FP-Growth trong Weka còn được hỗ trợ một số tiện ích khác: o findAllRulesForSupportedLevel: Khai thác t  ất cả các luật với độ đo đã lượng chọn. o maxNumberofItems: Số hạng mục t  ối đa trong lụât khai thác được. o rulesMustContain và transactionsMustContain: Chỉ khai thác trên các hạng mục được quan tâm.
  • 10. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 8 4. Phân loại  Sử dụng thẻ Classify.  (1): Classifier: Lựa chọn bộ phân loại và các tham số.  (2): Test Options: Các tùy chọn để kiểm thử mô hình: o Use training set: Sử dụng chính t  ập dữ liệu huấn luyện để kiểm nghiệm. o Supplied test set: Sử dụng một t  ập dữ liệu khác. o Cross-validation: Chia dữ liệu thành nhiều phần (Folds) để thực hiện nhiều lần đánh giá kết quả. o Percentage split: Chia dữ liệu thành 2 phần theo t  ỉ lệ %, một phần dùng để xây dựng mô hình, phần còn lại dành cho kiểm thử. o More Options: Điều chỉnh một số tham số khác: - Output predictions: Trả ra k  ết quả phân loại chi tiết cho t  ừng mẫu trong dữ liệu kiểm nghiệm. - Preserve order for % Split: Chia các mẫu vào t  ập huấn luyện và kiểm thử không theo cách lựa chọn ngẫu nhiên. Thứ t  ự như trong dữ liệu hiện t  ại được giữ nguyên. - Điều chỉnh việc k  ế t xuất một số thông tin.  (3): Result list: Danh sách k  ết quả các lần chạy thuật toán, có thể tương tác trên danh sách này để thực hiện một các chức năng phụ. - Load model, Save model: Mở/Lưu mô hình phân loại ra t  ập tin. - Visualize tree: Một số bộ phân loại sử dụng cây quyết định có thể cho hình ảnh cây.
  • 11. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 9  (4): Classifier output: Kết quả sau được liệt kê bằng văn bản với những phần phân biệt như sau: o Run information:  Thông tin chung về thuật toán được sử dụng, t  ập dữ liệu. o Classifier model
  • 12. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 10  Chi tiết mô hình phân loại, tuy nhiên đối với một số bộ phân loại thì mô hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được. o Summary  Liệt kê thông tin t  ổng quát về mức độ chính xác của bộ phân loại trong thử nghiệm vừa thực thi. o Detailed Accuracy By Class và Confusion Matrix  Chi tiết k  ết quả độ chính xác của bộ phân loại trên t  ừng phân lớp. 5. Gom cụm  Sử dụng thẻ Cluster.  (1): Clusterer: Lựa chọn mô hình gom cụm và các tham số.  (2): Cluster mode: Các tùy chọn để kiểm thử mô hình: o Use training set: Sử dụng chính t  ập dữ liệu huấn luyện để kiểm nghiệm. o Supplied test set: Sử dụng một t  ập dữ liệu khác. o Percentage split: Chia dữ liệu thành 2 phần theo t  ỉ lệ %, một phần dùng để xây dựng mô hình, phần còn lại dành cho kiểm thử. o Classes to clusters evaluation: Gom cụm trên toàn bộ dữ liệu và đánh giá với tiêu chí độ lỗi là thấp nhất. Với phương pháp này ta có thể áp dụng các phương pháp đánh ngoài để khảo sát chất lượng gom cụm.  Ignore attributes: Bỏ qua các thuộc tính chỉ định khi tiến hành gom cụm.
  • 13. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 11  (3): Clusterer output: Chứa các k  ết quả gom cụm. o Thông tin mô hình: Được thể hiện tùy theo bộ gom cụm được sử dụng Ví dụ đối với thuật toán Farthest First thì thông tin được hiển thị bao gồm trọng tâm của các nhóm, còn với thuật toán HAC thì là danh sách các nhóm qua mỗi vòng lặp. Trong k  ết quả của thuật toán Kmeans còn có thông tin về chỉ số SSE.
  • 14. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 12 o K  ế t quả gom cụm: Thể hiện số mẫu gom cụm được/không gom cụm được. Đối với phương pháp đánh giá Classes to clusters evaluation thì còn có thông tin về số mẫu bị gom cụm sai. 6. Một số định dạng t  ập tin  Attribute-Relation File Format (*.arff) o Là t  ập tin văn bản, gồm 2 phần:  Phần khai báo (header)
  • 15. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 13  Phần dữ liệu (data) o Phần khai báo: @relation <tên dữ liệu> @attribute <tên thuộc tính 1> <Kiểu dữ liệu> @attribute <tên thuộc tính 2> <Kiểu dữ liệu> … @attribute <tên thuộc tính n> <Kiểu dữ liệu> o Các kiểu dữ liệu Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?” o Phần dữ liệu: Mỗi mẫu dữ liệu được đặt trên một dòng, giá trị của các thuộc tính được liệt kê theo thứ t  ự t  ừ trái qua phải và ngăn cách bởi dấu phẩy “,”  Comma Separated Values (*.csv) o Là t  ập tin văn bản o Cấu trúc tương tự phần dữ liệu của t  ập tin arff: Các mẫu được lưu trên một dòng, các thuộc tính được ngăn cách bằng dấu phẩy. o Dòng đầu tiên chứa tên các thuộc tính. Ví dụ: Một t  ập tin csv có nội dung như sau:
  • 16. Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 14 Có nghĩa là dữ liệu này gồm có 14 mẫu và 5 thuộc tính (outlook, temperature, humidity, windy, play). Hiển thị t  ập tin này bằng arffViewer: