Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx

Tải tài liệu tại sividoc.com
Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA KẾ TOÁN
ĐỒ ÁN MÔN HỌC
BỘ MÔN:KHOA HỌC HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA
TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
Giảng viên: TS. Thái Kim Phụng
Mã lớp học phần: 22C1INF50905972
Chuyên ngành: Kiểm toán – Khóa: 47
Nhóm sinh viên
Phan Thị Thảo Nguyên 31211023814
Huỳnh Ngọc Phương Nghi 31211023584
Trương Hoàng Bảo Nghi 31211022129
Bùi Yến Nhi 31211024584
Lê Thị Bảo Ngọc 31211022130
TP Hồ Chí Minh, ngày 08 tháng 12 năm 2022

BẢNG PHÂN CÔNG NHIỆM VỤ
STT Họ và tên MSSV Nhiệm vụ Đánh giá
1 Phan Thị Thảo Nguyên 31211023814 -Chọn bộ dữ
liệu
-Tiến hành
phân lớp và dự
báo
-Tổng hợp kết
quả
100%
2 Huỳnh Ngọc Phương Nghi 31211023584 -Chọn bộ dữ
liệu
-Tổng quan lí
thuyết
-Mô tả dữ liệu
100%
3 Trương Hoàng Bảo Nghi 31211022129 -Tổng quan lí
thuyết
-Tổng hợp kết
quả và kết luận
100%
4 Bùi Yến Nhi 31211024584 -Tổng quan lý
thuyết
- Kết luận
100%
5 Lê Thị Bảo Ngọc 31211022130 -Mô tả dữ liệu
-Tiến hành
phân cụm dữ
liệu
100%

MỤC LỤC
CHƯƠNG 1. TỔNG QUAN .............................................................................................1
1.1 Tổng quan về bài toán phân lớp dữ liệu ............................................................1
1.2 Giới thiệu về Python và Phần mềm Orange......................................................1
1.3 Lý Do Chọn Lựa Đề Tài ..........................................................................................7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU ..................................................8
2.1. Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: .....8
2.1.1.Mô hình Logistic Regression ( hồi quy logistic):.............................................7
2.1.2.Mô hình Decision tree ( cây quyết định) :........................................................9
2.1.3. Mô hình Support Vector Machine ..................................................................9
2.1.4. Mô hình Neural Network ...............................................................................11
2.2. Quy trình phân lớp dữ liệu...................................................................................12
2.2.1. Phân cụm dữ liệu ............................................................................................12
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
.....................................................................................................................................13
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả......................14
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả..................15
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu..........17
2.2.2. Phân lớp dữ liệu...........................................................................................18
2.2.2.1. Một số phương pháp phân lớp dữ liệu.......................................................18

2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới
.....................................................................................................................................19
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM.........................................................22
3.1 Bộ dữ liệu ................................................................................................................21
3.1.1. Mô tả dữ liệu ...................................................................................................22
3.2. Phân tích và đánh giá............................................................................................24
CHƯƠNG 4. KẾT LUẬN...............................................................................................28
4.1. Các Kết Quả Đạt Được.........................................................................................28
4.2. Những hạn chế và phát triển................................................................................28
LỜI CẢM ƠN ..................................................................................................................28
TÀI LIỆU THAM KHẢO...............................................................................................29

1
CHƯƠNG 1. TỔNG QUAN
1.1 Tổng quan về bài toán phân lớp dữ liệu
Định nghĩa phân lớp dữ liệu: Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và
những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó
trong việc phân lớp dữ liệu mới.
Quá trình phân lớp dữ liệu: gồm 2 bước
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn của mô hình)
Bước 2.2: Phân lớp dữ liệu mới
1.2 Giới thiệu về Python và Phần mềm Orange
Python là một ngôn ngữ lập trình mã nguồn mở, đa nền tảng, dễ học dễ đọc. Python có
cấu trúc rõ ràng, thuận tiện cho người mới học lập trình. Vì thế nó được sử dụng rộng rãi.
Python là ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác nhau như: mệnh lệnh, lập trình
hướng đối tượng, lập trình hàm… được dùng đa lĩnh vực: web, 3D CAD…
 Python được thông dịch: Python được trình thông dịch xử lý trong thời gian chạy.
Bạn không cần phải biên dịch chương trình của mình trước khi thực hiện nó. Nó
tương tự với PERL và PHP.
 Python là tương tác (Interactive): Tại một dấu nhắc Python (command line) bạn có
thể tươngtác trực tiếp với trình thông dịch để viết chương trình Python.
 Python là hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng hoặc
kỹ thuật lập trình đóng gói mã trong các đối tượng.
 Python là ngôn ngữ của người mới bắt đầu: Python là ngôn ngữ tuyệt vời cho các
lập trình viên mới bắt đầu và hỗ trợ phát triển một loạt các ứng dụng từ xử lý văn
bản đơn giản, lập trình web,cho đến lập trình game.

2
*Các tính năng của Python bao gồm:
“- Phát triển trang web (phía máy chủ).
- Phát triển phần mềm
- Kịch bản hệ thống.
- Python có thể được sử dụng cùng với các phần mềm nhằm tạo quy trình công việc.
- Python có thể kết nối với các hệ thống cơ sở dữ liệu.”
- Python có thể được sử dụng để xử lý dữ liệu lớn và thực hiện các phép toán phức tạp.
- Lập trình GUI: Python hỗ trợ các ứng dụng GUI có thể được tạo và chuyển sang nhiều
cuộcgọi hệ thống, thư viện và hệ thống cửa sổ, như Windows MFC, Macintosh và hệ
thống XWindow của Unix.
- Portable: Python có thể chạy trên nhiều nền tảng phần cứng khác nhau và có cùng giao
diệntrên tất cả các nền tảng.
Tổng quan về phần mềm Orange:
Orange là một bộ công cụ trực quan hóa dữ liệu, học máy và khai thác dữ liệu mã nguồn
mở. Đượcra đời nhằm hỗ trợ con người trong việc nghiên cứu và giải quyết những vấn đề
khó nhằn về lĩnh vực khai phá dữ liệu (Data mining) và học máy (Marchine learning).

3
Vì độ phổ biến về việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy
thông minh, đơn giản, lập trinh bằng Python với giao diện trực quan và tương tác dễ
dàng, phần mềm Orange giúp người dùng phân tích những dữ liệu từ đơn giản đến phức
tạp. Bên cạnh đó, đồ họa đẹp mắt, thú vị còn giúp việc khai thác dữ liệu và học máy dễ
dàng hơn cho cả chuyên gia và người dùng mới.
Các chức năng cơ bản được cung cấp có thể kể đến như: đọc dữ liệu, hiển thị dữ liệu
dạng bảng,so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu, lựa chọn
thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, ,….
Data: các công cụ để nhập dữ liệu, lọc dữ liệu, lấy mẫu, quy nạp, thao tác tính năng và
lựa chọn tính năng
Visualize: các công cụ để trực quan hóa thông thường (biểu đồ hộp, biểu đồ, biểu đồ
phân tán) và trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng).

4
Model: các hàm máy học (marchine learning) phân lớp dữ liệu với Tree, Logictis,
Regression, SVM,…

5
Evaluate: xác thực chéo, quy trình dựa trên lấy mẫu, ước tính độ tin cậy và tính điểm của
các phương pháp dự đoán
Unsupervised: các thuật toán học tập không giám sát để phân cụm (k-means, phân cụm
theo cấp bậc) và kỹ thuật chiếu dữ liệu (chia tỷ lệ đa chiều, phân tích thành phần chính,
phân tích tương ứng).

6
Add ons: mở rộng các chức năng nâng cao xử lý dữ liệu lớn với Spank, xử lý ảnh với
Deep learing, xử lý văn bản, phân tích mạng xã hội,… cũng là điểm ưu việt hơn so với
các phần mềm khai phá dữ liệu khác.
1.3 Lý Do Chọn Lựa Đề Tài
Trong 10 năm trở lại đây, khoa học dữ liệu đã có những đóng góp tạo ra nhiều thành
tựu to lớn cho các doanh nghiệp. Thúc đẩy quá trình công nghiệp hóa hiện đại hóa đưa
các doanh nghiệp ngày một phát triển, hoạt động hiệu quả hơn, năng suất hơn.
Ở Việt Nam hiện nay các doanh nghiệp chú trọng hơn trong việc xử lí thông tin dữ
liệu vì nó là một phần quan trọng đưa doanh nghiệp dần hội nhập với thị trường quốc tế-
là nguồn tài nguyên vô hạn cho các doanh nghiệp. Điều đó cho thấy khoa học dữ liệu đã
có những tác động nhất định đến nền kinh tế thị trường hiện nay.
Chúng em đã tìm được bộ dữ liệu của một ngân hàng và xử lý thông tin thông qua
phần mềm orange để nhìn nhận và tìm ra hướng phát triển. Thông qua việc gọi điện thoại
khảo sát của ngân hàng để tiếp thị và dự đoán việc thành công rằng liệu khách hàng có
đăng ký tiền gửi ngân hàng có kỳ hạn không. Dưới đây chúng em xin làm rõ vấn đề.

7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU
2.1.Các mô hình phân lớp dữ liệu
Mô hình phân lớp trên phần mềm Orange:
2.1.1.Mô hình Logistic Regression (hồi quy logistic):
“Thuật toán phân loại hồi quy logistic với chính quy hóa LASSO (LI) hoặc sườn núi
(L.2).
Đầu vào
Dữ liệu: dữ liệu đầu vào
Tiền xử lý: phương pháp tiền xử lý
Đầu ra Học viện: thuật toán học hồi quy logistic
Mô hình: mô hình được đài tạo Các hệ số: hệ số hồi quy logistic”

8
Hồi quy logistic học mô hình hồi quy logistic từ dữ liệu. Nó chỉ hoạt động cho các nhiệm
vụ phân loại:
1.Một cái “tên mà theo đó người học xuất hiện trong các vật dụng khác”. Tên mặc định là
hồi quy Logistic Regression.
2.Quy tắc loại (hoặc 1.1 hoặc 1.2). Đặt cường dộ chi phí (mặc định là C=1).
3.Nhấn “cam kết áp dụng để cam kết thay đổi. Nếu áp dụng (tự động được đánh dấu, các
thay đổi sẽ được)”
4.Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay
đổi sẽ được tự động.

9
2.1.2. Mô hình Decision tree (cây quyết định):
1. Name: Người học có thể được đặt tên theo ý muốn. Tên mặc định là Tree
2. Thông số:
- Induce binary tree: xây dựng cây nhị phân (chia thành hai nút con)
- -Min. number of instances in leaves (số tối thiểu các ví dụ lá): “nếu được chọn,
thuật toán sẽ không bao giờ đặt số nút ít hơn số dữ liệu tham khảo”
- Do not split subsets smaller than (Không phân chia các tập hợp nhỏ hơn): “cấm
thuật toán phân chia các nút có ít hơn số lượng ví dụ đã cho.”
- Limit the maximal tree depth (Giới hạn độ sâu cây tối đa): “giới hạn độ sâu của
cây phân loại ở số cấp nút được chỉ định”
3.Tạo một báo cáo
4. Nhấp vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay
đổi sẽ được tự động.
2.1.3. Mô hình Support Vector Machine

10
“Đầu vào
Dữ liệu: dữ liệu đầu vào
Tiền xử lý: phương pháp tiền xử lý
Đầu ra
Learner: thuật toán học hồi quy tuyến tính”
Mô hình: mô hình được đào tạo Vecto hỗ trợ: thể hiện được sử dụng làm vecto hỗ trợ.
Máy vecto hỗ trợ (SVM) là một kỹ thuật máy học phân tách không gian thuộc tính với
một siêu phẳng, do đó tối đa hóa các điểm dữ liệu của tất cả các lớp. Kỹ thuật này
thường mang lại kết quả dự đoán tối cao.
Đối với hồi quy, SVM thực hiện hồi quy tuyến tính trong không gian tính năng với
kích thước cao bằng cách sử dụng ε-insensitive. Độ chính xác ước tính của nó phụ
thuộc tốt vào các tham số C, ε và kernel.
“Hoạt động cho cả nhiệm vụ phân loại và hồi quy.”
1. “Name: đặt tên bất kì cho mô hình. Tên mặc định là SVM.”
2. “SVM Type với cài đặt kiểm tra lỗi. SVM và v-SVM dựa trên sự giảm thiểu khác
nhau của hàm lỗi. Ở bên phải, bạn có thể đặt giới hạn lỗi kiểm tra:”
SVM:

11
“Cost (C): giới hạn bất lợi cho sự thiệt hại và áp dụng cho các nhiệm vụ phân loại và
hồi quy.”
“ε: một tham số cho mô hình epsilon-SVR, áp dụng cho hồi quy”. Xác định khoảng
cách từ các giá trị thực trong đó không có bất lợi nào được liên kết với các giá trị dự
đoán.
ν-SVM:
Cost: giới hạn bất lợi cho sự thiệt hại và chỉ áp dụng cho các nhiệm vụ hồi quy.
“ν: một tham số cho mô hình ν-SVR, áp dụng cho việc phân loại và hồi quy”. Giới
hạn trêncủa phần training error và giới hạn dưới của phần vectơ hỗ trợ.
3. Kernel là một hàm biến đổi không gian thuộc tính thành “không gian tính năng mới
để phù hợp” với siêu phẳng có biên độ tối đa, do đó cho phépthuật toán tạo mô hình
với tuyến tính, đa thức, RBF và Sigmoid kernel. Các hàm chỉ định kernel được trình
bày khi chọn chúng và các hằng số liên quan là:
g: hằng số gamma trong hàm kernel “(giá trị được đề xuất là 1/k, trong đó k là số
lượng thuộc tính, nhưng vì có thể không có training set nào được cung cấp cho
widget, mặc định là 0 và người dùng phải tự thiết lập lựa chọn)”
“c: hằng số c0 trong hàm kernel” (mặc định 0)
“d: cho mức độ của hạt nhân” (mặc định 3)
4. “Đặt độ lệch cho phép so với giá trị mong đợi trong” Numerical Tolerance. Đánh
dấu tick vào ô cạnh Iteration Limit để đặt số lần lặp tối đa dược phép.
5. Tạo một báo cáo.
6. Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các
thay đổi sẽ được tự động.
2.1.4. Mô hình Neural Network
Một thuật toán perceptron (MLP) nhiều lớp với backpropagation.
Đầu vào
 Dữ liệu: tập dữ liệu đầu vào
 Tiền xử lý: phương pháp tiền xử lý

12
Kết quả
 Người học: thuật toán học perception nhiều lớp
 Mô hình: mô hình được đào tạo
Tiện ích Neural Network sử dụng thuật toán Perceptron nhiều lớp của sklearn có thể học
các mô hình phi tuyến tính cũng như tuyến tính.
2.2. Quy trình phân lớp dữ liệu
2.2.1. Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc
điểm tương đồng vào những cụm hoặc nhóm tương ứng.
Trong đó:
- Các đối tượng có các tính chất tương đồng thuộc chung một cụm
- Các đối tượng có các tính chất khác nhau thuộc cụm hoặc nhóm khác nhau

13
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
a) Phân cụm phân cấp (Hierarchical clustering)
Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
- Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
 Similarity matrix là số đo mức giống nhau của hai đối tượng.
 Dissimilarity matrix là số đo mức độ khác nhau của hai đối tượng.
- Độ đo khoảng cách giữa các cụm (single link, complete link…)
Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện
dừng.
Các phương pháp điển hình: Agnes, Diana…
b) Phương pháp phân cụm phân cấp Diana
Theo chiến lược top down:
- Bắt đầu với 1 cụm gồm tất cả phần tử
- Ở mỗi bước, chia cụm ban đầu thành 2 cụm:
 khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm,
hoặc khoảng cách trung bình.
- Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần
tử là 1 cụm.

14
- Kết quả phát sinh cây phân cấp (dendrogram)
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả
a. Dùng phần mềm Orange để phân cụm phân cấp bằng phương pháp Diana
- File input: Sử dụng dữ liệu cho dự án, bỏ qua (skip) biến mục tiêu và subscriber
- Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (n=2))
- Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link và
chia làm 2 cụm để được chỉ số Sihouette Cluster dương nhiều nhất.
b. Kết quả
Số cụm tốt nhất là 2 (vì chia làm 2 cụm để được chỉ số Sihouette Cluster dương
nhiều nhất)
Phân cụm bộ dữ liệu của dự án (5000 mẫu) thành 2 cụm gồm C1 (195 mẫu) và C2
(4805 mẫu).
Phân cụm phân hoạch bằng thuật toán K-means

15
a. Phân cụm phân hoạch:
Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn
một cụm.
Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm)
sao cho:
- Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong
cụm có sự tương tự nhau.
- Mỗi cụm có ít nhất 1 phần tử.
Thuật toán điển hình: K-means, K-mediods, Fuzzy K-means
b. Thuật toán K-means:
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Tư tưởng chính:
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (d là số
thuộc tính của đối tượng)
- Bước 1: chọn k điểm bất kì làm các trung tâm ban đầu của k cụm
- Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân
chia trước nó thì ta dừng thuật toán
- Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất
cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
- Bước 4: Quay lại bước 2
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả
a) Dùng phần mềm Orange để phân cụm phân hoạch bằng thuật toán K-means và
chọn số cụm tốt nhất:

16
- File input: Bộ dữ liệu sử dụng cho dự án nhưng bỏ qua (skip) biến mục tiêu
là subscribed.
- K-means: chạy phân cụm từ 2-5 cụm, so sánh Sihouette Scores được tính
ra, chọn chia thành 3 cụm (vì 3 là số cụm có Sihouette Scores cao nhất)
b)Kết quả:
Số cụm tốt nhất là 3 (vì 3 là số cụm có Sihouette Scores cao nhất)
Phân cụm bộ dữ liệu của dự án (50000 mẫu) thành 3 cụm gồm C1 (4129 mẫu), C2
(677 mẫu) và C3 (194 mẫu)
Sihouette Scores: 0.723
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu
Đánh giá ngoài (external validation)
So sánh với kết quả mẫu (biến mục tiêu):
- Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana

17
(Bảng 1: Bảng so sánh kết quả phân cụm bằng phương pháp Diana với
nhãn của dữ liệu)
- Phân cụm phân hoạch bằng thuật toán K-means
(Bảng 2: Bảng so sánh kết quả phân cụm bằng thuật toán K-means với
nhãn của dữ liệu)
Nhận xét, chọn mô hình phân cụm tối ưu
Sau khi so sánh ngoài, ta nhận thấy rằng
- Phương pháp phân cụm phân cấp (bằng Diana) chỉ phân dữ liệu làm 2
cụm và trong đó cụm 2 (C2) có kết quả so sánh trùng với cụm 3 (C3’)
của phân cụm phân hoạch (K-means)
- Phương pháp phân cụm phân hoạch (bằng K-means) phân dữ liệu thành
3 cụm, trong đó có cụm 2 (C2’) và cụm 3 (C3’) chứa Yes ở tỷ trọng cao.
Như vậy có thể thấy, phương pháp phân cụm phân hoạch (bằng K-means) có
hiệu quả để phân tích thực tiễn hơn phương pháp còn lại.
2.2.2. Phân lớp dữ liệu
2.2.2.1.Một số phương pháp phân lớp dữ liệu
a) Phương pháp hồi quy Logistic (Logistic Regression)
Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu
diễn dưới dạng vector)

18
b)Phương pháp Cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là đồ thị quyết định cùng các kết quả khả
dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân
loại và tổng quát hóa tập dữ liệu cho trước.
c)Phương pháp SVM (Support Vector Machine)
SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những
các vector trong không gian và phân loại chúng vào các lớp dữ liệu khác nnhau
bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân
cách các lớp dữ liệu.
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng
cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới
a) Xây dựng mô hình (huấn luyện) và đánh giá mô hình (kiểm tra tính đúng
đắn của mô hình)

19
Dùng phần mềm Orange để xây dựng mô hình phân lớp bằng phương pháp Hồi
quy Logistic (Loogistic Regression), Cây quyết định (Decision Tree) và SVM
(Support Vector Machine), đánh giá mô hình và chọn phương pháp tốt nhất.
- File input: Bộ dữ liệu sử dụng cho dự án (5000 mẫu), chọn biến mục tiêu
(target) là subcrbed:
- Test and Score: xem các chỉ số từ các phương pháp (quan tâm chỉ số AUC)
- Confusion Matrix: xem ma trận nhầm lẫn từ các phương pháp (quan tâm
tổng số nhầm lẫn)

20
- Như vậy, phương pháp hồi quy Logistic là tối ưu nhất vì có chỉ số AUC
cao nhất (gần 1 nhất) và có độ nhầm lẫn ít nhất trong 3 phương pháp.
b) Phân lớp dữ liệu mới
“Dùng phần mềm Orange phân lớp cho bộ dữ liệu 500 mẫu” (trích ra ỡ mục
1.2.)
- File “Bank Marketing (5000 mẫu)” input: Bộ dữ liệu sử dụng cho dự án
(5000 mẫu), chọn biến mục tiêu (target) là subscribed:
- File “File 500 mẫu skip nhãn” input: Bộ dữ liệu 500 mẫu đã trích ra ở mục
1.2. nhưng bỏ qua (skip) biến mục tiêu là subscribed:

21
Kết quả phân lớp dữ liệu mới:
(Bảng 3: Bảng ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu)
Vậy mô hình phân lớp dữ liệu mới có độ chính xác là: (26+415)/500=0.882=88.2%
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM
3.1 Bộ dữ liệu
Bộ dữ liệu sử dụng: Bộ dữ liệu “Bank Marketing”
Bộ dữ liệu này là kết quả thu được từ chiến dịch marketing của một ngân hàng
lớn tại Bồ Đào Nha, họ thu thập và tính toán đưa ra kết quả bởi các cuộc gọi điện
thoại đã thực hiện
Khảo sát này được thực hiện với mục tiêu tìm hiểu xem mong muốn của khách
hàng. Thông qua 2 phương án: có đăng kí (yes) hay không đăng kí (no) đối với sản
phẩm của ngân hàng. Và sản pẩm được nêu đến đó là đăng kí gửi tiền có kì hạn.
Giải quyết vần đề số mẫu quá lớn
- Do kích thước bộ dữ liệu “Bank Marjeting” quá lớn (41188 mẫu), chính vì
vậy sẽ không phân cụm được, nhóm quyết định chọn ra 5000 mẫu để sữ dụng cho
dự án
- Vì sau khi cho máy học để phân lớp thì cần dữ liệu mới để đánh giá hiệu
quả mô hình, nên nhóm quyết định trích 500 mẫu không trùng với 5000 mẫu dùng
cho dự án.
Như vậy, nhóm sẽ trích ngẫu nhiên 5000 mẫu từ bộ dữ liệu lớn “Bank Marketing”
(41188 mẫu) và chọn 5000 mẫu đầu tiên để dung cho dự án và 500 mẫu phái sau
để dung thực hành phân lớp mới.
Cách chọn mẫu ngẫu nhiên:

22
 Dùng phần mềm Orange để chọn ngẫu nhiên:
- File input: Bộ dữ liệu “Bank Marketing” (41188 mẫu)
- Data Sampler: Chọn số lượng chọn mẫu ngẫu nhiên là 5500
- Ở các Data table chọn 5000 mẫu đầu cho bảng dữ liệu dung cho dự án và
500 mẫu sau cùng cho dự liệu dung để phân lớp mới.
3.1.1. Mô tả dữ liệu
Bộ dữ liệu có 5000 mẫu
Bộ dữ liệu gồm 15 biến và 1 biến mục tiêu:
1. Age là tuổi (biến định lượng)
2. Job là nghề nghiệp của khách hàng (biến định tính-admin: quản trị viên, blue
collar: lao động phổ thông, entreprenuer: doanh nhân, housemaid: người giúp
việc, management: nhà quản lý, retired: người về hưu, self-employed: lao động
tự do, services: dịch vụ, student: học sinh, technician: kỹ thuật viên,
unemployed: thất nghiệp, unknown: chưa biết)
3. Marital là tình trạng hôn nhân (là biến định tính - divorced: đã ly hôn, married:
đã kết hôn, single: độc thân, unknown: chưa biết)

23
4. Education là trình độ học vấn (biến định tính - basic.4y: 4 năm tiểu học,
basic.6y: 6 năm tiểu học, basic.9y: trung học cơ sở, high school: trung học phổ
thông, illiterate: không đi học, professional course: học nghề, university degree:
bậc đại học, unknown: chưa biết)
5. Default là có tín dụng trong tình trạng nợ không (biến định tính-yes:có,
no:không, unknown: chưa biết)
6. Housing là có khoản vay mua nhà không? (biến định tính-yes: có, no: không,
unknown: chưa biết)
7. Loan là có khoản vay cá nhân không? (biến định tính-yes: có, no: không,
unknown: chưa biết)
8. Contact là hình thức liên lạc (biến định tính - cellular: điện thoại di động,
telephone: điện thoại để bàn)
9. Month là tháng liên lạc cuối cùng trong năm (biến định tính - jan, feb, mar, apr,
may, jun, jul, aug, sep, oct, nov, dec)
10. Day of week là ngày liên lạc cuối cùng trong tuần (biến định tính - mon: thứ 2,
tue: thứ 3, wed: thứ 4, thu: thứ 5, fri: thứ 6)
11. Duration là thời lượng liên lạc cuối cùng (đơn vị: giây) (biến định lượng)
12. Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến
dịch này (biến định lượng)
13. Pdays là số ngày kể từ khi khách hàng được liên lạc lần cuối đến lúc thực hiện
chiến dịch (biến định lượng)
14. Previous là số lần liên lạc đã thực hiện đối với khách hàng trước chiến dịch
(biến định lượng)
15. Poutcome là kết quả của chiến dịch tiếp thị trước đó (biến định tính - failure:
thất bại, nonexistent: không tồn tại, success: thành công)
16. Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa (biến mục tiêu)
(biến định tính-yes: có, no: không)
3.1.2. Làm sạch dữ liệu

24
Dữ liệu không có dữ liệu bị thiếu (no missing data)
3.2. Các kết quả thực nghiệm
Dựa vào ma trận nhầm lẫn sau khi phân lớp 500 mẫu dữ liệu mới không trùng với
4999 mẫu sử dụng, ta nhận thấy rằng:
- “Mô hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ
liệu mới.”
Như vậy, có thể đánh giá rằng đây là một mô hình ‘good fitting’ “(là trường hợp
mô hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang
tính tổng quát).”
3.2. Phân tích và đánh giá
Sau khi đánh giá các mô hình phân cụm, nhóm quyết định chọn mô hình phân cụm
phân hoạch bằng thuật toán K-means. Từ kết quả phân cụm, tìm được 3 cụm có tỷ trọng
yes/no (trong biến mục tiêu - subcribed - có đăng kí tiền gửi có kỳ hạn hay không?)
chênh lệch nhiều.
Yes (có) (ở biến mục tiêu-subscribed) tương đương với sự thành công của ngân
hàng khi tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền gửi có kỳ hạn, no (không)
tương đương với sự thất bại trong chiến dịch này.
Phân tích Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của
dữ liệu (Bảng 2), ta thấy rằng:
- Cụm 1 có số lượng mẫu nhiều nhất (4128 mẫu), trong đó Yes (thành công)
chiếm 4.6%, No (thất bại) chiếm 95.4%.
- Cụm 2 có số lượng mẫu là 677 mẫu, trong đó Yes chiếm 36.6%, No chiếm
63.4%
- Cụm 3 có số lượng mẫu ít nhất (194 mẫu), trong đó Yes chiếm 63.4%, No
chiếm 36.6%

25
Như vậy, có thể kết luận rằng, những khách hàng có đặc điểm tương đồng với Cụm 3 có
khả năng sẽ đăng kí tiền gửi kỳ hạn nhất (63.4%), tương tự những khách hàng ở Cụm 2
sẽ có khả năng thành công trung bình (36.6%) và Cụm 3 sẽ có khả năng thành công rất
thấp (4.6%)
Sau khi phân tích dữ liệu từ các cụm, nhóm tìm được điểm khác nhau giữa các
cụm như sau:
(Bảng 4: Bảng đặc điểm khác nhau giữa các cụm)

26
Dựa vào Bảng đặc điểm khác nhau giữa các cụm (Bảng 4), ta có những kết luận
sau đây:
- 4 yếu tố: duration (thời lượng ngân hàng đã gọi cho khách hàng tính đdến lần
cuối cùng), pdays (số ngày kể từ khi khách hàng được liên hệ lần cuối đến lúc thực hiện
chiến dịch), campaign “(số lần liên lạc được thực hiện đối với khách hàng trong chiến
dịch này) poutcome (kết quả của chiến dịch tiếp thị trước đó)” có tác động đến kết quả
thành công (Yes/No) của chiến dịch.
- Nhóm khách hàng có giá trị “duration” cao (470 – 2420 giây, trung bình: 726
giây) có khả năng thành công trung bình (36.6%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “pdays” là đã từng gọi trước đây, lượng ngày thấp (0
– 21 ngày, trung bình: 6 ngày) có khả năng thành công cao (63.4%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “campaign” thấp (1 – 8 lần, trung bình: 2 lần) có khả
năng thành công cao (63.4%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “poutcome” là “success” có khả năng thành công
cao (63.4%) đối với chiến dịch
Như vậy, nhóm đã tìm được 4 nhân tố quyết định sự thành công khi tiếp thị quađiện thoại
đối với sản phẩm đăng kí tiền gửi có kỳ hạn. Nhân viên ngân hàng có thểdựa vào đó để
phân lọai khách hàng, đánh giá mức độ ưu tiên thực hiện tiếp thị.Nhân viên ngân hàng có
thể sắp xếp thời điểm phù hợp, tân suất chăm sóc kháchhàng tối ưu để đem lại doanh số
tốt nhất.

27
“CHƯƠNG 4. KẾT LUẬN”
“4.1. Các Kết Quả Đạt Được”
Sau khi đánh giá các phương pháp phân lớp, nhóm quyết mô hình phân lớp bằng
phương pháp Hồi quy Logistic (Logistic Regression)
Nhóm đã cho chạy thử 500 mẫu dữ liệu mới không trùng với dữ liệu chạy cho dự
án (5000 mẫu), thu được kết quả đáng mong đợi với độ chính xác 88.2% (dựa trên Bảng
ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu (Bảng 3)).
Như vậy, khi ngân hàng có bộ dữ liệu đầy đủ các biến như trên, ngân hàng có thể
dự đoán được kết quả của hoạt động tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền
gửi có kỳ hạn thông qua việc dự đoán giá trị của biến “subscribed” (có đăng kí sản phẩm
tiền gửi có kỳ hạn hay không) là yes/no (có/không) ở mức chính xác chấp nhận được.
4.2. Những hạn chế và phát triển
Hạn chế
- Vẫn chưa thể dự đoán một cách chính xác kết quả của hoạt động tiếp thị
sản phẩm tiền gửi có kỳ hạn ở Ngân hàng.
- Bảng số liệu chưa được chính xác và kiểm nghiệm qua.
Hướng phát triển
- Tập trung toàn bộ hệ thống dựa trên một nền tảng công nghệ thông tin hiện đại, quản lý
các rủi ro có thể xảy ra một cách độc lập.

28
- Nắm bắt được tin tức trên thị trường và nhu cầu của khách hàng.
- Nâng cao chất lượng dịch vụ.
LỜI CẢM ƠN
Dưới dự hướng dẫn tận tình của thầy Thái Kim Phụng, đồ án “phân tích dữ liệu phân
hạng tính dụng dựa trên bộ dữ liệu XYZ bằng phần mềm Orange” đã được thực hiện bởi
toàn thể thành viên nhóm. Toàn thể thành viên nhóm xin gửi lời cảm ơn chân thành đến
thầy- giảng viên bộ môn Khoa học dữ liệu của nhóm trong học kì qua.
TÀI LIỆU THAM KHẢO
Tài liệu bộ môn Khoa học dữ liệu, trường Đại học Kinh tế Thành phố Hồ Chí
Minh (UEH), thầy Thái Kim Phụng.
UCI Machine Learning Repository: Data Sets
Phụ lục
Bộ dữ liệu sử dụng: Bank Marketing Data Set, UCI Machine Learning
Repository: Data Sets các file phân tích đi kèm:
- File workflow Orange
- File excel bộ dữ liệu gốc (41188 mẫu)
- File excel bộ dữ liệu dung để nghiên cứu (5000 mẫu)

29
- File excel kết quả phân cụm phân cấp (phương pháp Diana) và hân cụm
phân hoạch (thuật toán K-means)
- File excel nghiên cứu kết quả phân cụm bằng thuật toán K-means (mỗi cụm
1 file)
- File excel bộ dữ liệu dung để phân lớp mới (500 mẫu)
- File excel kết quả gắn nhãn ở bộ dữ liệu mới

Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx

Similar to Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx (20)

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149 (20)

Recently uploaded

Recently uploaded (20)

Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx