SlideShare a Scribd company logo
1 of 33
Tải tài liệu tại sividoc.com
Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA KẾ TOÁN
ĐỒ ÁN MÔN HỌC
BỘ MÔN:KHOA HỌC HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA
TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
Giảng viên: TS. Thái Kim Phụng
Mã lớp học phần: 22C1INF50905972
Chuyên ngành: Kiểm toán – Khóa: 47
Nhóm sinh viên
Phan Thị Thảo Nguyên 31211023814
Huỳnh Ngọc Phương Nghi 31211023584
Trương Hoàng Bảo Nghi 31211022129
Bùi Yến Nhi 31211024584
Lê Thị Bảo Ngọc 31211022130
TP Hồ Chí Minh, ngày 08 tháng 12 năm 2022
Tải tài liệu tại sividoc.com
Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
BẢNG PHÂN CÔNG NHIỆM VỤ
STT Họ và tên MSSV Nhiệm vụ Đánh giá
1 Phan Thị Thảo Nguyên 31211023814 -Chọn bộ dữ
liệu
-Tiến hành
phân lớp và dự
báo
-Tổng hợp kết
quả
100%
2 Huỳnh Ngọc Phương Nghi 31211023584 -Chọn bộ dữ
liệu
-Tổng quan lí
thuyết
-Mô tả dữ liệu
100%
3 Trương Hoàng Bảo Nghi 31211022129 -Tổng quan lí
thuyết
-Tổng hợp kết
quả và kết luận
100%
4 Bùi Yến Nhi 31211024584 -Tổng quan lý
thuyết
- Kết luận
100%
5 Lê Thị Bảo Ngọc 31211022130 -Mô tả dữ liệu
-Tiến hành
phân cụm dữ
liệu
100%
Tải tài liệu tại sividoc.com
Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
MỤC LỤC
CHƯƠNG 1. TỔNG QUAN .............................................................................................1
1.1 Tổng quan về bài toán phân lớp dữ liệu ............................................................1
1.2 Giới thiệu về Python và Phần mềm Orange......................................................1
1.3 Lý Do Chọn Lựa Đề Tài ..........................................................................................7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU ..................................................8
2.1. Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: .....8
2.1.1.Mô hình Logistic Regression ( hồi quy logistic):.............................................7
2.1.2.Mô hình Decision tree ( cây quyết định) :........................................................9
2.1.3. Mô hình Support Vector Machine ..................................................................9
2.1.4. Mô hình Neural Network ...............................................................................11
2.2. Quy trình phân lớp dữ liệu...................................................................................12
2.2.1. Phân cụm dữ liệu ............................................................................................12
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
.....................................................................................................................................13
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả......................14
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả..................15
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu..........17
2.2.2. Phân lớp dữ liệu...........................................................................................18
2.2.2.1. Một số phương pháp phân lớp dữ liệu.......................................................18
Tải tài liệu tại sividoc.com
Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới
.....................................................................................................................................19
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM.........................................................22
3.1 Bộ dữ liệu ................................................................................................................21
3.1.1. Mô tả dữ liệu ...................................................................................................22
3.2. Phân tích và đánh giá............................................................................................24
CHƯƠNG 4. KẾT LUẬN...............................................................................................28
4.1. Các Kết Quả Đạt Được.........................................................................................28
4.2. Những hạn chế và phát triển................................................................................28
LỜI CẢM ƠN ..................................................................................................................28
TÀI LIỆU THAM KHẢO...............................................................................................29
Tải tài liệu tại sividoc.com
1
CHƯƠNG 1. TỔNG QUAN
1.1 Tổng quan về bài toán phân lớp dữ liệu
Định nghĩa phân lớp dữ liệu: Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và
những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó
trong việc phân lớp dữ liệu mới.
Quá trình phân lớp dữ liệu: gồm 2 bước
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn của mô hình)
Bước 2.2: Phân lớp dữ liệu mới
1.2 Giới thiệu về Python và Phần mềm Orange
Python là một ngôn ngữ lập trình mã nguồn mở, đa nền tảng, dễ học dễ đọc. Python có
cấu trúc rõ ràng, thuận tiện cho người mới học lập trình. Vì thế nó được sử dụng rộng rãi.
Python là ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác nhau như: mệnh lệnh, lập trình
hướng đối tượng, lập trình hàm… được dùng đa lĩnh vực: web, 3D CAD…
 Python được thông dịch: Python được trình thông dịch xử lý trong thời gian chạy.
Bạn không cần phải biên dịch chương trình của mình trước khi thực hiện nó. Nó
tương tự với PERL và PHP.
 Python là tương tác (Interactive): Tại một dấu nhắc Python (command line) bạn có
thể tươngtác trực tiếp với trình thông dịch để viết chương trình Python.
 Python là hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng hoặc
kỹ thuật lập trình đóng gói mã trong các đối tượng.
 Python là ngôn ngữ của người mới bắt đầu: Python là ngôn ngữ tuyệt vời cho các
lập trình viên mới bắt đầu và hỗ trợ phát triển một loạt các ứng dụng từ xử lý văn
bản đơn giản, lập trình web,cho đến lập trình game.
Tải tài liệu tại sividoc.com
2
*Các tính năng của Python bao gồm:
“- Phát triển trang web (phía máy chủ).
- Phát triển phần mềm
- Kịch bản hệ thống.
- Python có thể được sử dụng cùng với các phần mềm nhằm tạo quy trình công việc.
- Python có thể kết nối với các hệ thống cơ sở dữ liệu.”
- Python có thể được sử dụng để xử lý dữ liệu lớn và thực hiện các phép toán phức tạp.
- Lập trình GUI: Python hỗ trợ các ứng dụng GUI có thể được tạo và chuyển sang nhiều
cuộcgọi hệ thống, thư viện và hệ thống cửa sổ, như Windows MFC, Macintosh và hệ
thống XWindow của Unix.
- Portable: Python có thể chạy trên nhiều nền tảng phần cứng khác nhau và có cùng giao
diệntrên tất cả các nền tảng.
Tổng quan về phần mềm Orange:
Orange là một bộ công cụ trực quan hóa dữ liệu, học máy và khai thác dữ liệu mã nguồn
mở. Đượcra đời nhằm hỗ trợ con người trong việc nghiên cứu và giải quyết những vấn đề
khó nhằn về lĩnh vực khai phá dữ liệu (Data mining) và học máy (Marchine learning).
Tải tài liệu tại sividoc.com
3
Vì độ phổ biến về việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy
thông minh, đơn giản, lập trinh bằng Python với giao diện trực quan và tương tác dễ
dàng, phần mềm Orange giúp người dùng phân tích những dữ liệu từ đơn giản đến phức
tạp. Bên cạnh đó, đồ họa đẹp mắt, thú vị còn giúp việc khai thác dữ liệu và học máy dễ
dàng hơn cho cả chuyên gia và người dùng mới.
Các chức năng cơ bản được cung cấp có thể kể đến như: đọc dữ liệu, hiển thị dữ liệu
dạng bảng,so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu, lựa chọn
thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, ,….
Data: các công cụ để nhập dữ liệu, lọc dữ liệu, lấy mẫu, quy nạp, thao tác tính năng và
lựa chọn tính năng
Visualize: các công cụ để trực quan hóa thông thường (biểu đồ hộp, biểu đồ, biểu đồ
phân tán) và trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng).
Tải tài liệu tại sividoc.com
4
Model: các hàm máy học (marchine learning) phân lớp dữ liệu với Tree, Logictis,
Regression, SVM,…
Tải tài liệu tại sividoc.com
5
Evaluate: xác thực chéo, quy trình dựa trên lấy mẫu, ước tính độ tin cậy và tính điểm của
các phương pháp dự đoán
Unsupervised: các thuật toán học tập không giám sát để phân cụm (k-means, phân cụm
theo cấp bậc) và kỹ thuật chiếu dữ liệu (chia tỷ lệ đa chiều, phân tích thành phần chính,
phân tích tương ứng).
Tải tài liệu tại sividoc.com
6
Add ons: mở rộng các chức năng nâng cao xử lý dữ liệu lớn với Spank, xử lý ảnh với
Deep learing, xử lý văn bản, phân tích mạng xã hội,… cũng là điểm ưu việt hơn so với
các phần mềm khai phá dữ liệu khác.
1.3 Lý Do Chọn Lựa Đề Tài
Trong 10 năm trở lại đây, khoa học dữ liệu đã có những đóng góp tạo ra nhiều thành
tựu to lớn cho các doanh nghiệp. Thúc đẩy quá trình công nghiệp hóa hiện đại hóa đưa
các doanh nghiệp ngày một phát triển, hoạt động hiệu quả hơn, năng suất hơn.
Ở Việt Nam hiện nay các doanh nghiệp chú trọng hơn trong việc xử lí thông tin dữ
liệu vì nó là một phần quan trọng đưa doanh nghiệp dần hội nhập với thị trường quốc tế-
là nguồn tài nguyên vô hạn cho các doanh nghiệp. Điều đó cho thấy khoa học dữ liệu đã
có những tác động nhất định đến nền kinh tế thị trường hiện nay.
Chúng em đã tìm được bộ dữ liệu của một ngân hàng và xử lý thông tin thông qua
phần mềm orange để nhìn nhận và tìm ra hướng phát triển. Thông qua việc gọi điện thoại
khảo sát của ngân hàng để tiếp thị và dự đoán việc thành công rằng liệu khách hàng có
đăng ký tiền gửi ngân hàng có kỳ hạn không. Dưới đây chúng em xin làm rõ vấn đề.
Tải tài liệu tại sividoc.com
7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU
2.1.Các mô hình phân lớp dữ liệu
Mô hình phân lớp trên phần mềm Orange:
2.1.1.Mô hình Logistic Regression (hồi quy logistic):
“Thuật toán phân loại hồi quy logistic với chính quy hóa LASSO (LI) hoặc sườn núi
(L.2).
Đầu vào
Dữ liệu: dữ liệu đầu vào
Tiền xử lý: phương pháp tiền xử lý
Đầu ra Học viện: thuật toán học hồi quy logistic
Mô hình: mô hình được đài tạo Các hệ số: hệ số hồi quy logistic”
Tải tài liệu tại sividoc.com
8
Hồi quy logistic học mô hình hồi quy logistic từ dữ liệu. Nó chỉ hoạt động cho các nhiệm
vụ phân loại:
1.Một cái “tên mà theo đó người học xuất hiện trong các vật dụng khác”. Tên mặc định là
hồi quy Logistic Regression.
2.Quy tắc loại (hoặc 1.1 hoặc 1.2). Đặt cường dộ chi phí (mặc định là C=1).
3.Nhấn “cam kết áp dụng để cam kết thay đổi. Nếu áp dụng (tự động được đánh dấu, các
thay đổi sẽ được)”
4.Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay
đổi sẽ được tự động.
Tải tài liệu tại sividoc.com
9
2.1.2. Mô hình Decision tree (cây quyết định):
1. Name: Người học có thể được đặt tên theo ý muốn. Tên mặc định là Tree
2. Thông số:
- Induce binary tree: xây dựng cây nhị phân (chia thành hai nút con)
- -Min. number of instances in leaves (số tối thiểu các ví dụ lá): “nếu được chọn,
thuật toán sẽ không bao giờ đặt số nút ít hơn số dữ liệu tham khảo”
- Do not split subsets smaller than (Không phân chia các tập hợp nhỏ hơn): “cấm
thuật toán phân chia các nút có ít hơn số lượng ví dụ đã cho.”
- Limit the maximal tree depth (Giới hạn độ sâu cây tối đa): “giới hạn độ sâu của
cây phân loại ở số cấp nút được chỉ định”
3.Tạo một báo cáo
4. Nhấp vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay
đổi sẽ được tự động.
2.1.3. Mô hình Support Vector Machine
Tải tài liệu tại sividoc.com
10
“Đầu vào
Dữ liệu: dữ liệu đầu vào
Tiền xử lý: phương pháp tiền xử lý
Đầu ra
Learner: thuật toán học hồi quy tuyến tính”
Mô hình: mô hình được đào tạo Vecto hỗ trợ: thể hiện được sử dụng làm vecto hỗ trợ.
Máy vecto hỗ trợ (SVM) là một kỹ thuật máy học phân tách không gian thuộc tính với
một siêu phẳng, do đó tối đa hóa các điểm dữ liệu của tất cả các lớp. Kỹ thuật này
thường mang lại kết quả dự đoán tối cao.
Đối với hồi quy, SVM thực hiện hồi quy tuyến tính trong không gian tính năng với
kích thước cao bằng cách sử dụng ε-insensitive. Độ chính xác ước tính của nó phụ
thuộc tốt vào các tham số C, ε và kernel.
“Hoạt động cho cả nhiệm vụ phân loại và hồi quy.”
1. “Name: đặt tên bất kì cho mô hình. Tên mặc định là SVM.”
2. “SVM Type với cài đặt kiểm tra lỗi. SVM và v-SVM dựa trên sự giảm thiểu khác
nhau của hàm lỗi. Ở bên phải, bạn có thể đặt giới hạn lỗi kiểm tra:”
SVM:
Tải tài liệu tại sividoc.com
11
“Cost (C): giới hạn bất lợi cho sự thiệt hại và áp dụng cho các nhiệm vụ phân loại và
hồi quy.”
“ε: một tham số cho mô hình epsilon-SVR, áp dụng cho hồi quy”. Xác định khoảng
cách từ các giá trị thực trong đó không có bất lợi nào được liên kết với các giá trị dự
đoán.
ν-SVM:
Cost: giới hạn bất lợi cho sự thiệt hại và chỉ áp dụng cho các nhiệm vụ hồi quy.
“ν: một tham số cho mô hình ν-SVR, áp dụng cho việc phân loại và hồi quy”. Giới
hạn trêncủa phần training error và giới hạn dưới của phần vectơ hỗ trợ.
3. Kernel là một hàm biến đổi không gian thuộc tính thành “không gian tính năng mới
để phù hợp” với siêu phẳng có biên độ tối đa, do đó cho phépthuật toán tạo mô hình
với tuyến tính, đa thức, RBF và Sigmoid kernel. Các hàm chỉ định kernel được trình
bày khi chọn chúng và các hằng số liên quan là:
g: hằng số gamma trong hàm kernel “(giá trị được đề xuất là 1/k, trong đó k là số
lượng thuộc tính, nhưng vì có thể không có training set nào được cung cấp cho
widget, mặc định là 0 và người dùng phải tự thiết lập lựa chọn)”
“c: hằng số c0 trong hàm kernel” (mặc định 0)
“d: cho mức độ của hạt nhân” (mặc định 3)
4. “Đặt độ lệch cho phép so với giá trị mong đợi trong” Numerical Tolerance. Đánh
dấu tick vào ô cạnh Iteration Limit để đặt số lần lặp tối đa dược phép.
5. Tạo một báo cáo.
6. Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các
thay đổi sẽ được tự động.
2.1.4. Mô hình Neural Network
Một thuật toán perceptron (MLP) nhiều lớp với backpropagation.
Đầu vào
 Dữ liệu: tập dữ liệu đầu vào
 Tiền xử lý: phương pháp tiền xử lý
Tải tài liệu tại sividoc.com
12
Kết quả
 Người học: thuật toán học perception nhiều lớp
 Mô hình: mô hình được đào tạo
Tiện ích Neural Network sử dụng thuật toán Perceptron nhiều lớp của sklearn có thể học
các mô hình phi tuyến tính cũng như tuyến tính.
2.2. Quy trình phân lớp dữ liệu
2.2.1. Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc
điểm tương đồng vào những cụm hoặc nhóm tương ứng.
Trong đó:
- Các đối tượng có các tính chất tương đồng thuộc chung một cụm
- Các đối tượng có các tính chất khác nhau thuộc cụm hoặc nhóm khác nhau
Tải tài liệu tại sividoc.com
13
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
a) Phân cụm phân cấp (Hierarchical clustering)
Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
- Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
 Similarity matrix là số đo mức giống nhau của hai đối tượng.
 Dissimilarity matrix là số đo mức độ khác nhau của hai đối tượng.
- Độ đo khoảng cách giữa các cụm (single link, complete link…)
Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện
dừng.
Các phương pháp điển hình: Agnes, Diana…
b) Phương pháp phân cụm phân cấp Diana
Theo chiến lược top down:
- Bắt đầu với 1 cụm gồm tất cả phần tử
- Ở mỗi bước, chia cụm ban đầu thành 2 cụm:
 khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm,
hoặc khoảng cách trung bình.
- Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần
tử là 1 cụm.
Tải tài liệu tại sividoc.com
14
- Kết quả phát sinh cây phân cấp (dendrogram)
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả
a. Dùng phần mềm Orange để phân cụm phân cấp bằng phương pháp Diana
- File input: Sử dụng dữ liệu cho dự án, bỏ qua (skip) biến mục tiêu và subscriber
- Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (n=2))
- Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link và
chia làm 2 cụm để được chỉ số Sihouette Cluster dương nhiều nhất.
b. Kết quả
Số cụm tốt nhất là 2 (vì chia làm 2 cụm để được chỉ số Sihouette Cluster dương
nhiều nhất)
Phân cụm bộ dữ liệu của dự án (5000 mẫu) thành 2 cụm gồm C1 (195 mẫu) và C2
(4805 mẫu).
Phân cụm phân hoạch bằng thuật toán K-means
Tải tài liệu tại sividoc.com
15
a. Phân cụm phân hoạch:
Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn
một cụm.
Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm)
sao cho:
- Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong
cụm có sự tương tự nhau.
- Mỗi cụm có ít nhất 1 phần tử.
Thuật toán điển hình: K-means, K-mediods, Fuzzy K-means
b. Thuật toán K-means:
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Tư tưởng chính:
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (d là số
thuộc tính của đối tượng)
- Bước 1: chọn k điểm bất kì làm các trung tâm ban đầu của k cụm
- Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân
chia trước nó thì ta dừng thuật toán
- Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất
cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
- Bước 4: Quay lại bước 2
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả
a) Dùng phần mềm Orange để phân cụm phân hoạch bằng thuật toán K-means và
chọn số cụm tốt nhất:
Tải tài liệu tại sividoc.com
16
- File input: Bộ dữ liệu sử dụng cho dự án nhưng bỏ qua (skip) biến mục tiêu
là subscribed.
- K-means: chạy phân cụm từ 2-5 cụm, so sánh Sihouette Scores được tính
ra, chọn chia thành 3 cụm (vì 3 là số cụm có Sihouette Scores cao nhất)
b)Kết quả:
Số cụm tốt nhất là 3 (vì 3 là số cụm có Sihouette Scores cao nhất)
Phân cụm bộ dữ liệu của dự án (50000 mẫu) thành 3 cụm gồm C1 (4129 mẫu), C2
(677 mẫu) và C3 (194 mẫu)
Sihouette Scores: 0.723
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu
Đánh giá ngoài (external validation)
So sánh với kết quả mẫu (biến mục tiêu):
- Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
Tải tài liệu tại sividoc.com
17
(Bảng 1: Bảng so sánh kết quả phân cụm bằng phương pháp Diana với
nhãn của dữ liệu)
- Phân cụm phân hoạch bằng thuật toán K-means
(Bảng 2: Bảng so sánh kết quả phân cụm bằng thuật toán K-means với
nhãn của dữ liệu)
Nhận xét, chọn mô hình phân cụm tối ưu
Sau khi so sánh ngoài, ta nhận thấy rằng
- Phương pháp phân cụm phân cấp (bằng Diana) chỉ phân dữ liệu làm 2
cụm và trong đó cụm 2 (C2) có kết quả so sánh trùng với cụm 3 (C3’)
của phân cụm phân hoạch (K-means)
- Phương pháp phân cụm phân hoạch (bằng K-means) phân dữ liệu thành
3 cụm, trong đó có cụm 2 (C2’) và cụm 3 (C3’) chứa Yes ở tỷ trọng cao.
Như vậy có thể thấy, phương pháp phân cụm phân hoạch (bằng K-means) có
hiệu quả để phân tích thực tiễn hơn phương pháp còn lại.
2.2.2. Phân lớp dữ liệu
2.2.2.1.Một số phương pháp phân lớp dữ liệu
a) Phương pháp hồi quy Logistic (Logistic Regression)
Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu
diễn dưới dạng vector)
Tải tài liệu tại sividoc.com
18
b)Phương pháp Cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là đồ thị quyết định cùng các kết quả khả
dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân
loại và tổng quát hóa tập dữ liệu cho trước.
c)Phương pháp SVM (Support Vector Machine)
SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những
các vector trong không gian và phân loại chúng vào các lớp dữ liệu khác nnhau
bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân
cách các lớp dữ liệu.
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng
cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới
a) Xây dựng mô hình (huấn luyện) và đánh giá mô hình (kiểm tra tính đúng
đắn của mô hình)
Tải tài liệu tại sividoc.com
19
Dùng phần mềm Orange để xây dựng mô hình phân lớp bằng phương pháp Hồi
quy Logistic (Loogistic Regression), Cây quyết định (Decision Tree) và SVM
(Support Vector Machine), đánh giá mô hình và chọn phương pháp tốt nhất.
- File input: Bộ dữ liệu sử dụng cho dự án (5000 mẫu), chọn biến mục tiêu
(target) là subcrbed:
- Test and Score: xem các chỉ số từ các phương pháp (quan tâm chỉ số AUC)
- Confusion Matrix: xem ma trận nhầm lẫn từ các phương pháp (quan tâm
tổng số nhầm lẫn)
Tải tài liệu tại sividoc.com
20
- Như vậy, phương pháp hồi quy Logistic là tối ưu nhất vì có chỉ số AUC
cao nhất (gần 1 nhất) và có độ nhầm lẫn ít nhất trong 3 phương pháp.
b) Phân lớp dữ liệu mới
“Dùng phần mềm Orange phân lớp cho bộ dữ liệu 500 mẫu” (trích ra ỡ mục
1.2.)
- File “Bank Marketing (5000 mẫu)” input: Bộ dữ liệu sử dụng cho dự án
(5000 mẫu), chọn biến mục tiêu (target) là subscribed:
- File “File 500 mẫu skip nhãn” input: Bộ dữ liệu 500 mẫu đã trích ra ở mục
1.2. nhưng bỏ qua (skip) biến mục tiêu là subscribed:
Tải tài liệu tại sividoc.com
21
Kết quả phân lớp dữ liệu mới:
(Bảng 3: Bảng ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu)
Vậy mô hình phân lớp dữ liệu mới có độ chính xác là: (26+415)/500=0.882=88.2%
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM
3.1 Bộ dữ liệu
Bộ dữ liệu sử dụng: Bộ dữ liệu “Bank Marketing”
Bộ dữ liệu này là kết quả thu được từ chiến dịch marketing của một ngân hàng
lớn tại Bồ Đào Nha, họ thu thập và tính toán đưa ra kết quả bởi các cuộc gọi điện
thoại đã thực hiện
Khảo sát này được thực hiện với mục tiêu tìm hiểu xem mong muốn của khách
hàng. Thông qua 2 phương án: có đăng kí (yes) hay không đăng kí (no) đối với sản
phẩm của ngân hàng. Và sản pẩm được nêu đến đó là đăng kí gửi tiền có kì hạn.
Giải quyết vần đề số mẫu quá lớn
- Do kích thước bộ dữ liệu “Bank Marjeting” quá lớn (41188 mẫu), chính vì
vậy sẽ không phân cụm được, nhóm quyết định chọn ra 5000 mẫu để sữ dụng cho
dự án
- Vì sau khi cho máy học để phân lớp thì cần dữ liệu mới để đánh giá hiệu
quả mô hình, nên nhóm quyết định trích 500 mẫu không trùng với 5000 mẫu dùng
cho dự án.
Như vậy, nhóm sẽ trích ngẫu nhiên 5000 mẫu từ bộ dữ liệu lớn “Bank Marketing”
(41188 mẫu) và chọn 5000 mẫu đầu tiên để dung cho dự án và 500 mẫu phái sau
để dung thực hành phân lớp mới.
Cách chọn mẫu ngẫu nhiên:
Tải tài liệu tại sividoc.com
22
 Dùng phần mềm Orange để chọn ngẫu nhiên:
- File input: Bộ dữ liệu “Bank Marketing” (41188 mẫu)
- Data Sampler: Chọn số lượng chọn mẫu ngẫu nhiên là 5500
- Ở các Data table chọn 5000 mẫu đầu cho bảng dữ liệu dung cho dự án và
500 mẫu sau cùng cho dự liệu dung để phân lớp mới.
3.1.1. Mô tả dữ liệu
Bộ dữ liệu có 5000 mẫu
Bộ dữ liệu gồm 15 biến và 1 biến mục tiêu:
1. Age là tuổi (biến định lượng)
2. Job là nghề nghiệp của khách hàng (biến định tính-admin: quản trị viên, blue
collar: lao động phổ thông, entreprenuer: doanh nhân, housemaid: người giúp
việc, management: nhà quản lý, retired: người về hưu, self-employed: lao động
tự do, services: dịch vụ, student: học sinh, technician: kỹ thuật viên,
unemployed: thất nghiệp, unknown: chưa biết)
3. Marital là tình trạng hôn nhân (là biến định tính - divorced: đã ly hôn, married:
đã kết hôn, single: độc thân, unknown: chưa biết)
Tải tài liệu tại sividoc.com
23
4. Education là trình độ học vấn (biến định tính - basic.4y: 4 năm tiểu học,
basic.6y: 6 năm tiểu học, basic.9y: trung học cơ sở, high school: trung học phổ
thông, illiterate: không đi học, professional course: học nghề, university degree:
bậc đại học, unknown: chưa biết)
5. Default là có tín dụng trong tình trạng nợ không (biến định tính-yes:có,
no:không, unknown: chưa biết)
6. Housing là có khoản vay mua nhà không? (biến định tính-yes: có, no: không,
unknown: chưa biết)
7. Loan là có khoản vay cá nhân không? (biến định tính-yes: có, no: không,
unknown: chưa biết)
8. Contact là hình thức liên lạc (biến định tính - cellular: điện thoại di động,
telephone: điện thoại để bàn)
9. Month là tháng liên lạc cuối cùng trong năm (biến định tính - jan, feb, mar, apr,
may, jun, jul, aug, sep, oct, nov, dec)
10. Day of week là ngày liên lạc cuối cùng trong tuần (biến định tính - mon: thứ 2,
tue: thứ 3, wed: thứ 4, thu: thứ 5, fri: thứ 6)
11. Duration là thời lượng liên lạc cuối cùng (đơn vị: giây) (biến định lượng)
12. Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến
dịch này (biến định lượng)
13. Pdays là số ngày kể từ khi khách hàng được liên lạc lần cuối đến lúc thực hiện
chiến dịch (biến định lượng)
14. Previous là số lần liên lạc đã thực hiện đối với khách hàng trước chiến dịch
(biến định lượng)
15. Poutcome là kết quả của chiến dịch tiếp thị trước đó (biến định tính - failure:
thất bại, nonexistent: không tồn tại, success: thành công)
16. Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa (biến mục tiêu)
(biến định tính-yes: có, no: không)
3.1.2. Làm sạch dữ liệu
Tải tài liệu tại sividoc.com
24
Dữ liệu không có dữ liệu bị thiếu (no missing data)
3.2. Các kết quả thực nghiệm
Dựa vào ma trận nhầm lẫn sau khi phân lớp 500 mẫu dữ liệu mới không trùng với
4999 mẫu sử dụng, ta nhận thấy rằng:
- “Mô hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ
liệu mới.”
Như vậy, có thể đánh giá rằng đây là một mô hình ‘good fitting’ “(là trường hợp
mô hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang
tính tổng quát).”
3.2. Phân tích và đánh giá
Sau khi đánh giá các mô hình phân cụm, nhóm quyết định chọn mô hình phân cụm
phân hoạch bằng thuật toán K-means. Từ kết quả phân cụm, tìm được 3 cụm có tỷ trọng
yes/no (trong biến mục tiêu - subcribed - có đăng kí tiền gửi có kỳ hạn hay không?)
chênh lệch nhiều.
Yes (có) (ở biến mục tiêu-subscribed) tương đương với sự thành công của ngân
hàng khi tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền gửi có kỳ hạn, no (không)
tương đương với sự thất bại trong chiến dịch này.
Phân tích Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của
dữ liệu (Bảng 2), ta thấy rằng:
- Cụm 1 có số lượng mẫu nhiều nhất (4128 mẫu), trong đó Yes (thành công)
chiếm 4.6%, No (thất bại) chiếm 95.4%.
- Cụm 2 có số lượng mẫu là 677 mẫu, trong đó Yes chiếm 36.6%, No chiếm
63.4%
- Cụm 3 có số lượng mẫu ít nhất (194 mẫu), trong đó Yes chiếm 63.4%, No
chiếm 36.6%
Tải tài liệu tại sividoc.com
25
Như vậy, có thể kết luận rằng, những khách hàng có đặc điểm tương đồng với Cụm 3 có
khả năng sẽ đăng kí tiền gửi kỳ hạn nhất (63.4%), tương tự những khách hàng ở Cụm 2
sẽ có khả năng thành công trung bình (36.6%) và Cụm 3 sẽ có khả năng thành công rất
thấp (4.6%)
Sau khi phân tích dữ liệu từ các cụm, nhóm tìm được điểm khác nhau giữa các
cụm như sau:
(Bảng 4: Bảng đặc điểm khác nhau giữa các cụm)
Tải tài liệu tại sividoc.com
26
Dựa vào Bảng đặc điểm khác nhau giữa các cụm (Bảng 4), ta có những kết luận
sau đây:
- 4 yếu tố: duration (thời lượng ngân hàng đã gọi cho khách hàng tính đdến lần
cuối cùng), pdays (số ngày kể từ khi khách hàng được liên hệ lần cuối đến lúc thực hiện
chiến dịch), campaign “(số lần liên lạc được thực hiện đối với khách hàng trong chiến
dịch này) poutcome (kết quả của chiến dịch tiếp thị trước đó)” có tác động đến kết quả
thành công (Yes/No) của chiến dịch.
- Nhóm khách hàng có giá trị “duration” cao (470 – 2420 giây, trung bình: 726
giây) có khả năng thành công trung bình (36.6%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “pdays” là đã từng gọi trước đây, lượng ngày thấp (0
– 21 ngày, trung bình: 6 ngày) có khả năng thành công cao (63.4%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “campaign” thấp (1 – 8 lần, trung bình: 2 lần) có khả
năng thành công cao (63.4%) đối với chiến dịch.
- Nhóm khách hàng có giá trị “poutcome” là “success” có khả năng thành công
cao (63.4%) đối với chiến dịch
Như vậy, nhóm đã tìm được 4 nhân tố quyết định sự thành công khi tiếp thị quađiện thoại
đối với sản phẩm đăng kí tiền gửi có kỳ hạn. Nhân viên ngân hàng có thểdựa vào đó để
phân lọai khách hàng, đánh giá mức độ ưu tiên thực hiện tiếp thị.Nhân viên ngân hàng có
thể sắp xếp thời điểm phù hợp, tân suất chăm sóc kháchhàng tối ưu để đem lại doanh số
tốt nhất.
Tải tài liệu tại sividoc.com
27
“CHƯƠNG 4. KẾT LUẬN”
“4.1. Các Kết Quả Đạt Được”
Sau khi đánh giá các phương pháp phân lớp, nhóm quyết mô hình phân lớp bằng
phương pháp Hồi quy Logistic (Logistic Regression)
Nhóm đã cho chạy thử 500 mẫu dữ liệu mới không trùng với dữ liệu chạy cho dự
án (5000 mẫu), thu được kết quả đáng mong đợi với độ chính xác 88.2% (dựa trên Bảng
ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu (Bảng 3)).
Như vậy, khi ngân hàng có bộ dữ liệu đầy đủ các biến như trên, ngân hàng có thể
dự đoán được kết quả của hoạt động tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền
gửi có kỳ hạn thông qua việc dự đoán giá trị của biến “subscribed” (có đăng kí sản phẩm
tiền gửi có kỳ hạn hay không) là yes/no (có/không) ở mức chính xác chấp nhận được.
4.2. Những hạn chế và phát triển
Hạn chế
- Vẫn chưa thể dự đoán một cách chính xác kết quả của hoạt động tiếp thị
sản phẩm tiền gửi có kỳ hạn ở Ngân hàng.
- Bảng số liệu chưa được chính xác và kiểm nghiệm qua.
Hướng phát triển
- Tập trung toàn bộ hệ thống dựa trên một nền tảng công nghệ thông tin hiện đại, quản lý
các rủi ro có thể xảy ra một cách độc lập.
Tải tài liệu tại sividoc.com
28
- Nắm bắt được tin tức trên thị trường và nhu cầu của khách hàng.
- Nâng cao chất lượng dịch vụ.
LỜI CẢM ƠN
Dưới dự hướng dẫn tận tình của thầy Thái Kim Phụng, đồ án “phân tích dữ liệu phân
hạng tính dụng dựa trên bộ dữ liệu XYZ bằng phần mềm Orange” đã được thực hiện bởi
toàn thể thành viên nhóm. Toàn thể thành viên nhóm xin gửi lời cảm ơn chân thành đến
thầy- giảng viên bộ môn Khoa học dữ liệu của nhóm trong học kì qua.
TÀI LIỆU THAM KHẢO
Tài liệu bộ môn Khoa học dữ liệu, trường Đại học Kinh tế Thành phố Hồ Chí
Minh (UEH), thầy Thái Kim Phụng.
UCI Machine Learning Repository: Data Sets
Phụ lục
Bộ dữ liệu sử dụng: Bank Marketing Data Set, UCI Machine Learning
Repository: Data Sets các file phân tích đi kèm:
- File workflow Orange
- File excel bộ dữ liệu gốc (41188 mẫu)
- File excel bộ dữ liệu dung để nghiên cứu (5000 mẫu)
Tải tài liệu tại sividoc.com
29
- File excel kết quả phân cụm phân cấp (phương pháp Diana) và hân cụm
phân hoạch (thuật toán K-means)
- File excel nghiên cứu kết quả phân cụm bằng thuật toán K-means (mỗi cụm
1 file)
- File excel bộ dữ liệu dung để phân lớp mới (500 mẫu)
- File excel kết quả gắn nhãn ở bộ dữ liệu mới

More Related Content

What's hot

Do an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuDo an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuThiênĐàng CôngDân
 
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà Nang Thu
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhnataliej4
 
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên nataliej4
 
Bài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTITBài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTITNguynMinh294
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinTran Tien
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngNguyễn Danh Thanh
 
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàng
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàngỨng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàng
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàngnataliej4
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinVõ Phúc
 
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...Share Tài Liệu Đại Học
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHan Nguyen
 
Đồ án chương trình quản lý website du lịch
Đồ án chương trình quản lý website du lịchĐồ án chương trình quản lý website du lịch
Đồ án chương trình quản lý website du lịchwem81315
 

What's hot (20)

Do an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuDo an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tu
 
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà
Xây dựng hệ thống quản lý dự án công ty cp tư vấn việt hà
 
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uốngĐề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
 
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
Đề Tài Thiết Kế Phần Mềm Quản Lý Sinh Viên
 
Đề tài: Xây dựng hệ thống thông tin quản lý quầy thuốc tại bệnh viện
Đề tài: Xây dựng hệ thống thông tin quản lý quầy thuốc tại bệnh việnĐề tài: Xây dựng hệ thống thông tin quản lý quầy thuốc tại bệnh viện
Đề tài: Xây dựng hệ thống thông tin quản lý quầy thuốc tại bệnh viện
 
Đề tài: Xây dựng ứng dụng Android đọc báo mạng qua dịch vụ RSS
Đề tài: Xây dựng ứng dụng Android đọc báo mạng qua dịch vụ RSSĐề tài: Xây dựng ứng dụng Android đọc báo mạng qua dịch vụ RSS
Đề tài: Xây dựng ứng dụng Android đọc báo mạng qua dịch vụ RSS
 
Bài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTITBài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTIT
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tin
 
Báo cáo Quản lý dự án phần mềm PTIT
Báo cáo Quản lý dự án phần mềm PTITBáo cáo Quản lý dự án phần mềm PTIT
Báo cáo Quản lý dự án phần mềm PTIT
 
Đề tài: Xây dựng phần mềm quản lý bảo hiểm, HAY, 9đ
Đề tài: Xây dựng phần mềm quản lý bảo hiểm, HAY, 9đĐề tài: Xây dựng phần mềm quản lý bảo hiểm, HAY, 9đ
Đề tài: Xây dựng phần mềm quản lý bảo hiểm, HAY, 9đ
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
 
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàng
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàngỨng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàng
Ứng dụng mô hình CSDL phân tán giải quyết bài toán quản lý bán hàng
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng online
 
Luận văn: Tìm hiểu công nghệ thực tế ảo và ứng dụng, HAY
Luận văn: Tìm hiểu công nghệ thực tế ảo và ứng dụng, HAYLuận văn: Tìm hiểu công nghệ thực tế ảo và ứng dụng, HAY
Luận văn: Tìm hiểu công nghệ thực tế ảo và ứng dụng, HAY
 
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý ĐiểmPhân Tích Thiết Kế Hệ Thống Thông Tin -  Quản Lý Điểm
Phân Tích Thiết Kế Hệ Thống Thông Tin - Quản Lý Điểm
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
Đồ án chương trình quản lý website du lịch
Đồ án chương trình quản lý website du lịchĐồ án chương trình quản lý website du lịch
Đồ án chương trình quản lý website du lịch
 

Similar to Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx

Phân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhạm Trung Đức
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...nataliej4
 
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...nataliej4
 
Đồ án trang web bán văn phòng phẩm
Đồ án trang web bán văn phòng phẩmĐồ án trang web bán văn phòng phẩm
Đồ án trang web bán văn phòng phẩmNguynMinh294
 
Ql du an phan mem tren web
Ql du an phan mem tren webQl du an phan mem tren web
Ql du an phan mem tren webVcoi Vit
 
Quan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webQuan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webViet Nam
 
Quan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webQuan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webDuy Vọng
 
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdf
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdfNghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdf
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdfHanaTiti
 
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...jackjohn45
 
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdf
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdfĐảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdf
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdfNuioKila
 
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdfNuioKila
 

Similar to Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx (20)

Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOTĐề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
 
Đề tài: Xây dựng website giới thiệu cho sản phẩm phần mềm, 9đ
Đề tài: Xây dựng website giới thiệu cho sản phẩm phần mềm, 9đĐề tài: Xây dựng website giới thiệu cho sản phẩm phần mềm, 9đ
Đề tài: Xây dựng website giới thiệu cho sản phẩm phần mềm, 9đ
 
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HAY
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HAYĐề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HAY
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HAY
 
Phân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tập
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
 
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
 
Đồ án trang web bán văn phòng phẩm
Đồ án trang web bán văn phòng phẩmĐồ án trang web bán văn phòng phẩm
Đồ án trang web bán văn phòng phẩm
 
Đề tài: Quản lý thu tiền sử dụng Internet, HAY, 9đ
Đề tài: Quản lý thu tiền sử dụng Internet, HAY, 9đĐề tài: Quản lý thu tiền sử dụng Internet, HAY, 9đ
Đề tài: Quản lý thu tiền sử dụng Internet, HAY, 9đ
 
Ql du an phan mem tren web
Ql du an phan mem tren webQl du an phan mem tren web
Ql du an phan mem tren web
 
Quan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webQuan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_web
 
Quan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_webQuan ly du_an_phan_mem_tren_web
Quan ly du_an_phan_mem_tren_web
 
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdf
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdfNghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdf
Nghiên cứu phát triển cổng thông tin điện tử cho doanh nghiệp.pdf
 
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...
Đề tài: Chương trình đào tạo trình độ đại học, HAY - Gửi miễn phí qua zalo=> ...
 
Đồ án xây dựng hệ thống mạng LAN cho doanh nghiệp.doc
Đồ án xây dựng hệ thống mạng LAN cho doanh nghiệp.docĐồ án xây dựng hệ thống mạng LAN cho doanh nghiệp.doc
Đồ án xây dựng hệ thống mạng LAN cho doanh nghiệp.doc
 
Kiểm chứng các chương trình phần mềm hướng khía cạnh, HAY
Kiểm chứng các chương trình phần mềm hướng khía cạnh, HAYKiểm chứng các chương trình phần mềm hướng khía cạnh, HAY
Kiểm chứng các chương trình phần mềm hướng khía cạnh, HAY
 
Xây Dựng Website Giới Thiệu Sản Phẩm Phần Mềm.doc
Xây Dựng Website Giới Thiệu Sản Phẩm Phần Mềm.docXây Dựng Website Giới Thiệu Sản Phẩm Phần Mềm.doc
Xây Dựng Website Giới Thiệu Sản Phẩm Phần Mềm.doc
 
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
 
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdf
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdfĐảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdf
Đảm bảo công bằng trong các ứng dụng cộng tác ngang hàng.pdf
 
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf
[123doc] - dam-bao-cong-bang-trong-cac-ung-dung-cong-tac-ngang-hang.pdf
 
Đề tài: Chương trình quản lý bán hàng theo chuỗi cung cấp, HAY
Đề tài: Chương trình quản lý bán hàng theo chuỗi cung cấp, HAYĐề tài: Chương trình quản lý bán hàng theo chuỗi cung cấp, HAY
Đề tài: Chương trình quản lý bán hàng theo chuỗi cung cấp, HAY
 

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149 (20)

Ảnh Hưởng Của Marketing Quan Hệ Đến Lòng Trung Thành Của Khách Hàng.Tình Huốn...
Ảnh Hưởng Của Marketing Quan Hệ Đến Lòng Trung Thành Của Khách Hàng.Tình Huốn...Ảnh Hưởng Của Marketing Quan Hệ Đến Lòng Trung Thành Của Khách Hàng.Tình Huốn...
Ảnh Hưởng Của Marketing Quan Hệ Đến Lòng Trung Thành Của Khách Hàng.Tình Huốn...
 
Phát triển nguồn nhân lực tại Uỷ ban nhân dân huyện Trà Bồng, tỉnh Quảng Ngãi...
Phát triển nguồn nhân lực tại Uỷ ban nhân dân huyện Trà Bồng, tỉnh Quảng Ngãi...Phát triển nguồn nhân lực tại Uỷ ban nhân dân huyện Trà Bồng, tỉnh Quảng Ngãi...
Phát triển nguồn nhân lực tại Uỷ ban nhân dân huyện Trà Bồng, tỉnh Quảng Ngãi...
 
Báo cáo tốt Nghiệp tài chính hợp nhất tại tổng công ty Indochina gol...
Báo cáo tốt Nghiệp  tài chính hợp nhất tại tổng công ty Indochina gol...Báo cáo tốt Nghiệp  tài chính hợp nhất tại tổng công ty Indochina gol...
Báo cáo tốt Nghiệp tài chính hợp nhất tại tổng công ty Indochina gol...
 
Tạo động lực thúc đẩy nhân viên làm việc tại ngân hàng TMCP Ngoại Thương Việt...
Tạo động lực thúc đẩy nhân viên làm việc tại ngân hàng TMCP Ngoại Thương Việt...Tạo động lực thúc đẩy nhân viên làm việc tại ngân hàng TMCP Ngoại Thương Việt...
Tạo động lực thúc đẩy nhân viên làm việc tại ngân hàng TMCP Ngoại Thương Việt...
 
Phát triển công nghiệp trên địa bàn Thành phố Tam Kỳ, Tỉnh Quảng Na...
Phát triển công nghiệp trên địa bàn Thành phố Tam Kỳ, Tỉnh Quảng Na...Phát triển công nghiệp trên địa bàn Thành phố Tam Kỳ, Tỉnh Quảng Na...
Phát triển công nghiệp trên địa bàn Thành phố Tam Kỳ, Tỉnh Quảng Na...
 
Giải pháp phát triển cho vay xuất nhập khẩu tại ngân hàng NN&PTNN ch...
Giải pháp phát triển cho vay xuất nhập khẩu tại ngân hàng NN&PTNN ch...Giải pháp phát triển cho vay xuất nhập khẩu tại ngân hàng NN&PTNN ch...
Giải pháp phát triển cho vay xuất nhập khẩu tại ngân hàng NN&PTNN ch...
 
Hoàn thiện công tác lập báo cáo tài chính hợp nhất tại tổng công ...
Hoàn thiện công tác lập báo cáo tài chính hợp nhất tại tổng công ...Hoàn thiện công tác lập báo cáo tài chính hợp nhất tại tổng công ...
Hoàn thiện công tác lập báo cáo tài chính hợp nhất tại tổng công ...
 
Luận Văn Thạc Sĩ Quản trị thành tích nhân viên tại Cục Hải quan TP Đà Nẵng.doc
Luận Văn Thạc Sĩ  Quản trị thành tích nhân viên tại Cục Hải quan TP Đà Nẵng.docLuận Văn Thạc Sĩ  Quản trị thành tích nhân viên tại Cục Hải quan TP Đà Nẵng.doc
Luận Văn Thạc Sĩ Quản trị thành tích nhân viên tại Cục Hải quan TP Đà Nẵng.doc
 
Hoàn thiện công tác quản lý thuế thu nhập cá nhân tại cục thuế Tỉ...
Hoàn thiện công tác quản lý thuế thu nhập cá nhân tại cục thuế Tỉ...Hoàn thiện công tác quản lý thuế thu nhập cá nhân tại cục thuế Tỉ...
Hoàn thiện công tác quản lý thuế thu nhập cá nhân tại cục thuế Tỉ...
 
Đề Tài Phát triển bền vững nông nghiệp Huyện Ba Tơ, Tỉnh Quảng Ngãi....
Đề Tài Phát triển bền vững nông nghiệp Huyện Ba Tơ, Tỉnh Quảng Ngãi....Đề Tài Phát triển bền vững nông nghiệp Huyện Ba Tơ, Tỉnh Quảng Ngãi....
Đề Tài Phát triển bền vững nông nghiệp Huyện Ba Tơ, Tỉnh Quảng Ngãi....
 
Hoàn thiện công tác bảo trợ xã hội trên địa bàn huyện Phong Điền, tỉnh Thừa T...
Hoàn thiện công tác bảo trợ xã hội trên địa bàn huyện Phong Điền, tỉnh Thừa T...Hoàn thiện công tác bảo trợ xã hội trên địa bàn huyện Phong Điền, tỉnh Thừa T...
Hoàn thiện công tác bảo trợ xã hội trên địa bàn huyện Phong Điền, tỉnh Thừa T...
 
Đề Tài Luận VănPhát triển sản phẩm du lịch tại thành phố Đà Nẵng.doc
Đề Tài Luận VănPhát triển sản phẩm du lịch tại thành phố Đà Nẵng.docĐề Tài Luận VănPhát triển sản phẩm du lịch tại thành phố Đà Nẵng.doc
Đề Tài Luận VănPhát triển sản phẩm du lịch tại thành phố Đà Nẵng.doc
 
Đào tạo nghề cho lao động thuộc diện thu hồi đất trên địa bàn Thàn...
Đào tạo nghề cho lao động thuộc diện thu hồi đất trên địa bàn Thàn...Đào tạo nghề cho lao động thuộc diện thu hồi đất trên địa bàn Thàn...
Đào tạo nghề cho lao động thuộc diện thu hồi đất trên địa bàn Thàn...
 
Tóm Tắt Luận Văn Thạc Sĩ Quản Trị Kinh Doanh Xây dựng chính sách Marketing tạ...
Tóm Tắt Luận Văn Thạc Sĩ Quản Trị Kinh Doanh Xây dựng chính sách Marketing tạ...Tóm Tắt Luận Văn Thạc Sĩ Quản Trị Kinh Doanh Xây dựng chính sách Marketing tạ...
Tóm Tắt Luận Văn Thạc Sĩ Quản Trị Kinh Doanh Xây dựng chính sách Marketing tạ...
 
Đề Tài Nghiên cứu rủi ro cảm nhận đối với mua hàng thời trang trực tuyến.docx
Đề Tài Nghiên cứu rủi ro cảm nhận đối với mua hàng thời trang trực tuyến.docxĐề Tài Nghiên cứu rủi ro cảm nhận đối với mua hàng thời trang trực tuyến.docx
Đề Tài Nghiên cứu rủi ro cảm nhận đối với mua hàng thời trang trực tuyến.docx
 
Giải pháp nâng cao động lực thúc đẩy người lao động tại công ty khai...
Giải pháp nâng cao động lực thúc đẩy người lao động tại công ty khai...Giải pháp nâng cao động lực thúc đẩy người lao động tại công ty khai...
Giải pháp nâng cao động lực thúc đẩy người lao động tại công ty khai...
 
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
 
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
Giải pháp phát triển dịch vụ ngân hàng điện tử tại ngân hàng đầu ...
 
Quản trị quan hệ khách hàng tại Chi nhánh Viettel Đà Nẵng – Tập đoàn Viễn thô...
Quản trị quan hệ khách hàng tại Chi nhánh Viettel Đà Nẵng – Tập đoàn Viễn thô...Quản trị quan hệ khách hàng tại Chi nhánh Viettel Đà Nẵng – Tập đoàn Viễn thô...
Quản trị quan hệ khách hàng tại Chi nhánh Viettel Đà Nẵng – Tập đoàn Viễn thô...
 
Đề Tài Đánh giá thành tích đội ngũ giảng viên trường Đại Học Phạm ...
Đề Tài Đánh giá thành tích đội ngũ giảng viên trường Đại Học Phạm ...Đề Tài Đánh giá thành tích đội ngũ giảng viên trường Đại Học Phạm ...
Đề Tài Đánh giá thành tích đội ngũ giảng viên trường Đại Học Phạm ...
 

Recently uploaded

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )lamdapoet123
 
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...Nguyen Thanh Tu Collection
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...ThunTrn734461
 
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoabài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa2353020138
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếngTonH1
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHThaoPhuong154017
 
200 câu hỏi trắc nghiệm ôn tập PLDC.pdf
200 câu hỏi trắc nghiệm ôn tập  PLDC.pdf200 câu hỏi trắc nghiệm ôn tập  PLDC.pdf
200 câu hỏi trắc nghiệm ôn tập PLDC.pdfdong92356
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptxCHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx22146042
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếngTonH1
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Học viện Kstudy
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...Nguyen Thanh Tu Collection
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxnhungdt08102004
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 
cuộc cải cách của Lê Thánh Tông - Sử 11
cuộc cải cách của Lê Thánh Tông -  Sử 11cuộc cải cách của Lê Thánh Tông -  Sử 11
cuộc cải cách của Lê Thánh Tông - Sử 11zedgaming208
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Nguyen Thanh Tu Collection
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Nguyen Thanh Tu Collection
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxendkay31
 
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...Nguyen Thanh Tu Collection
 

Recently uploaded (20)

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )
Bài giảng về vật liệu ceramic ( sứ vệ sinh, gạch ốp lát )
 
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
 
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoabài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tế
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
 
200 câu hỏi trắc nghiệm ôn tập PLDC.pdf
200 câu hỏi trắc nghiệm ôn tập  PLDC.pdf200 câu hỏi trắc nghiệm ôn tập  PLDC.pdf
200 câu hỏi trắc nghiệm ôn tập PLDC.pdf
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptxCHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx
CHƯƠNG VII LUẬT DÂN SỰ (2) Pháp luật đại cương.pptx
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
cuộc cải cách của Lê Thánh Tông - Sử 11
cuộc cải cách của Lê Thánh Tông -  Sử 11cuộc cải cách của Lê Thánh Tông -  Sử 11
cuộc cải cách của Lê Thánh Tông - Sử 11
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
 
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
 

Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx

  • 1. Tải tài liệu tại sividoc.com Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA KẾ TOÁN ĐỒ ÁN MÔN HỌC BỘ MÔN:KHOA HỌC HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE Giảng viên: TS. Thái Kim Phụng Mã lớp học phần: 22C1INF50905972 Chuyên ngành: Kiểm toán – Khóa: 47 Nhóm sinh viên Phan Thị Thảo Nguyên 31211023814 Huỳnh Ngọc Phương Nghi 31211023584 Trương Hoàng Bảo Nghi 31211022129 Bùi Yến Nhi 31211024584 Lê Thị Bảo Ngọc 31211022130 TP Hồ Chí Minh, ngày 08 tháng 12 năm 2022
  • 2. Tải tài liệu tại sividoc.com Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM BẢNG PHÂN CÔNG NHIỆM VỤ STT Họ và tên MSSV Nhiệm vụ Đánh giá 1 Phan Thị Thảo Nguyên 31211023814 -Chọn bộ dữ liệu -Tiến hành phân lớp và dự báo -Tổng hợp kết quả 100% 2 Huỳnh Ngọc Phương Nghi 31211023584 -Chọn bộ dữ liệu -Tổng quan lí thuyết -Mô tả dữ liệu 100% 3 Trương Hoàng Bảo Nghi 31211022129 -Tổng quan lí thuyết -Tổng hợp kết quả và kết luận 100% 4 Bùi Yến Nhi 31211024584 -Tổng quan lý thuyết - Kết luận 100% 5 Lê Thị Bảo Ngọc 31211022130 -Mô tả dữ liệu -Tiến hành phân cụm dữ liệu 100%
  • 3. Tải tài liệu tại sividoc.com Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM MỤC LỤC CHƯƠNG 1. TỔNG QUAN .............................................................................................1 1.1 Tổng quan về bài toán phân lớp dữ liệu ............................................................1 1.2 Giới thiệu về Python và Phần mềm Orange......................................................1 1.3 Lý Do Chọn Lựa Đề Tài ..........................................................................................7 CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU ..................................................8 2.1. Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: .....8 2.1.1.Mô hình Logistic Regression ( hồi quy logistic):.............................................7 2.1.2.Mô hình Decision tree ( cây quyết định) :........................................................9 2.1.3. Mô hình Support Vector Machine ..................................................................9 2.1.4. Mô hình Neural Network ...............................................................................11 2.2. Quy trình phân lớp dữ liệu...................................................................................12 2.2.1. Phân cụm dữ liệu ............................................................................................12 2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana .....................................................................................................................................13 2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả......................14 2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả..................15 2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu..........17 2.2.2. Phân lớp dữ liệu...........................................................................................18 2.2.2.1. Một số phương pháp phân lớp dữ liệu.......................................................18
  • 4. Tải tài liệu tại sividoc.com Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM 2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới .....................................................................................................................................19 CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM.........................................................22 3.1 Bộ dữ liệu ................................................................................................................21 3.1.1. Mô tả dữ liệu ...................................................................................................22 3.2. Phân tích và đánh giá............................................................................................24 CHƯƠNG 4. KẾT LUẬN...............................................................................................28 4.1. Các Kết Quả Đạt Được.........................................................................................28 4.2. Những hạn chế và phát triển................................................................................28 LỜI CẢM ƠN ..................................................................................................................28 TÀI LIỆU THAM KHẢO...............................................................................................29
  • 5. Tải tài liệu tại sividoc.com 1 CHƯƠNG 1. TỔNG QUAN 1.1 Tổng quan về bài toán phân lớp dữ liệu Định nghĩa phân lớp dữ liệu: Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới. Quá trình phân lớp dữ liệu: gồm 2 bước Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”) Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ: Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn của mô hình) Bước 2.2: Phân lớp dữ liệu mới 1.2 Giới thiệu về Python và Phần mềm Orange Python là một ngôn ngữ lập trình mã nguồn mở, đa nền tảng, dễ học dễ đọc. Python có cấu trúc rõ ràng, thuận tiện cho người mới học lập trình. Vì thế nó được sử dụng rộng rãi. Python là ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác nhau như: mệnh lệnh, lập trình hướng đối tượng, lập trình hàm… được dùng đa lĩnh vực: web, 3D CAD…  Python được thông dịch: Python được trình thông dịch xử lý trong thời gian chạy. Bạn không cần phải biên dịch chương trình của mình trước khi thực hiện nó. Nó tương tự với PERL và PHP.  Python là tương tác (Interactive): Tại một dấu nhắc Python (command line) bạn có thể tươngtác trực tiếp với trình thông dịch để viết chương trình Python.  Python là hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng hoặc kỹ thuật lập trình đóng gói mã trong các đối tượng.  Python là ngôn ngữ của người mới bắt đầu: Python là ngôn ngữ tuyệt vời cho các lập trình viên mới bắt đầu và hỗ trợ phát triển một loạt các ứng dụng từ xử lý văn bản đơn giản, lập trình web,cho đến lập trình game.
  • 6. Tải tài liệu tại sividoc.com 2 *Các tính năng của Python bao gồm: “- Phát triển trang web (phía máy chủ). - Phát triển phần mềm - Kịch bản hệ thống. - Python có thể được sử dụng cùng với các phần mềm nhằm tạo quy trình công việc. - Python có thể kết nối với các hệ thống cơ sở dữ liệu.” - Python có thể được sử dụng để xử lý dữ liệu lớn và thực hiện các phép toán phức tạp. - Lập trình GUI: Python hỗ trợ các ứng dụng GUI có thể được tạo và chuyển sang nhiều cuộcgọi hệ thống, thư viện và hệ thống cửa sổ, như Windows MFC, Macintosh và hệ thống XWindow của Unix. - Portable: Python có thể chạy trên nhiều nền tảng phần cứng khác nhau và có cùng giao diệntrên tất cả các nền tảng. Tổng quan về phần mềm Orange: Orange là một bộ công cụ trực quan hóa dữ liệu, học máy và khai thác dữ liệu mã nguồn mở. Đượcra đời nhằm hỗ trợ con người trong việc nghiên cứu và giải quyết những vấn đề khó nhằn về lĩnh vực khai phá dữ liệu (Data mining) và học máy (Marchine learning).
  • 7. Tải tài liệu tại sividoc.com 3 Vì độ phổ biến về việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, lập trinh bằng Python với giao diện trực quan và tương tác dễ dàng, phần mềm Orange giúp người dùng phân tích những dữ liệu từ đơn giản đến phức tạp. Bên cạnh đó, đồ họa đẹp mắt, thú vị còn giúp việc khai thác dữ liệu và học máy dễ dàng hơn cho cả chuyên gia và người dùng mới. Các chức năng cơ bản được cung cấp có thể kể đến như: đọc dữ liệu, hiển thị dữ liệu dạng bảng,so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, ,…. Data: các công cụ để nhập dữ liệu, lọc dữ liệu, lấy mẫu, quy nạp, thao tác tính năng và lựa chọn tính năng Visualize: các công cụ để trực quan hóa thông thường (biểu đồ hộp, biểu đồ, biểu đồ phân tán) và trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng).
  • 8. Tải tài liệu tại sividoc.com 4 Model: các hàm máy học (marchine learning) phân lớp dữ liệu với Tree, Logictis, Regression, SVM,…
  • 9. Tải tài liệu tại sividoc.com 5 Evaluate: xác thực chéo, quy trình dựa trên lấy mẫu, ước tính độ tin cậy và tính điểm của các phương pháp dự đoán Unsupervised: các thuật toán học tập không giám sát để phân cụm (k-means, phân cụm theo cấp bậc) và kỹ thuật chiếu dữ liệu (chia tỷ lệ đa chiều, phân tích thành phần chính, phân tích tương ứng).
  • 10. Tải tài liệu tại sividoc.com 6 Add ons: mở rộng các chức năng nâng cao xử lý dữ liệu lớn với Spank, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội,… cũng là điểm ưu việt hơn so với các phần mềm khai phá dữ liệu khác. 1.3 Lý Do Chọn Lựa Đề Tài Trong 10 năm trở lại đây, khoa học dữ liệu đã có những đóng góp tạo ra nhiều thành tựu to lớn cho các doanh nghiệp. Thúc đẩy quá trình công nghiệp hóa hiện đại hóa đưa các doanh nghiệp ngày một phát triển, hoạt động hiệu quả hơn, năng suất hơn. Ở Việt Nam hiện nay các doanh nghiệp chú trọng hơn trong việc xử lí thông tin dữ liệu vì nó là một phần quan trọng đưa doanh nghiệp dần hội nhập với thị trường quốc tế- là nguồn tài nguyên vô hạn cho các doanh nghiệp. Điều đó cho thấy khoa học dữ liệu đã có những tác động nhất định đến nền kinh tế thị trường hiện nay. Chúng em đã tìm được bộ dữ liệu của một ngân hàng và xử lý thông tin thông qua phần mềm orange để nhìn nhận và tìm ra hướng phát triển. Thông qua việc gọi điện thoại khảo sát của ngân hàng để tiếp thị và dự đoán việc thành công rằng liệu khách hàng có đăng ký tiền gửi ngân hàng có kỳ hạn không. Dưới đây chúng em xin làm rõ vấn đề.
  • 11. Tải tài liệu tại sividoc.com 7 CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1.Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: 2.1.1.Mô hình Logistic Regression (hồi quy logistic): “Thuật toán phân loại hồi quy logistic với chính quy hóa LASSO (LI) hoặc sườn núi (L.2). Đầu vào Dữ liệu: dữ liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu ra Học viện: thuật toán học hồi quy logistic Mô hình: mô hình được đài tạo Các hệ số: hệ số hồi quy logistic”
  • 12. Tải tài liệu tại sividoc.com 8 Hồi quy logistic học mô hình hồi quy logistic từ dữ liệu. Nó chỉ hoạt động cho các nhiệm vụ phân loại: 1.Một cái “tên mà theo đó người học xuất hiện trong các vật dụng khác”. Tên mặc định là hồi quy Logistic Regression. 2.Quy tắc loại (hoặc 1.1 hoặc 1.2). Đặt cường dộ chi phí (mặc định là C=1). 3.Nhấn “cam kết áp dụng để cam kết thay đổi. Nếu áp dụng (tự động được đánh dấu, các thay đổi sẽ được)” 4.Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay đổi sẽ được tự động.
  • 13. Tải tài liệu tại sividoc.com 9 2.1.2. Mô hình Decision tree (cây quyết định): 1. Name: Người học có thể được đặt tên theo ý muốn. Tên mặc định là Tree 2. Thông số: - Induce binary tree: xây dựng cây nhị phân (chia thành hai nút con) - -Min. number of instances in leaves (số tối thiểu các ví dụ lá): “nếu được chọn, thuật toán sẽ không bao giờ đặt số nút ít hơn số dữ liệu tham khảo” - Do not split subsets smaller than (Không phân chia các tập hợp nhỏ hơn): “cấm thuật toán phân chia các nút có ít hơn số lượng ví dụ đã cho.” - Limit the maximal tree depth (Giới hạn độ sâu cây tối đa): “giới hạn độ sâu của cây phân loại ở số cấp nút được chỉ định” 3.Tạo một báo cáo 4. Nhấp vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay đổi sẽ được tự động. 2.1.3. Mô hình Support Vector Machine
  • 14. Tải tài liệu tại sividoc.com 10 “Đầu vào Dữ liệu: dữ liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu ra Learner: thuật toán học hồi quy tuyến tính” Mô hình: mô hình được đào tạo Vecto hỗ trợ: thể hiện được sử dụng làm vecto hỗ trợ. Máy vecto hỗ trợ (SVM) là một kỹ thuật máy học phân tách không gian thuộc tính với một siêu phẳng, do đó tối đa hóa các điểm dữ liệu của tất cả các lớp. Kỹ thuật này thường mang lại kết quả dự đoán tối cao. Đối với hồi quy, SVM thực hiện hồi quy tuyến tính trong không gian tính năng với kích thước cao bằng cách sử dụng ε-insensitive. Độ chính xác ước tính của nó phụ thuộc tốt vào các tham số C, ε và kernel. “Hoạt động cho cả nhiệm vụ phân loại và hồi quy.” 1. “Name: đặt tên bất kì cho mô hình. Tên mặc định là SVM.” 2. “SVM Type với cài đặt kiểm tra lỗi. SVM và v-SVM dựa trên sự giảm thiểu khác nhau của hàm lỗi. Ở bên phải, bạn có thể đặt giới hạn lỗi kiểm tra:” SVM:
  • 15. Tải tài liệu tại sividoc.com 11 “Cost (C): giới hạn bất lợi cho sự thiệt hại và áp dụng cho các nhiệm vụ phân loại và hồi quy.” “ε: một tham số cho mô hình epsilon-SVR, áp dụng cho hồi quy”. Xác định khoảng cách từ các giá trị thực trong đó không có bất lợi nào được liên kết với các giá trị dự đoán. ν-SVM: Cost: giới hạn bất lợi cho sự thiệt hại và chỉ áp dụng cho các nhiệm vụ hồi quy. “ν: một tham số cho mô hình ν-SVR, áp dụng cho việc phân loại và hồi quy”. Giới hạn trêncủa phần training error và giới hạn dưới của phần vectơ hỗ trợ. 3. Kernel là một hàm biến đổi không gian thuộc tính thành “không gian tính năng mới để phù hợp” với siêu phẳng có biên độ tối đa, do đó cho phépthuật toán tạo mô hình với tuyến tính, đa thức, RBF và Sigmoid kernel. Các hàm chỉ định kernel được trình bày khi chọn chúng và các hằng số liên quan là: g: hằng số gamma trong hàm kernel “(giá trị được đề xuất là 1/k, trong đó k là số lượng thuộc tính, nhưng vì có thể không có training set nào được cung cấp cho widget, mặc định là 0 và người dùng phải tự thiết lập lựa chọn)” “c: hằng số c0 trong hàm kernel” (mặc định 0) “d: cho mức độ của hạt nhân” (mặc định 3) 4. “Đặt độ lệch cho phép so với giá trị mong đợi trong” Numerical Tolerance. Đánh dấu tick vào ô cạnh Iteration Limit để đặt số lần lặp tối đa dược phép. 5. Tạo một báo cáo. 6. Nhấn vào Apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút Apply, các thay đổi sẽ được tự động. 2.1.4. Mô hình Neural Network Một thuật toán perceptron (MLP) nhiều lớp với backpropagation. Đầu vào  Dữ liệu: tập dữ liệu đầu vào  Tiền xử lý: phương pháp tiền xử lý
  • 16. Tải tài liệu tại sividoc.com 12 Kết quả  Người học: thuật toán học perception nhiều lớp  Mô hình: mô hình được đào tạo Tiện ích Neural Network sử dụng thuật toán Perceptron nhiều lớp của sklearn có thể học các mô hình phi tuyến tính cũng như tuyến tính. 2.2. Quy trình phân lớp dữ liệu 2.2.1. Phân cụm dữ liệu Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểm tương đồng vào những cụm hoặc nhóm tương ứng. Trong đó: - Các đối tượng có các tính chất tương đồng thuộc chung một cụm - Các đối tượng có các tính chất khác nhau thuộc cụm hoặc nhóm khác nhau
  • 17. Tải tài liệu tại sividoc.com 13 2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana a) Phân cụm phân cấp (Hierarchical clustering) Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên: - Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)  Similarity matrix là số đo mức giống nhau của hai đối tượng.  Dissimilarity matrix là số đo mức độ khác nhau của hai đối tượng. - Độ đo khoảng cách giữa các cụm (single link, complete link…) Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng. Các phương pháp điển hình: Agnes, Diana… b) Phương pháp phân cụm phân cấp Diana Theo chiến lược top down: - Bắt đầu với 1 cụm gồm tất cả phần tử - Ở mỗi bước, chia cụm ban đầu thành 2 cụm:  khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. - Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần tử là 1 cụm.
  • 18. Tải tài liệu tại sividoc.com 14 - Kết quả phát sinh cây phân cấp (dendrogram) 2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả a. Dùng phần mềm Orange để phân cụm phân cấp bằng phương pháp Diana - File input: Sử dụng dữ liệu cho dự án, bỏ qua (skip) biến mục tiêu và subscriber - Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (n=2)) - Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link và chia làm 2 cụm để được chỉ số Sihouette Cluster dương nhiều nhất. b. Kết quả Số cụm tốt nhất là 2 (vì chia làm 2 cụm để được chỉ số Sihouette Cluster dương nhiều nhất) Phân cụm bộ dữ liệu của dự án (5000 mẫu) thành 2 cụm gồm C1 (195 mẫu) và C2 (4805 mẫu). Phân cụm phân hoạch bằng thuật toán K-means
  • 19. Tải tài liệu tại sividoc.com 15 a. Phân cụm phân hoạch: Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm. Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho: - Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau. - Mỗi cụm có ít nhất 1 phần tử. Thuật toán điển hình: K-means, K-mediods, Fuzzy K-means b. Thuật toán K-means: Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (d là số thuộc tính của đối tượng) - Bước 1: chọn k điểm bất kì làm các trung tâm ban đầu của k cụm - Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán - Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2 - Bước 4: Quay lại bước 2 2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả a) Dùng phần mềm Orange để phân cụm phân hoạch bằng thuật toán K-means và chọn số cụm tốt nhất:
  • 20. Tải tài liệu tại sividoc.com 16 - File input: Bộ dữ liệu sử dụng cho dự án nhưng bỏ qua (skip) biến mục tiêu là subscribed. - K-means: chạy phân cụm từ 2-5 cụm, so sánh Sihouette Scores được tính ra, chọn chia thành 3 cụm (vì 3 là số cụm có Sihouette Scores cao nhất) b)Kết quả: Số cụm tốt nhất là 3 (vì 3 là số cụm có Sihouette Scores cao nhất) Phân cụm bộ dữ liệu của dự án (50000 mẫu) thành 3 cụm gồm C1 (4129 mẫu), C2 (677 mẫu) và C3 (194 mẫu) Sihouette Scores: 0.723 2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu Đánh giá ngoài (external validation) So sánh với kết quả mẫu (biến mục tiêu): - Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana
  • 21. Tải tài liệu tại sividoc.com 17 (Bảng 1: Bảng so sánh kết quả phân cụm bằng phương pháp Diana với nhãn của dữ liệu) - Phân cụm phân hoạch bằng thuật toán K-means (Bảng 2: Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của dữ liệu) Nhận xét, chọn mô hình phân cụm tối ưu Sau khi so sánh ngoài, ta nhận thấy rằng - Phương pháp phân cụm phân cấp (bằng Diana) chỉ phân dữ liệu làm 2 cụm và trong đó cụm 2 (C2) có kết quả so sánh trùng với cụm 3 (C3’) của phân cụm phân hoạch (K-means) - Phương pháp phân cụm phân hoạch (bằng K-means) phân dữ liệu thành 3 cụm, trong đó có cụm 2 (C2’) và cụm 3 (C3’) chứa Yes ở tỷ trọng cao. Như vậy có thể thấy, phương pháp phân cụm phân hoạch (bằng K-means) có hiệu quả để phân tích thực tiễn hơn phương pháp còn lại. 2.2.2. Phân lớp dữ liệu 2.2.2.1.Một số phương pháp phân lớp dữ liệu a) Phương pháp hồi quy Logistic (Logistic Regression) Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)
  • 22. Tải tài liệu tại sividoc.com 18 b)Phương pháp Cây quyết định (Decision Tree) Trong lý thuyết quản trị, cây quyết định là đồ thị quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định. Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước. c)Phương pháp SVM (Support Vector Machine) SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp dữ liệu khác nnhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể. SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau. 2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới a) Xây dựng mô hình (huấn luyện) và đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
  • 23. Tải tài liệu tại sividoc.com 19 Dùng phần mềm Orange để xây dựng mô hình phân lớp bằng phương pháp Hồi quy Logistic (Loogistic Regression), Cây quyết định (Decision Tree) và SVM (Support Vector Machine), đánh giá mô hình và chọn phương pháp tốt nhất. - File input: Bộ dữ liệu sử dụng cho dự án (5000 mẫu), chọn biến mục tiêu (target) là subcrbed: - Test and Score: xem các chỉ số từ các phương pháp (quan tâm chỉ số AUC) - Confusion Matrix: xem ma trận nhầm lẫn từ các phương pháp (quan tâm tổng số nhầm lẫn)
  • 24. Tải tài liệu tại sividoc.com 20 - Như vậy, phương pháp hồi quy Logistic là tối ưu nhất vì có chỉ số AUC cao nhất (gần 1 nhất) và có độ nhầm lẫn ít nhất trong 3 phương pháp. b) Phân lớp dữ liệu mới “Dùng phần mềm Orange phân lớp cho bộ dữ liệu 500 mẫu” (trích ra ỡ mục 1.2.) - File “Bank Marketing (5000 mẫu)” input: Bộ dữ liệu sử dụng cho dự án (5000 mẫu), chọn biến mục tiêu (target) là subscribed: - File “File 500 mẫu skip nhãn” input: Bộ dữ liệu 500 mẫu đã trích ra ở mục 1.2. nhưng bỏ qua (skip) biến mục tiêu là subscribed:
  • 25. Tải tài liệu tại sividoc.com 21 Kết quả phân lớp dữ liệu mới: (Bảng 3: Bảng ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu) Vậy mô hình phân lớp dữ liệu mới có độ chính xác là: (26+415)/500=0.882=88.2% CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ dữ liệu Bộ dữ liệu sử dụng: Bộ dữ liệu “Bank Marketing” Bộ dữ liệu này là kết quả thu được từ chiến dịch marketing của một ngân hàng lớn tại Bồ Đào Nha, họ thu thập và tính toán đưa ra kết quả bởi các cuộc gọi điện thoại đã thực hiện Khảo sát này được thực hiện với mục tiêu tìm hiểu xem mong muốn của khách hàng. Thông qua 2 phương án: có đăng kí (yes) hay không đăng kí (no) đối với sản phẩm của ngân hàng. Và sản pẩm được nêu đến đó là đăng kí gửi tiền có kì hạn. Giải quyết vần đề số mẫu quá lớn - Do kích thước bộ dữ liệu “Bank Marjeting” quá lớn (41188 mẫu), chính vì vậy sẽ không phân cụm được, nhóm quyết định chọn ra 5000 mẫu để sữ dụng cho dự án - Vì sau khi cho máy học để phân lớp thì cần dữ liệu mới để đánh giá hiệu quả mô hình, nên nhóm quyết định trích 500 mẫu không trùng với 5000 mẫu dùng cho dự án. Như vậy, nhóm sẽ trích ngẫu nhiên 5000 mẫu từ bộ dữ liệu lớn “Bank Marketing” (41188 mẫu) và chọn 5000 mẫu đầu tiên để dung cho dự án và 500 mẫu phái sau để dung thực hành phân lớp mới. Cách chọn mẫu ngẫu nhiên:
  • 26. Tải tài liệu tại sividoc.com 22  Dùng phần mềm Orange để chọn ngẫu nhiên: - File input: Bộ dữ liệu “Bank Marketing” (41188 mẫu) - Data Sampler: Chọn số lượng chọn mẫu ngẫu nhiên là 5500 - Ở các Data table chọn 5000 mẫu đầu cho bảng dữ liệu dung cho dự án và 500 mẫu sau cùng cho dự liệu dung để phân lớp mới. 3.1.1. Mô tả dữ liệu Bộ dữ liệu có 5000 mẫu Bộ dữ liệu gồm 15 biến và 1 biến mục tiêu: 1. Age là tuổi (biến định lượng) 2. Job là nghề nghiệp của khách hàng (biến định tính-admin: quản trị viên, blue collar: lao động phổ thông, entreprenuer: doanh nhân, housemaid: người giúp việc, management: nhà quản lý, retired: người về hưu, self-employed: lao động tự do, services: dịch vụ, student: học sinh, technician: kỹ thuật viên, unemployed: thất nghiệp, unknown: chưa biết) 3. Marital là tình trạng hôn nhân (là biến định tính - divorced: đã ly hôn, married: đã kết hôn, single: độc thân, unknown: chưa biết)
  • 27. Tải tài liệu tại sividoc.com 23 4. Education là trình độ học vấn (biến định tính - basic.4y: 4 năm tiểu học, basic.6y: 6 năm tiểu học, basic.9y: trung học cơ sở, high school: trung học phổ thông, illiterate: không đi học, professional course: học nghề, university degree: bậc đại học, unknown: chưa biết) 5. Default là có tín dụng trong tình trạng nợ không (biến định tính-yes:có, no:không, unknown: chưa biết) 6. Housing là có khoản vay mua nhà không? (biến định tính-yes: có, no: không, unknown: chưa biết) 7. Loan là có khoản vay cá nhân không? (biến định tính-yes: có, no: không, unknown: chưa biết) 8. Contact là hình thức liên lạc (biến định tính - cellular: điện thoại di động, telephone: điện thoại để bàn) 9. Month là tháng liên lạc cuối cùng trong năm (biến định tính - jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec) 10. Day of week là ngày liên lạc cuối cùng trong tuần (biến định tính - mon: thứ 2, tue: thứ 3, wed: thứ 4, thu: thứ 5, fri: thứ 6) 11. Duration là thời lượng liên lạc cuối cùng (đơn vị: giây) (biến định lượng) 12. Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch này (biến định lượng) 13. Pdays là số ngày kể từ khi khách hàng được liên lạc lần cuối đến lúc thực hiện chiến dịch (biến định lượng) 14. Previous là số lần liên lạc đã thực hiện đối với khách hàng trước chiến dịch (biến định lượng) 15. Poutcome là kết quả của chiến dịch tiếp thị trước đó (biến định tính - failure: thất bại, nonexistent: không tồn tại, success: thành công) 16. Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa (biến mục tiêu) (biến định tính-yes: có, no: không) 3.1.2. Làm sạch dữ liệu
  • 28. Tải tài liệu tại sividoc.com 24 Dữ liệu không có dữ liệu bị thiếu (no missing data) 3.2. Các kết quả thực nghiệm Dựa vào ma trận nhầm lẫn sau khi phân lớp 500 mẫu dữ liệu mới không trùng với 4999 mẫu sử dụng, ta nhận thấy rằng: - “Mô hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới.” Như vậy, có thể đánh giá rằng đây là một mô hình ‘good fitting’ “(là trường hợp mô hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát).” 3.2. Phân tích và đánh giá Sau khi đánh giá các mô hình phân cụm, nhóm quyết định chọn mô hình phân cụm phân hoạch bằng thuật toán K-means. Từ kết quả phân cụm, tìm được 3 cụm có tỷ trọng yes/no (trong biến mục tiêu - subcribed - có đăng kí tiền gửi có kỳ hạn hay không?) chênh lệch nhiều. Yes (có) (ở biến mục tiêu-subscribed) tương đương với sự thành công của ngân hàng khi tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền gửi có kỳ hạn, no (không) tương đương với sự thất bại trong chiến dịch này. Phân tích Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của dữ liệu (Bảng 2), ta thấy rằng: - Cụm 1 có số lượng mẫu nhiều nhất (4128 mẫu), trong đó Yes (thành công) chiếm 4.6%, No (thất bại) chiếm 95.4%. - Cụm 2 có số lượng mẫu là 677 mẫu, trong đó Yes chiếm 36.6%, No chiếm 63.4% - Cụm 3 có số lượng mẫu ít nhất (194 mẫu), trong đó Yes chiếm 63.4%, No chiếm 36.6%
  • 29. Tải tài liệu tại sividoc.com 25 Như vậy, có thể kết luận rằng, những khách hàng có đặc điểm tương đồng với Cụm 3 có khả năng sẽ đăng kí tiền gửi kỳ hạn nhất (63.4%), tương tự những khách hàng ở Cụm 2 sẽ có khả năng thành công trung bình (36.6%) và Cụm 3 sẽ có khả năng thành công rất thấp (4.6%) Sau khi phân tích dữ liệu từ các cụm, nhóm tìm được điểm khác nhau giữa các cụm như sau: (Bảng 4: Bảng đặc điểm khác nhau giữa các cụm)
  • 30. Tải tài liệu tại sividoc.com 26 Dựa vào Bảng đặc điểm khác nhau giữa các cụm (Bảng 4), ta có những kết luận sau đây: - 4 yếu tố: duration (thời lượng ngân hàng đã gọi cho khách hàng tính đdến lần cuối cùng), pdays (số ngày kể từ khi khách hàng được liên hệ lần cuối đến lúc thực hiện chiến dịch), campaign “(số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch này) poutcome (kết quả của chiến dịch tiếp thị trước đó)” có tác động đến kết quả thành công (Yes/No) của chiến dịch. - Nhóm khách hàng có giá trị “duration” cao (470 – 2420 giây, trung bình: 726 giây) có khả năng thành công trung bình (36.6%) đối với chiến dịch. - Nhóm khách hàng có giá trị “pdays” là đã từng gọi trước đây, lượng ngày thấp (0 – 21 ngày, trung bình: 6 ngày) có khả năng thành công cao (63.4%) đối với chiến dịch. - Nhóm khách hàng có giá trị “campaign” thấp (1 – 8 lần, trung bình: 2 lần) có khả năng thành công cao (63.4%) đối với chiến dịch. - Nhóm khách hàng có giá trị “poutcome” là “success” có khả năng thành công cao (63.4%) đối với chiến dịch Như vậy, nhóm đã tìm được 4 nhân tố quyết định sự thành công khi tiếp thị quađiện thoại đối với sản phẩm đăng kí tiền gửi có kỳ hạn. Nhân viên ngân hàng có thểdựa vào đó để phân lọai khách hàng, đánh giá mức độ ưu tiên thực hiện tiếp thị.Nhân viên ngân hàng có thể sắp xếp thời điểm phù hợp, tân suất chăm sóc kháchhàng tối ưu để đem lại doanh số tốt nhất.
  • 31. Tải tài liệu tại sividoc.com 27 “CHƯƠNG 4. KẾT LUẬN” “4.1. Các Kết Quả Đạt Được” Sau khi đánh giá các phương pháp phân lớp, nhóm quyết mô hình phân lớp bằng phương pháp Hồi quy Logistic (Logistic Regression) Nhóm đã cho chạy thử 500 mẫu dữ liệu mới không trùng với dữ liệu chạy cho dự án (5000 mẫu), thu được kết quả đáng mong đợi với độ chính xác 88.2% (dựa trên Bảng ma trận nhầm lẫn kết quả gắn nhãn ở bộ dữ liệu mới – 500 mẫu (Bảng 3)). Như vậy, khi ngân hàng có bộ dữ liệu đầy đủ các biến như trên, ngân hàng có thể dự đoán được kết quả của hoạt động tiếp thị qua điện thoại đối với sản phẩm đăng ký tiền gửi có kỳ hạn thông qua việc dự đoán giá trị của biến “subscribed” (có đăng kí sản phẩm tiền gửi có kỳ hạn hay không) là yes/no (có/không) ở mức chính xác chấp nhận được. 4.2. Những hạn chế và phát triển Hạn chế - Vẫn chưa thể dự đoán một cách chính xác kết quả của hoạt động tiếp thị sản phẩm tiền gửi có kỳ hạn ở Ngân hàng. - Bảng số liệu chưa được chính xác và kiểm nghiệm qua. Hướng phát triển - Tập trung toàn bộ hệ thống dựa trên một nền tảng công nghệ thông tin hiện đại, quản lý các rủi ro có thể xảy ra một cách độc lập.
  • 32. Tải tài liệu tại sividoc.com 28 - Nắm bắt được tin tức trên thị trường và nhu cầu của khách hàng. - Nâng cao chất lượng dịch vụ. LỜI CẢM ƠN Dưới dự hướng dẫn tận tình của thầy Thái Kim Phụng, đồ án “phân tích dữ liệu phân hạng tính dụng dựa trên bộ dữ liệu XYZ bằng phần mềm Orange” đã được thực hiện bởi toàn thể thành viên nhóm. Toàn thể thành viên nhóm xin gửi lời cảm ơn chân thành đến thầy- giảng viên bộ môn Khoa học dữ liệu của nhóm trong học kì qua. TÀI LIỆU THAM KHẢO Tài liệu bộ môn Khoa học dữ liệu, trường Đại học Kinh tế Thành phố Hồ Chí Minh (UEH), thầy Thái Kim Phụng. UCI Machine Learning Repository: Data Sets Phụ lục Bộ dữ liệu sử dụng: Bank Marketing Data Set, UCI Machine Learning Repository: Data Sets các file phân tích đi kèm: - File workflow Orange - File excel bộ dữ liệu gốc (41188 mẫu) - File excel bộ dữ liệu dung để nghiên cứu (5000 mẫu)
  • 33. Tải tài liệu tại sividoc.com 29 - File excel kết quả phân cụm phân cấp (phương pháp Diana) và hân cụm phân hoạch (thuật toán K-means) - File excel nghiên cứu kết quả phân cụm bằng thuật toán K-means (mỗi cụm 1 file) - File excel bộ dữ liệu dung để phân lớp mới (500 mẫu) - File excel kết quả gắn nhãn ở bộ dữ liệu mới