SlideShare a Scribd company logo
Đại Học Sư Phạm Kỹ Thuật TP.HCM
Khoa Công Nghệ Thông Tin
MÁY HỌC VECTOR HỖ TRỢ
SUPPORT VECTOR MACHINES
10/05/2017 SUPPORT VECTOR MACHINES 1
GVHD: Quách Đình Hoàng
SVTH:
- Huỳnh Nhật Thành 14110178
- Trần Thị Thơm 14110192
- Nguyễn Quang Nhật 14110137
NỘI DUNG
Giới thiệu SVM
Tại sao chọn SVM
Đặt vấn đề
Bài toán phân 2 lớp với SVM
So cánh và cải tiền SVM
10/05/2017 SUPPORT VECTOR MACHINES 2
1
2
3
4
5
1. Giới thiệu SVM
10/05/2017 SUPPORT VECTOR MACHINES 3
• Phương pháp Support vector machines.Giới thiệu
• Lý thuyết học thống kê do Vapnik và
Chervonekis xây dựng năm 1995Lịch Sử
• Dựa trên nền tảng lý thuyết thống kê, sử dụng
cho phân lớp dữ liệu.Định nghĩa
• Nhận dạng, phân tích dữ liệu, ký tự,…Ứng Dụng
2. Tại sao chọn SVM ?
10/05/2017 SUPPORT VECTOR MACHINES 4
Hiệu quả giải quyết bài toán dữ liệu có số chiều lớn (ảnh của dữ liệu biểu diễn
gene, protein, tế bào)
Giải quyết vấn đề overfitting rất tốt (dữ liệu có nhiễu và tách rời nhóm hoặc
dữ liệu hoặc dữ liệu huấn luyện quá ít)
Là phương pháp phân lớp nhanh.
Có hiệu suất tổng hợp tốt và hiệu suất tính toán cao.
1
2
3
4
3. Đặt vấn đề
10/05/2017 SUPPORT VECTOR MACHINES 5
 Cho trước một số điểm dữ liệu cùng với nhãn
của chúng thuộc một trong hai lớp cho trước.
 Mục tiêu của thuật toán là xác định xem một
điểm dữ liệu mới sẽ được thuộc về lớp nào.
 Mỗi điểm dữ liệu được biểu diễn dưới dạng một
vector p-chiều và ta muốn chia tách hai lớp dữ
liệu bằng một siêu phẳng p − 1 chiều.
 Đây gọi là phân loại tuyến tính.
Cơ sở lý thuyết
10/05/2017 SUPPORT VECTOR MACHINES 6
Cho tập huấn luyện D gồm n điểm có dạng
yi: mang giá trị 1 và -1, xác định lớp của điểm xi.
xi: Là một vector thực nhiều chiều (p chiều).
w: Là một vectơ pháp tuyến của siêu phẳng.
PT siêu phẳng chứa vector 𝑥𝑖 trong không gian:
𝑥𝑖. 𝑤 +b=0
Cơ sở lý thuyết
10/05/2017 SUPPORT VECTOR MACHINES 7
Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={
+1, 𝑥𝑖. 𝑤 + b > 0
−1, 𝑥𝑖. 𝑤 + b < 0
Như vậy, f(𝑥𝑖) biểu diễn sự phân lớp của 𝑥𝑖 vào
hai lớp như nêu trên.
Ta nói :
yi = +1 nếu 𝑥𝑖 thuộc lớp I
yi = -1 nếu 𝑥𝑖 thuộc lớp II.
Ví dụ
10/05/2017 SUPPORT VECTOR MACHINES 8
4. Bài toán phân 2 lớp với SVM
10/05/2017 SUPPORT VECTOR MACHINES 9
TH1: Tập D phân chia tuyến tính không
nhiễu
Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={
+1, 𝑥𝑖. 𝑤 + b > 0
−1, 𝑥𝑖. 𝑤 + b < 0
Lúc này ta cần giải toán tối ưu:
𝑀𝑖𝑛 𝐿 𝑤 =
1
2
| 𝑤 |2
𝑦𝑖 𝑥𝑖. 𝑤 𝑇
+ 𝑏 ≥ 1, 𝑖 = 1, … , 𝑙
ĐK Karush-Kuhn-Tucker, sử dụng:
𝑤 = 𝑖=0
𝑁
𝜆𝑖 𝑦𝑖 𝑥𝑖, 𝑖=0
𝑁
𝜆𝑖 𝑦𝑖 = 0
Ví dụ
Ta có: 𝑔 𝑥 = 𝑤 𝑇
. 𝑥 + 𝑤0 ,
𝑤 = 𝑎, 2𝑎
Từ đó suy ra: a = 2/5, 𝑤0 = -11/5
𝑤 =
2
5
,
4
5
g( 𝑥) = 𝑥1 + 2𝑥2 − 5,5
10/05/2017 SUPPORT VECTOR MACHINES 10
4. Bài toán phân 2 lớp với SVM
10/05/2017 SUPPORT VECTOR MACHINES 11
TH2: Tập D phân chia tuyến tính có nhiễu
Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={
+1, 𝑥𝑖. 𝑤 + b > 0
−1, 𝑥𝑖. 𝑤 + b < 0
Sử dụng 𝜀𝑖 ≥ 0 ∶ yi.( 𝑥𝑖.𝑤+ b) ≥ 1 − 𝜀𝑖, i=1,…,l
Lúc này ta cần giải toán tối ưu:
𝑀𝑖𝑛 𝐿 𝑤, 𝜀 =
1
2
| 𝑤 |2 + 𝐶 𝑖=1
𝑙
𝜀𝑖
𝑦𝑖 𝑥𝑖. 𝑤 𝑇
+ 𝑏 ≥ 1 − 𝜀𝑖, 𝑖 = 1, … , 𝑙; 𝜀𝑖 ≥ 0
Trong đó: C là tham số cho trước
4. Bài toán phân 2 lớp với SVM
10/05/2017 SUPPORT VECTOR MACHINES 12
TH3: Tập D không phân chia tuyến tính
Gọi ∅ là ánh xạ phi tuyến từ không gian 𝑅 𝑛
vào không gian 𝑅 𝑚
∅: 𝑅 𝑛 → 𝑅 𝑚
Lúc này ta cần giải toán tối ưu:
𝑀𝑖𝑛 𝐿 𝑤, 𝜀 =
1
2
| 𝑤 |2
+ 𝐶 𝑖=1
𝑙
𝜀𝑖
𝑦𝑖 ∅(𝑥𝑖). 𝑤 𝑇
+ 𝑏 ≥ 1 − 𝜀𝑖, 𝑖 = 1, … , 𝑙; 𝜀𝑖 ≥ 0
Trong đó: C là tham số cho trước
∅
LƯU Ý: Các bước chính của SVM
 Tiền xử lý dữ liệu: Vector của các số thực (Nếu chưa phải là số thực thì chuyển về dạng số
SVM, tránh các số quá lớn, thường co giãn dữ liệu [-1,1] hoặc [0,1])
 Chọn hàm hạt nhân: phù hợp cho từng bài toán cụ thể để được độ chính xác cao
 Thực hiện việc kiểm tra chéo để xác định các tham số cho ứng dụng
 Sử dụng các tham số cho việc huấn luyện tập mẫu
 Kiểm thử tập dữ liệu Test
10/05/2017 SUPPORT VECTOR MACHINES 13
So sánh và một số cải tiến
10/05/2017 SUPPORT VECTOR MACHINES 14
 So sánh
o Không cần xác định mô hình của đối tượng như neuron, fuzy logic, mạng fuzzy-neuron,…
o Nó luôn kết hợp với các dữ liệu có ý nghĩa về mặt vật lý, do đó dễ dàng giải thích được tường
minh.
Cải tiến
o Một số biến thể như C-SVC, V-SVC
o Thuật toán NNSRM (Nearest Neighbor Structural Risk Minimization): kết hợp giữa 2 kỹ thuật
SVM và Nearest Neighbor.
5. Đánh giá và Kết Luận
 SVM+ Kernel Methods
 Phương pháp học mới.
 Cung cấp nhiều công cụ.
 Nền tảng lý thuyết học thống kê.
 Tối ưu toàn cục, mô hình chất lượng cao,
chịu đựng được nhiễu.
 Thành công trong nhiều ứng dụng.
 Hạn chế
 Khó dịch kết quả
 Độ phức tạp vẫn cao
 Xử lý dữ liệu kiểu số
 Tham số đầu vào
10/05/2017 SUPPORT VECTOR MACHINES 15
5. Đánh giá và Kết Luận
10/05/2017 SUPPORT VECTOR MACHINES 16
 Kết luận
 Cơ sở lý thuyết của phương pháp SVM
 Phương pháp phân lớp hiệu quả được nghiên cứu nhiều nhất trong thời gian qua
 Kết hợp với một số phương pháp khác để tăng hơn nữa tốc độ tính toán, cũng như độ chính xác
cho SVM
 Cải tiến cho phép phân chia không gian dữ liệu một cách tốt hơn, nhằm loại bỏ những vùng
không được phân lớp bằng cách đưa kỹ thuật mờ vào SVM.
5. Đánh giá và Kết Luận
10/05/2017 SUPPORT VECTOR MACHINES 17
 Hướng phát triển
 Multi-class
 Clustering
 Xử lý dữ liệu lớn
 Dữ liệu không phải kiểu số
 Dữ liệu không cân bằng
 Xây dựng hàm nhân
 Dịch kết quả
 Tìm kiếm thông tin (ranking)
Demo
10/05/2017 SUPPORT VECTOR MACHINES 18
Tài liệu tham khảo
10/05/2017 SUPPORT VECTOR MACHINES 19
[1] Thái Sơn: Luận văn thạc sỹ khoa học: Kỹ thuật Support Vector Machines và ứng dụng. Ngành
toán tin ứng dụng: Đại học Bách khoa Hà Nội, 2006.
[2] PGS.TS Vũ Thành Nguyên, Thi Minh Nguyễn: Một số cải tiến của bài toán phân lớp văn bản
sử dụng thuật toán SVM và áp dụng trong phân tích tiếng Việt. Đại học Công nghệ thông tin –
ĐHQG, 2011.
[3] Phạm Văn Sơn: Đồ án tốt nghiệp đại học hệ chính quy: Tìm hiểu về Support Vector Machines
cho bài toán phân lớp quan điểm.Đại học dân lập Hải Phòng,2012.
[4]Jiawei Han, Micheline Kamber, Jian Pei Data Mining. Concepts and Techniques, 3rd Edition.

More Related Content

What's hot

Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
Haokillboom Aăâ
 
Xây dựng hệ thống hỗ trợ thi trắc nghiệm
Xây dựng hệ thống hỗ trợ thi trắc nghiệmXây dựng hệ thống hỗ trợ thi trắc nghiệm
Xây dựng hệ thống hỗ trợ thi trắc nghiệmVcoi Vit
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dung
CngBic2
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Đề cương môn xử lý ảnh
Đề cương môn xử lý ảnhĐề cương môn xử lý ảnh
Đề cương môn xử lý ảnh
Jean Valjean
 
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đĐề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNHBÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
Hoà Đoàn
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
nataliej4
 
Hướng dẫn lập trình quản lý c#
Hướng dẫn lập trình quản lý c#Hướng dẫn lập trình quản lý c#
Hướng dẫn lập trình quản lý c#
An Nguyen
 
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOTĐề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Phương pháp nhánh cận
Phương pháp nhánh cậnPhương pháp nhánh cận
Phương pháp nhánh cận
Diên Vĩ
 
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đĐề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
nataliej4
 
Bao cao UML phan tich he thong nha cho thue
Bao cao UML phan tich he thong nha cho thueBao cao UML phan tich he thong nha cho thue
Bao cao UML phan tich he thong nha cho thue
Kali Back Tracker
 
Trac nghiem dap an
Trac nghiem dap anTrac nghiem dap an
Trac nghiem dap anTrí Ibanez
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Khoa Hồ Anh
 
Slide đồ án tốt nghiệp
Slide đồ án tốt nghiệpSlide đồ án tốt nghiệp
Slide đồ án tốt nghiệp
Toan Pham
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 

What's hot (20)

Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
Xây dựng hệ thống hỗ trợ thi trắc nghiệm
Xây dựng hệ thống hỗ trợ thi trắc nghiệmXây dựng hệ thống hỗ trợ thi trắc nghiệm
Xây dựng hệ thống hỗ trợ thi trắc nghiệm
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dung
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
 
Đề cương môn xử lý ảnh
Đề cương môn xử lý ảnhĐề cương môn xử lý ảnh
Đề cương môn xử lý ảnh
 
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đĐề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNHBÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
 
Hướng dẫn lập trình quản lý c#
Hướng dẫn lập trình quản lý c#Hướng dẫn lập trình quản lý c#
Hướng dẫn lập trình quản lý c#
 
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOTĐề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
Đề tài: Tìm hiểu về nhận dạng vân tay và khả năng ứng dụng, HOT
 
Phương pháp nhánh cận
Phương pháp nhánh cậnPhương pháp nhánh cận
Phương pháp nhánh cận
 
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đĐề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
 
Bao cao UML phan tich he thong nha cho thue
Bao cao UML phan tich he thong nha cho thueBao cao UML phan tich he thong nha cho thue
Bao cao UML phan tich he thong nha cho thue
 
Trac nghiem dap an
Trac nghiem dap anTrac nghiem dap an
Trac nghiem dap an
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
 
Slide đồ án tốt nghiệp
Slide đồ án tốt nghiệpSlide đồ án tốt nghiệp
Slide đồ án tốt nghiệp
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
 
Đề cương xử lý ảnh
Đề cương xử lý ảnhĐề cương xử lý ảnh
Đề cương xử lý ảnh
 

Similar to Support vector machines

Bai 4 Phan Lop
Bai 4 Phan LopBai 4 Phan Lop
Bai 4 Phan Lop
Quynh Khuong
 
Oop 8
Oop 8Oop 8
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
MUyn25
 
Huong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envHuong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envLam Ly
 
Vo thikimcuong kichban_bai6_chuong2_khoi11
Vo thikimcuong kichban_bai6_chuong2_khoi11Vo thikimcuong kichban_bai6_chuong2_khoi11
Vo thikimcuong kichban_bai6_chuong2_khoi11K33LA-KG
 
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
Nguyen Vietnam
 
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Bai toan va thuat toan
Bai toan va thuat toanBai toan va thuat toan
Bai toan va thuat toanHữu Duy Duy
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Vu Tuan
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
Diem Cong Hoang
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filteringBui Loc
 
NhomX.docx
NhomX.docxNhomX.docx
NhomX.docx
PhmQuang71
 
300 BÀI CODE THIẾU NIÊN.pdf
300 BÀI CODE THIẾU NIÊN.pdf300 BÀI CODE THIẾU NIÊN.pdf
300 BÀI CODE THIẾU NIÊN.pdf
HuyPhc9
 
Giáo Án Tin 10 - Bài 6
Giáo Án Tin 10 - Bài 6Giáo Án Tin 10 - Bài 6
Giáo Án Tin 10 - Bài 6
Ngọc Dung Trương
 
Tính toán khoa học - Chương 0: Introduction
Tính toán khoa học - Chương 0: IntroductionTính toán khoa học - Chương 0: Introduction
Tính toán khoa học - Chương 0: IntroductionChien Dang
 
Chuong 4 tin 11
Chuong 4 tin 11Chuong 4 tin 11
Chuong 4 tin 11Sunkute
 
CTDL&GT_01
CTDL&GT_01CTDL&GT_01
CTDL&GT_01
kikihoho
 
TRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdfTRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdf
PHNGUYNNGC9
 

Similar to Support vector machines (20)

Bai 4 Phanlop
Bai 4 PhanlopBai 4 Phanlop
Bai 4 Phanlop
 
Bai 4 Phan Lop
Bai 4 Phan LopBai 4 Phan Lop
Bai 4 Phan Lop
 
Oop 8
Oop 8Oop 8
Oop 8
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
 
Huong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envHuong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-env
 
Vo thikimcuong kichban_bai6_chuong2_khoi11
Vo thikimcuong kichban_bai6_chuong2_khoi11Vo thikimcuong kichban_bai6_chuong2_khoi11
Vo thikimcuong kichban_bai6_chuong2_khoi11
 
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
[Math educare.com] giai tich ham nhieu bien-phep tinh vi phan ham nhieu bien_...
 
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
Xây Dựng Hệ Thống Phân Lịch Thi Tín Chỉ Tại Trường Cao Đẳng Thương Mại Đà Nẵn...
 
Bai toan va thuat toan
Bai toan va thuat toanBai toan va thuat toan
Bai toan va thuat toan
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filtering
 
NhomX.docx
NhomX.docxNhomX.docx
NhomX.docx
 
300 BÀI CODE THIẾU NIÊN.pdf
300 BÀI CODE THIẾU NIÊN.pdf300 BÀI CODE THIẾU NIÊN.pdf
300 BÀI CODE THIẾU NIÊN.pdf
 
Giáo Án Tin 10 - Bài 6
Giáo Án Tin 10 - Bài 6Giáo Án Tin 10 - Bài 6
Giáo Án Tin 10 - Bài 6
 
Tính toán khoa học - Chương 0: Introduction
Tính toán khoa học - Chương 0: IntroductionTính toán khoa học - Chương 0: Introduction
Tính toán khoa học - Chương 0: Introduction
 
Chuong 4 tin 11
Chuong 4 tin 11Chuong 4 tin 11
Chuong 4 tin 11
 
CTDL&GT_01
CTDL&GT_01CTDL&GT_01
CTDL&GT_01
 
TRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdfTRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdf
 

Support vector machines

  • 1. Đại Học Sư Phạm Kỹ Thuật TP.HCM Khoa Công Nghệ Thông Tin MÁY HỌC VECTOR HỖ TRỢ SUPPORT VECTOR MACHINES 10/05/2017 SUPPORT VECTOR MACHINES 1 GVHD: Quách Đình Hoàng SVTH: - Huỳnh Nhật Thành 14110178 - Trần Thị Thơm 14110192 - Nguyễn Quang Nhật 14110137
  • 2. NỘI DUNG Giới thiệu SVM Tại sao chọn SVM Đặt vấn đề Bài toán phân 2 lớp với SVM So cánh và cải tiền SVM 10/05/2017 SUPPORT VECTOR MACHINES 2 1 2 3 4 5
  • 3. 1. Giới thiệu SVM 10/05/2017 SUPPORT VECTOR MACHINES 3 • Phương pháp Support vector machines.Giới thiệu • Lý thuyết học thống kê do Vapnik và Chervonekis xây dựng năm 1995Lịch Sử • Dựa trên nền tảng lý thuyết thống kê, sử dụng cho phân lớp dữ liệu.Định nghĩa • Nhận dạng, phân tích dữ liệu, ký tự,…Ứng Dụng
  • 4. 2. Tại sao chọn SVM ? 10/05/2017 SUPPORT VECTOR MACHINES 4 Hiệu quả giải quyết bài toán dữ liệu có số chiều lớn (ảnh của dữ liệu biểu diễn gene, protein, tế bào) Giải quyết vấn đề overfitting rất tốt (dữ liệu có nhiễu và tách rời nhóm hoặc dữ liệu hoặc dữ liệu huấn luyện quá ít) Là phương pháp phân lớp nhanh. Có hiệu suất tổng hợp tốt và hiệu suất tính toán cao. 1 2 3 4
  • 5. 3. Đặt vấn đề 10/05/2017 SUPPORT VECTOR MACHINES 5  Cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước.  Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào.  Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều và ta muốn chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều.  Đây gọi là phân loại tuyến tính.
  • 6. Cơ sở lý thuyết 10/05/2017 SUPPORT VECTOR MACHINES 6 Cho tập huấn luyện D gồm n điểm có dạng yi: mang giá trị 1 và -1, xác định lớp của điểm xi. xi: Là một vector thực nhiều chiều (p chiều). w: Là một vectơ pháp tuyến của siêu phẳng. PT siêu phẳng chứa vector 𝑥𝑖 trong không gian: 𝑥𝑖. 𝑤 +b=0
  • 7. Cơ sở lý thuyết 10/05/2017 SUPPORT VECTOR MACHINES 7 Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={ +1, 𝑥𝑖. 𝑤 + b > 0 −1, 𝑥𝑖. 𝑤 + b < 0 Như vậy, f(𝑥𝑖) biểu diễn sự phân lớp của 𝑥𝑖 vào hai lớp như nêu trên. Ta nói : yi = +1 nếu 𝑥𝑖 thuộc lớp I yi = -1 nếu 𝑥𝑖 thuộc lớp II.
  • 8. Ví dụ 10/05/2017 SUPPORT VECTOR MACHINES 8
  • 9. 4. Bài toán phân 2 lớp với SVM 10/05/2017 SUPPORT VECTOR MACHINES 9 TH1: Tập D phân chia tuyến tính không nhiễu Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={ +1, 𝑥𝑖. 𝑤 + b > 0 −1, 𝑥𝑖. 𝑤 + b < 0 Lúc này ta cần giải toán tối ưu: 𝑀𝑖𝑛 𝐿 𝑤 = 1 2 | 𝑤 |2 𝑦𝑖 𝑥𝑖. 𝑤 𝑇 + 𝑏 ≥ 1, 𝑖 = 1, … , 𝑙 ĐK Karush-Kuhn-Tucker, sử dụng: 𝑤 = 𝑖=0 𝑁 𝜆𝑖 𝑦𝑖 𝑥𝑖, 𝑖=0 𝑁 𝜆𝑖 𝑦𝑖 = 0
  • 10. Ví dụ Ta có: 𝑔 𝑥 = 𝑤 𝑇 . 𝑥 + 𝑤0 , 𝑤 = 𝑎, 2𝑎 Từ đó suy ra: a = 2/5, 𝑤0 = -11/5 𝑤 = 2 5 , 4 5 g( 𝑥) = 𝑥1 + 2𝑥2 − 5,5 10/05/2017 SUPPORT VECTOR MACHINES 10
  • 11. 4. Bài toán phân 2 lớp với SVM 10/05/2017 SUPPORT VECTOR MACHINES 11 TH2: Tập D phân chia tuyến tính có nhiễu Đặt f(𝑥𝑖) = sign(𝑥𝑖.𝑤+ b) ={ +1, 𝑥𝑖. 𝑤 + b > 0 −1, 𝑥𝑖. 𝑤 + b < 0 Sử dụng 𝜀𝑖 ≥ 0 ∶ yi.( 𝑥𝑖.𝑤+ b) ≥ 1 − 𝜀𝑖, i=1,…,l Lúc này ta cần giải toán tối ưu: 𝑀𝑖𝑛 𝐿 𝑤, 𝜀 = 1 2 | 𝑤 |2 + 𝐶 𝑖=1 𝑙 𝜀𝑖 𝑦𝑖 𝑥𝑖. 𝑤 𝑇 + 𝑏 ≥ 1 − 𝜀𝑖, 𝑖 = 1, … , 𝑙; 𝜀𝑖 ≥ 0 Trong đó: C là tham số cho trước
  • 12. 4. Bài toán phân 2 lớp với SVM 10/05/2017 SUPPORT VECTOR MACHINES 12 TH3: Tập D không phân chia tuyến tính Gọi ∅ là ánh xạ phi tuyến từ không gian 𝑅 𝑛 vào không gian 𝑅 𝑚 ∅: 𝑅 𝑛 → 𝑅 𝑚 Lúc này ta cần giải toán tối ưu: 𝑀𝑖𝑛 𝐿 𝑤, 𝜀 = 1 2 | 𝑤 |2 + 𝐶 𝑖=1 𝑙 𝜀𝑖 𝑦𝑖 ∅(𝑥𝑖). 𝑤 𝑇 + 𝑏 ≥ 1 − 𝜀𝑖, 𝑖 = 1, … , 𝑙; 𝜀𝑖 ≥ 0 Trong đó: C là tham số cho trước ∅
  • 13. LƯU Ý: Các bước chính của SVM  Tiền xử lý dữ liệu: Vector của các số thực (Nếu chưa phải là số thực thì chuyển về dạng số SVM, tránh các số quá lớn, thường co giãn dữ liệu [-1,1] hoặc [0,1])  Chọn hàm hạt nhân: phù hợp cho từng bài toán cụ thể để được độ chính xác cao  Thực hiện việc kiểm tra chéo để xác định các tham số cho ứng dụng  Sử dụng các tham số cho việc huấn luyện tập mẫu  Kiểm thử tập dữ liệu Test 10/05/2017 SUPPORT VECTOR MACHINES 13
  • 14. So sánh và một số cải tiến 10/05/2017 SUPPORT VECTOR MACHINES 14  So sánh o Không cần xác định mô hình của đối tượng như neuron, fuzy logic, mạng fuzzy-neuron,… o Nó luôn kết hợp với các dữ liệu có ý nghĩa về mặt vật lý, do đó dễ dàng giải thích được tường minh. Cải tiến o Một số biến thể như C-SVC, V-SVC o Thuật toán NNSRM (Nearest Neighbor Structural Risk Minimization): kết hợp giữa 2 kỹ thuật SVM và Nearest Neighbor.
  • 15. 5. Đánh giá và Kết Luận  SVM+ Kernel Methods  Phương pháp học mới.  Cung cấp nhiều công cụ.  Nền tảng lý thuyết học thống kê.  Tối ưu toàn cục, mô hình chất lượng cao, chịu đựng được nhiễu.  Thành công trong nhiều ứng dụng.  Hạn chế  Khó dịch kết quả  Độ phức tạp vẫn cao  Xử lý dữ liệu kiểu số  Tham số đầu vào 10/05/2017 SUPPORT VECTOR MACHINES 15
  • 16. 5. Đánh giá và Kết Luận 10/05/2017 SUPPORT VECTOR MACHINES 16  Kết luận  Cơ sở lý thuyết của phương pháp SVM  Phương pháp phân lớp hiệu quả được nghiên cứu nhiều nhất trong thời gian qua  Kết hợp với một số phương pháp khác để tăng hơn nữa tốc độ tính toán, cũng như độ chính xác cho SVM  Cải tiến cho phép phân chia không gian dữ liệu một cách tốt hơn, nhằm loại bỏ những vùng không được phân lớp bằng cách đưa kỹ thuật mờ vào SVM.
  • 17. 5. Đánh giá và Kết Luận 10/05/2017 SUPPORT VECTOR MACHINES 17  Hướng phát triển  Multi-class  Clustering  Xử lý dữ liệu lớn  Dữ liệu không phải kiểu số  Dữ liệu không cân bằng  Xây dựng hàm nhân  Dịch kết quả  Tìm kiếm thông tin (ranking)
  • 19. Tài liệu tham khảo 10/05/2017 SUPPORT VECTOR MACHINES 19 [1] Thái Sơn: Luận văn thạc sỹ khoa học: Kỹ thuật Support Vector Machines và ứng dụng. Ngành toán tin ứng dụng: Đại học Bách khoa Hà Nội, 2006. [2] PGS.TS Vũ Thành Nguyên, Thi Minh Nguyễn: Một số cải tiến của bài toán phân lớp văn bản sử dụng thuật toán SVM và áp dụng trong phân tích tiếng Việt. Đại học Công nghệ thông tin – ĐHQG, 2011. [3] Phạm Văn Sơn: Đồ án tốt nghiệp đại học hệ chính quy: Tìm hiểu về Support Vector Machines cho bài toán phân lớp quan điểm.Đại học dân lập Hải Phòng,2012. [4]Jiawei Han, Micheline Kamber, Jian Pei Data Mining. Concepts and Techniques, 3rd Edition.

Editor's Notes

  1. Khái niệm Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loạinhị phân. 2. Lịch sử Thuật toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995. 3. Đặt vấn đề Phân loại thống kê là một nhiệm vụ phổ biến trong học máy. Trong mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước. Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều, và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều. Đây gọi là phân loại tuyến tính. Có nhiều siêu phẳng có thể phân loại được dữ liệu. Một lựa chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp. 4. Ứng dụng Nhận dạng: tiếng nói, ảnh, chữ viết tay Phân loại văn bản, khai mỏ dữ liệu Phân tích dữ liệu theo thời gian Phân tích dữ liệu gien, nhận dạng bệnh, công nghệ bào chế thuốc Phân tích dữ liệu maketing
  2. Cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước. Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều, và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều. Đây gọi là phân loại tuyến tính. Có nhiều siêu phẳng có thể phân loại được dữ liệu. Một lựa chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp.
  3. Nhiệm vụ là cần phải tìm một siêu phẳng (Optimal hyperplane) có lề lớn nhất chia tách các điểm dữ liệu có ban đầu (yi=1, yi=-1 )để huấn luyện và các điểm sau này. Tôi giả sử có tới 3 siêu phẳng (Optimal hyperplane) là H1 (Xanh dương), H2 (Đỏ), H3 (Xanh lá). H3 sẽ bị loại đầu tiên vì không thể phân loại các điểm huấn luyện cho trước.  H1 bị loại vì khoảng cách từ các điểm Support Vector đến siêu phẳng chưa phải là cực đại.  H2 là siêu phẳng cần tìm
  4. Chúng ta cần chọn w và b để cực đại hóa lề, hay khoảng cách giữa hai siêu mặt song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu.
  5. Tập D có thể phân chia tuyến tính được mà không có nhiễu (tất cả các điểm được gán nhãn +1 thuộc về phía dương của siêu phẳng, tất cả các điểm được gán nhãn -1 thuộc về phía âm của siêu phẳng)
  6. a+ 2a + w0 = -1 2a+6a + w0 = 1
  7. Trong đó C là tham số xác định trước, định nghĩa giá trị ràng buộc, C càng lớn thì mức độ phạm vi đối với những lỗi thực nghiệm (là lỗi xảy ra lúc huấn luyện, tính bằng thương số của số phần tử lỗi và tổng số phần tử huấn luyện) càng cao.
  8. Ta dữ liệu D không thể phân chia tuyến tính được, ta sẽ ánh xạ các vector dữ liệu x từ không gian n chiều vào một không gian m chiều (m > n), sao cho trong không gian m chiều, D có thể phân chia tuyến tính được.