Giới thiệu về học máy
Học viện Công nghệ Bưu chính Viễn thông
Khoa Công nghệ thông tin 1
Nhập môn trí tuệ nhân tạo
Nội dung
 Giới thiệu
 Học cây quyết định
 Phân loại Bayes đơn giản
 Học dựa trên ví dụ
http://www.ptit.edu.vn
Tài liệu tham khảo
Công cụ và dữ liệu
Một số ứng dụng của học máy (1/3)
Một số ứng dụng của học máy (2/3)
Một số ứng dụng của học máy (3/3)
Học máy là gì?
Ví dụ bài toán học máy (1)
• Lọc thư rác – Email spam filtering
T: Dữ đoán (lọc) những thư điện tử nào là thư
rác (spam email)
P: Tỷ lệ % của các thư điện tử gửi đến được
phân loại chính xác
E: Một tập các thư điện tư (emails) mẫu, mỗi
thư điện tử được biểu diễn bằng một tập thuộc
tính ( ví dụ: tập từ khóa) và nhãn lớp (thư
thường/thư rác) tương ứng
Ví dụ bài toán học máy (2)
• Phân loại các loại trang Web
T: Phân loại các trang web theo các chủ đề đã định trước
P: Tỷ lệ % của các trang web được phân loại chính xác
E: Một tập các trang web, trong đó mỗi trang Web được biểu diễn
bằng một tập thuộc tính và nhãn lớp là một chủ đề
Ví dụ bài toán học máy (3)
• Nhận dạng chữ viết tay
T: Nhận dạng và phân loại các
từ trong các ảnh chữ viết tay
P: Tỷ lệ % các từ được nhận
dạng và phân loại đúng
E: Một tập các ảnh chữ viết tay,
trong đó mỗi ảnh được gắn với một
định danh của một từ
Ví dụ bài toán học máy (4)
• Dự đoán rủi ro cho vay tài chính
T: Xác định mức độ rủi ro (ví dụ:
cao/thấp) đối với các hồ sơ xin vay tài
chính
P: Tỷ lệ % các hồ sơ xin vay có mức độ
rủi ro cao (không trả lại tiền vay) được xác
định chính xác
E: Một tập các hồ sơ xin vay; mỗi hồ sơ
được biểu diễn bởi một tập các thuộc tính
và mức độ rủi ro (cao/thấp)
Ví dụ bài toán học máy (5)
• Tra cứu ảnh
T: Đưa ra những ảnh
trong CSDL ảnh cùng mô
tả tới một đối tượng của
ảnh truy vấn người dùng
đưa vào
P: Tỷ lệ % ảnh mô tả
cùng đối tượng và số ảnh
trả về
E: Một bộ sưu tập các
chủ đề ảnh, mỗi ảnh được
biểu diễn bởi véc tơ đặc
trưng và thông tin chủ đề
của ảnh (có thể có hoặc
không)
Học máy (1)
TS. Đào Thị Thúy Quỳnh
Học máy (2)
TS. Đào Thị Thúy Quỳnh
Một số khái niệm
TS. Đào Thị Thúy Quỳnh
Một số dạng học máy phổ biến
TS. Đào Thị Thúy Quỳnh
Học có giám sát – Supervised learning
 Học có giám sát (Supervised learning): cần học một hàm
𝑦 = 𝑓 𝑥 từ các cặp dữ liệu {(𝑥𝑖, 𝑦𝑖) ∈ 𝑋 × 𝑌}, từ tập dữ
liệu này chúng ta cần tạo ra một hàm ánh xạ mỗi phần
tử từ tập X sang một phần tử (xấp xỉ) ở tập Y.
𝑦𝑖 ≈ 𝑓 𝑥𝑖 , ∀𝑖 = 1,2, … , 𝑁
- Phân loại (phân lớp): nếu y chỉ nhận giá trị từ một
tập rời rạc, chẳng hạn {cá, cây, quả, mèo}
- Hồi quy: nếu y nhận giá trị số thực
• Mục đích là xấp xỉ hàm 𝒇 thật tốt để khi có một dữ liệu
xmới, chúng ta có thể tính được nhãn tương ứng của nó
y = 𝑓 𝑥
TS. Đào Thị Thúy Quỳnh
Học có giám sát: Ví dụ
TS. Đào Thị Thúy Quỳnh
Phân lớp
TS. Đào Thị Thúy Quỳnh
Hồi quy (Regression)
TS. Đào Thị Thúy Quỳnh
Học không có giám sát - Unsupervised learning
 Học không có giám sát Unsupervised learning): cần học
từ các tập dữ liệu {(𝑥𝑖) ∈ 𝑋}, ∀𝑖 = 1,2, … , 𝑁, là tập dữ
liệu không có nhãn.
 - Có thể là các cụm dữ liệu
- Có thể là cấu trúc ẩn
TS. Đào Thị Thúy Quỳnh
Học không có giám sát: Ví dụ
TS. Đào Thị Thúy Quỳnh
Học luật kết hợp
TS. Đào Thị Thúy Quỳnh
Là bài toán khi chúng ta muốn khám phá ra một quy luật
dựa trên nhiều dữ liệu cho trước
Học tăng cường
TS. Đào Thị Thúy Quỳnh
Nội dung
 Giới thiệu
 Học cây quyết định (decision tree learning)
 Phân loại Bayes đơn giản
 Học dựa trên ví dụ
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Dữ liệu huấn luyện
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Dữ liệu
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Ví dụ cây quyết định
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Cây quyết định là gì?
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Biểu diễn dưới dạng quy tắc
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Học cây quyết định
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Thuật toán ID3
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
(nằm trên đường đi từ nút gốc tới nút hiện thời)
Tiêu chuẩn chọn thuộc tính của ID3
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Entropy
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Độ tăng thông tin IG
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Ví dụ tính IG
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Các đặc điểm của ID3
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Training error và Test error (1/2)
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛
𝑒𝑟𝑟𝑜𝑟𝑡𝑒𝑠𝑡
Data error: (Lỗi trên toàn tập dữ liệu) 𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎
Overfitting
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Vấn đề “quá vừa dữ liệu” hay Overfitting
“Trên tập train thì phân loại với độ chính cao nhưng trên toàn
tập dữ liệu với độ chính xác thấp”
Ví dụ: ℎ quá vừa vừa dữ liệu nếu tồn tại ℎ′
nếu:
𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛(h) < 𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛 ℎ′
(trên tập train)
𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎(h) > 𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎 ℎ′
(trên tập data)
Chống quá vừa dữ liệu
bằng cắt tỉa cây
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Chú ý: Khi tỉa nút, toàn bộ nhánh bên dưới bị bỏ , nút sẽ trở thành
lá với nhãn phân loại lấy theo đã số nhãn của ví dụ tại nút đó
Chống quá vừa dữ liệu
bằng cách tỉa luật (C4.5)
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Sử dụng thuộc tính có giá trị liên tục
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Các độ đo khác
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Nội dung
 Giới thiệu
 Học cây quyết định (decision tree learning)
 Phân loại Bayes đơn giản
 Học dựa trên ví dụ
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Phương pháp Phân loại Bayes (1/2)
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Phương pháp Phân loại Bayes (2/2)
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Ví dụ
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Nội dung
 Giới thiệu
 Học cây quyết định (decision tree learning)
 Phân loại Bayes đơn giản
 Học dựa trên ví dụ (Instance based learning)
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Nguyên tắc chung
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Thuật toán k láng giềng gần nhất
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Tính khoảng cách
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Minh họa Thuật toán k-NN
TS. Đào Thị Thúy Quỳnh
Thuật toán k-NN
http://www.ptit.edu.vn
TS. Đào Thị Thúy Quỳnh
Thuật toán k-NN
Thuật toán k-NN có thể dùng cho trường hợp
Hồi quy, trong đó mẫu x có thể có nhãn phân
loại f(x) với f(x) là một số thực. Thuật toán k-NN
sẽ thay đổi ở bước 3 như sau:
TS. Đào Thị Thúy Quỳnh
Yêu cầu
- Thực nghiệm thật toán KNN trên bộ dữ liệu Iris flower
dataset tải từ trang UCI. Bộ dữ liệu này bao gồm thông tin
của ba loại hoa Iris : Iris setosa, Iris virginica và Iris
versicolor. Mỗi loại có 50 bông hoa được đo với dữ liệu là 4
thông tin: chiều dài, chiều rộng đài hoa (sepal), và chiều dài,
chiều rộng cánh hoa (petal).
- Tách 150 dữ liệu trong Iris flower dataset ra thành 2 phần,
gọi là training set và test set. Thuật toán KNN sẽ dựa vào
trông tin ở training set để dự đoán xem mỗi dữ liệu trong test
set tương ứng với loại hoa nào. Dữ liệu được dự đoán này sẽ
được đối chiếu với loại hoa thật của mỗi dữ liệu trong test
set để đánh giá hiệu quả của KNN.
- Đánh giá:
accuracy =
𝑆ố 𝑚ẫ𝑢 𝑡𝑟𝑜𝑛𝑔 𝑡𝑒𝑠𝑡 𝑑𝑎𝑡𝑎 đượ𝑐 𝑝ℎâ𝑛 𝑙𝑜ạ𝑖 đú𝑛𝑔
𝑆ố 𝑚ẫ𝑢 𝑡𝑟𝑜𝑛𝑔 𝑡𝑒𝑠𝑡 𝑑𝑎𝑡𝑎
Xây dựng cây quyết định sử dụng thuật toán ID3
cho bộ dữ liệu sau.
TS. Đào Thị Thúy Quỳnh
TS. Đào Thị Thúy Quỳnh

8-Machine Learning123456789102345579.pdf

  • 1.
    Giới thiệu vềhọc máy Học viện Công nghệ Bưu chính Viễn thông Khoa Công nghệ thông tin 1 Nhập môn trí tuệ nhân tạo
  • 2.
    Nội dung  Giớithiệu  Học cây quyết định  Phân loại Bayes đơn giản  Học dựa trên ví dụ http://www.ptit.edu.vn
  • 3.
  • 4.
    Công cụ vàdữ liệu
  • 5.
    Một số ứngdụng của học máy (1/3)
  • 6.
    Một số ứngdụng của học máy (2/3)
  • 7.
    Một số ứngdụng của học máy (3/3)
  • 8.
  • 9.
    Ví dụ bàitoán học máy (1) • Lọc thư rác – Email spam filtering T: Dữ đoán (lọc) những thư điện tử nào là thư rác (spam email) P: Tỷ lệ % của các thư điện tử gửi đến được phân loại chính xác E: Một tập các thư điện tư (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một tập thuộc tính ( ví dụ: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng
  • 10.
    Ví dụ bàitoán học máy (2) • Phân loại các loại trang Web T: Phân loại các trang web theo các chủ đề đã định trước P: Tỷ lệ % của các trang web được phân loại chính xác E: Một tập các trang web, trong đó mỗi trang Web được biểu diễn bằng một tập thuộc tính và nhãn lớp là một chủ đề
  • 11.
    Ví dụ bàitoán học máy (3) • Nhận dạng chữ viết tay T: Nhận dạng và phân loại các từ trong các ảnh chữ viết tay P: Tỷ lệ % các từ được nhận dạng và phân loại đúng E: Một tập các ảnh chữ viết tay, trong đó mỗi ảnh được gắn với một định danh của một từ
  • 12.
    Ví dụ bàitoán học máy (4) • Dự đoán rủi ro cho vay tài chính T: Xác định mức độ rủi ro (ví dụ: cao/thấp) đối với các hồ sơ xin vay tài chính P: Tỷ lệ % các hồ sơ xin vay có mức độ rủi ro cao (không trả lại tiền vay) được xác định chính xác E: Một tập các hồ sơ xin vay; mỗi hồ sơ được biểu diễn bởi một tập các thuộc tính và mức độ rủi ro (cao/thấp)
  • 13.
    Ví dụ bàitoán học máy (5) • Tra cứu ảnh T: Đưa ra những ảnh trong CSDL ảnh cùng mô tả tới một đối tượng của ảnh truy vấn người dùng đưa vào P: Tỷ lệ % ảnh mô tả cùng đối tượng và số ảnh trả về E: Một bộ sưu tập các chủ đề ảnh, mỗi ảnh được biểu diễn bởi véc tơ đặc trưng và thông tin chủ đề của ảnh (có thể có hoặc không)
  • 14.
    Học máy (1) TS.Đào Thị Thúy Quỳnh
  • 15.
    Học máy (2) TS.Đào Thị Thúy Quỳnh
  • 16.
    Một số kháiniệm TS. Đào Thị Thúy Quỳnh
  • 17.
    Một số dạnghọc máy phổ biến TS. Đào Thị Thúy Quỳnh
  • 18.
    Học có giámsát – Supervised learning  Học có giám sát (Supervised learning): cần học một hàm 𝑦 = 𝑓 𝑥 từ các cặp dữ liệu {(𝑥𝑖, 𝑦𝑖) ∈ 𝑋 × 𝑌}, từ tập dữ liệu này chúng ta cần tạo ra một hàm ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) ở tập Y. 𝑦𝑖 ≈ 𝑓 𝑥𝑖 , ∀𝑖 = 1,2, … , 𝑁 - Phân loại (phân lớp): nếu y chỉ nhận giá trị từ một tập rời rạc, chẳng hạn {cá, cây, quả, mèo} - Hồi quy: nếu y nhận giá trị số thực • Mục đích là xấp xỉ hàm 𝒇 thật tốt để khi có một dữ liệu xmới, chúng ta có thể tính được nhãn tương ứng của nó y = 𝑓 𝑥 TS. Đào Thị Thúy Quỳnh
  • 19.
    Học có giámsát: Ví dụ TS. Đào Thị Thúy Quỳnh
  • 20.
    Phân lớp TS. ĐàoThị Thúy Quỳnh
  • 21.
    Hồi quy (Regression) TS.Đào Thị Thúy Quỳnh
  • 22.
    Học không cógiám sát - Unsupervised learning  Học không có giám sát Unsupervised learning): cần học từ các tập dữ liệu {(𝑥𝑖) ∈ 𝑋}, ∀𝑖 = 1,2, … , 𝑁, là tập dữ liệu không có nhãn.  - Có thể là các cụm dữ liệu - Có thể là cấu trúc ẩn TS. Đào Thị Thúy Quỳnh
  • 23.
    Học không cógiám sát: Ví dụ TS. Đào Thị Thúy Quỳnh
  • 24.
    Học luật kếthợp TS. Đào Thị Thúy Quỳnh Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước
  • 25.
    Học tăng cường TS.Đào Thị Thúy Quỳnh
  • 26.
    Nội dung  Giớithiệu  Học cây quyết định (decision tree learning)  Phân loại Bayes đơn giản  Học dựa trên ví dụ http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 27.
    Dữ liệu huấnluyện http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 28.
  • 29.
  • 30.
    Ví dụ câyquyết định http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 31.
    Cây quyết địnhlà gì? http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 32.
    Biểu diễn dướidạng quy tắc http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 33.
    Học cây quyếtđịnh http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 34.
    Thuật toán ID3 http://www.ptit.edu.vn TS.Đào Thị Thúy Quỳnh (nằm trên đường đi từ nút gốc tới nút hiện thời)
  • 35.
    Tiêu chuẩn chọnthuộc tính của ID3 http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 36.
  • 37.
    Độ tăng thôngtin IG http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 38.
    Ví dụ tínhIG http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 39.
    Các đặc điểmcủa ID3 http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 40.
    Training error vàTest error (1/2) http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh 𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛 𝑒𝑟𝑟𝑜𝑟𝑡𝑒𝑠𝑡 Data error: (Lỗi trên toàn tập dữ liệu) 𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎
  • 41.
    Overfitting http://www.ptit.edu.vn TS. Đào ThịThúy Quỳnh Vấn đề “quá vừa dữ liệu” hay Overfitting “Trên tập train thì phân loại với độ chính cao nhưng trên toàn tập dữ liệu với độ chính xác thấp” Ví dụ: ℎ quá vừa vừa dữ liệu nếu tồn tại ℎ′ nếu: 𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛(h) < 𝑒𝑟𝑟𝑜𝑟𝑡𝑟𝑎𝑖𝑛 ℎ′ (trên tập train) 𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎(h) > 𝑒𝑟𝑟𝑜𝑟𝑑𝑎𝑡𝑎 ℎ′ (trên tập data)
  • 42.
    Chống quá vừadữ liệu bằng cắt tỉa cây http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh Chú ý: Khi tỉa nút, toàn bộ nhánh bên dưới bị bỏ , nút sẽ trở thành lá với nhãn phân loại lấy theo đã số nhãn của ví dụ tại nút đó
  • 43.
    Chống quá vừadữ liệu bằng cách tỉa luật (C4.5) http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 44.
    Sử dụng thuộctính có giá trị liên tục http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 45.
    Các độ đokhác http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 46.
    Nội dung  Giớithiệu  Học cây quyết định (decision tree learning)  Phân loại Bayes đơn giản  Học dựa trên ví dụ http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 47.
    Phương pháp Phânloại Bayes (1/2) http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 48.
    Phương pháp Phânloại Bayes (2/2) http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 49.
  • 50.
    Nội dung  Giớithiệu  Học cây quyết định (decision tree learning)  Phân loại Bayes đơn giản  Học dựa trên ví dụ (Instance based learning) http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 51.
  • 52.
    Thuật toán kláng giềng gần nhất http://www.ptit.edu.vn TS. Đào Thị Thúy Quỳnh
  • 53.
  • 54.
    Minh họa Thuậttoán k-NN TS. Đào Thị Thúy Quỳnh
  • 55.
  • 56.
    Thuật toán k-NN Thuậttoán k-NN có thể dùng cho trường hợp Hồi quy, trong đó mẫu x có thể có nhãn phân loại f(x) với f(x) là một số thực. Thuật toán k-NN sẽ thay đổi ở bước 3 như sau: TS. Đào Thị Thúy Quỳnh
  • 57.
    Yêu cầu - Thựcnghiệm thật toán KNN trên bộ dữ liệu Iris flower dataset tải từ trang UCI. Bộ dữ liệu này bao gồm thông tin của ba loại hoa Iris : Iris setosa, Iris virginica và Iris versicolor. Mỗi loại có 50 bông hoa được đo với dữ liệu là 4 thông tin: chiều dài, chiều rộng đài hoa (sepal), và chiều dài, chiều rộng cánh hoa (petal). - Tách 150 dữ liệu trong Iris flower dataset ra thành 2 phần, gọi là training set và test set. Thuật toán KNN sẽ dựa vào trông tin ở training set để dự đoán xem mỗi dữ liệu trong test set tương ứng với loại hoa nào. Dữ liệu được dự đoán này sẽ được đối chiếu với loại hoa thật của mỗi dữ liệu trong test set để đánh giá hiệu quả của KNN. - Đánh giá: accuracy = 𝑆ố 𝑚ẫ𝑢 𝑡𝑟𝑜𝑛𝑔 𝑡𝑒𝑠𝑡 𝑑𝑎𝑡𝑎 đượ𝑐 𝑝ℎâ𝑛 𝑙𝑜ạ𝑖 đú𝑛𝑔 𝑆ố 𝑚ẫ𝑢 𝑡𝑟𝑜𝑛𝑔 𝑡𝑒𝑠𝑡 𝑑𝑎𝑡𝑎
  • 58.
    Xây dựng câyquyết định sử dụng thuật toán ID3 cho bộ dữ liệu sau. TS. Đào Thị Thúy Quỳnh
  • 59.
    TS. Đào ThịThúy Quỳnh