SlideShare a Scribd company logo
1 of 146
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 1
Báo Cáo Viên: PGS.TS. Vũ Thanh Nguyên
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 2
 Công nghệ Máy học là một trong những phương
pháp chính trong khai phá dữ liệu. Nó được sử dụng
trong tiến trình khám phá tri thức.
 Một số lợi ích của máy học:
 Các thông tin ngày càng nhiều, hàng ngày ta phải xử lý rất nhiều
thông tin đến từ nhiều nguồn khác nhau. Máy học có thể giúp xứ lý
và dự báo các thông tin đó bằng cách tạo ra các luất sản xuất từ dữ
liệu thu thập.
 Ở những nơi không có chuyên gia, máy học có thể giúp tạo ra được
các quyết định từ các dữ liệu có được.
 Các thuật toán máy học có thể giúp xử lý khi dữ liệu không đầy đử,
không chính xác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 3
 Một số lợi ích của máy học:
 Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn
nhân tạo) và giải mã mối liên hệ giữa các tri thức được lưu trữ trong
mạng từ dữ liệu.
 …
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 4
 Rất khó để định nghĩa một cách chính xác về máy
học.
 “Học - learn” có ý nghĩa khác nhau trong từng lĩnh
vực: tâm lý học, giáo dục, trí tuệ nhân tạo,…
 Một định nghĩa rộng nhất: “máy học là một cụm từ
dùng để chỉ khả năng một chương trình máy tính để
tăng tính thực thi dựa trên những kinh nghiêm đã
trải qua” hoặc “máy học là để chỉ khả năng một
chương trình có thể phát sinh ra một cấu trúc dữ
liệu mới khác với các cấu trúc dữ liệu cũ”
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 5
 Lợi điểm của các phương pháp máy học là nó phát
sinh ra các luật tường minh, có thể được sửa đổi,
hoặc được huấn luyện trong một giới hạn nhất định.
 Các phương pháp máy học hoạt động trên các dữ
liệu có đặc tả thông tin.
 Các thông tin được trình bày theo một cấu trúc gồm
4 mức được gọi là tri thức kim tự tháp (pyramid
knowledge).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 6
 Mô hình kim tự tháp: Từ dữ liệu đến tri thức.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 7
 Máy học là sự tự động của quy trình học và việc
học thì tương đương với việc xây dựng những luật
dựa trên việc quan sát trạng thái trên cơ sở dữ liệu
và những sự chuyển hoá của chúng.
 Đây là lĩnh vực rộng lớn không chỉ bao gồm việc
học từ mẫu, mà còn học tăng cường, học với
“thầy”,...
 Các thuật toán học lấy bộ dữ liệu và những thông
tin quen thuộc của nó khi nhập và trả về một kết
quả câu nói hay một câu ví dụ, một khái niệm để
diễn tả những kết quả học.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 8
 Máy học kiểm tra những ví dụ trước đó và kiểm tra
luôn cả những kết quả của chúng khi xuất và học
làm cách nào để tái tạo lại những kết quả này và tạo
nên những sự tổng quát hóa cho những trường hợp
mới.
 Nói chung, máy học sử dụng một tập hữu hạn dữ
liệu được gọi là tập huấn luyện. Tập này chứa
những mẫu dữ liệu mà nó được viết bằng mã theo
một cách nào đó để máy có thể đọc và hiểu được.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 9
 Tuy nhiên, tập huấn luyện bao giờ cũng hữu hạn do
đó không phải toàn bộ dữ liệu sẽ được học một cách
chính xác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 10
 Một tiến trình máy học gồm 2 giai đoạn:
 Giai đoạn học (learning): hệ thống phân tích dữ liệu và
nhận ra sự mối quan hệ (có thể là phi tuyến hoặc tuyến
tính) giữa các đối tượng dữ liệu. Kết quả của việc học có
thể là: nhóm các đối tượng vào trong các lớp, tạo ra các
luật, tiên đoán lớp cho các đối tượng mới.
 Giai đoạn thử nghiệm (testing): Mối quan hệ (các luật,
lớp...) được tạo ra phải được kiểm nghiệm lại bằng một
số hàm tính toán thực thi trên một phần của tập dữ liệu
huấn luyện hoặc trên một tập dữ liệu lớn.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 11
 Các thuật toán máy học được chia làm 3 loại: học
giám sát, học không giám sát và học nửa giám sát.
 Học có giám sát (Supervised Learning).
 Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ
thuật máy học giúp hệ thống xây dựng cách xác định
những lớp dữ liệu. Hệ thống phải tìm một sự mô tả cho
từng lớp (đặc tính của mẫu dữ liệu).
 Người ta có thể sử dụng các luật phân loại hình thành
trong quá trình học và phân lớp để có thể sử dụng dự báo
các lớp dữ liệu sau này.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 12
 Học có giám sát (Supervised Learning).
 Thuật toán học có giám sát gồm tập dữ liệu huấn luyện
M cặp:
S = {(xi, cj)| i=1,…,M; j=1,…,C}
 Các cặp huấn luyện này được gọi là mẫu, với
xi là vector n-chiều còn gọi là vector đặc trưng,
cj là lớp thứ j đã biết trước.
 Thuật toán máy học giám sát tìm kiếm không gian của
những giả thuyết có thể, gọi là H. Đối với một hay nhiều
giả thuyết, mà ước lượng tốt nhất hàm không được biết
chính xác f : x  c.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 13
 Học có giám sát (Supervised Learning).
 Đối với công việc phân lớp có thể xem giả thuyết như
một tiêu chí phân lớp.
 Thuật toán máy học tìm ra những giả thuyết bằng cách
khám phá ra những đặc trưng chung của những ví dụ
mẫu thể hiện cho mỗi lớp.
 Kết quả nhận được thường ở dạng luật (Nếu ... thì).
 Khi áp dụng cho những mẫu dữ liệu mới, cần dựa trên
những giả thuyết đã có để dự báo những phân lớp tương
ứng của chúng. Nếu như không gian giả thuyết lớn, thì
cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm
một hàm xấp xỉ tốt nhất f.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 14
 Học có giám sát (Supervised Learning).
 Tùy thuộc vào mức độ của thuật toán học giám sát,
người ta có những mô hình học giám sát như sau:
 Học vẹt (rote): hệ thống luôn luôn được “dạy” những luật đúng,
rồi có học hội tụ.
 Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi
đúng cho một công việc tương tự, nhưng không xác định. Vì
thế hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra
một luật mới có thể áp dụng cho trường hợp mới.
 Học dựa trên trường hợp (case-based learning): trong trường
hợp này hệ thống học lưu trữ tất cả các trường hợp, cùng với
kết quả đầu ra của chúng. Khi bắt gặp một trường hợp mới, nó
sẽ cố gắng hiệu chỉnh đến trường hợp mới này cách xử lý trước
đó của nó đã được lưu trữ.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 15
 Học có giám sát (Supervised Learning).
 Học dựa trên sự giải thích (explanation-based learning), hệ
thống sẽ phân tích tập hợp những giải pháp nhằm chỉ ra tại sao
mỗi phương pháp là thành công hay không thành công. Sau khi
những giải thích này được tạo ra, chúng sẽ được dùng để giải
quyết những vấn đề mới.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 16
 Học Không giám sát (Unsupervised Learning).
 Đây là việc học từ quan sát và khám phá. Hệ
thống khai thác dữ liệu được ứng dụng với
những đối tượng nhưng không có lớp được định
nghĩa trước, mà để nó phải tự hệ thống quan sát
những mẫu và nhận ra mẫu. Hệ thống này dẫn
đến một tập lớp, mỗi lớp có một tập mẫu được
khám phá trong tập dữ liệu.
 Học không giám sát còn gọi là học từ quan sát
và khám phá.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 17
 Học Không giám sát (Unsupervised Learning).
 Trong trường hợp chỉ có ít, hay gần như không
có tri thức về dữ liệu đầu vào, khi đó một hệ
thống học không giám sát sẽ khám phá ra những
phân lớp của dữ liệu, bằng cách tìm ra những
thuộc tính, đặc trưng chung của những mẫu hình
thành nên tập dữ liệu.
 Một thuật toán máy học giám sát luôn có thể
biến đổi thành một thuật toán máy học không
giám sát (Langley 1996).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 18
 Học Không giám sát (Unsupervised Learning).
 Đối với một bài toán mà những mẫu dữ liệu
được mô tả bởi n đặc trưng, người ta có thể chạy
thuật toán học giám sát n-lần, mỗi lần với một
đặc trưng khác nhau đóng vai trò thuộc tính lớp,
mà chúng ta đang tiên đoán.
 Kết quả sẽ là n tiêu chí phân lớp (n bộ phân lớp),
với hy vọng là ít nhất một trong n bộ phân lớp
đó là đúng.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 19
 Học nửa giám sát.
 Học nửa giám sát là các thuật toán học tích hợp
từ học giám sát và học không giám sát. Việc học
nửa giám sát tận dụng những ưu điểm của việc
học giám sát và học không giám sát và loại bỏ
những khuyết điểm thường gặp trên hai kiểu học
này.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 20
 Thuật Toán Naïve Bayes
 Đây là thuật toán được xem là đơn giản và đước sử dụng
rộng rãi.
 Thuật toán Naïve Bayes dựa trên định lý Bayes được
phát biểu như sau:
 Trong đó:
 Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng cứ
mới X
 P(X) : xác xuất X xảy ra, P(Y) : xác xuất Y xảy ra
 P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của X
khi Y đúng)
 P(Y|X) : xác suất hậu nghiệm của Y nếu biết X.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 21
 Thuật Toán Naïve Bayes được ứng dụng rất nhiều
trong thực tế. Một trong những ứng dụng cụ thể là
ứng dụng bài toán phân lớp.
 Đây là thuật toán được xem là đơn giản nhất trong
các phương pháp phân lớp. Bộ phân lớp Bayes có
thể dự báo các xác suất là thành viên của lớp, chẳng
hạn xác suất mẫu cho trước thuộc về một lớp xác
định.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 22
 Với mỗi lớp dữ liệu trong bộ huấn luyện, ta tính xác
suất phụ thuộc của văn bản cần phân loại:
 Với c1 là lớp dữ liệu cần tính xác suất và x là văn bản dữ
liệu cần phân loại
 Công thức tính P(x|ci):
P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci)
 Trong đó: P(wk|ci) là xác suất xuất hiện của từ wk
trong lớp văn bản ci (k=1n; i=1,2,3…)
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 23
 Mô hình Hệ thống mạng Nơrôn Lan truyền
ngược – Backpropogation Neural Network
(FNN).
 Các mô hình sử dụng mạng neuron là một cách tiếp cận
khá phổ biến cho vấn đề nêu trên. Điều đó xuất phát từ
khả năng ghi nhớ và học của cấu trúc này.
 Bên cạnh đó, tính ổn định của mạng neuron cũng là một
yếu tố quan trọng giúp nó được chọn vì đây là điều kiện
quan trọng đặt ra cho bài toán mô hình.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 24
 Thuật toán lan truyền ngược (BackPropagation
Algorithm)
file: backproalgorithm.pdf
 Phương pháp cài đặt cho thuật toán học Back-
Propagation.
file: setup_backproalgorithm.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 25
 Mô hình hệ thống mạng Nơrôn dạng hàm radial
- RADIAL BASIS FUNCTION NEURAL
NETWORKS (RBFNNs).
 Hệ thống Mạng Nơrôn RBFNNs sẽ giải quyết vấn đề xấp xỉ một
hàm liên tục n biến trên một miền compact. RBFNNs tiến hành lấy
đặc trưng cục bộ của hàm, và như vậy sẽ dễ dàng khởi tạo và huấn
luyện dữ liệu khi học.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 26
 Cấu trúc RBFNNs: Một mạng RBFNNs gồm có 3 lớp
 Lớp đầu vào (inputs)
 Lớp các hàm Gauss (số nút là do người sử dụng quy định)
 Lớp đầu ra (outputs)
 Các liên kết từ tầng inputs đến tầng các hàm gauss không có trọng
số
 Các liên kết ở tầng các hàm Gauss đến tầng ouputs có trọng số.
 Mỗi node ở tầng các hàm gauss có các thông số cần xác định là:
trọng tâm (xác định trọng tâm hàm gaus) , thông số sigma (xác định
độ lệch chuẩn của hàm gauss). Xác định các thông số ở tầng này
dùng để phân lớp.
 Các trọng số trên đường liên kết từ tầng các hàm Gauss đến tầng
ouput được xác định thông qua cách học bình thường:
phương pháp học lan truyền ngược (back propagation), phương
pháp học tuyến tính (line search), phương pháp học theo vết cũ
(backtracking).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 27
 Hoạt động của mô hình.
 Mỗi mẫu dữ liệu nhập sẽ qua k hàm gauss (giả sử ở tầng này có k
nút hàm gauss), hay có thể hiểu là có k lớp, xem mẫu thuộc vào lớp
nào qua tính xác xuất phân bố chuẩn (là hàm gauss của các lớp).
Các giá trị tính được này được tổ hợp tuyến tính (tính trung bình có
trọng số).
 Giải thuật học cho RBFNNs
File: Ước lượng mạng: EstNet_Rbfnn.pdf
File: Huấn Luyện mạng: TraiNet_Rbfnn.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 28
 Mô Hình Hệ Thống Mạng Nơrôn mờ hồi quy -
RECURRENT FUZZY NEURAL NETWORK
(RFNNs).
 Một cách tiếp cận của mô hình máy học cho nhiều bài toán ứng
dụng khác nhau là mô hình mạng nơ ron mờ hồi quy (Recurrent
Fuzzy Neural Network).
 Mô hình mạng nơ ron này kết hợp từ lý thuyết tập mờ và mô hình
mạng nơrôn tận dụng những ưu điểm như có khả năng xấp xỉ một
hàm liên tục với độ chính xác cho trước (mạng nơrôn) và khai thác
khả năng xử lý những tri thức như con người (lý thuyết tập mờ).
 Mạng nơ ron mờ hồi quy tỏ ra đạt hiệu quả cao cho những ứng
dụng như: dự báo chuỗi thời gian, nhận dạng và điều khiển những
hệ phi tuyến…
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 29
 Cấu trúc RFNNs.
 Cấu trúc mô hình RFNNs được thể hiện như hình dưới đây
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 30
 Một RFNNs gồm 4 lớp như sau:
 Lớp 1: Là lớp nhập gồm N dữ liệu nhập (input).
 Lớp 2: Gọi là lớp các hàm thành viên. Các nút trong lớp này thực
hiện việc mờ hoá. Lớp này dùng để tính giá trị hàm thành viên theo
hàm phân phối Gauss. Số nút trong lớp 2 là N x M, trong đó M là số
luật mờ (số nút của lớp 3)
 Lớp 3: Lớp các luật mờ. Các nút trong lớp này tạo thành cơ sở luật
mờ (Fuzzy rule base) gồm M nút. Liên kết giữa lớp 2 và lớp 3 biểu
diễn giả thiết của luật mờ. Liên kết giữa lớp 3 và lớp 4 biểu diễn kết
luận của luật mờ.
 Lớp 4: Lớp xuất gồm P nút.
Liên kết giữa lớp 3 và lớp 4 được gán trọng số.
Như vậy số nút của mô hình là: N + (N x M) + M + P
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 31
 Hoạt động của mô hình
 File: Activiti_RFNN.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 32
 Lập luận mờ
 Giả sử cho hệ RFNNs với nhiều đầu vào (Input) và một đầu ra
(Output). Gọi xi là biến ngôn ngữ thứ i và αj là giá trị kích hoạt của
luật j, wj là trọng số của kết nối thứ j.
 Một luật suy diễn mờ được biểu diễn như sau
Rj : Nếu u1j là A1j, u2j là A2j, .. , unj là Anj Thì y=wj
 Trong đó
i = 1, 2, .. , n. n là số đầu vào (Input)
uij = xi + θij * oij(2)
(t-1)
Aij là các tập mờ
Wj là trọng số kết nối
 Đầu vào của mỗi hàm thành viên là đầu vào xi của mạng cộng với
số hạng oij(2)θij.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 33
 Lập luận mờ
 Sơ đồ kết nối dựa trên luật suy diễn mờ như hình sau
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 34
 Lập luận mờ
 Hệ thống mờ với những thành phần nhớ (Feedback unit) có thể
được xem như là một hệ suy luận mờ động và giá trị suy luận được
tính bởi
 với M là số luật
 Từ mô tả trên, ta thấy RFNNs là một hệ suy luận mờ có các phần tử
nhớ. Sau khi huấn luyện xong, các thông số trong mạng cùng với
các phần tử nhớ đã xác định tri thức.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 35
 Giải thuật học cho RFNNs
 File: learnin_RFNN.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 36
 Mô Hình Hệ thống Fuzzy Artmap Neural
Network.
 Hệ thống fuzzy ARTMAP neural network là mạng neural học giám
sát có khả năng nhận dạng nhanh và ổn định, có khả năng dự báo
chính xác phù hợp cho phân lớp.
 Cấu trúc của mạng là cấu trúc tiến hóa và là sự kết hợp của hai
mạng fuzzy ART, ARTa và ARTb. Hai mạng này được liên kết với
nhau bởi mạng neural MAP Field.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 37
 Sơ đồ khối của hệ thống fuzzy ARTMAP
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 38
 Quá trình học của mạng ARTMAP là một quá trình hoạt động đồng thời
của 2 mạng ARTa và ARTb.
 Cho mẫu đầu vào a vào lớp Fo
a
của mạng ARTa và mẫu đầu vào b
vào lớp Fo
b
của mạng ARTb với b là mẫu dự đoán chính xác của a.
 Lớp mã hóa Fo tạo ra vector A = (a, ac
) trong ARTa và B = (b, bc
)
trong ARTb với ac
, bc
tương ứng là phần bù của a, b.
 Lớp F1 với vector đầu vào x (xa
= A cho ARTa và xb
= B cho
ARTb) tạo ra những ma trận trọng số thích nghi Wj liên kết giữa lớp
F1 và lớp F2 (Wj
a
cho ARTa và Wj
b
cho ARTb).
 Vector y (ya
= A cho ARTa và yb
= B cho ARTb) biểu diễn sự kích
hoạt của lớp F2.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 39
 Mạng fuzzy ARTMAP có các tham số giống với mạng fuzzy ART là
tham số α > 0 được sử dụng trong quá trình so sánh giữa các neural
trong F2, tham số huấn luyện β [0 1] biểu diễn tốc độ học, và tham số∈
vigilance ρ [0 1] được sử dụng trong quá trình tìm neural chiến thắng∈
trong F2, đồng thời mạng fuzzy ARTMAP có thêm giá trị nhỏ nhất của
tham số vigilance của ARTa ρ­¬a
, tham số vigilance ρ­ab
và tham số huấn
luyện βab
của lớp MAP.
 Quá trình tính toán sẽ tìm ra một neural chiến thắng lớn nhất tại F2
a
tương ứng với đầu vào A và xem là neural kích hoạt J. Trong khi đó F2
b
sẽ kích hoạt một neural K từ mẫu vào B. Quá trình so sánh sẽ xảy ra tại
MAP Field.Nếu neural kích hoạt K của B trùng với neural kích hoạt J
của A thì việc dự đoán của ARTa là chính xác, đồng thời cập nhật Wj
ab
.
Ngược lại, một tín hiệu kích hoạt từ Map Field sẽ tác động lên ρa
một
lượng làm thay đổi ρa
, sau đó quá trình sẽ lặp lại đối với ARTa để tìm
neural kích hoạt khớp với ARTb.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 40
 Giải thuật fuzzy ARTMAP neural network
File: training_FuzzyArtmap.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 41
 Mô hình Hệ luật mờ - Standard Additive Model
(SAM).
 Việc sử dụng mô hình mạng neuron (và một số mô hình khác…)
cho bài toán xấp xỉ hiện vẫn đang còn nhiều nhược điểm. Trước hết
đó là khả năng học của mạng neuron.
 Hơn nữa, việc xác định cấu trúc mạng neuron phù hợp cho từng bộ
số liệu vẫn là một công việc hết sức khó khăn:
 Với hệ thống các neuron trong các lớp và các cung liên kết, mạng
neuron thật sự là một hộp đen đối với người dùng, đặc biệt là các
chuyên gia.
 Các chuyên gia tham gia vào việc huấn luyện mạng neuron cũng
không thể hiểu và nắm bắt được toàn bộ các hiệu chỉnh xảy ra bên
trong (trên các neuron và dây liên kết) của nó.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 42
 Chính vì các hạn chế nói trên ⇒ xây dựng một cấu
trúc khá đặc biệt để xây dựng các hệ thống xấp xỉ,
đó là hệ luật mờ.
 các mô hình xấp xỉ các hàm phi tuyến chỉ thực sự
được đưa ra bởi Bart Kosko vào năm 1992.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 43
 Việc sử dụng hệ mờ để xây dựng các mô hình xấp
xỉ xuất phát từ những tính năng đặc biệt của nó:
 Có thể chứng minh tính ổn định của hệ mờ.
 Các đại lượng mang giá trị ngôn ngữ (mờ) của các chuyên gia
có thể dễ dàng biểu diễn thông qua các tập mờ. Nhờ đó giúp
hệ mờ phản ánh đầy đủ tri thức của chuyên gia (thông qua các
luật mờ). Cách biểu diễn này tạo sự gần gũi giữa hệ thống với
chuyên gia. Chuyên gia có thể hiểu và tham gia vào việc xây
dựng cũng như điều chỉnh hệ mờ thông qua việc chỉnh sửa
các luật mờ có trong hệ.
 Không như mạng neuron, hệ mờ thật sự là một hộp trắng mà
thông số của nó có thể dễ dàng hiểu và điều chỉnh được bởi
chuyên gia.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 44
 MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.
 Hệ luật mờ là hệ thống m luật mờ dạng Rj: IF x = Aj
THEN y = Bj; , hoạt động theo cơ chế song song.
 Có nhiều cách kết hợp vế trái và phải trong mỗi luật mờ
và kết hợp kết quả của các luật mờ trong hệ luật mờ.
 Tuy nhiên, vì các đặc tính thuận lợi trong tính toán (tính
tích phân để xác định trọng tâm), người ta thường dùng
đến hệ luật mờ hoạt động theo qui tắc kết hợp SUM-
PRODUCT.
 Do tính kết hợp SUM các luật mờ mà hệ luật mờ này có
tên gọi là SAM (Standard Additive Model).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 45
 MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.
 Trong hệ mờ SAM, ứng với mỗi giá trị vào x=x0, luật
thứ j : Rj được kích hoạt và cho kết quả là tập mờ Bj’xác
định theo Bj và mức độ thỏa mãn vế trái aj(x0) dựa trên
qui tắc PRODUCT.
Bj’ = aj(x0)×Bj
 m kết quả ra Bj’ của các luật trong hệ luật được SAM
kết hợp theo qui tắc SUM để cho kết quả chung của toàn
hệ thống là tập mờ B. Từ phụ lục A, ta có:
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 46
 MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.
 Giá trị B sẽ được khử mờ để nhận được một giá trị rõ
duy nhất. Gọi y là kết quả sau khi khử mờ tập mờ kết
quả B của hệ SAM, ta có:
∑
∑
=
=
=== m
1j
j0jj
m
1j
jj0jj
00
V).x(a.w
c.V).x(a.w
))x(B(Centroid)x(Fy
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 47
 ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI
TUYẾN.
 Hệ SAM hoạt động như một ánh xạ: F: Rn  Rp. Chính nhờ đặc
trưng này mà với bất kỳ hàm phi tuyến liên tục giới hạn f(x), f : U ⊂
Rn  Rp, với U là tập compact, ta luôn có thể xây dựng một hệ mờ
SAM: F: Rn  Rp cho phép xấp xỉ f bởi F.
 Cũng như các mô hình xấp xỉ khác, mỗi mô hình xấp xỉ mờ hàm phi
tuyến SAM luôn tương ứng với một giá trị sai số nhất định. Giá trị
này được xác định trên mức độ chênh lệnh giữa giá trị cho bởi hàm
f(x) và giá trị nhận được từ hệ F(x), ∀x∈X. Gọi e là giá trị sai số
của mô hình xấp xỉ SAM, ta có
 Giả sử f là hàm số được xấp xỉ (có thể chưa biết). ε > 0 cho trước.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 48
 ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI
TUYẾN.
 Định nghĩa:
ε-close = {F là hệ mờ xấp xỉ f : |f(x) – F(x)| ≤ ε ∀x ∈ X}
 Dưới góc độ khảo sát đồ thị, khả năng xấp xỉ của hệ mờ F đối với
một hàm phi tuyến y = f(x) được thể hiện như sau:
• Mỗi luật mờ trong hệ mờ hoạt động theo cơ chế xấp xỉ cho phép tương
ứng với mỗi tập mờ vào Aj (có cơ sở là không gian các giá trị vào X)
là một tập mờ kết quả Bj (có cơ sở là không gian các giá trị ra Y). Aj
và Bj làm hình thành một khối (patch) mờ Aj×Bj xác định trong không
gian tích X×Y.
• Thông qua việc kết hợp các khối mờ hình thành từ các luật mờ Rj hoặc
lấy trung bình giữa các khối mờ này nếu chúng chồng lấp lẫn nhau
nhờ vào cơ chế khử mờ bằng phương pháp trọng tâm, hệ mờ SAM F
có thể bao phủ đồ thị biểu diễn của hàm f(x) mà nó xấp xỉ. f có thể
chưa biết.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 49
 ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI
TUYẾN.
 So sánh giữa 2 hình (1a) và (1b), nhận xét rằng số lượng khối mờ càng
nhiều và nhỏ thì khả năng bao phủ của F trên đường biểu diễn của f càng
sát thực; nghĩa là độ chính xác trong xấp xỉ của F đối với f càng cao. Điều
đó có nghĩa là một hệ mờ càng có nhiều luật thì độ chính xác trong xấp xỉ
các hàm phi tuyến của hệ mờ càng cao. Đây chính là vấn đề tranh chấp
giữa một bên là độ chính xác trong xấp xỉ của hệ luật mờ và một bên là kích
thước (số luật) của nó. Mặt khác, khi số chiều của không gian XY gia tăng
sẽ làm dẫn đến sự bùng nổ số luật của hệ theo cấp số mũ.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 50
 ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI
TUYẾN.
 Vấn đề đặt ra ở đây là làm sao xây dựng các khối mờ hay nói một cách cụ
thể hơn là xây dựng các tập mờ và luật mờ cần thiết cho hệ mờ F để nó có
thể xấp xỉ một hàm phi tuyến f(x).
 Đây là một vấn đề khá phức tạp và quan trọng. Bởi vì số lượng các luật mờ
và cấu trúc các thông số của nó ảnh hưởng nghiêm trọng đến hiệu quả xấp
xỉ của hệ mờ ⇒ xây dựng các cơ chế học đủ mạnh.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 51
 CƠ CHẾ HỌC TRONG SAM.
 Học là hoạt động quan trọng của SAM nhằm xây dựng cơ sở tri thức cần
thiết dưới dạng các luật mờ phục vụ cho việc mô phỏng hàm phi tuyến mà
hệ đảm nhận.
 Nhờ cơ chế học mà SAM có thể khắc phục hạn chế là phải chờ đợi tri thức
chuyên gia.
 Ngoài ra, việc học còn giúp cho SAM có khả năng tự điều chỉnh các thông
số cấu trúc cũng như kiểm tra tính tối ưu trong cấu trúc luật để từ đó có thể
nâng cao độ chính xác trong hoạt động xấp xỉ của nó.
 Thông qua việc hiệu chỉnh các thông số: kích thước, trọng tâm các tập mờ,
SAM tự động định vị lại vị trí và kích thước của các khối mờ, nhờ đó quá
trình xấp xỉ của SAM được chính xác hơn.
 Đối với SAM, một phương pháp học được đánh giá là tốt hay không ở chổ
nó có điều chỉnh nhanh chóng hay không kích thước và vị trí của các khối
mờ cũng như đảm bảo duy trì các khối mờ tại các điểm uốn của hàm f.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 52
 CƠ CHẾ HỌC TRONG SAM.
 Quá trình học của SAM (hay của hệ mờ nói chung) thông thường bao gồm
hai bước chính là học cấu trúc và học tham số ⇒ phối hợp thêm cơ chế học
tối ưu hệ luật.
 Quá trình học của SAM ở đây bao gồm các giai đoạn sau:
 Tự phát sinh cấu trúc luật (structure learning): Đây là bước khởi đầu
của quá trình học. Bước này được thực hiện theo cơ chế tự học
(unsupervised learning). Bằng cách thực hiện việc phân lớp mờ trên bộ
dữ liệu học, hệ SAM sẽ tự phát hiện ra các luật mờ cần thiết cho việc
xấp xỉ hàm phi tuyến đặc trưng cho bộ số liệu học đó.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 53
 CƠ CHẾ HỌC TRONG SAM.
 Quá trình học của SAM ở đây bao gồm các giai đoạn sau:
 Điều chỉnh các thông số (parameters learning): Sau khi đã xây dựng
được bộ luật mờ cần thiết, công việc học tiếp theo của SAM là điều
chỉnh các thông số của hệ luật như: trọng số của từng luật, trọng tâm
và kích thước của các tập mờ tham gia ở vế trái và vế phải của các
luật. Quá trình này được tiến hành theo cơ chế học có giám sát
(supervised learning). Thông qua việc kiểm tra sai số giữa giá trị kết
quả do hệ sinh ra từ bộ dữ liệu học với kết quả mong muốn, hệ sẽ thực
hiện điều chỉnh lại các thông số cho phù hợp. Việc điều chỉnh thông số
được tiến hành theo thuật toán học điều chỉnh sai số nhỏ nhất.
 Tối ưu hóa hệ luật (optimal learning): Giai đoạn học này cho phép
SAM có thể phát hiện và loại bỏ các luật mờ không cần thiết cho hoạt
động xấp xỉ của nó. Nhờ cơ chế này mà SAM có thể gọn nhẹ hơn
nhằm tăng đáng kể tốc độ xử lý cũng như giảm nhiễu. Cơ chế học ở
đây cũng gần giống như cơ chế học có giám sát.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 54
 CƠ CHẾ HỌC TRONG SAM.
 HỌC CẤU TRÚC.
 Bài toán học cấu trúc có thể phát biểu như sau:
Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj},
j=1,ntd, với ntd: số bộ dữ liệu học
Cho trước dạng hàm phụ thuộc của các tập mờ.
 Hãy xây dựng một phân lớp mờ P({xj|yj}) trên các bộ số liệu học. Trên
cơ sở đó, xác định các tập mờ và hàm phụ thuộc tương ứng để từ đó
phát sinh các luật mờ của hệ mờ SAM có khả năng xấp xỉ một cách tốt
nhất hàm phi tuyến y=f(x) (chưa biết) đặc trưng của bộ dữ liệu học.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 55
 CƠ CHẾ HỌC TRONG SAM.
 Việc giải quyết bài toán này được tiến hành theo hai bước sau:
 Xác định các tập mờ bằng thuật toán phân lớp dữ liệu mờ
(Data Fuzzy Clustering)
 Phân lớp mờ dữ liệu là bước quan trọng trong quá trình xây dựng các
luật mờ của một hệ mờ tự học.
 Nhiệm vụ đặt ra đối với quá trình phân lớp mờ dữ liệu là từ một tập
hữu hạn các bộ số liệu học cho trước, tìm cách tách chúng ra thành
từng nhóm với các đặc trưng riêng sao cho các bộ số liệu trong cùng
một nhóm càng giống nhau và các bộ số liệu giữa các nhóm càng khác
nhau càng tốt.
 Đối với quá trình phân lớp dữ liệu mờ thì bên cạnh việc phân tách dữ
liệu, phải tiến hành đồng thời việc xác định mức độ phụ thuộc của
từng bộ số liệu đối với nhóm mà nó thuộc về, để từ đó có thể xác định
hàm thành viên của tập mờ tương ứng với nhóm sẽ được tạo ra sau
này.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 56
 CƠ CHẾ HỌC TRONG SAM.
 Bài toán phân lớp mờ dữ liệu được phát biểu như sau:
 Gọi Rn là không gian các vector có n thành phần thực.
 Đặt X = {x1, x2, ..., xntd}, xj ∈ Rn, là tập hữu hạn bộ số liệu học, trong
đó ntd (number of training data) là số bộ dữ liệu học.
 Gọi Vcn là không gian vector các ma trận c×n, c ∈ Z+
cho trườc,
1<c<n.
 Xác định một phân lớp mờ trên X biểu diễn bởi một bộ vector trọng
tâm:
V = {v1, v2, ..., vc}, vi ∈ Rn. cho tương ứng với 1 ma trận
U = {uij} ∈ Vcn, với uij là giá trị thực trong đoạn [0,1] diễn tả mức
độ phụ thuộc của bộ số liệu học xj ứng với vector trọng tâm vi, và
thỏa hai điều kiện sau:
1. ∀x ∈ X, uij ∈ [0,1],
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 57
 CƠ CHẾ HỌC TRONG SAM.
 Bài toán phân lớp mờ dữ liệu được phát biểu như sau:
2. :
Nhiệm vụ đặt ra của bài toán phân lớp mờ là phải làm giảm thiểu giá trị
hàm mục tiêu J xác định trên U và V có dạng như sau:
And
trong đó:
w(xi) là trọng số khởi đầu của xi.
d(xj, vk) là độ đo biểu diễn mức độ khác biệt giữa xj và vector trọng
tâm của phân lớp thứ k: vk. Độ đo chọn phải thỏa hai tính chất sau:
d(xj, vk) > 0
d(xj, vk) = d(vk, xj)
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 58
 CƠ CHẾ HỌC TRONG SAM.
 Hiện nay có rất nhiều thuật toán đề cập đến vấn đề này. Đa số các
thuật toán đều có mục tiêu chung là xác định V. Giá trị của U có thể
được xác định một cách tuyệt đối hoặc tương đối thông qua một đại
lượng khác nhằm mục đích hạn chế thao tác xử lý và tài nguyên sử
dụng.
 Thuật toán phân lớp mờ trung bình (Fuzzy C-Means-FCM).
File: FCM_Algorithm.pdf
 Một hướng giải quyết khác được hình thành từ ý tưởng của phương
pháp học cạnh tranh. Qua đó số lớp mờ được xác định một cách tự
động từ bộ số liệu học.
 Thuật toán FCM cải tiến với phân lớp mờ dẫn đầu.
File: FCM_First_Algorithm.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 59
 CƠ CHẾ HỌC TRONG SAM.
 Một phương pháp phân lớp theo hướng tiếp cận tựa FCM là phương
pháp dùng vector lượng tử thích nghi. Giống như các vector V của
thuật toán FCM, các vector lượng tử được dùng như một công cụ để
dò tìm các phân lớp mờ. Điểm đặc biệt của phương pháp này là sử
dụng phương pháp học cạnh tranh, nhờ đó giảm thiểu đáng kể thao tác
xử lý cũng như không gian lưu trữ cần dùng cho thuật toán.
 Thuật toán vector lượng tử thích nghi (Adaptive Vector
Quantization - AVQ)
File: AVQ_algorithm.pdf
 Thuật toán vector lượng tử thích nghi với phân lớp dẫn đầu
(Adaptive Vector Quantization Leader - AVQL)
File: AVQL_algorithm
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 60
 CƠ CHẾ HỌC TRONG SAM.
 Xây dựng các luật mờ.
 Sau khi thực hiện quá trình phân lớp mờ, công việc tiếp theo là
xây dựng các luật mờ từ các phân lớp đó.
 Dựa trên các thông tin về các phân lớp mờ: các trọng tâm của các
vector lượng tử qi, người ta tiến hành xây dựng các luật mờ.
 Trọng tâm của các tập mờ có thể dễ dàng xác định thông qua tọa
độ các vector lượng tử. Nhưng để xác định dạng hàm thành viên
đòi hỏi phải xác định được độ rộng của các tập mờ.
 Kosko với đề nghị sử dụng các luật mờ dạng ellipse (ellipsoid
rules: luật tương ứng với khối mờ dạng ellipse thay vì hình chữ
nhật như thường dùng) và thuật toán phân lớp mờ thông qua các
vector lượng tử với cơ chế học cạnh tranh đã cung cấp một cơ chế
giúp xác định chính xác độ rộng của các tập mờ thông qua tâm
của các ellipse và độ nghiêng của chúng.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 61
 CƠ CHẾ HỌC TRONG SAM.
 Xây dựng các luật mờ.
 Tuy nhiên phương pháp này có nhiều trở ngại do mức độ phức
tạp của nó khi cài đặt.
 Việc xác định chính xác độ rộng của các tập mờ trong bước này
không thực sự quan trọng lắm bởi vì sau đó ta còn có thể kịp thời
hiệu chỉnh bằng giai đoạn học điều chỉnh thông số.
 Một cách đơn giản, độ rộng của một tập mờ thứ i có thể xác định
thông qua tập mờ lân cận của nó theo công thức sau:
Trong đó:
mi: trọng tâm của tập mờ thứ i
mclosest: trọng tâm của tập mờ gần tập mờ thứ i nhất.
r: hệ số chồng lấn giữa các tập mờ do người dùng quyết
định.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 62
 CƠ CHẾ HỌC TRONG SAM.
 Xây dựng các luật mờ.
 Mỗi khối mờ cho phép hình thành một luật mờ trong hệ. Dạng
hàm biểu diễn tập mờ phải được xác định trước ⇒ Dùng hàm
hình thang vì lý do dễ cài đặt của nó.
 Đồ thị biểu diễn của hàm có dạng hình thang. Hàm hình thang
tương ứng với tập mờ thứ j được định nghĩa bằng bộ 4 giá trị (lj,
mlj, mrj, rj). Với lj, rj >0, mlj ≤ mrj. Giá trị hàm thành viên của tập
mờ thứ j được xác định như sau:
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 63
 CƠ CHẾ HỌC TRONG SAM.
 ĐIỀU CHỈNH THÔNG SỐ.
 Khi các luật mờ đã được xác định, học điều chỉnh thông số giúp
giảm sai số giữa kết quả của hệ và kết quả mong muốn.
 Bài toán được phát biểu như sau: Cho trước bộ dữ liệu học vào
{xj} và bộ kết quả mong muốn {yj}, j=1.ntd ; với ntd: số bộ dữ
liệu học.
 Cho hệ luật mờ SAM với các luật mờ và trọng số.
 Hãy điều chỉnh thông số của các tập mờ vế trái, vế phải và trọng
số các luật mờ sao cho sai số giữa kết quả cho bởi hệ luật mờ và
kết quả mong muốn là ổn định và nhỏ nhất.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 64
 CƠ CHẾ HỌC TRONG SAM.
 ĐIỀU CHỈNH THÔNG SỐ.
 Quá trình học điều chỉnh thông số được tiến hành dựa trên luật
học sai số nhỏ nhất. Luật học sai số nhỏ nhất áp dụng cho tham số
ξ trong SAM có dạng:
 Trong đó µt là hệ số học biến đổi theo thời gian và có xu hướng
giảm dần. Mục đích của giai đoạn học điều chỉnh thông số là tối
thiểu bình phương sai số:
E(x) = 1/2 (f(x)-F(x))2
 Sai số trong xấp xỉ của hệ luật mờ phụ thuộc vào các tham số
tham gia vào hệ, bao gồm: các tập mờ vế trái Aji, các tập mờ vế
phải Bj, các trọng số wj (tham khảo file: editparameter.pdf).
 Thuật toán học thông số. file: para_algorithm.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 65
 CƠ CHẾ HỌC TRONG SAM.
 TỐI ƯU HỆ LUẬT.
 Về mặt lý thuyết, một hệ SAM càng có nhiều luật thì độ chính
xác trong hoạt động xấp xỉ của nó càng lớn.
 Tuy nhiên, nếu hệ có quá nhiều luật thì thời gian cho quá trình xử
lý trong hệ luật sẽ là yếu tố đáng quan tâm. Một vấn đề đặt ra là
làm sao có thể giải quyết hợp lý mối quan hệ giữa kích thước (số
luật) của hệ SAM và độ chính xác trong xấp xỉ của nó.
 Một hệ luật tối ưu sẽ chỉ giữ lại một số (hoặc tất cả) các luật ban
đầu trong hệ SAM.
 Mỗi luật được giữ lại cho tương ứng với giá trị 1, các luật bị loại
cho tương ứng với giá trị 0. Giả sử SAM có m luật và vị trí của
các luật không đổi trong suốt quá trình xem xét, ta có thể biểu
diễn trạng thái của các luật trong hệ ở thời điểm bắt đầu và thời
điểm sau khi xử lý để chọn các luật tối ưu.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 66
 CƠ CHẾ HỌC TRONG SAM.
 TỐI ƯU HỆ LUẬT.
 Bài toán tối ưu hệ luật được phát biểu như sau:
Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong
muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học.
Cho hệ luật mờ SAM với các luật mờ và trọng số.
Hãy tìm số vị trí 1 ít nhất sao cho sai số giữa kết quả cho
bởi hệ SAM và kết quả mong muốn là ổn định
và nhỏ nhất.
 Người ta thường kết hợp một số thuật toán khác (như thuật toán
di truyền) để tối ưu hóa hệ luật.
 Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm
sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và
đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó
chọn một cá thể tốt nhất làm kết quả của thuật toán.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 67
 Giải Thuật Di Truyền.
 Là một kỹ thuật nhằm tìm kiếm giải pháp thích hợp cho các bài
toán tối ưu tổ hợp (combinatorial optimization).
 Giải thuật di truyền vận dụng các nguyên lý của tiến hóa như
phép lai, phép đột biến, phép sinh sản và chọn lọc tự nhiên.
 Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn
ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp
những đại diện trừu tượng (nhiêm sắc thể) của các giải pháp có
thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề.
 Tập hợp này sẽ tiến triển theo hướng chọn lọc những giải pháp
tốt hơn (chọn lọc tự nhiên).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 68
 Giải Thuật Di Truyền.
 Thông thường, những giải pháp được thể hiện dưới dạng những
chuỗi thông tin mã hóa khác nhau (phần lớn ở dạng nhị phân).
 Quá trình tiến hóa xảy ra từ một tập hợp những cá thể hoàn
toàn ngẫu nhiên ở tất cả các thế hệ.
 Trong từng thế hệ, tính thích nghi của tập hợp này được ước
lượng (nhằm ngăn chặn khả năng bùng nổ tổ hợp), nhiều cá thể
được chọn lọc định hướng từ tập hợp hiện thời (dựa vào thể
trạng), được sửa đổi (bằng đột biến hoặc tổ hợp lại) để hình
thành một tập hợp mới.
 Tập hợp này sẽ tiếp tục được chọn lọc lặp đi lặp lại trong các
thế hệ kế tiếp của giải thuật.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 69
 TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI
TRUYỀN GA.
 Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể,
dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để
phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết
quả của thuật toán.
 Quá trình thực hiện như sau:
 Biểu diễn các nhiễm sắc thể:
Mỗi nhiễm sắc thể là một chuỗi các giá trị nhị phân diễn tả trạng
thái hoạt động của luật tương ứng trong hệ SAM. Mỗi thế
hệ sẽ chỉ sử dụng 10 nhiễm sắc thể. Thế hệ đầu tiên bao
giờ cũng chứa đầy đử các luật (tất cả giá trị bằng 1).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 70
 TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI
TRUYỀN GA.
 Hàm thích nghi:
 Mối qua hệ giữa kích thước SAM và độ chính xác trong xấp xỉ của
SAM được giải quyết bằng hàm thích nghi sau:
m: Số luật (trạng thái 1) được sử dụng trong hệ SAM, n: Số bộ số
liệu học
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 71
 TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI
TRUYỀN GA.
 Thuật toán:
 b1. Khởi tạo 10 nhiễm sắc thể, có 1 nhiễm sắc thể biễu diễn đầy đủ các
luật.
 b2. Tạo các nhiễm sắc thể mới bằng các phương pháp: Lai nhị phân
(Tỷ lệ 0.5) và đột biến nhị phân (Tỷ lệ 0.01).
 b3. Dùng phương pháp bánh xe quay với hàm thích nghi (c1) để giữ
lại 10 nhiễm sắc thể tốt nhất (có hàm Fit(.) → min ).
 b4. Nếu điều kiện lặp chưa kết thúc, quay lại b2.
 b5. Chọn nhiễm sắc thể tốt nhất trong 10 nhiễm sắc thể nhận được làm
kết quả trả về.
Chuỗi nhị phân tìm được sẽ được dùng làm cơ sở cho việc hủy bỏ các luật
không cần thiết trong hệ SAM.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 72
 SƠ ĐỒ HỌC CỦA SAM
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 73
 Support Vector Machines (SVMs) là một phương
pháp phân loại máy học do Vladimir Vapnik và các
cộng sự xây dựng nên từ những năm 70 của thế kỷ
20.
 SVMs là một phương pháp phân loại xuất phát từ lý
thuyết học thống kê, dựa trên nguyên tắc tối thiểu
rủi ro cấu trúc (Structural Risk Minimisation).
 SVMs sẽ cố gắng tìm cách phân loại dữ liệu sao
cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test
Error Minimisation).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 74
 Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi
tuyến) dữ liệu vào không gian các vector đặc trưng
(space of feature vectors) mà ở đó một siêu phẳng
tối ưu được tìm ra để tách dữ liệu thuộc hai lớp
khác nhau.
 SVMs đã được ứng dụng rất nhiều trong việc nhận
dạng mẫu như nhận dạng chữ viết tay, nhận dạng
đối tượng, nhận dạng khuôn mặt trong ảnh, và phân
loại văn bản…
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 75
 Chúng ta hãy xem xét một bài toán phân loại văn bản bằng
phương pháp Support Vector Machines như sau:
 Bài toán: Kiểm tra xem một tài liệu bất kỳ d thuộc hay không thuộc
một phân loại c cho trước? Nếu d∈c thì d được gán nhãn là 1,
ngược lại thì d được gán nhãn là –1.
 Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …,
tn}, thì mỗi văn bản di sẽ được biểu diễn bằng một vector dữ liệu
xi=(wi1, wi2, …, win), wij∈R là trọng số của từ tj trong văn bản di.
Như vậy, tọa độ của mỗi vector dữ liệu xi tương ứng với tọa độ của
một điểm trong không gian Rn
. Quá trình phân loại văn bản sẽ thực
hiện xử lý trên các vector dữ liệu xi chứ không phải là các văn bản
di. Bởi vậy, trong phần này chúng tôi sẽ sử dụng đồng nhất các
thuật ngữ văn bản, vector dữ liệu, điểm dữ liệu.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 76
 Chúng ta hãy xem xét một bài toán phân loại văn bản bằng
phương pháp Support Vector Machines như sau:
 Dữ liệu huấn luyện của SVMs là tập các văn bản đã được gán nhãn
trước Tr={(x1, y1), (x2, y2), …, (xl, yl)}, trong đó, xi là vector dữ liệu
biểu diễn văn bản di (xi∈Rn
), yi∈{+1, -1}, cặp (xi, yi) được hiểu là
vector xi (hay văn bản di) được gán nhãn là yi.
 Nếu coi mỗi văn bản di được biểu diễn tương ứng với một điểm dữ
liệu trong không gian Rn
thì ý tưởng của SVMs là tìm một mặt hình
học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân
chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thuộc về
phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1
thuộc về phía âm của siêu phẳng (f(x-)<0).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 77
 Chúng ta hãy xem xét một bài toán phân loại văn bản bằng
phương pháp Support Vector Machines như sau:
 Với bài toán phân loại SVMs, một siêu phẳng phân chia dữ liệu
được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất
đến siêu phẳng là lớn nhất. Khi đó, việc xác định một tài liệu x∉Tr
có thuộc phân loại c hay không, tương ứng với việc xét dấu của f(x),
nếu f(x)>0 thì x∈c, nếu f(x)≤0 thì x∉c.
 Siêu phẳng phân chia tập mẫu huấn luyện
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 78
 Chúng ta hãy xem xét một bài toán phân loại văn bản bằng
phương pháp Support Vector Machines như sau:
 đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình
chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các
vector hỗ trợ (support vector).
 Các đường nét đứt mà các support vector nằm trên đó được gọi là
lề (margin).
 Tài liệu tham khảo: file: SVM_data.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 79
 Trong SVMs thông thường thì các điểm dữ liệu đều có giá
trị như nhau, mỗi một điểm sẽ thuộc hoàn toàn vào một
trong hai lớp.
 Tuy nhiên trong nhiều trường hợp có một vài điểm sẽ không
thuộc chính xác vào một lớp nào đó, những điểm này được
gọi là những điểm nhiễu, và mỗi điểm có thể sẽ không có ý
nghĩa như nhau đối với mặt phẳng quyết định.
 Để giải quyết vấn đề này Lin CF. và Wang SD (2002) đã
giới thiệu Fuzzy support vector machines (FSVMs) bằng
cách sử dụng một hàm thành viên để xác định giá trị đóng
góp của mỗi điểm dữ liệu đầu vào của SVMs vào việc hình
thành siêu phẳng.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 80
 Cho tập dữ liệu huấn luyện
Với xi là một mẫu huấn luyện, , yi là nhãn của xi ,
si là một hàm thành viên thỏa , là một hằng số đủ nhỏ > 0.
Bài toán được mô tả như sau:
C là một hằng số. Hàm thành viên si thể hiện mức độ ảnh
hưởng của điểm xi đối với một lớp. Giá trị có thể làm
giảm giá trị của biến , vì vậy điểm xi tương ứng với có
thể được giảm mức độ ảnh hưởng hơn.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 81
 Giải quyết bài toán: file: FSVM_Optimal.pdf
 Chọn hàm thành viên
 Việc chọn hàm thành viên si thích hợp là rất quan trọng trong
FSVMs. Theo Chun hàm thành viên si dùng để giảm mức độ ảnh
hưởng của những điểm dữ liệu nhiễu là một hàm xác định khoảng
cách giữa điểm dữ liệu xi với trung tâm của nhóm tương ứng với i.
Gọi C+
là tập chứa các điểm xi với yi =1, C+
={xi|xi ∈ S và yi =1}
Tương tự gọi C-
={xi|xi ∈ S và yi =-1}, X+ và X- là trung tâm của lớp
C+
, C-
.
Bán kính của lớp C+
là: r+ = max||X+ - xi|| với xi ∈ C+
và bán kính của lớp C-
là: r- = max||X- - xi|| với xi ∈ C-
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 82
 Chọn hàm thành viên
 Hàm thành viên si được định nghĩa như sau:
là một hằng số để tránh trường hợp si = 0
 Tuy nhiên FSVMs với hàm thành viên (4.32) vẫn chưa đạt kết quả tốt
do việc tính toán khoảng cách giữa các điểm dữ liệu với trung tâm của
nhóm được tiến hành ở không gian đầu vào, không gian n chiều.
 Trong khi đó trong trường hợp tập dữ liệu không thể phân chia tuyến
tính, để hình thành siêu phẳng ta phải đưa dữ liệu về một không gian
khác với số chiều m cao hơn gọi là không gian đặc trưng (feature
space).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 83
 Chọn hàm thành viên
 Xiufeng Jiang, Zhang Yi và Jian Cheng Lv
(2006) đã xây dựng một hàm thành viên khác
dựa trên ý tưởng của hàm thành viên đã cho
nhưng được tính toán trong không gian đặc
trưng m chiều
 Tham khảo file: member_FSVM.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 84
 Thuật toán huấn luyện Fuzzy Support Vector Machines.
 Quá trình huấn luyện FSVMs là quá trình giải
bài toán tối ưu để tìm được nghiệm tối ưu. Quá
trình huấn luyện này khá phức tạp và đòi hỏi
nhiều chi phí cho việc tính toán.
 Sử dụng thuật toán Kernel-Adatron có thể đơn
giản hóa quá trình huấn luyện FSVMs.
 Tham khảo file: training_FSVM.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 85
 Thuật toán PageRank.
 PageRank được phát triển tại Stanford
University bởi Larry Page và sau là Sergey Brin
về một cơ chế tìm kiếm mới.
 Dự án bắt đầu vào 1995 và xuất hiện với tên gọi
là Google vào năm 1998.
 Trong một thời gian ngắn sau đó, PageRank đã
thực sự khẳng định vị thế của công cụ tìm kiếm
Google trên toàn bộ hệ thống Internet của thế
giới.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 86
 Thuật toán PageRank.
 PageRank đã dựa trên ý tưởng phân tích chỉ dẫn
được phát triển từ 1950 bởi Eugene Garfield của
đại học Pennsylvania.
 Trong giải thuật của PageRank đã sử dụng cơ
chế quyết định tính quan trọng toàn vẹn của một
trang web.
 PageRank của một trang web là một giá trị xấp
xỉ độ xác xuất truy cập đến trang này từ một vài
trang khác trên web site.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 87
 Mô hình PageRank.
 Giải thuật PageRank quan niệm, mọi trang web
trên một web site đều có một số liên kết từ nó đi
ra (forward links hay outedges) và một số liên
kết đến nó (back links hay inedges).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 88
 Mô hình PageRank.
 Việc đánh giá trang web của giải thuật PageRank dựa
trên giả thuyết, một trang web được liên kết đến nhiều
thì quan trọng hơn là một trang web có ít liên kết.
 Cách tính toán của PageRank: một trang web được xếp
hạng cao nếu tổng xếp hạng từ những liên kết đến của nó
cao.
 Chỉ có thể thực hiện được trong một tập có giới hạn các tài liệu,
vì thực tế, số lượng các trang web trên Internet là vô cùng lớn
và không thể thống kê hay thu thập được toàn bộ các trang web
liên kết với nhau để có thể xây dựng cho nó một tập các trang
được gán trọng số đầy đủ.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 89
 Giải thuật PageRank.
 PageRank của một trang được tính như sau:
với B là những trang cha của A liên kết đến A, Parents(A) là tập tất
cả những trang web liên kết đến A và N(B) là số liên kết ra đến
những trang khác nhau được tìm thấy trên A.
Tại mỗi bước, người dùng quyết định truy cập vào một trang web với m
đường liên kết đi ra đến những trang khác nhau. Tại mỗi thời điểm,
người dùng hoặc với xác suất được quyết định để tự nhập vào một
URL mới và ngẫu nhiên truy cập tới một trang trong tập hợp hoặc
với xác suất 1- truy cập lên một trong những liên kết trên trang.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 90
 Mô hình PageRank.
 PageRank giả sử rằng người dùng không thiên vị trong
việc lựa chọn các đường liên kết vì vậy xác suất truy cập
đến một liên kết bất kì là
 Với cách giả định đó ta có cách tính toán trong công thức của
PageRank là như sau:
 Giải thuật PageRank thực hiện tính toán lập đi lập lại từ một trạng
thái để tính PageRank cho tất cả các trang web trong site và tiếp tục
thực hiện tính lại cho đến khi đạt đến điều kiện ổn định cho phép.
Trong đó giá trị qua thực nghiệm được cho từ 0.05 đến 0.15.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 91
 Giải thuật PageRank cụ thể như sau:
Với N trang web {A1, A2,…, AN)
B1:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N,
PR(A2)=1/N,…PR(AN)=1/N
B2: Tính giá trịPageRank của tất cả các trang bằng công thức (2.2)
B3: Tính sai số của tất cả các trang =PR(A)i –PR(A)i-1 (i: là lần lặp
thứ i)
Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng
Nếu tồn tại >ngưỡng quay lại bước 2
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 92
 Mô hình PageRank.
 Để có được giá trị PageRank tốt, luôn phản ánh đúng tình trạng
trang web, Google tính toán lại giá trị PageRank tại mỗi thời điểm
thăm dò trang web và xây dựng lại tập chỉ mục.
 Do đó, Google sẽ tăng số lượng tài liệu cho tập hợp của nó và làm
giảm đi việc xấp xỉ giá trị khởi tạo cho tất cả các tài liệu.
 Việc sử dụng tác tử thăm dò trang web và làm chỉ mục trang web là
công việc tốn thời gian và chi phí nên Google luôn tìm cách để tối
ưu quá trình này như xây dựng các công cụ hỗ trợ cho Google trên
trình duyệt như Google Toolbar, hoặc máy chủ lưu trữ tạm thời
(Caching Server) hỗ trợ cho công cụ tìm kiếm.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 93
 Sau khi ra đời, thuật toán pageRank được cải tiến thành
nhiều thuật toán khác nhau như thuật toán HITS – Hypertext
Induced Topic Selection (Thuật toán lựa chọn chủ đề phù
hợp cho siêu văn bản), Weighted PageRank (Thuật toán
PageRank dựa trên tỉ trọng), Thuật toán Topic Sensitive
PageRank (thuật toán PageRank dựa trên chủ đề) và thuật
toán LpageRank.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 94
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 95
 HITS là 1 thuật toán cơ bản trên liên kết hoàn toàn. Nó được sử dụng để
đánh giá các trang web mà nhận lĩnh từ web dựa trên nội dung nguyên
bản tới 1 câu truy vấn đã cho.
 Một khi các trang web được tập hợp lại, thuật toán HITS bỏ qua nội
dung nguyên bản và tập trung tự bản thân chỉ trong cấu trúc web.
 Thuật toán HITS thường trả lại nhiều trang web tổng quát hơn là tập trung vào 1 chủ
đề bởi vì các trang web không chứa đựng nhiều nguồn từ chủ đề.
 Sự lệch của chủ đề xuất hiện khi hub có nhiều chủ đề vì tất cả các liên kết ngoài của
1 trang của hub có tỉ trọng tương đương
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 96
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 97
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 98
 PageRank được tạo ra bằng cách sử dụng toàn bộ đồ thị web, hơn là một
tập con.
 Một số nghiên cứu của một số tác giả (S. Chakrabarti, D. Pennock…)
cho thấy các tính chất của đồ thị web nhạy cảm với chủ đề trang.
 Các trang có xu hướng trỏ tới những trang khác mà cùng một chủ đề
chung.
 Phương pháp này tính độ lệch của độ đo PageRank khi sử dụng tập nhỏ
các chủ đề đại diện, được lấy từ danh mục mở (open directory) trong sự
liên kết với phân lớp đa thức Bayes dùng cho phân loại câu truy vấn và
ngữ cảnh.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 99
 Có 2 khả năng có thể xảy ra:
 Người sử dụng nhập dữ liệu cần thiết cho 1 câu truy vấn đề tìm
kiếm thông tin cần thiết. Khi đó cần xác định chủ đề gần nhất có
liên quan đến câu truy vấn và sử dụng vector của PageRank theo
chủ đề tương ứng đề xếp hạng các tài liệu đáp ứng câu truy vấn.
Điều này bảo đảm rằng độ đo “tầm quan trọng” phản ánh sự tham
chiếu đối với cấu trúc liên kết của các trang mà có cùng sự liên
quan đến câu truy vấn.
 Hoặc giả định người sử dụng đang xem một tài liệu
(duyệt web hay đọc email), và lựa chọn một thuật ngữ từ tài liệu mà
ông muốn thêm thông tin. Khi đó bằng cách lựa chọn vector của
PageRank theo chủ đề tương ứng dựa trên bối cảnh của câu truy vấn
nó sẽ cung cấp kết quả tìm kiếm chính xác hơn.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 100
 Thuật toán có thể tóm tắt như sau:
 Trong suốt thời gian offline của Web craw, các chủ đề của vector của độ đo
PageRank sẽ được tạo ra, một độ lệch sử dụng các URL của các mục đầu
tiên của danh mục mở tại thời điểm truy vấn, độ tương tự của truy vấn (truy
vấn hoặc ngữ cảnh) được tính toán cho các chủ đề.
 Khi đó thay vì sử dụng một vector đơn xếp hạng chung, kết hợp tuyến tính
các vector của các chủ đề và tỉ trọng sử dụng độ đo tương tự của câu truy
vấn tới các chủ đề.
 Bằng cách sử dụng một tập của các vectơ xếp hạng, chúng ta có thể xác
định chính xác hơn những trang này thực sự quan trọng hơn đối với một
truy vấn hoặc ngữ cảnh cụ thể.
 Bởi vì các liên kết dựa trên tính toán được thực hiện offline, trong suốt giai
đoạn tiền xử lý, chi phí thời gian truy vấn không lớn hơn nhiều so với thuật
toán PageRank thông thường.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 101
 Thuật toán có thể tóm tắt như sau:
 Minh họa hệ thống sử dụng thuật toán topic sensitive PageRank
 Thuật toán Topic Sensitive PageRank cụ thể như sau:
TSPR_Algorithm.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 102
 Giải thuật LPageRank được tác giả Qing Cui và Alex Dekhtyar giới
thiệu vào năm 2005 với hướng nghiên cứu sử dụng web log để giảm bớt
chi phí thu thập liên kết và cải tiến việc đánh giá mức độ truy cập lên
trang trong việc tính toán trọng số của trang web.
 Nhìn một cách tổng quan, thì LPageRank là PageRank được tính toán
dựa trên đồ thị xác suất của trang web được xây dựng từ các mẫu truy
cập trong nhật ký sử dụng web của người dùng.
 Đồ thị xác suất là đồ thị được xây dựng từ tập tất cả các liên kết cấu trúc
của tập tất cả các trang web trong web site. Mỗi liên kết từ một trang này
đến một trang khác tượng trưng cho một cung trong đồ thị. Tần số liên kết
giữa các trang với nhau tương ứng với tần số truy cập giữa chúng của người
dùng và cũng được xem là trọng số của cung trong đồ thị.
 Do đó, đồ thị thể hiện khả năng truy cập từ một trang đến các trang khác
thông qua trọng số của cung kết nối. Đồ thị xác suất được xây dựng dựa
trên kết quả phân tích thông tin web log (Tập tin log ghi lại sự truy cập của
người dùng trên một web site).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 103
 Giải thuật xây dựng đồ thị xác suất.
 Mỗi mẫu truy cập của web log mô tả một cung liên kết từ trang một trang
này đến một trang khác trong web site.
 Xét một phiên truy cập của người dùng, ta sẽ có được một chuỗi truy cập từ
một trang lần lượt đến một hay nhiều trang khác.
 Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ
thị xác suất như sau:
 Với mỗi cung của đồ thị (B,A) tương ứng với một mẫu truy cập từ B
liên kết đến A trong một phiên truy cập (session), ta tăng trọng số của
cung (B,A) lên 1 nếu trong một phiên truy cập có liên kết từ B đến A.
Sau khi duyệt tất cả các session ta sẽ có một đồ thị có trọng số thể hiện
mối liên kết giữa các liên kết (link). Sau cùng, ta tiến hành chuẩn hóa
trọng số các cung trong đồ thị với bằng cách chia trọng số của cung
cho tổng trọng số các cung ra cho mỗi nút trong đồ thị.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 104
 Giải thuật xây dựng đồ thị xác suất.
 Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ
thị xác suất như sau:
 Trong quá trình này, ta xây dựng một ma trận vuông A có kích thước
mxm với m là số URL trong toàn bộ các session thu thập được. Mỗi
giá trị trong ma trận vuông A[i,j] ứng với cung (i,j), giá trị của nó
được tăng lên sau mỗi liên kết từ i đến j được duyệt qua. Cuối cùng, ta
chuẩn hóa ma trận A để thu được ma trận đồ thị xác suất.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 105
 Giải thuật xây dựng đồ thị xác suất.
Cho tập trang web N{A1,A2,..,Am} được biểu diễn với ma trận vuông A
mxm.
Tập phiên truy cập S.
B1: duyệt tất cả các mẫu truy cập trong S
Gán A[i,j]=A[i,j]+1 nếu mẫu chứa liên kết từ trang Ai đến Aj.
B2: duyệt tất cả các trang trong tập N
Gán A[i,j]=A[i,j]/N(A) với N(A) là số cung ra đi từ Ai đến trang khác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 106
 Giải thuật LPageRank được cải tiến từ giải thuật
PageRank với web log.
 Giả sử G=(W,E,P) là đồ thị xác suất cho tập các trang web của site
là W. Sau đó tính LPageRank(LPR) của trang web như sau:
 Lưu ý rằng LPR(A)=PR(A) đối với đồ thị G nếu P(B,A) =
đối với tất cả các cung.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 107
 Giải thuật LpageRank.
B1: Duyệt đồ thị xác suất ta lấy giá trị xác suất cung P(B,A).
B2:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N,
…PR(AN)=1/N
B3: Tính giá trịPageRank của tất cả các trang bằng công thức sai:
B4: Tính sai
số của tất cả các trang =LPR(A)i –LPR(A)i-1 (i: là lần lặp thứ i).
Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng.
Nếu tồn tại >ngưỡng quay lại bước 3.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 108
 Đánh giá Giải thuật LPageRank .
 Với cách cải tiến này, giá trị LPageRank cho mỗi trang sẽ được tính
toán phụ thuộc vào việc người dùng truy cập lên trang web đó nhiều
hay ít. Nói cách khác, giá trị này phụ thuộc vào mức độ quan tâm
của người dùng đối với trang web.
 Giải thuật LPageRank đã tối ưu hơn cách thực hiện máy móc của
PageRank khi không quan tâm đến hành vi sử dụng web của người
dùng của giải thuật PageRank. Đây là sự khác nhau cơ bản mà
LPageRank đã sử dụng để tối ưu cho công cụ tìm kiếm.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 109
 CRFs là mô hình trạng thái tuyến tính vô hướng (máy trạng
thái hữu hạn được huấn luyện có điều kiên) và tuân theo tính
chất Markov thứ nhất.
 CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho
chuỗi như tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm
danh từ...⇒ sử dụng phương pháp CRF kết hợp với một vài phương
pháp xử lý khác (như xử lý ngôn ngữ tự nhiên) giúp nâng cao hiệu quả
của trích xuất thông tin web.
 Gọi o = (o1, o2, …, oT) là một chuỗi dữ liệu quan sát cần được gán nhãn.
Gọi S là tập trạng thái, mỗi trạng thái liên kết với một nhãn . Đặt s = (s1,
s2,…, sT) là một chuỗi trạng thái nào đó, CRFs xác định xác suất điều
kiện của một chuỗi trạng thái khi biết chuỗi quan sát như sau:
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 110
 Gọi là thừa số chuẩn hóa trên
toàn bộ các chuỗi nhãn có thể. fk xác định một hàm đặc trưng
và là trọng số liên kết với mỗi đặc trưng fk.
 Mục đích của việc học máy với CRFs là ước lượng các
trọng số này.
 Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng thái (per-
state) và đặc trưng chuyển (transition).
 (2)
 (3)
 Ở đây δ là Kronecker- δ.
 Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của trạng thái hiện tại st và một vị từ ngữ
cảnh - một hàm nhị phân xk(o,t) xác định các ngữ cảnh quan trọng của quan sát o tại
vị trí t. Một đặc trưng chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng cách kết hợp
nhãn l’ của trạng thái trước st-1 và nhãn l của trạng thái hiện tại st.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 111
 Người ta thường huấn luyện CRFs bằng cách làm cực đại
hóa hàm likelihood theo dữ liệu huấn luyện sử dụng các kĩ
thuật tối ưu. Việc lập luận (dựa trên mô hình đã học) là tìm
ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu vào.
Đối với CRFs, người ta thường sử dụng thuật toán qui hoạch
động điển hình (Viterbi) để thực hiện lập luận với dữ liệu
mới.
 Cách giải quyết vấn đề.
 Giả sử cần rút trích thông tin từ trang web cho trước, khi đó cần xác
định mục tiêu
Xác định trang web có chứa tin tức hay không?
Xác định vùng thông tin chứa tin tức?
Xác định tin tức thuộc loại tin tức nào?
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 112
 Có thể xem mục tiêu đặt ra được diễn giải như sau:
Cho một trang web x và tập DOM (document object model), nút lá
cây x1
,…,xk
trong x. Đặt = y1
,…,yk
là nhãn có thể gán cho x1
,…,xk
với y1
,…,yk
là các nội dung của các nút x1
,…,xk
. Lần lượt xét các
nút đặc trưng chứa tin tức (xác định) để duyệt các nhãn của nó và
chọn nhãn có nội dung là tin tức cần tìm.
 Khi giải quyết các mục tiêu đề ra ta gặp các vấn đề cụ thế
o Công việc xác định trang web chứa tin tức nghĩa là khi nhập 1 trang web
bất kỳ ta phải xác định trang web đó có nội dung chứa tin tức hay không?
o Nếu như trang web có chứa tin tức, tìm kiếm các vùng dữ liệu mà nội dung
của nó có chứa tin tức.
o Qua vùng tin tức ta cần xác định tin tức đó là tin tức thuộc thể loại nào.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 113
 Đề giải quyết các vấn đề này ta có thể gặp 1 số khó khăn
như:
 Việc xác định vùng nội dung chứa tin tức được xác định dựa trên
nội dung tin tức, điều này liên quan đến vấn đề xử lý văn bản tiếng
Việt (nếu rút trích văn bản bằng tiếng Việt). Đây là một vấn đề khó
khăn khi rút trích.
 Quá trình xử lý các trang web được thực hiện thông qua nhiều tầng
lần, dễ xảy ra những sự cố.
 Để giải quyết những khó khăn được nêu ở trên, phương
pháp được áp dụng để xử lý là:
 Xử lý tiếng việt chỉ xảy ra ở bước xác định từ loại điều này giúp vấn đề trở
nên đơn giản hơn.
 Xác định ngữ pháp của câu
 Sự giúp đỡ của bộ từ điển tiếng Việt .
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 114
 Các bước trong quá trình phân tích đánh giá thời gian chạy
của thuật toán: thông thường người ta chia thành các bước
sau:
 Bước 1: kích thước dữ liệu. Ta coù theå xem thôøi gian chaïy
cuûa thuaät toaùn laø moät haøm theo kích thöôùc cuûa döõ
lieäu nhaäp.
Neáu goïi n laø kích thöôùc cuûa döõ lieäu nhaäp thì
thôøi gian thöïc hieän T cuûa thuaät toaùn
ñöôïc bieåu dieãn nhö moät haøm theo n, kyù
hieäu laø : T(n).
Thời gian thực hiện chương trình là một hàm không âm, tức
là T(n) ≥ 0 n ≥ 0.∀
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 115
 Các bước trong quá trình phân tích đánh giá thời gian chạy
của thuật toán: thông thường người ta chia thành các bước
sau:
 Böôùc 2: nhaäân ra caùc thao taùc tröøu töôïng cuûa thuaät
toaùn ñeå taùch bieät söï phaân tích (1)
vaø söï caøi ñaët (2)
.
Vaäy yeáu toá (1)
ñöôïc xaùc ñònh bôûi tính chaát cuûa thuaät
toaùn, yeáu toá (2)
ñöôïc xaùc ñònh bôûi tính naêng cuûa
maùy tính.
 Böôùc 3: tìm ra caùc giaù trò trung bình vaø tröôøng hôïp
xaáu nhaát cho moãi ñaïi löôïng cô baûn. Thôøi gian chaïy
cuûa thuaät toaùn hieån nhieân coøn phuï thuoäc vaøo tính
chaát cuûa döõ lieäu nhaäp nhö: daõy coù thöù töï thuaän,
daõy coù thöù töï ngöôïc, caùc soá haïng cuûa daõy coù thöù
töï ngaãu nhieân…
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 116
 Ðơn vị đo thời gian thực hiện.
Ðơn vị của T(n) không phải là đơn vị đo thời gian bình
thường như giờ, phút giây... mà thường được xác định bởi
số các lệnh được thực hiện trong một máy tính lý tưởng.
 Thời gian thực hiện trong trường hợp xấu nhất.
 Nói chung thì thời gian thực hiện chương trình không chỉ phụ thuộc
vào kích thước mà còn phụ thuộc vào tính chất của dữ liệu vào.
Nghĩa là dữ liệu vào có cùng kích thước nhưng thời gian thực hiện
chương trình có thể khác nhau.
 Vì vậy thường ta coi T(n) là thời gian thực hiện chương trình trong
trường hợp xấu nhất trên dữ liệu vào có kích thước n, tức là: T(n) là
thời gian lớn nhất để thực hiện chương trình đối với mọi dữ liệu vào
có cùng kích thước n.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 117
 Tỷ suất tăng (growth rate)
Ta nói rằng hàm không âm T(n) có tỷ suất tăng f(n) nếu tồn tại các
hằng số C và N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0.
 Khái niệm độ phức tạp của giải thuật.
Cho một hàm T(n), T(n) gọi là có độ phức tạp f(n) nếu tồn tại các
hằng C, N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0 (tức là T(n) có tỷ suất
tăng là f(n)) và kí hiệu T(n) là O(f(n)) (đọc là “ô của f(n)”)
 Nói cách khác độ phức tạp tính toán của giải thuật là một hàm chặn trên
của hàm thời gian.
 Vì hằng nhân tử C trong hàm chặn trên không có ý nghĩa nên ta có thể
bỏ qua vì vậy hàm thể hiện độ phức tạp có các dạng thường gặp sau:
log2n, n, nlog2n, n2
, n3
, 2n
, n!, nn
.
 Ba hàm cuối cùng ta gọi là dạng hàm mũ, các hàm khác gọi là hàm đa
thức.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 118
 Một giải thuật mà thời gian thực hiện có độ phức tạp là một
hàm đa thức thì chấp nhận được tức là có thể cài đặt để thực
hiện, còn các giải thuật có độ phức tạp hàm mũ thì phải tìm
cách cải tiến giải thuật.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 119
 Một Số Lớp Các Thuật Toán.
 Lớp (1) 1: Nếu tất cả các chỉ thị của chương trình đều được thực
hiện chỉ một vài lần và ta nói thời gian chạy của nó là hằng số.
 Lớp (2) logn: khi thời gian chạy của chương trình là logarit. Thời
gian chạy thuộc loại này xuất hiện trong các chương trình mà giải 1
bài toán lớn bằng cách chuyển nó thành 1 bài toán nhỏ hơn, bằng
cách cắt bỏ kích thước một hằng số nào đó.
 Lớp (3) n: khi thời gian chạy của chương trình là tuyến tính.
 Lóp (4) nlogn: xuất hiện trong các chương trình mà giải một bài
toán lớn bằng cách chuyển nó thành các bài toán nhỏ hơn, giải
quyết các bài toán này 1 cách độc lập, sau đó tổ hợp lời giải.
 Lớp (5) n2
: Thời gian chạy của thuật toán là bậc 2, thường là xử lý
các cặp phần tử dữ liệu (có thể 2 vòng lặp lồng nhau). Trường hợp
này chỉ có ý nghĩa khi bài toán nhỏ.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 120
 Một Số Lớp Các Thuật Toán.
 Lớp (6) n3
: Một thuật toán xử lý bộ ba phần tử dữ liệu (có thể 3
vòng lặp lồng nhau) có thời gian chạy bậc 3. Trường hợp này chỉ có
ý nghĩa khi bài toán nhỏ.
 Nhận xét:
O(1) O(lgn) O(n) O(nlgn) O(n⊂ ⊂ ⊂ ⊂ 2
) O(n⊂ 3
) ⊂ O(2n
)
Các thuật toán với thời gian chạy có cấp hàm mũ thì tốc
độ rất chậm.
Các thuật toán với thời gian chạy có cấp hàm đa thức được
chấp nhận
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 121
 Ðộ phức tạp của chương trình có gọi chương trình con
không đệ qui
 Nếu chúng ta có một chương trình với các chương trình con không
đệ quy, để tính thời gian thực hiện của chương trình, trước hết
chúng ta tính thời gian thực hiện của các chương trình con không
gọi các chương trình con khác.
 Sau đó chúng ta tính thời gian thực hiện của các chương trình con
chỉ gọi các chương trình con mà thời gian thực hiện của chúng đã
được tính.
 Chúng ta tiếp tục quá trình đánh giá thời gian thực hiện của mỗi
chương trình con sau khi thời gian thực hiện của tất cả các chương
trình con mà nó gọi đã được đánh giá.
 Cuối cùng ta tính thời gian cho chương trình chính.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 122
 PHÂN TÍCH CÁC CHƯƠNG TRÌNH ÐỆ QUY.
• Với các chương trình có gọi các chương trình con đệ quy, ta không
thể áp dụng cách tính như vừa trình bày ở trên bởi vì một chương
trình đệ quy sẽ gọi chính bản thân nó.
• Với các chương trình đệ quy, trước hết ta cần thành lập các phương
trình đệ quy, sau đó giải phương trình đệ quy, nghiệm của phương
trình đệ quy sẽ là thời gian thực hiện của chương trình đệ quy.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 123
 Thành Lập Phương Trình Đệ Quy.
 Phương trình đệ quy là một phương trình biểu diễn mối liên hệ giữa T(n) và
T(k), trong đó T(n) là thời gian thực hiện chương trình với kích thước dữ
liệu nhập là n, T(k) thời gian thực hiện chương trình với kích thước dữ liệu
nhập là k, với k < n. Ðể thành lập được phương trình đệ quy, ta phải căn cứ
vào chương trình đệ quy.
 Thông thường một chương trình đệ quy để giải bài toán kích thước n, phải
có ít nhất một trường hợp dừng ứng với một n cụ thể và lời gọi đệ quy để
giải bài toán kích thước k (k<n).
 Để thành lập phương trình đệ quy, ta gọi T(n) là thời gian để giải bài toán
kích thước n, ta có T(k) là thời gian để giải bài toán kích thước k. Khi đệ
quy dừng, ta phải xem xét khi đó chương trình làm gì và tốn hết bao nhiêu
thời gian, chẳng hạn thời gian này là c(n). Khi đệ quy chưa dừng thì phải
xét xem có bao nhiêu lời gọi đệ quy với kích thước k ta sẽ có bấy nhiêu
T(k). Ngoài ra ta còn phải xem xét đến thời gian để phân chia bài toán và
tổng hợp các lời giải, chẳng hạn thời gian này là d(n).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 124
 Dạng tổng quát của một phương trình đệ quy sẽ là:
Trong đó C(n) là thời gian thực hiện chương trình ứng với trường hợp đệ
quy dừng. F(T(k)) là một đa thức của các T(k). d(n) là thời gian để
phân chia bài toán và tổng hợp các kết quả.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 125
 Có bốn phương pháp giải phương trình đệ quy:
 Phương pháp truy hồi
 Phương pháp đoán nghiệm.
 Phương pháp phương trình đặc trưng
 Lời giải tổng quát của một lớp các phương trình đệ quy.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 126
 Phương pháp truy hồi:
 Dùng đệ quy để thay thế bất kỳ T(m) với m < n vào phía
phải của phương trình cho đến khi tất cả T(m) với m > 1
được thay thế bởi biểu thức của các T(1) hoặc T(0). Vì
T(1) và T(0) luôn là hằng số nên chúng ta có công thức
của T(n) chứa các số hạng chỉ liên quan đến n và các
hằng số. Từ công thức đó ta suy ra T(n).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 127
 Phương pháp đoán nghiệm.
 Ta đoán một nghiệm f(n) và dùng chứng minh quy nạp
để chứng tỏ rằng T(n) ≤ f(n) với mọi n.
 Thông thường f(n) là một trong các hàm quen thuộc như
logn, n, nlogn, n2
, n3
, 2n
, n!, nn
.
 Ðôi khi chỉ đoán dạng của f(n) trong đó có một vài tham
số chưa xác định (chẳng hạn f(n) = an2
với a chưa xác
định) và trong quá trình chứng minh quy nạp ta sẽ suy
diễn ra giá trị thích hợp của các tham số.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 128
 Phương pháp phương trình đặc trưng.
 Phương trình truy hồi tuyến tính thuần nhất với các hệ số
không đổi.
Xét phương trình dạng
a0tn + a1tn-1+...+aktn-k = 0
Ở đó ti là các ẩn số, với i=0,...,n-k
Cách giải: áp dụng phương pháp dùng phương trình đặc
trưng
Bằng cách đặc tn = λn
Khi đó ta có phương trình đặc trưng là
a0λk
+ a1λk-1
+...+ ak-1λ + ak = 0
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 129
 Phương pháp phương trình đặc trưng.
 Phương trình truy hồi tuyến tính không thuần nhất với
các hệ số không đổi
Xét phương trình dạng
a0tn + a1tn-1+...+aktn-k = bn
p(n)
Với b là hằng số, p là đa thức bậc d theo n
Biến đổi đa thức không thuần nhất về thuần nhất hoặc
giải nó
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 130
 Lời giải tổng quát của một lớp các phương trình đệ
quy:
 Khi thiết kế các giải thuật, người ta thường vận dụng phương
pháp chia để trị. Ở đây có thể trình bày tóm tắt phương pháp
như sau:
 Ðể giải một bài toán kích thước n, ta chia bài toán đã cho thành a bài
toán con, mỗi bài toán con có kích thước n/b. Giải các bài toán con
này và tổng hợp kết quả lại để được kết quả của bài toán đã cho. Với
các bài toán con chúng ta cũng sẽ áp dụng phương pháp đó để tiếp tục
chia nhỏ ra nữa cho đến các bài toán con kích thước 1. Kĩ thuật này sẽ
dẫn chúng ta đến một giải thuật đệ quy.
 Giả thiết rằng mỗi bài toán con kích thước 1 lấy một đơn vị thời gian
và thời gian để chia bài toán kích thước n thành các bài toán con kích
thước n/b và tổng hợp kết quả từ các bài toán con để được lời giải của
bài toán ban đầu là d(n).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 131
 Lời giải tổng quát của một lớp các phương trình đệ
quy:
 Tất cả các giải thuật đệ quy như trên đều có thể thành lập một phương trinh
đệ quy tổng quát, chung cho lớp các bài toán ấy.
 Nếu gọi T(n) là thời gian để giải bài toán kích thước n thì T(n/b) là thời
gian để giải bài toán con kích thước n/b.
 Khi n = 1 theo giả thiết trên thì thời gian giải bài toán kích thước 1 là 1 đơn
vị, tức là T(1) = 1. Khi n lớn hơn 1, ta phải giải đệ quy a bài toán con kích
thước n/b, mỗi bài toán con tốn T(n/b) nên thời gian cho a lời giải đệ quy
này là aT(n/b).
 Ngoài ra ta còn phải tốn thời gian để phân chia bài toán và tổng hợp các kết
quả, thời gian này theo giả thiết trên là d(n). Vậy ta có phương trình đệ quy:
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 132
 Lời giải tổng quát của một lớp các phương trình đệ
quy:
 Ta sử dụng phương pháp truy hồi để giải phương trình này. Khi n > 1 ta có
= … =
 Giả sử n = bk
, quá trình suy rộng trên sẽ kết thúc khi i = k.
 Khi đó ta được
 Thay vào trên ta có:
 Giải phương trình trên bằng cách sử dụng hàm tiến triển, nghiệm thần nhuất
và nghiệm riêng.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 133
 Ứng dụng của các thuật toán máy học trong phân
tích dự báo.
 TỔNG QUAN LÝ THUYẾT VÀ MÔ HÌNH CÁC PHƯƠNG
PHÁP DỰ BÁO.
 Các loại phương pháp dự báo:
Dự báo điểm và dự báo khoảng.
Phương pháp định tính và định lượng
Dự báo ngắn hạn (<3 tháng), dự báo trung hạn (6tháng-
2năm), dự báo dài hạn (>2 năm)
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 134
 Phương pháp định tính.
 Phương pháp chuyên gia: phương pháp chuyên gia là phương
pháp dự báo mà kết quả là các "thông số" do các chuyên gia đưa ra.
 Phương pháp Delphi: tổ chức phối hợp các loại trưng cầu và xử lý
ý kiến chuyên gia.
 Phương pháp định lượng.
 Phương pháp chuỗi thời gian: dựa trên phân tích chuỗi quan sát
của một biến duy nhất theo biến số độc lập là thời gian.
 Mô hình nhân quả: giả định biến số dự báo có thể được giải thích
bởi hình vi của những biến số kinh tế khác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 135
 Ứng Dụng Các Mô Hình Dự Báo Của Máy Học.
 Chương Trình Ứng Dụng Hệ Thống Mạng RFNNs.
 Chương Trình Ứng Dụng Hệ Thống Mạng RBFNNs.
 Chương Trình Ứng Dụng Hệ Thống Mạng Nơrôn Lan Truyền
Ngược (FNN).
 Chương Trình Ứng Dụng Hệ luật mờ (SAM).
 Chương Trình Ứng Dụng Mạng Nơ rôn dạng Lan Truyền
Ngược và thuật toán di truyền vào phân tích dự báo.
Các chương trình ứng dụng mô hình mạng nơ rôn mờ hồi quy, sử dụng
file dữ liệu huấn luyện, thử nghiệm và dự báo dạng văn bản (test).
Tham khảo file: Predict_Analysis.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 136
 Ưng dụng thuật giải LpageRank và mạng nơrôn
lan truyền ngược vào công cụ tìm kiếm.
 Mô hình tìm kiếm thông tin bằng LPageRank và mạng
Nơron
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 137
 Mô hình tìm kiếm có thể gom lại gồm hai thành phần chính:
một thành phần chạy trực tuyến trên web (online) dùng để
tương tác với người dùng, nhận và xử lý câu truy vấn, một
thành phần chạy không trực tuyến (offline) dùng để xử lý
web log, xử lý tập từ khóa trên trang, xử lý gán trọng số cho
trang web, xử lý gom nhóm session và huấn luyện mạng.
 Để quá trình tìm kiếm của người dùng ít tốn thời gian và tài
nguyên xử lý, toàn bộ quá trình tính toán và tiền xử lý được
thi hành trước trên máy chủ, thành phần trực tuyến chỉ tính
toán lại một phần kết quả do phụ thuộc vào câu truy vấn của
người dùng đồng thời tổng hợp các kết quả mà thành phần
không trực tuyến gởi đến để tối ưu kết quả tìm kiếm.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 138
 Ứng dụng mạng neural network fuzzy Artmap kết hợp
cùng Ontology thu thập dữ liệu trong công cụ tìm kiếm.
 Mô hình này gồm các thành phần chính là Web Spider,
LogMiner, Ontology Building, SearchEngine.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 139
 Web Spider
 Thành phần Web Spider trong hệ thống thực hiện hai chức năng: (a)
khởi tạo đồ thị liên kết cho website và (b) thu thập các trang HTML
cho mỗi trang và đánh chỉ mục cho các trang HTML đó.
 Log Miner.
 Thành phần Log Miner trong hệ thống cũng thực hiện nhiệm vụ: (a)
Xóa tất cả những thông tin không thích hợp, (b) phân tích phiên
truy cập, (c) hoàn thành xây dựng đồ thị xác suất cho website và (d)
tính LPageRank.
 Webpage Classifier.
 Thành phần Webpage Classifier thực hiện: (a) tính toán mỗi giá trị
đánh giá tiêu chuẩn trang web và (b) những giá trị này sẽ làm đầu
vào và được phân lớp bởi mạng fuzzy ARTMAP.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 140
 Ontology Building.
 Việc xây dựng Ontology được thực hiện bởi thành phần Ontology
Building. Đây là một tiến trình xây dựng cơ sở tri thức cho công cụ
tìm kiếm, bao gồm thêm vào những mẫu mới của khái niệm và quan
hệ vào Ontology.
 Search Engine.
 Thành phần Web Spider, Log Miner, Webpage Classifier của công
cụ tìm kiếm làm việc off-line, chuẩn bị dữ liệu cho on-line sử dụng.
Search Engine là thành phần on-line của công cụ tìm kiếm, có trách
nhiệm nhận truy vấn từ người dùng, phân tích ngữ pháp và chuyển
sang biểu diễn như vector của những trang web, và tiến hành nhận
những trang web có độ thích hợp cao so với truy vấn.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 141
 Ứng dụng xây dựng các thành phần của chương trình thu thập các thông
tin liên quan đến lĩnh vực công nghệ thông tin trên Internet gồm ngôn
ngữ tiếng Anh và tiếng Việt, sau đó tiếp tục phân loại các thông tin này
vào các môn học cần thiết.
 Mô hình thực hiện của hệ thống rút trích và phân lớp được mô tả như
sau:
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 142
 Module rút trích thông tin bằng phương pháp CRFs.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 143
 Module rút trích dữ liệu bằng phương pháp SVM.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 144
 Module rút trích thông tin bằng phương pháp CRFs-SVM.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 145
 Module phân lớp văn bản với SVM-FSVM.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 146
 Module phân lớp văn bản với Naïve Bayes.

More Related Content

Viewers also liked

Lap Trinh C Tren Windows
Lap Trinh C Tren WindowsLap Trinh C Tren Windows
Lap Trinh C Tren Windowsnam nx
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filteringBui Loc
 
Mã hóa đường cong Elliptic
Mã hóa đường cong EllipticMã hóa đường cong Elliptic
Mã hóa đường cong EllipticLE Ngoc Luyen
 
Ung dung xu ly anh trong thuc te voi thu vien open cv
Ung dung xu ly anh trong thuc te voi thu vien open cvUng dung xu ly anh trong thuc te voi thu vien open cv
Ung dung xu ly anh trong thuc te voi thu vien open cvNguyen An
 
Mã hóa đường cong Elliptic
Mã hóa đường cong EllipticMã hóa đường cong Elliptic
Mã hóa đường cong EllipticLE Ngoc Luyen
 
Cac chuan nen va ung dung truyen video tren mang internet
Cac chuan nen va ung dung truyen video tren mang internetCac chuan nen va ung dung truyen video tren mang internet
Cac chuan nen va ung dung truyen video tren mang internetNo Name
 
Giao Trinh Ngon Ngu Lap Trinh C
Giao Trinh Ngon Ngu Lap Trinh CGiao Trinh Ngon Ngu Lap Trinh C
Giao Trinh Ngon Ngu Lap Trinh Cnam nx
 
E-book kế toán căn bản cho người không chuyên
E-book kế toán căn bản cho người không chuyênE-book kế toán căn bản cho người không chuyên
E-book kế toán căn bản cho người không chuyênfastcorp
 
Bai giang atbmtt
Bai giang atbmtt Bai giang atbmtt
Bai giang atbmtt Hà Vũ
 
Public Key Cryptography
Public Key CryptographyPublic Key Cryptography
Public Key Cryptographyanusachu .
 
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũ
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũXử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũ
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũPhan Khanh Toan
 
Xử lý ảnh
Xử lý ảnhXử lý ảnh
Xử lý ảnhjvinhit
 
Các thuật toán mã hóa
Các thuật toán mã hóaCác thuật toán mã hóa
Các thuật toán mã hóadlmonline24h
 
Lập trình c++ có lời giải 2
Lập trình c++ có lời giải 2Lập trình c++ có lời giải 2
Lập trình c++ có lời giải 2Minh Ngoc Tran
 
3 public key cryptography
3 public key cryptography3 public key cryptography
3 public key cryptographyRutvik Mehta
 
Diffie-Hellman key exchange
Diffie-Hellman key exchangeDiffie-Hellman key exchange
Diffie-Hellman key exchangehughpearse
 
Bai tap pascal co giai
Bai tap pascal co giaiBai tap pascal co giai
Bai tap pascal co giaitrungdha
 

Viewers also liked (20)

Lap Trinh C Tren Windows
Lap Trinh C Tren WindowsLap Trinh C Tren Windows
Lap Trinh C Tren Windows
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filtering
 
Mã hóa đường cong Elliptic
Mã hóa đường cong EllipticMã hóa đường cong Elliptic
Mã hóa đường cong Elliptic
 
Xu ly-anh
Xu ly-anhXu ly-anh
Xu ly-anh
 
Ung dung xu ly anh trong thuc te voi thu vien open cv
Ung dung xu ly anh trong thuc te voi thu vien open cvUng dung xu ly anh trong thuc te voi thu vien open cv
Ung dung xu ly anh trong thuc te voi thu vien open cv
 
Hệ mật mã elgamal
Hệ mật mã elgamalHệ mật mã elgamal
Hệ mật mã elgamal
 
Mã hóa đường cong Elliptic
Mã hóa đường cong EllipticMã hóa đường cong Elliptic
Mã hóa đường cong Elliptic
 
Cac chuan nen va ung dung truyen video tren mang internet
Cac chuan nen va ung dung truyen video tren mang internetCac chuan nen va ung dung truyen video tren mang internet
Cac chuan nen va ung dung truyen video tren mang internet
 
Giao Trinh Ngon Ngu Lap Trinh C
Giao Trinh Ngon Ngu Lap Trinh CGiao Trinh Ngon Ngu Lap Trinh C
Giao Trinh Ngon Ngu Lap Trinh C
 
E-book kế toán căn bản cho người không chuyên
E-book kế toán căn bản cho người không chuyênE-book kế toán căn bản cho người không chuyên
E-book kế toán căn bản cho người không chuyên
 
Bai giang atbmtt
Bai giang atbmtt Bai giang atbmtt
Bai giang atbmtt
 
Đề cương xử lý ảnh
Đề cương xử lý ảnhĐề cương xử lý ảnh
Đề cương xử lý ảnh
 
Public Key Cryptography
Public Key CryptographyPublic Key Cryptography
Public Key Cryptography
 
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũ
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũXử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũ
Xử lý ảnh theo phương pháp âm bản, nhị phân, hàm số mũ
 
Xử lý ảnh
Xử lý ảnhXử lý ảnh
Xử lý ảnh
 
Các thuật toán mã hóa
Các thuật toán mã hóaCác thuật toán mã hóa
Các thuật toán mã hóa
 
Lập trình c++ có lời giải 2
Lập trình c++ có lời giải 2Lập trình c++ có lời giải 2
Lập trình c++ có lời giải 2
 
3 public key cryptography
3 public key cryptography3 public key cryptography
3 public key cryptography
 
Diffie-Hellman key exchange
Diffie-Hellman key exchangeDiffie-Hellman key exchange
Diffie-Hellman key exchange
 
Bai tap pascal co giai
Bai tap pascal co giaiBai tap pascal co giai
Bai tap pascal co giai
 

Similar to May hoc 012012

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfMan_Ebook
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayTráng Hà Viết
 
Thực Nghiệm Sư Phạm
Thực Nghiệm Sư Phạm Thực Nghiệm Sư Phạm
Thực Nghiệm Sư Phạm nataliej4
 
BÀI TIỂU LUẬN.docx
BÀI TIỂU LUẬN.docxBÀI TIỂU LUẬN.docx
BÀI TIỂU LUẬN.docxPhNguynVit3
 
L1-introduction.pptx.pdf
L1-introduction.pptx.pdfL1-introduction.pptx.pdf
L1-introduction.pptx.pdfvinhlyquoc
 
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdfTÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdfNuioKila
 
Kỹ thuật lập trình - PGS.TS. Phạm Thế Bảo
Kỹ thuật lập trình - PGS.TS. Phạm Thế BảoKỹ thuật lập trình - PGS.TS. Phạm Thế Bảo
Kỹ thuật lập trình - PGS.TS. Phạm Thế BảoNguyen Van Nghiem
 

Similar to May hoc 012012 (20)

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
Bai 4 Phanlop
Bai 4 PhanlopBai 4 Phanlop
Bai 4 Phanlop
 
Bai 4 Phan Lop
Bai 4 Phan LopBai 4 Phan Lop
Bai 4 Phan Lop
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc may
 
2. LTND.pdf
2. LTND.pdf2. LTND.pdf
2. LTND.pdf
 
Luận văn: Dạy các phương trình và bất phương trình vô tỉ lớp 10
Luận văn: Dạy các phương trình và bất phương trình vô tỉ lớp 10Luận văn: Dạy các phương trình và bất phương trình vô tỉ lớp 10
Luận văn: Dạy các phương trình và bất phương trình vô tỉ lớp 10
 
Thực Nghiệm Sư Phạm
Thực Nghiệm Sư Phạm Thực Nghiệm Sư Phạm
Thực Nghiệm Sư Phạm
 
Ứng Dụng Hidden Markov Models Trong Nhận Dạng Hành Động Con Người Dựa Trên Cấ...
Ứng Dụng Hidden Markov Models Trong Nhận Dạng Hành Động Con Người Dựa Trên Cấ...Ứng Dụng Hidden Markov Models Trong Nhận Dạng Hành Động Con Người Dựa Trên Cấ...
Ứng Dụng Hidden Markov Models Trong Nhận Dạng Hành Động Con Người Dựa Trên Cấ...
 
BÀI TIỂU LUẬN.docx
BÀI TIỂU LUẬN.docxBÀI TIỂU LUẬN.docx
BÀI TIỂU LUẬN.docx
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
L1-introduction.pptx.pdf
L1-introduction.pptx.pdfL1-introduction.pptx.pdf
L1-introduction.pptx.pdf
 
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộngĐề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
 
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYLuận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAY
 
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAYLuận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
Luận văn: Theo dõi đối tượng dựa trên giải thuật di truyền, HAY
 
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAYĐề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
Đề tài: Phương pháp giải một số lớp mô hình cân bằng, HAY
 
CS4S Số 1(8) 2016
CS4S Số 1(8) 2016CS4S Số 1(8) 2016
CS4S Số 1(8) 2016
 
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdfTÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
TÀI LIỆU HỌC TẬP MÔ HÌNH HÓA VÀ MÔ PHỎNG HỆ THỐNG ĐIỀU KHIỂN.pdf
 
Luận văn: Khái niệm lũy thừa trọng dạy học toán ở trường phổ thông
Luận văn: Khái niệm lũy thừa trọng dạy học toán ở trường phổ thôngLuận văn: Khái niệm lũy thừa trọng dạy học toán ở trường phổ thông
Luận văn: Khái niệm lũy thừa trọng dạy học toán ở trường phổ thông
 
Kỹ thuật lập trình - PGS.TS. Phạm Thế Bảo
Kỹ thuật lập trình - PGS.TS. Phạm Thế BảoKỹ thuật lập trình - PGS.TS. Phạm Thế Bảo
Kỹ thuật lập trình - PGS.TS. Phạm Thế Bảo
 
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.docỨng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
 

May hoc 012012

  • 1. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 1 Báo Cáo Viên: PGS.TS. Vũ Thanh Nguyên
  • 2. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 2  Công nghệ Máy học là một trong những phương pháp chính trong khai phá dữ liệu. Nó được sử dụng trong tiến trình khám phá tri thức.  Một số lợi ích của máy học:  Các thông tin ngày càng nhiều, hàng ngày ta phải xử lý rất nhiều thông tin đến từ nhiều nguồn khác nhau. Máy học có thể giúp xứ lý và dự báo các thông tin đó bằng cách tạo ra các luất sản xuất từ dữ liệu thu thập.  Ở những nơi không có chuyên gia, máy học có thể giúp tạo ra được các quyết định từ các dữ liệu có được.  Các thuật toán máy học có thể giúp xử lý khi dữ liệu không đầy đử, không chính xác.
  • 3. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 3  Một số lợi ích của máy học:  Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn nhân tạo) và giải mã mối liên hệ giữa các tri thức được lưu trữ trong mạng từ dữ liệu.  …
  • 4. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 4  Rất khó để định nghĩa một cách chính xác về máy học.  “Học - learn” có ý nghĩa khác nhau trong từng lĩnh vực: tâm lý học, giáo dục, trí tuệ nhân tạo,…  Một định nghĩa rộng nhất: “máy học là một cụm từ dùng để chỉ khả năng một chương trình máy tính để tăng tính thực thi dựa trên những kinh nghiêm đã trải qua” hoặc “máy học là để chỉ khả năng một chương trình có thể phát sinh ra một cấu trúc dữ liệu mới khác với các cấu trúc dữ liệu cũ”
  • 5. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 5  Lợi điểm của các phương pháp máy học là nó phát sinh ra các luật tường minh, có thể được sửa đổi, hoặc được huấn luyện trong một giới hạn nhất định.  Các phương pháp máy học hoạt động trên các dữ liệu có đặc tả thông tin.  Các thông tin được trình bày theo một cấu trúc gồm 4 mức được gọi là tri thức kim tự tháp (pyramid knowledge).
  • 6. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 6  Mô hình kim tự tháp: Từ dữ liệu đến tri thức.
  • 7. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 7  Máy học là sự tự động của quy trình học và việc học thì tương đương với việc xây dựng những luật dựa trên việc quan sát trạng thái trên cơ sở dữ liệu và những sự chuyển hoá của chúng.  Đây là lĩnh vực rộng lớn không chỉ bao gồm việc học từ mẫu, mà còn học tăng cường, học với “thầy”,...  Các thuật toán học lấy bộ dữ liệu và những thông tin quen thuộc của nó khi nhập và trả về một kết quả câu nói hay một câu ví dụ, một khái niệm để diễn tả những kết quả học.
  • 8. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 8  Máy học kiểm tra những ví dụ trước đó và kiểm tra luôn cả những kết quả của chúng khi xuất và học làm cách nào để tái tạo lại những kết quả này và tạo nên những sự tổng quát hóa cho những trường hợp mới.  Nói chung, máy học sử dụng một tập hữu hạn dữ liệu được gọi là tập huấn luyện. Tập này chứa những mẫu dữ liệu mà nó được viết bằng mã theo một cách nào đó để máy có thể đọc và hiểu được.
  • 9. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 9  Tuy nhiên, tập huấn luyện bao giờ cũng hữu hạn do đó không phải toàn bộ dữ liệu sẽ được học một cách chính xác.
  • 10. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 10  Một tiến trình máy học gồm 2 giai đoạn:  Giai đoạn học (learning): hệ thống phân tích dữ liệu và nhận ra sự mối quan hệ (có thể là phi tuyến hoặc tuyến tính) giữa các đối tượng dữ liệu. Kết quả của việc học có thể là: nhóm các đối tượng vào trong các lớp, tạo ra các luật, tiên đoán lớp cho các đối tượng mới.  Giai đoạn thử nghiệm (testing): Mối quan hệ (các luật, lớp...) được tạo ra phải được kiểm nghiệm lại bằng một số hàm tính toán thực thi trên một phần của tập dữ liệu huấn luyện hoặc trên một tập dữ liệu lớn.
  • 11. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 11  Các thuật toán máy học được chia làm 3 loại: học giám sát, học không giám sát và học nửa giám sát.  Học có giám sát (Supervised Learning).  Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ thuật máy học giúp hệ thống xây dựng cách xác định những lớp dữ liệu. Hệ thống phải tìm một sự mô tả cho từng lớp (đặc tính của mẫu dữ liệu).  Người ta có thể sử dụng các luật phân loại hình thành trong quá trình học và phân lớp để có thể sử dụng dự báo các lớp dữ liệu sau này.
  • 12. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 12  Học có giám sát (Supervised Learning).  Thuật toán học có giám sát gồm tập dữ liệu huấn luyện M cặp: S = {(xi, cj)| i=1,…,M; j=1,…,C}  Các cặp huấn luyện này được gọi là mẫu, với xi là vector n-chiều còn gọi là vector đặc trưng, cj là lớp thứ j đã biết trước.  Thuật toán máy học giám sát tìm kiếm không gian của những giả thuyết có thể, gọi là H. Đối với một hay nhiều giả thuyết, mà ước lượng tốt nhất hàm không được biết chính xác f : x  c.
  • 13. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 13  Học có giám sát (Supervised Learning).  Đối với công việc phân lớp có thể xem giả thuyết như một tiêu chí phân lớp.  Thuật toán máy học tìm ra những giả thuyết bằng cách khám phá ra những đặc trưng chung của những ví dụ mẫu thể hiện cho mỗi lớp.  Kết quả nhận được thường ở dạng luật (Nếu ... thì).  Khi áp dụng cho những mẫu dữ liệu mới, cần dựa trên những giả thuyết đã có để dự báo những phân lớp tương ứng của chúng. Nếu như không gian giả thuyết lớn, thì cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm một hàm xấp xỉ tốt nhất f.
  • 14. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 14  Học có giám sát (Supervised Learning).  Tùy thuộc vào mức độ của thuật toán học giám sát, người ta có những mô hình học giám sát như sau:  Học vẹt (rote): hệ thống luôn luôn được “dạy” những luật đúng, rồi có học hội tụ.  Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi đúng cho một công việc tương tự, nhưng không xác định. Vì thế hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra một luật mới có thể áp dụng cho trường hợp mới.  Học dựa trên trường hợp (case-based learning): trong trường hợp này hệ thống học lưu trữ tất cả các trường hợp, cùng với kết quả đầu ra của chúng. Khi bắt gặp một trường hợp mới, nó sẽ cố gắng hiệu chỉnh đến trường hợp mới này cách xử lý trước đó của nó đã được lưu trữ.
  • 15. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 15  Học có giám sát (Supervised Learning).  Học dựa trên sự giải thích (explanation-based learning), hệ thống sẽ phân tích tập hợp những giải pháp nhằm chỉ ra tại sao mỗi phương pháp là thành công hay không thành công. Sau khi những giải thích này được tạo ra, chúng sẽ được dùng để giải quyết những vấn đề mới.
  • 16. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 16  Học Không giám sát (Unsupervised Learning).  Đây là việc học từ quan sát và khám phá. Hệ thống khai thác dữ liệu được ứng dụng với những đối tượng nhưng không có lớp được định nghĩa trước, mà để nó phải tự hệ thống quan sát những mẫu và nhận ra mẫu. Hệ thống này dẫn đến một tập lớp, mỗi lớp có một tập mẫu được khám phá trong tập dữ liệu.  Học không giám sát còn gọi là học từ quan sát và khám phá.
  • 17. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 17  Học Không giám sát (Unsupervised Learning).  Trong trường hợp chỉ có ít, hay gần như không có tri thức về dữ liệu đầu vào, khi đó một hệ thống học không giám sát sẽ khám phá ra những phân lớp của dữ liệu, bằng cách tìm ra những thuộc tính, đặc trưng chung của những mẫu hình thành nên tập dữ liệu.  Một thuật toán máy học giám sát luôn có thể biến đổi thành một thuật toán máy học không giám sát (Langley 1996).
  • 18. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 18  Học Không giám sát (Unsupervised Learning).  Đối với một bài toán mà những mẫu dữ liệu được mô tả bởi n đặc trưng, người ta có thể chạy thuật toán học giám sát n-lần, mỗi lần với một đặc trưng khác nhau đóng vai trò thuộc tính lớp, mà chúng ta đang tiên đoán.  Kết quả sẽ là n tiêu chí phân lớp (n bộ phân lớp), với hy vọng là ít nhất một trong n bộ phân lớp đó là đúng.
  • 19. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 19  Học nửa giám sát.  Học nửa giám sát là các thuật toán học tích hợp từ học giám sát và học không giám sát. Việc học nửa giám sát tận dụng những ưu điểm của việc học giám sát và học không giám sát và loại bỏ những khuyết điểm thường gặp trên hai kiểu học này.
  • 20. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 20  Thuật Toán Naïve Bayes  Đây là thuật toán được xem là đơn giản và đước sử dụng rộng rãi.  Thuật toán Naïve Bayes dựa trên định lý Bayes được phát biểu như sau:  Trong đó:  Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng cứ mới X  P(X) : xác xuất X xảy ra, P(Y) : xác xuất Y xảy ra  P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của X khi Y đúng)  P(Y|X) : xác suất hậu nghiệm của Y nếu biết X.
  • 21. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 21  Thuật Toán Naïve Bayes được ứng dụng rất nhiều trong thực tế. Một trong những ứng dụng cụ thể là ứng dụng bài toán phân lớp.  Đây là thuật toán được xem là đơn giản nhất trong các phương pháp phân lớp. Bộ phân lớp Bayes có thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định.
  • 22. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 22  Với mỗi lớp dữ liệu trong bộ huấn luyện, ta tính xác suất phụ thuộc của văn bản cần phân loại:  Với c1 là lớp dữ liệu cần tính xác suất và x là văn bản dữ liệu cần phân loại  Công thức tính P(x|ci): P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci)  Trong đó: P(wk|ci) là xác suất xuất hiện của từ wk trong lớp văn bản ci (k=1n; i=1,2,3…)
  • 23. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 23  Mô hình Hệ thống mạng Nơrôn Lan truyền ngược – Backpropogation Neural Network (FNN).  Các mô hình sử dụng mạng neuron là một cách tiếp cận khá phổ biến cho vấn đề nêu trên. Điều đó xuất phát từ khả năng ghi nhớ và học của cấu trúc này.  Bên cạnh đó, tính ổn định của mạng neuron cũng là một yếu tố quan trọng giúp nó được chọn vì đây là điều kiện quan trọng đặt ra cho bài toán mô hình.
  • 24. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 24  Thuật toán lan truyền ngược (BackPropagation Algorithm) file: backproalgorithm.pdf  Phương pháp cài đặt cho thuật toán học Back- Propagation. file: setup_backproalgorithm.pdf
  • 25. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 25  Mô hình hệ thống mạng Nơrôn dạng hàm radial - RADIAL BASIS FUNCTION NEURAL NETWORKS (RBFNNs).  Hệ thống Mạng Nơrôn RBFNNs sẽ giải quyết vấn đề xấp xỉ một hàm liên tục n biến trên một miền compact. RBFNNs tiến hành lấy đặc trưng cục bộ của hàm, và như vậy sẽ dễ dàng khởi tạo và huấn luyện dữ liệu khi học.
  • 26. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 26  Cấu trúc RBFNNs: Một mạng RBFNNs gồm có 3 lớp  Lớp đầu vào (inputs)  Lớp các hàm Gauss (số nút là do người sử dụng quy định)  Lớp đầu ra (outputs)  Các liên kết từ tầng inputs đến tầng các hàm gauss không có trọng số  Các liên kết ở tầng các hàm Gauss đến tầng ouputs có trọng số.  Mỗi node ở tầng các hàm gauss có các thông số cần xác định là: trọng tâm (xác định trọng tâm hàm gaus) , thông số sigma (xác định độ lệch chuẩn của hàm gauss). Xác định các thông số ở tầng này dùng để phân lớp.  Các trọng số trên đường liên kết từ tầng các hàm Gauss đến tầng ouput được xác định thông qua cách học bình thường: phương pháp học lan truyền ngược (back propagation), phương pháp học tuyến tính (line search), phương pháp học theo vết cũ (backtracking).
  • 27. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 27  Hoạt động của mô hình.  Mỗi mẫu dữ liệu nhập sẽ qua k hàm gauss (giả sử ở tầng này có k nút hàm gauss), hay có thể hiểu là có k lớp, xem mẫu thuộc vào lớp nào qua tính xác xuất phân bố chuẩn (là hàm gauss của các lớp). Các giá trị tính được này được tổ hợp tuyến tính (tính trung bình có trọng số).  Giải thuật học cho RBFNNs File: Ước lượng mạng: EstNet_Rbfnn.pdf File: Huấn Luyện mạng: TraiNet_Rbfnn.pdf
  • 28. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 28  Mô Hình Hệ Thống Mạng Nơrôn mờ hồi quy - RECURRENT FUZZY NEURAL NETWORK (RFNNs).  Một cách tiếp cận của mô hình máy học cho nhiều bài toán ứng dụng khác nhau là mô hình mạng nơ ron mờ hồi quy (Recurrent Fuzzy Neural Network).  Mô hình mạng nơ ron này kết hợp từ lý thuyết tập mờ và mô hình mạng nơrôn tận dụng những ưu điểm như có khả năng xấp xỉ một hàm liên tục với độ chính xác cho trước (mạng nơrôn) và khai thác khả năng xử lý những tri thức như con người (lý thuyết tập mờ).  Mạng nơ ron mờ hồi quy tỏ ra đạt hiệu quả cao cho những ứng dụng như: dự báo chuỗi thời gian, nhận dạng và điều khiển những hệ phi tuyến…
  • 29. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 29  Cấu trúc RFNNs.  Cấu trúc mô hình RFNNs được thể hiện như hình dưới đây
  • 30. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 30  Một RFNNs gồm 4 lớp như sau:  Lớp 1: Là lớp nhập gồm N dữ liệu nhập (input).  Lớp 2: Gọi là lớp các hàm thành viên. Các nút trong lớp này thực hiện việc mờ hoá. Lớp này dùng để tính giá trị hàm thành viên theo hàm phân phối Gauss. Số nút trong lớp 2 là N x M, trong đó M là số luật mờ (số nút của lớp 3)  Lớp 3: Lớp các luật mờ. Các nút trong lớp này tạo thành cơ sở luật mờ (Fuzzy rule base) gồm M nút. Liên kết giữa lớp 2 và lớp 3 biểu diễn giả thiết của luật mờ. Liên kết giữa lớp 3 và lớp 4 biểu diễn kết luận của luật mờ.  Lớp 4: Lớp xuất gồm P nút. Liên kết giữa lớp 3 và lớp 4 được gán trọng số. Như vậy số nút của mô hình là: N + (N x M) + M + P
  • 31. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 31  Hoạt động của mô hình  File: Activiti_RFNN.pdf
  • 32. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 32  Lập luận mờ  Giả sử cho hệ RFNNs với nhiều đầu vào (Input) và một đầu ra (Output). Gọi xi là biến ngôn ngữ thứ i và αj là giá trị kích hoạt của luật j, wj là trọng số của kết nối thứ j.  Một luật suy diễn mờ được biểu diễn như sau Rj : Nếu u1j là A1j, u2j là A2j, .. , unj là Anj Thì y=wj  Trong đó i = 1, 2, .. , n. n là số đầu vào (Input) uij = xi + θij * oij(2) (t-1) Aij là các tập mờ Wj là trọng số kết nối  Đầu vào của mỗi hàm thành viên là đầu vào xi của mạng cộng với số hạng oij(2)θij.
  • 33. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 33  Lập luận mờ  Sơ đồ kết nối dựa trên luật suy diễn mờ như hình sau
  • 34. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 34  Lập luận mờ  Hệ thống mờ với những thành phần nhớ (Feedback unit) có thể được xem như là một hệ suy luận mờ động và giá trị suy luận được tính bởi  với M là số luật  Từ mô tả trên, ta thấy RFNNs là một hệ suy luận mờ có các phần tử nhớ. Sau khi huấn luyện xong, các thông số trong mạng cùng với các phần tử nhớ đã xác định tri thức.
  • 35. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 35  Giải thuật học cho RFNNs  File: learnin_RFNN.pdf
  • 36. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 36  Mô Hình Hệ thống Fuzzy Artmap Neural Network.  Hệ thống fuzzy ARTMAP neural network là mạng neural học giám sát có khả năng nhận dạng nhanh và ổn định, có khả năng dự báo chính xác phù hợp cho phân lớp.  Cấu trúc của mạng là cấu trúc tiến hóa và là sự kết hợp của hai mạng fuzzy ART, ARTa và ARTb. Hai mạng này được liên kết với nhau bởi mạng neural MAP Field.
  • 37. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 37  Sơ đồ khối của hệ thống fuzzy ARTMAP
  • 38. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 38  Quá trình học của mạng ARTMAP là một quá trình hoạt động đồng thời của 2 mạng ARTa và ARTb.  Cho mẫu đầu vào a vào lớp Fo a của mạng ARTa và mẫu đầu vào b vào lớp Fo b của mạng ARTb với b là mẫu dự đoán chính xác của a.  Lớp mã hóa Fo tạo ra vector A = (a, ac ) trong ARTa và B = (b, bc ) trong ARTb với ac , bc tương ứng là phần bù của a, b.  Lớp F1 với vector đầu vào x (xa = A cho ARTa và xb = B cho ARTb) tạo ra những ma trận trọng số thích nghi Wj liên kết giữa lớp F1 và lớp F2 (Wj a cho ARTa và Wj b cho ARTb).  Vector y (ya = A cho ARTa và yb = B cho ARTb) biểu diễn sự kích hoạt của lớp F2.
  • 39. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 39  Mạng fuzzy ARTMAP có các tham số giống với mạng fuzzy ART là tham số α > 0 được sử dụng trong quá trình so sánh giữa các neural trong F2, tham số huấn luyện β [0 1] biểu diễn tốc độ học, và tham số∈ vigilance ρ [0 1] được sử dụng trong quá trình tìm neural chiến thắng∈ trong F2, đồng thời mạng fuzzy ARTMAP có thêm giá trị nhỏ nhất của tham số vigilance của ARTa ρ­¬a , tham số vigilance ρ­ab và tham số huấn luyện βab của lớp MAP.  Quá trình tính toán sẽ tìm ra một neural chiến thắng lớn nhất tại F2 a tương ứng với đầu vào A và xem là neural kích hoạt J. Trong khi đó F2 b sẽ kích hoạt một neural K từ mẫu vào B. Quá trình so sánh sẽ xảy ra tại MAP Field.Nếu neural kích hoạt K của B trùng với neural kích hoạt J của A thì việc dự đoán của ARTa là chính xác, đồng thời cập nhật Wj ab . Ngược lại, một tín hiệu kích hoạt từ Map Field sẽ tác động lên ρa một lượng làm thay đổi ρa , sau đó quá trình sẽ lặp lại đối với ARTa để tìm neural kích hoạt khớp với ARTb.
  • 40. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 40  Giải thuật fuzzy ARTMAP neural network File: training_FuzzyArtmap.pdf
  • 41. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 41  Mô hình Hệ luật mờ - Standard Additive Model (SAM).  Việc sử dụng mô hình mạng neuron (và một số mô hình khác…) cho bài toán xấp xỉ hiện vẫn đang còn nhiều nhược điểm. Trước hết đó là khả năng học của mạng neuron.  Hơn nữa, việc xác định cấu trúc mạng neuron phù hợp cho từng bộ số liệu vẫn là một công việc hết sức khó khăn:  Với hệ thống các neuron trong các lớp và các cung liên kết, mạng neuron thật sự là một hộp đen đối với người dùng, đặc biệt là các chuyên gia.  Các chuyên gia tham gia vào việc huấn luyện mạng neuron cũng không thể hiểu và nắm bắt được toàn bộ các hiệu chỉnh xảy ra bên trong (trên các neuron và dây liên kết) của nó.
  • 42. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 42  Chính vì các hạn chế nói trên ⇒ xây dựng một cấu trúc khá đặc biệt để xây dựng các hệ thống xấp xỉ, đó là hệ luật mờ.  các mô hình xấp xỉ các hàm phi tuyến chỉ thực sự được đưa ra bởi Bart Kosko vào năm 1992.
  • 43. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 43  Việc sử dụng hệ mờ để xây dựng các mô hình xấp xỉ xuất phát từ những tính năng đặc biệt của nó:  Có thể chứng minh tính ổn định của hệ mờ.  Các đại lượng mang giá trị ngôn ngữ (mờ) của các chuyên gia có thể dễ dàng biểu diễn thông qua các tập mờ. Nhờ đó giúp hệ mờ phản ánh đầy đủ tri thức của chuyên gia (thông qua các luật mờ). Cách biểu diễn này tạo sự gần gũi giữa hệ thống với chuyên gia. Chuyên gia có thể hiểu và tham gia vào việc xây dựng cũng như điều chỉnh hệ mờ thông qua việc chỉnh sửa các luật mờ có trong hệ.  Không như mạng neuron, hệ mờ thật sự là một hộp trắng mà thông số của nó có thể dễ dàng hiểu và điều chỉnh được bởi chuyên gia.
  • 44. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 44  MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.  Hệ luật mờ là hệ thống m luật mờ dạng Rj: IF x = Aj THEN y = Bj; , hoạt động theo cơ chế song song.  Có nhiều cách kết hợp vế trái và phải trong mỗi luật mờ và kết hợp kết quả của các luật mờ trong hệ luật mờ.  Tuy nhiên, vì các đặc tính thuận lợi trong tính toán (tính tích phân để xác định trọng tâm), người ta thường dùng đến hệ luật mờ hoạt động theo qui tắc kết hợp SUM- PRODUCT.  Do tính kết hợp SUM các luật mờ mà hệ luật mờ này có tên gọi là SAM (Standard Additive Model).
  • 45. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 45  MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.  Trong hệ mờ SAM, ứng với mỗi giá trị vào x=x0, luật thứ j : Rj được kích hoạt và cho kết quả là tập mờ Bj’xác định theo Bj và mức độ thỏa mãn vế trái aj(x0) dựa trên qui tắc PRODUCT. Bj’ = aj(x0)×Bj  m kết quả ra Bj’ của các luật trong hệ luật được SAM kết hợp theo qui tắc SUM để cho kết quả chung của toàn hệ thống là tập mờ B. Từ phụ lục A, ta có:
  • 46. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 46  MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.  Giá trị B sẽ được khử mờ để nhận được một giá trị rõ duy nhất. Gọi y là kết quả sau khi khử mờ tập mờ kết quả B của hệ SAM, ta có: ∑ ∑ = = === m 1j j0jj m 1j jj0jj 00 V).x(a.w c.V).x(a.w ))x(B(Centroid)x(Fy
  • 47. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 47  ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI TUYẾN.  Hệ SAM hoạt động như một ánh xạ: F: Rn  Rp. Chính nhờ đặc trưng này mà với bất kỳ hàm phi tuyến liên tục giới hạn f(x), f : U ⊂ Rn  Rp, với U là tập compact, ta luôn có thể xây dựng một hệ mờ SAM: F: Rn  Rp cho phép xấp xỉ f bởi F.  Cũng như các mô hình xấp xỉ khác, mỗi mô hình xấp xỉ mờ hàm phi tuyến SAM luôn tương ứng với một giá trị sai số nhất định. Giá trị này được xác định trên mức độ chênh lệnh giữa giá trị cho bởi hàm f(x) và giá trị nhận được từ hệ F(x), ∀x∈X. Gọi e là giá trị sai số của mô hình xấp xỉ SAM, ta có  Giả sử f là hàm số được xấp xỉ (có thể chưa biết). ε > 0 cho trước.
  • 48. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 48  ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI TUYẾN.  Định nghĩa: ε-close = {F là hệ mờ xấp xỉ f : |f(x) – F(x)| ≤ ε ∀x ∈ X}  Dưới góc độ khảo sát đồ thị, khả năng xấp xỉ của hệ mờ F đối với một hàm phi tuyến y = f(x) được thể hiện như sau: • Mỗi luật mờ trong hệ mờ hoạt động theo cơ chế xấp xỉ cho phép tương ứng với mỗi tập mờ vào Aj (có cơ sở là không gian các giá trị vào X) là một tập mờ kết quả Bj (có cơ sở là không gian các giá trị ra Y). Aj và Bj làm hình thành một khối (patch) mờ Aj×Bj xác định trong không gian tích X×Y. • Thông qua việc kết hợp các khối mờ hình thành từ các luật mờ Rj hoặc lấy trung bình giữa các khối mờ này nếu chúng chồng lấp lẫn nhau nhờ vào cơ chế khử mờ bằng phương pháp trọng tâm, hệ mờ SAM F có thể bao phủ đồ thị biểu diễn của hàm f(x) mà nó xấp xỉ. f có thể chưa biết.
  • 49. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 49  ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI TUYẾN.  So sánh giữa 2 hình (1a) và (1b), nhận xét rằng số lượng khối mờ càng nhiều và nhỏ thì khả năng bao phủ của F trên đường biểu diễn của f càng sát thực; nghĩa là độ chính xác trong xấp xỉ của F đối với f càng cao. Điều đó có nghĩa là một hệ mờ càng có nhiều luật thì độ chính xác trong xấp xỉ các hàm phi tuyến của hệ mờ càng cao. Đây chính là vấn đề tranh chấp giữa một bên là độ chính xác trong xấp xỉ của hệ luật mờ và một bên là kích thước (số luật) của nó. Mặt khác, khi số chiều của không gian XY gia tăng sẽ làm dẫn đến sự bùng nổ số luật của hệ theo cấp số mũ.
  • 50. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 50  ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI TUYẾN.  Vấn đề đặt ra ở đây là làm sao xây dựng các khối mờ hay nói một cách cụ thể hơn là xây dựng các tập mờ và luật mờ cần thiết cho hệ mờ F để nó có thể xấp xỉ một hàm phi tuyến f(x).  Đây là một vấn đề khá phức tạp và quan trọng. Bởi vì số lượng các luật mờ và cấu trúc các thông số của nó ảnh hưởng nghiêm trọng đến hiệu quả xấp xỉ của hệ mờ ⇒ xây dựng các cơ chế học đủ mạnh.
  • 51. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 51  CƠ CHẾ HỌC TRONG SAM.  Học là hoạt động quan trọng của SAM nhằm xây dựng cơ sở tri thức cần thiết dưới dạng các luật mờ phục vụ cho việc mô phỏng hàm phi tuyến mà hệ đảm nhận.  Nhờ cơ chế học mà SAM có thể khắc phục hạn chế là phải chờ đợi tri thức chuyên gia.  Ngoài ra, việc học còn giúp cho SAM có khả năng tự điều chỉnh các thông số cấu trúc cũng như kiểm tra tính tối ưu trong cấu trúc luật để từ đó có thể nâng cao độ chính xác trong hoạt động xấp xỉ của nó.  Thông qua việc hiệu chỉnh các thông số: kích thước, trọng tâm các tập mờ, SAM tự động định vị lại vị trí và kích thước của các khối mờ, nhờ đó quá trình xấp xỉ của SAM được chính xác hơn.  Đối với SAM, một phương pháp học được đánh giá là tốt hay không ở chổ nó có điều chỉnh nhanh chóng hay không kích thước và vị trí của các khối mờ cũng như đảm bảo duy trì các khối mờ tại các điểm uốn của hàm f.
  • 52. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 52  CƠ CHẾ HỌC TRONG SAM.  Quá trình học của SAM (hay của hệ mờ nói chung) thông thường bao gồm hai bước chính là học cấu trúc và học tham số ⇒ phối hợp thêm cơ chế học tối ưu hệ luật.  Quá trình học của SAM ở đây bao gồm các giai đoạn sau:  Tự phát sinh cấu trúc luật (structure learning): Đây là bước khởi đầu của quá trình học. Bước này được thực hiện theo cơ chế tự học (unsupervised learning). Bằng cách thực hiện việc phân lớp mờ trên bộ dữ liệu học, hệ SAM sẽ tự phát hiện ra các luật mờ cần thiết cho việc xấp xỉ hàm phi tuyến đặc trưng cho bộ số liệu học đó.
  • 53. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 53  CƠ CHẾ HỌC TRONG SAM.  Quá trình học của SAM ở đây bao gồm các giai đoạn sau:  Điều chỉnh các thông số (parameters learning): Sau khi đã xây dựng được bộ luật mờ cần thiết, công việc học tiếp theo của SAM là điều chỉnh các thông số của hệ luật như: trọng số của từng luật, trọng tâm và kích thước của các tập mờ tham gia ở vế trái và vế phải của các luật. Quá trình này được tiến hành theo cơ chế học có giám sát (supervised learning). Thông qua việc kiểm tra sai số giữa giá trị kết quả do hệ sinh ra từ bộ dữ liệu học với kết quả mong muốn, hệ sẽ thực hiện điều chỉnh lại các thông số cho phù hợp. Việc điều chỉnh thông số được tiến hành theo thuật toán học điều chỉnh sai số nhỏ nhất.  Tối ưu hóa hệ luật (optimal learning): Giai đoạn học này cho phép SAM có thể phát hiện và loại bỏ các luật mờ không cần thiết cho hoạt động xấp xỉ của nó. Nhờ cơ chế này mà SAM có thể gọn nhẹ hơn nhằm tăng đáng kể tốc độ xử lý cũng như giảm nhiễu. Cơ chế học ở đây cũng gần giống như cơ chế học có giám sát.
  • 54. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 54  CƠ CHẾ HỌC TRONG SAM.  HỌC CẤU TRÚC.  Bài toán học cấu trúc có thể phát biểu như sau: Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học Cho trước dạng hàm phụ thuộc của các tập mờ.  Hãy xây dựng một phân lớp mờ P({xj|yj}) trên các bộ số liệu học. Trên cơ sở đó, xác định các tập mờ và hàm phụ thuộc tương ứng để từ đó phát sinh các luật mờ của hệ mờ SAM có khả năng xấp xỉ một cách tốt nhất hàm phi tuyến y=f(x) (chưa biết) đặc trưng của bộ dữ liệu học.
  • 55. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 55  CƠ CHẾ HỌC TRONG SAM.  Việc giải quyết bài toán này được tiến hành theo hai bước sau:  Xác định các tập mờ bằng thuật toán phân lớp dữ liệu mờ (Data Fuzzy Clustering)  Phân lớp mờ dữ liệu là bước quan trọng trong quá trình xây dựng các luật mờ của một hệ mờ tự học.  Nhiệm vụ đặt ra đối với quá trình phân lớp mờ dữ liệu là từ một tập hữu hạn các bộ số liệu học cho trước, tìm cách tách chúng ra thành từng nhóm với các đặc trưng riêng sao cho các bộ số liệu trong cùng một nhóm càng giống nhau và các bộ số liệu giữa các nhóm càng khác nhau càng tốt.  Đối với quá trình phân lớp dữ liệu mờ thì bên cạnh việc phân tách dữ liệu, phải tiến hành đồng thời việc xác định mức độ phụ thuộc của từng bộ số liệu đối với nhóm mà nó thuộc về, để từ đó có thể xác định hàm thành viên của tập mờ tương ứng với nhóm sẽ được tạo ra sau này.
  • 56. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 56  CƠ CHẾ HỌC TRONG SAM.  Bài toán phân lớp mờ dữ liệu được phát biểu như sau:  Gọi Rn là không gian các vector có n thành phần thực.  Đặt X = {x1, x2, ..., xntd}, xj ∈ Rn, là tập hữu hạn bộ số liệu học, trong đó ntd (number of training data) là số bộ dữ liệu học.  Gọi Vcn là không gian vector các ma trận c×n, c ∈ Z+ cho trườc, 1<c<n.  Xác định một phân lớp mờ trên X biểu diễn bởi một bộ vector trọng tâm: V = {v1, v2, ..., vc}, vi ∈ Rn. cho tương ứng với 1 ma trận U = {uij} ∈ Vcn, với uij là giá trị thực trong đoạn [0,1] diễn tả mức độ phụ thuộc của bộ số liệu học xj ứng với vector trọng tâm vi, và thỏa hai điều kiện sau: 1. ∀x ∈ X, uij ∈ [0,1],
  • 57. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 57  CƠ CHẾ HỌC TRONG SAM.  Bài toán phân lớp mờ dữ liệu được phát biểu như sau: 2. : Nhiệm vụ đặt ra của bài toán phân lớp mờ là phải làm giảm thiểu giá trị hàm mục tiêu J xác định trên U và V có dạng như sau: And trong đó: w(xi) là trọng số khởi đầu của xi. d(xj, vk) là độ đo biểu diễn mức độ khác biệt giữa xj và vector trọng tâm của phân lớp thứ k: vk. Độ đo chọn phải thỏa hai tính chất sau: d(xj, vk) > 0 d(xj, vk) = d(vk, xj)
  • 58. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 58  CƠ CHẾ HỌC TRONG SAM.  Hiện nay có rất nhiều thuật toán đề cập đến vấn đề này. Đa số các thuật toán đều có mục tiêu chung là xác định V. Giá trị của U có thể được xác định một cách tuyệt đối hoặc tương đối thông qua một đại lượng khác nhằm mục đích hạn chế thao tác xử lý và tài nguyên sử dụng.  Thuật toán phân lớp mờ trung bình (Fuzzy C-Means-FCM). File: FCM_Algorithm.pdf  Một hướng giải quyết khác được hình thành từ ý tưởng của phương pháp học cạnh tranh. Qua đó số lớp mờ được xác định một cách tự động từ bộ số liệu học.  Thuật toán FCM cải tiến với phân lớp mờ dẫn đầu. File: FCM_First_Algorithm.pdf
  • 59. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 59  CƠ CHẾ HỌC TRONG SAM.  Một phương pháp phân lớp theo hướng tiếp cận tựa FCM là phương pháp dùng vector lượng tử thích nghi. Giống như các vector V của thuật toán FCM, các vector lượng tử được dùng như một công cụ để dò tìm các phân lớp mờ. Điểm đặc biệt của phương pháp này là sử dụng phương pháp học cạnh tranh, nhờ đó giảm thiểu đáng kể thao tác xử lý cũng như không gian lưu trữ cần dùng cho thuật toán.  Thuật toán vector lượng tử thích nghi (Adaptive Vector Quantization - AVQ) File: AVQ_algorithm.pdf  Thuật toán vector lượng tử thích nghi với phân lớp dẫn đầu (Adaptive Vector Quantization Leader - AVQL) File: AVQL_algorithm
  • 60. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 60  CƠ CHẾ HỌC TRONG SAM.  Xây dựng các luật mờ.  Sau khi thực hiện quá trình phân lớp mờ, công việc tiếp theo là xây dựng các luật mờ từ các phân lớp đó.  Dựa trên các thông tin về các phân lớp mờ: các trọng tâm của các vector lượng tử qi, người ta tiến hành xây dựng các luật mờ.  Trọng tâm của các tập mờ có thể dễ dàng xác định thông qua tọa độ các vector lượng tử. Nhưng để xác định dạng hàm thành viên đòi hỏi phải xác định được độ rộng của các tập mờ.  Kosko với đề nghị sử dụng các luật mờ dạng ellipse (ellipsoid rules: luật tương ứng với khối mờ dạng ellipse thay vì hình chữ nhật như thường dùng) và thuật toán phân lớp mờ thông qua các vector lượng tử với cơ chế học cạnh tranh đã cung cấp một cơ chế giúp xác định chính xác độ rộng của các tập mờ thông qua tâm của các ellipse và độ nghiêng của chúng.
  • 61. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 61  CƠ CHẾ HỌC TRONG SAM.  Xây dựng các luật mờ.  Tuy nhiên phương pháp này có nhiều trở ngại do mức độ phức tạp của nó khi cài đặt.  Việc xác định chính xác độ rộng của các tập mờ trong bước này không thực sự quan trọng lắm bởi vì sau đó ta còn có thể kịp thời hiệu chỉnh bằng giai đoạn học điều chỉnh thông số.  Một cách đơn giản, độ rộng của một tập mờ thứ i có thể xác định thông qua tập mờ lân cận của nó theo công thức sau: Trong đó: mi: trọng tâm của tập mờ thứ i mclosest: trọng tâm của tập mờ gần tập mờ thứ i nhất. r: hệ số chồng lấn giữa các tập mờ do người dùng quyết định.
  • 62. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 62  CƠ CHẾ HỌC TRONG SAM.  Xây dựng các luật mờ.  Mỗi khối mờ cho phép hình thành một luật mờ trong hệ. Dạng hàm biểu diễn tập mờ phải được xác định trước ⇒ Dùng hàm hình thang vì lý do dễ cài đặt của nó.  Đồ thị biểu diễn của hàm có dạng hình thang. Hàm hình thang tương ứng với tập mờ thứ j được định nghĩa bằng bộ 4 giá trị (lj, mlj, mrj, rj). Với lj, rj >0, mlj ≤ mrj. Giá trị hàm thành viên của tập mờ thứ j được xác định như sau:
  • 63. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 63  CƠ CHẾ HỌC TRONG SAM.  ĐIỀU CHỈNH THÔNG SỐ.  Khi các luật mờ đã được xác định, học điều chỉnh thông số giúp giảm sai số giữa kết quả của hệ và kết quả mong muốn.  Bài toán được phát biểu như sau: Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1.ntd ; với ntd: số bộ dữ liệu học.  Cho hệ luật mờ SAM với các luật mờ và trọng số.  Hãy điều chỉnh thông số của các tập mờ vế trái, vế phải và trọng số các luật mờ sao cho sai số giữa kết quả cho bởi hệ luật mờ và kết quả mong muốn là ổn định và nhỏ nhất.
  • 64. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 64  CƠ CHẾ HỌC TRONG SAM.  ĐIỀU CHỈNH THÔNG SỐ.  Quá trình học điều chỉnh thông số được tiến hành dựa trên luật học sai số nhỏ nhất. Luật học sai số nhỏ nhất áp dụng cho tham số ξ trong SAM có dạng:  Trong đó µt là hệ số học biến đổi theo thời gian và có xu hướng giảm dần. Mục đích của giai đoạn học điều chỉnh thông số là tối thiểu bình phương sai số: E(x) = 1/2 (f(x)-F(x))2  Sai số trong xấp xỉ của hệ luật mờ phụ thuộc vào các tham số tham gia vào hệ, bao gồm: các tập mờ vế trái Aji, các tập mờ vế phải Bj, các trọng số wj (tham khảo file: editparameter.pdf).  Thuật toán học thông số. file: para_algorithm.pdf
  • 65. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 65  CƠ CHẾ HỌC TRONG SAM.  TỐI ƯU HỆ LUẬT.  Về mặt lý thuyết, một hệ SAM càng có nhiều luật thì độ chính xác trong hoạt động xấp xỉ của nó càng lớn.  Tuy nhiên, nếu hệ có quá nhiều luật thì thời gian cho quá trình xử lý trong hệ luật sẽ là yếu tố đáng quan tâm. Một vấn đề đặt ra là làm sao có thể giải quyết hợp lý mối quan hệ giữa kích thước (số luật) của hệ SAM và độ chính xác trong xấp xỉ của nó.  Một hệ luật tối ưu sẽ chỉ giữ lại một số (hoặc tất cả) các luật ban đầu trong hệ SAM.  Mỗi luật được giữ lại cho tương ứng với giá trị 1, các luật bị loại cho tương ứng với giá trị 0. Giả sử SAM có m luật và vị trí của các luật không đổi trong suốt quá trình xem xét, ta có thể biểu diễn trạng thái của các luật trong hệ ở thời điểm bắt đầu và thời điểm sau khi xử lý để chọn các luật tối ưu.
  • 66. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 66  CƠ CHẾ HỌC TRONG SAM.  TỐI ƯU HỆ LUẬT.  Bài toán tối ưu hệ luật được phát biểu như sau: Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học. Cho hệ luật mờ SAM với các luật mờ và trọng số. Hãy tìm số vị trí 1 ít nhất sao cho sai số giữa kết quả cho bởi hệ SAM và kết quả mong muốn là ổn định và nhỏ nhất.  Người ta thường kết hợp một số thuật toán khác (như thuật toán di truyền) để tối ưu hóa hệ luật.  Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết quả của thuật toán.
  • 67. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 67  Giải Thuật Di Truyền.  Là một kỹ thuật nhằm tìm kiếm giải pháp thích hợp cho các bài toán tối ưu tổ hợp (combinatorial optimization).  Giải thuật di truyền vận dụng các nguyên lý của tiến hóa như phép lai, phép đột biến, phép sinh sản và chọn lọc tự nhiên.  Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu tượng (nhiêm sắc thể) của các giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề.  Tập hợp này sẽ tiến triển theo hướng chọn lọc những giải pháp tốt hơn (chọn lọc tự nhiên).
  • 68. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 68  Giải Thuật Di Truyền.  Thông thường, những giải pháp được thể hiện dưới dạng những chuỗi thông tin mã hóa khác nhau (phần lớn ở dạng nhị phân).  Quá trình tiến hóa xảy ra từ một tập hợp những cá thể hoàn toàn ngẫu nhiên ở tất cả các thế hệ.  Trong từng thế hệ, tính thích nghi của tập hợp này được ước lượng (nhằm ngăn chặn khả năng bùng nổ tổ hợp), nhiều cá thể được chọn lọc định hướng từ tập hợp hiện thời (dựa vào thể trạng), được sửa đổi (bằng đột biến hoặc tổ hợp lại) để hình thành một tập hợp mới.  Tập hợp này sẽ tiếp tục được chọn lọc lặp đi lặp lại trong các thế hệ kế tiếp của giải thuật.
  • 69. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 69  TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI TRUYỀN GA.  Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết quả của thuật toán.  Quá trình thực hiện như sau:  Biểu diễn các nhiễm sắc thể: Mỗi nhiễm sắc thể là một chuỗi các giá trị nhị phân diễn tả trạng thái hoạt động của luật tương ứng trong hệ SAM. Mỗi thế hệ sẽ chỉ sử dụng 10 nhiễm sắc thể. Thế hệ đầu tiên bao giờ cũng chứa đầy đử các luật (tất cả giá trị bằng 1).
  • 70. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 70  TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI TRUYỀN GA.  Hàm thích nghi:  Mối qua hệ giữa kích thước SAM và độ chính xác trong xấp xỉ của SAM được giải quyết bằng hàm thích nghi sau: m: Số luật (trạng thái 1) được sử dụng trong hệ SAM, n: Số bộ số liệu học
  • 71. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 71  TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI TRUYỀN GA.  Thuật toán:  b1. Khởi tạo 10 nhiễm sắc thể, có 1 nhiễm sắc thể biễu diễn đầy đủ các luật.  b2. Tạo các nhiễm sắc thể mới bằng các phương pháp: Lai nhị phân (Tỷ lệ 0.5) và đột biến nhị phân (Tỷ lệ 0.01).  b3. Dùng phương pháp bánh xe quay với hàm thích nghi (c1) để giữ lại 10 nhiễm sắc thể tốt nhất (có hàm Fit(.) → min ).  b4. Nếu điều kiện lặp chưa kết thúc, quay lại b2.  b5. Chọn nhiễm sắc thể tốt nhất trong 10 nhiễm sắc thể nhận được làm kết quả trả về. Chuỗi nhị phân tìm được sẽ được dùng làm cơ sở cho việc hủy bỏ các luật không cần thiết trong hệ SAM.
  • 72. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 72  SƠ ĐỒ HỌC CỦA SAM
  • 73. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 73  Support Vector Machines (SVMs) là một phương pháp phân loại máy học do Vladimir Vapnik và các cộng sự xây dựng nên từ những năm 70 của thế kỷ 20.  SVMs là một phương pháp phân loại xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation).  SVMs sẽ cố gắng tìm cách phân loại dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation).
  • 74. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 74  Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau.  SVMs đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và phân loại văn bản…
  • 75. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 75  Chúng ta hãy xem xét một bài toán phân loại văn bản bằng phương pháp Support Vector Machines như sau:  Bài toán: Kiểm tra xem một tài liệu bất kỳ d thuộc hay không thuộc một phân loại c cho trước? Nếu d∈c thì d được gán nhãn là 1, ngược lại thì d được gán nhãn là –1.  Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, thì mỗi văn bản di sẽ được biểu diễn bằng một vector dữ liệu xi=(wi1, wi2, …, win), wij∈R là trọng số của từ tj trong văn bản di. Như vậy, tọa độ của mỗi vector dữ liệu xi tương ứng với tọa độ của một điểm trong không gian Rn . Quá trình phân loại văn bản sẽ thực hiện xử lý trên các vector dữ liệu xi chứ không phải là các văn bản di. Bởi vậy, trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ văn bản, vector dữ liệu, điểm dữ liệu.
  • 76. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 76  Chúng ta hãy xem xét một bài toán phân loại văn bản bằng phương pháp Support Vector Machines như sau:  Dữ liệu huấn luyện của SVMs là tập các văn bản đã được gán nhãn trước Tr={(x1, y1), (x2, y2), …, (xl, yl)}, trong đó, xi là vector dữ liệu biểu diễn văn bản di (xi∈Rn ), yi∈{+1, -1}, cặp (xi, yi) được hiểu là vector xi (hay văn bản di) được gán nhãn là yi.  Nếu coi mỗi văn bản di được biểu diễn tương ứng với một điểm dữ liệu trong không gian Rn thì ý tưởng của SVMs là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x-)<0).
  • 77. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 77  Chúng ta hãy xem xét một bài toán phân loại văn bản bằng phương pháp Support Vector Machines như sau:  Với bài toán phân loại SVMs, một siêu phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu phẳng là lớn nhất. Khi đó, việc xác định một tài liệu x∉Tr có thuộc phân loại c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì x∈c, nếu f(x)≤0 thì x∉c.  Siêu phẳng phân chia tập mẫu huấn luyện
  • 78. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 78  Chúng ta hãy xem xét một bài toán phân loại văn bản bằng phương pháp Support Vector Machines như sau:  đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector).  Các đường nét đứt mà các support vector nằm trên đó được gọi là lề (margin).  Tài liệu tham khảo: file: SVM_data.pdf
  • 79. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 79  Trong SVMs thông thường thì các điểm dữ liệu đều có giá trị như nhau, mỗi một điểm sẽ thuộc hoàn toàn vào một trong hai lớp.  Tuy nhiên trong nhiều trường hợp có một vài điểm sẽ không thuộc chính xác vào một lớp nào đó, những điểm này được gọi là những điểm nhiễu, và mỗi điểm có thể sẽ không có ý nghĩa như nhau đối với mặt phẳng quyết định.  Để giải quyết vấn đề này Lin CF. và Wang SD (2002) đã giới thiệu Fuzzy support vector machines (FSVMs) bằng cách sử dụng một hàm thành viên để xác định giá trị đóng góp của mỗi điểm dữ liệu đầu vào của SVMs vào việc hình thành siêu phẳng.
  • 80. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 80  Cho tập dữ liệu huấn luyện Với xi là một mẫu huấn luyện, , yi là nhãn của xi , si là một hàm thành viên thỏa , là một hằng số đủ nhỏ > 0. Bài toán được mô tả như sau: C là một hằng số. Hàm thành viên si thể hiện mức độ ảnh hưởng của điểm xi đối với một lớp. Giá trị có thể làm giảm giá trị của biến , vì vậy điểm xi tương ứng với có thể được giảm mức độ ảnh hưởng hơn.
  • 81. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 81  Giải quyết bài toán: file: FSVM_Optimal.pdf  Chọn hàm thành viên  Việc chọn hàm thành viên si thích hợp là rất quan trọng trong FSVMs. Theo Chun hàm thành viên si dùng để giảm mức độ ảnh hưởng của những điểm dữ liệu nhiễu là một hàm xác định khoảng cách giữa điểm dữ liệu xi với trung tâm của nhóm tương ứng với i. Gọi C+ là tập chứa các điểm xi với yi =1, C+ ={xi|xi ∈ S và yi =1} Tương tự gọi C- ={xi|xi ∈ S và yi =-1}, X+ và X- là trung tâm của lớp C+ , C- . Bán kính của lớp C+ là: r+ = max||X+ - xi|| với xi ∈ C+ và bán kính của lớp C- là: r- = max||X- - xi|| với xi ∈ C-
  • 82. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 82  Chọn hàm thành viên  Hàm thành viên si được định nghĩa như sau: là một hằng số để tránh trường hợp si = 0  Tuy nhiên FSVMs với hàm thành viên (4.32) vẫn chưa đạt kết quả tốt do việc tính toán khoảng cách giữa các điểm dữ liệu với trung tâm của nhóm được tiến hành ở không gian đầu vào, không gian n chiều.  Trong khi đó trong trường hợp tập dữ liệu không thể phân chia tuyến tính, để hình thành siêu phẳng ta phải đưa dữ liệu về một không gian khác với số chiều m cao hơn gọi là không gian đặc trưng (feature space).
  • 83. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 83  Chọn hàm thành viên  Xiufeng Jiang, Zhang Yi và Jian Cheng Lv (2006) đã xây dựng một hàm thành viên khác dựa trên ý tưởng của hàm thành viên đã cho nhưng được tính toán trong không gian đặc trưng m chiều  Tham khảo file: member_FSVM.pdf
  • 84. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 84  Thuật toán huấn luyện Fuzzy Support Vector Machines.  Quá trình huấn luyện FSVMs là quá trình giải bài toán tối ưu để tìm được nghiệm tối ưu. Quá trình huấn luyện này khá phức tạp và đòi hỏi nhiều chi phí cho việc tính toán.  Sử dụng thuật toán Kernel-Adatron có thể đơn giản hóa quá trình huấn luyện FSVMs.  Tham khảo file: training_FSVM.pdf
  • 85. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 85  Thuật toán PageRank.  PageRank được phát triển tại Stanford University bởi Larry Page và sau là Sergey Brin về một cơ chế tìm kiếm mới.  Dự án bắt đầu vào 1995 và xuất hiện với tên gọi là Google vào năm 1998.  Trong một thời gian ngắn sau đó, PageRank đã thực sự khẳng định vị thế của công cụ tìm kiếm Google trên toàn bộ hệ thống Internet của thế giới.
  • 86. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 86  Thuật toán PageRank.  PageRank đã dựa trên ý tưởng phân tích chỉ dẫn được phát triển từ 1950 bởi Eugene Garfield của đại học Pennsylvania.  Trong giải thuật của PageRank đã sử dụng cơ chế quyết định tính quan trọng toàn vẹn của một trang web.  PageRank của một trang web là một giá trị xấp xỉ độ xác xuất truy cập đến trang này từ một vài trang khác trên web site.
  • 87. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 87  Mô hình PageRank.  Giải thuật PageRank quan niệm, mọi trang web trên một web site đều có một số liên kết từ nó đi ra (forward links hay outedges) và một số liên kết đến nó (back links hay inedges).
  • 88. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 88  Mô hình PageRank.  Việc đánh giá trang web của giải thuật PageRank dựa trên giả thuyết, một trang web được liên kết đến nhiều thì quan trọng hơn là một trang web có ít liên kết.  Cách tính toán của PageRank: một trang web được xếp hạng cao nếu tổng xếp hạng từ những liên kết đến của nó cao.  Chỉ có thể thực hiện được trong một tập có giới hạn các tài liệu, vì thực tế, số lượng các trang web trên Internet là vô cùng lớn và không thể thống kê hay thu thập được toàn bộ các trang web liên kết với nhau để có thể xây dựng cho nó một tập các trang được gán trọng số đầy đủ.
  • 89. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 89  Giải thuật PageRank.  PageRank của một trang được tính như sau: với B là những trang cha của A liên kết đến A, Parents(A) là tập tất cả những trang web liên kết đến A và N(B) là số liên kết ra đến những trang khác nhau được tìm thấy trên A. Tại mỗi bước, người dùng quyết định truy cập vào một trang web với m đường liên kết đi ra đến những trang khác nhau. Tại mỗi thời điểm, người dùng hoặc với xác suất được quyết định để tự nhập vào một URL mới và ngẫu nhiên truy cập tới một trang trong tập hợp hoặc với xác suất 1- truy cập lên một trong những liên kết trên trang.
  • 90. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 90  Mô hình PageRank.  PageRank giả sử rằng người dùng không thiên vị trong việc lựa chọn các đường liên kết vì vậy xác suất truy cập đến một liên kết bất kì là  Với cách giả định đó ta có cách tính toán trong công thức của PageRank là như sau:  Giải thuật PageRank thực hiện tính toán lập đi lập lại từ một trạng thái để tính PageRank cho tất cả các trang web trong site và tiếp tục thực hiện tính lại cho đến khi đạt đến điều kiện ổn định cho phép. Trong đó giá trị qua thực nghiệm được cho từ 0.05 đến 0.15.
  • 91. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 91  Giải thuật PageRank cụ thể như sau: Với N trang web {A1, A2,…, AN) B1:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N,…PR(AN)=1/N B2: Tính giá trịPageRank của tất cả các trang bằng công thức (2.2) B3: Tính sai số của tất cả các trang =PR(A)i –PR(A)i-1 (i: là lần lặp thứ i) Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng Nếu tồn tại >ngưỡng quay lại bước 2
  • 92. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 92  Mô hình PageRank.  Để có được giá trị PageRank tốt, luôn phản ánh đúng tình trạng trang web, Google tính toán lại giá trị PageRank tại mỗi thời điểm thăm dò trang web và xây dựng lại tập chỉ mục.  Do đó, Google sẽ tăng số lượng tài liệu cho tập hợp của nó và làm giảm đi việc xấp xỉ giá trị khởi tạo cho tất cả các tài liệu.  Việc sử dụng tác tử thăm dò trang web và làm chỉ mục trang web là công việc tốn thời gian và chi phí nên Google luôn tìm cách để tối ưu quá trình này như xây dựng các công cụ hỗ trợ cho Google trên trình duyệt như Google Toolbar, hoặc máy chủ lưu trữ tạm thời (Caching Server) hỗ trợ cho công cụ tìm kiếm.
  • 93. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 93  Sau khi ra đời, thuật toán pageRank được cải tiến thành nhiều thuật toán khác nhau như thuật toán HITS – Hypertext Induced Topic Selection (Thuật toán lựa chọn chủ đề phù hợp cho siêu văn bản), Weighted PageRank (Thuật toán PageRank dựa trên tỉ trọng), Thuật toán Topic Sensitive PageRank (thuật toán PageRank dựa trên chủ đề) và thuật toán LpageRank.
  • 94. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 94
  • 95. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 95  HITS là 1 thuật toán cơ bản trên liên kết hoàn toàn. Nó được sử dụng để đánh giá các trang web mà nhận lĩnh từ web dựa trên nội dung nguyên bản tới 1 câu truy vấn đã cho.  Một khi các trang web được tập hợp lại, thuật toán HITS bỏ qua nội dung nguyên bản và tập trung tự bản thân chỉ trong cấu trúc web.  Thuật toán HITS thường trả lại nhiều trang web tổng quát hơn là tập trung vào 1 chủ đề bởi vì các trang web không chứa đựng nhiều nguồn từ chủ đề.  Sự lệch của chủ đề xuất hiện khi hub có nhiều chủ đề vì tất cả các liên kết ngoài của 1 trang của hub có tỉ trọng tương đương
  • 96. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 96
  • 97. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 97
  • 98. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 98  PageRank được tạo ra bằng cách sử dụng toàn bộ đồ thị web, hơn là một tập con.  Một số nghiên cứu của một số tác giả (S. Chakrabarti, D. Pennock…) cho thấy các tính chất của đồ thị web nhạy cảm với chủ đề trang.  Các trang có xu hướng trỏ tới những trang khác mà cùng một chủ đề chung.  Phương pháp này tính độ lệch của độ đo PageRank khi sử dụng tập nhỏ các chủ đề đại diện, được lấy từ danh mục mở (open directory) trong sự liên kết với phân lớp đa thức Bayes dùng cho phân loại câu truy vấn và ngữ cảnh.
  • 99. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 99  Có 2 khả năng có thể xảy ra:  Người sử dụng nhập dữ liệu cần thiết cho 1 câu truy vấn đề tìm kiếm thông tin cần thiết. Khi đó cần xác định chủ đề gần nhất có liên quan đến câu truy vấn và sử dụng vector của PageRank theo chủ đề tương ứng đề xếp hạng các tài liệu đáp ứng câu truy vấn. Điều này bảo đảm rằng độ đo “tầm quan trọng” phản ánh sự tham chiếu đối với cấu trúc liên kết của các trang mà có cùng sự liên quan đến câu truy vấn.  Hoặc giả định người sử dụng đang xem một tài liệu (duyệt web hay đọc email), và lựa chọn một thuật ngữ từ tài liệu mà ông muốn thêm thông tin. Khi đó bằng cách lựa chọn vector của PageRank theo chủ đề tương ứng dựa trên bối cảnh của câu truy vấn nó sẽ cung cấp kết quả tìm kiếm chính xác hơn.
  • 100. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 100  Thuật toán có thể tóm tắt như sau:  Trong suốt thời gian offline của Web craw, các chủ đề của vector của độ đo PageRank sẽ được tạo ra, một độ lệch sử dụng các URL của các mục đầu tiên của danh mục mở tại thời điểm truy vấn, độ tương tự của truy vấn (truy vấn hoặc ngữ cảnh) được tính toán cho các chủ đề.  Khi đó thay vì sử dụng một vector đơn xếp hạng chung, kết hợp tuyến tính các vector của các chủ đề và tỉ trọng sử dụng độ đo tương tự của câu truy vấn tới các chủ đề.  Bằng cách sử dụng một tập của các vectơ xếp hạng, chúng ta có thể xác định chính xác hơn những trang này thực sự quan trọng hơn đối với một truy vấn hoặc ngữ cảnh cụ thể.  Bởi vì các liên kết dựa trên tính toán được thực hiện offline, trong suốt giai đoạn tiền xử lý, chi phí thời gian truy vấn không lớn hơn nhiều so với thuật toán PageRank thông thường.
  • 101. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 101  Thuật toán có thể tóm tắt như sau:  Minh họa hệ thống sử dụng thuật toán topic sensitive PageRank  Thuật toán Topic Sensitive PageRank cụ thể như sau: TSPR_Algorithm.pdf
  • 102. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 102  Giải thuật LPageRank được tác giả Qing Cui và Alex Dekhtyar giới thiệu vào năm 2005 với hướng nghiên cứu sử dụng web log để giảm bớt chi phí thu thập liên kết và cải tiến việc đánh giá mức độ truy cập lên trang trong việc tính toán trọng số của trang web.  Nhìn một cách tổng quan, thì LPageRank là PageRank được tính toán dựa trên đồ thị xác suất của trang web được xây dựng từ các mẫu truy cập trong nhật ký sử dụng web của người dùng.  Đồ thị xác suất là đồ thị được xây dựng từ tập tất cả các liên kết cấu trúc của tập tất cả các trang web trong web site. Mỗi liên kết từ một trang này đến một trang khác tượng trưng cho một cung trong đồ thị. Tần số liên kết giữa các trang với nhau tương ứng với tần số truy cập giữa chúng của người dùng và cũng được xem là trọng số của cung trong đồ thị.  Do đó, đồ thị thể hiện khả năng truy cập từ một trang đến các trang khác thông qua trọng số của cung kết nối. Đồ thị xác suất được xây dựng dựa trên kết quả phân tích thông tin web log (Tập tin log ghi lại sự truy cập của người dùng trên một web site).
  • 103. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 103  Giải thuật xây dựng đồ thị xác suất.  Mỗi mẫu truy cập của web log mô tả một cung liên kết từ trang một trang này đến một trang khác trong web site.  Xét một phiên truy cập của người dùng, ta sẽ có được một chuỗi truy cập từ một trang lần lượt đến một hay nhiều trang khác.  Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ thị xác suất như sau:  Với mỗi cung của đồ thị (B,A) tương ứng với một mẫu truy cập từ B liên kết đến A trong một phiên truy cập (session), ta tăng trọng số của cung (B,A) lên 1 nếu trong một phiên truy cập có liên kết từ B đến A. Sau khi duyệt tất cả các session ta sẽ có một đồ thị có trọng số thể hiện mối liên kết giữa các liên kết (link). Sau cùng, ta tiến hành chuẩn hóa trọng số các cung trong đồ thị với bằng cách chia trọng số của cung cho tổng trọng số các cung ra cho mỗi nút trong đồ thị.
  • 104. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 104  Giải thuật xây dựng đồ thị xác suất.  Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ thị xác suất như sau:  Trong quá trình này, ta xây dựng một ma trận vuông A có kích thước mxm với m là số URL trong toàn bộ các session thu thập được. Mỗi giá trị trong ma trận vuông A[i,j] ứng với cung (i,j), giá trị của nó được tăng lên sau mỗi liên kết từ i đến j được duyệt qua. Cuối cùng, ta chuẩn hóa ma trận A để thu được ma trận đồ thị xác suất.
  • 105. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 105  Giải thuật xây dựng đồ thị xác suất. Cho tập trang web N{A1,A2,..,Am} được biểu diễn với ma trận vuông A mxm. Tập phiên truy cập S. B1: duyệt tất cả các mẫu truy cập trong S Gán A[i,j]=A[i,j]+1 nếu mẫu chứa liên kết từ trang Ai đến Aj. B2: duyệt tất cả các trang trong tập N Gán A[i,j]=A[i,j]/N(A) với N(A) là số cung ra đi từ Ai đến trang khác.
  • 106. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 106  Giải thuật LPageRank được cải tiến từ giải thuật PageRank với web log.  Giả sử G=(W,E,P) là đồ thị xác suất cho tập các trang web của site là W. Sau đó tính LPageRank(LPR) của trang web như sau:  Lưu ý rằng LPR(A)=PR(A) đối với đồ thị G nếu P(B,A) = đối với tất cả các cung.
  • 107. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 107  Giải thuật LpageRank. B1: Duyệt đồ thị xác suất ta lấy giá trị xác suất cung P(B,A). B2:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N, …PR(AN)=1/N B3: Tính giá trịPageRank của tất cả các trang bằng công thức sai: B4: Tính sai số của tất cả các trang =LPR(A)i –LPR(A)i-1 (i: là lần lặp thứ i). Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng. Nếu tồn tại >ngưỡng quay lại bước 3.
  • 108. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 108  Đánh giá Giải thuật LPageRank .  Với cách cải tiến này, giá trị LPageRank cho mỗi trang sẽ được tính toán phụ thuộc vào việc người dùng truy cập lên trang web đó nhiều hay ít. Nói cách khác, giá trị này phụ thuộc vào mức độ quan tâm của người dùng đối với trang web.  Giải thuật LPageRank đã tối ưu hơn cách thực hiện máy móc của PageRank khi không quan tâm đến hành vi sử dụng web của người dùng của giải thuật PageRank. Đây là sự khác nhau cơ bản mà LPageRank đã sử dụng để tối ưu cho công cụ tìm kiếm.
  • 109. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 109  CRFs là mô hình trạng thái tuyến tính vô hướng (máy trạng thái hữu hạn được huấn luyện có điều kiên) và tuân theo tính chất Markov thứ nhất.  CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm danh từ...⇒ sử dụng phương pháp CRF kết hợp với một vài phương pháp xử lý khác (như xử lý ngôn ngữ tự nhiên) giúp nâng cao hiệu quả của trích xuất thông tin web.  Gọi o = (o1, o2, …, oT) là một chuỗi dữ liệu quan sát cần được gán nhãn. Gọi S là tập trạng thái, mỗi trạng thái liên kết với một nhãn . Đặt s = (s1, s2,…, sT) là một chuỗi trạng thái nào đó, CRFs xác định xác suất điều kiện của một chuỗi trạng thái khi biết chuỗi quan sát như sau:
  • 110. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 110  Gọi là thừa số chuẩn hóa trên toàn bộ các chuỗi nhãn có thể. fk xác định một hàm đặc trưng và là trọng số liên kết với mỗi đặc trưng fk.  Mục đích của việc học máy với CRFs là ước lượng các trọng số này.  Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng thái (per- state) và đặc trưng chuyển (transition).  (2)  (3)  Ở đây δ là Kronecker- δ.  Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của trạng thái hiện tại st và một vị từ ngữ cảnh - một hàm nhị phân xk(o,t) xác định các ngữ cảnh quan trọng của quan sát o tại vị trí t. Một đặc trưng chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng cách kết hợp nhãn l’ của trạng thái trước st-1 và nhãn l của trạng thái hiện tại st.
  • 111. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 111  Người ta thường huấn luyện CRFs bằng cách làm cực đại hóa hàm likelihood theo dữ liệu huấn luyện sử dụng các kĩ thuật tối ưu. Việc lập luận (dựa trên mô hình đã học) là tìm ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu vào. Đối với CRFs, người ta thường sử dụng thuật toán qui hoạch động điển hình (Viterbi) để thực hiện lập luận với dữ liệu mới.  Cách giải quyết vấn đề.  Giả sử cần rút trích thông tin từ trang web cho trước, khi đó cần xác định mục tiêu Xác định trang web có chứa tin tức hay không? Xác định vùng thông tin chứa tin tức? Xác định tin tức thuộc loại tin tức nào?
  • 112. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 112  Có thể xem mục tiêu đặt ra được diễn giải như sau: Cho một trang web x và tập DOM (document object model), nút lá cây x1 ,…,xk trong x. Đặt = y1 ,…,yk là nhãn có thể gán cho x1 ,…,xk với y1 ,…,yk là các nội dung của các nút x1 ,…,xk . Lần lượt xét các nút đặc trưng chứa tin tức (xác định) để duyệt các nhãn của nó và chọn nhãn có nội dung là tin tức cần tìm.  Khi giải quyết các mục tiêu đề ra ta gặp các vấn đề cụ thế o Công việc xác định trang web chứa tin tức nghĩa là khi nhập 1 trang web bất kỳ ta phải xác định trang web đó có nội dung chứa tin tức hay không? o Nếu như trang web có chứa tin tức, tìm kiếm các vùng dữ liệu mà nội dung của nó có chứa tin tức. o Qua vùng tin tức ta cần xác định tin tức đó là tin tức thuộc thể loại nào.
  • 113. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 113  Đề giải quyết các vấn đề này ta có thể gặp 1 số khó khăn như:  Việc xác định vùng nội dung chứa tin tức được xác định dựa trên nội dung tin tức, điều này liên quan đến vấn đề xử lý văn bản tiếng Việt (nếu rút trích văn bản bằng tiếng Việt). Đây là một vấn đề khó khăn khi rút trích.  Quá trình xử lý các trang web được thực hiện thông qua nhiều tầng lần, dễ xảy ra những sự cố.  Để giải quyết những khó khăn được nêu ở trên, phương pháp được áp dụng để xử lý là:  Xử lý tiếng việt chỉ xảy ra ở bước xác định từ loại điều này giúp vấn đề trở nên đơn giản hơn.  Xác định ngữ pháp của câu  Sự giúp đỡ của bộ từ điển tiếng Việt .
  • 114. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 114  Các bước trong quá trình phân tích đánh giá thời gian chạy của thuật toán: thông thường người ta chia thành các bước sau:  Bước 1: kích thước dữ liệu. Ta coù theå xem thôøi gian chaïy cuûa thuaät toaùn laø moät haøm theo kích thöôùc cuûa döõ lieäu nhaäp. Neáu goïi n laø kích thöôùc cuûa döõ lieäu nhaäp thì thôøi gian thöïc hieän T cuûa thuaät toaùn ñöôïc bieåu dieãn nhö moät haøm theo n, kyù hieäu laø : T(n). Thời gian thực hiện chương trình là một hàm không âm, tức là T(n) ≥ 0 n ≥ 0.∀
  • 115. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 115  Các bước trong quá trình phân tích đánh giá thời gian chạy của thuật toán: thông thường người ta chia thành các bước sau:  Böôùc 2: nhaäân ra caùc thao taùc tröøu töôïng cuûa thuaät toaùn ñeå taùch bieät söï phaân tích (1) vaø söï caøi ñaët (2) . Vaäy yeáu toá (1) ñöôïc xaùc ñònh bôûi tính chaát cuûa thuaät toaùn, yeáu toá (2) ñöôïc xaùc ñònh bôûi tính naêng cuûa maùy tính.  Böôùc 3: tìm ra caùc giaù trò trung bình vaø tröôøng hôïp xaáu nhaát cho moãi ñaïi löôïng cô baûn. Thôøi gian chaïy cuûa thuaät toaùn hieån nhieân coøn phuï thuoäc vaøo tính chaát cuûa döõ lieäu nhaäp nhö: daõy coù thöù töï thuaän, daõy coù thöù töï ngöôïc, caùc soá haïng cuûa daõy coù thöù töï ngaãu nhieân…
  • 116. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 116  Ðơn vị đo thời gian thực hiện. Ðơn vị của T(n) không phải là đơn vị đo thời gian bình thường như giờ, phút giây... mà thường được xác định bởi số các lệnh được thực hiện trong một máy tính lý tưởng.  Thời gian thực hiện trong trường hợp xấu nhất.  Nói chung thì thời gian thực hiện chương trình không chỉ phụ thuộc vào kích thước mà còn phụ thuộc vào tính chất của dữ liệu vào. Nghĩa là dữ liệu vào có cùng kích thước nhưng thời gian thực hiện chương trình có thể khác nhau.  Vì vậy thường ta coi T(n) là thời gian thực hiện chương trình trong trường hợp xấu nhất trên dữ liệu vào có kích thước n, tức là: T(n) là thời gian lớn nhất để thực hiện chương trình đối với mọi dữ liệu vào có cùng kích thước n.
  • 117. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 117  Tỷ suất tăng (growth rate) Ta nói rằng hàm không âm T(n) có tỷ suất tăng f(n) nếu tồn tại các hằng số C và N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0.  Khái niệm độ phức tạp của giải thuật. Cho một hàm T(n), T(n) gọi là có độ phức tạp f(n) nếu tồn tại các hằng C, N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0 (tức là T(n) có tỷ suất tăng là f(n)) và kí hiệu T(n) là O(f(n)) (đọc là “ô của f(n)”)  Nói cách khác độ phức tạp tính toán của giải thuật là một hàm chặn trên của hàm thời gian.  Vì hằng nhân tử C trong hàm chặn trên không có ý nghĩa nên ta có thể bỏ qua vì vậy hàm thể hiện độ phức tạp có các dạng thường gặp sau: log2n, n, nlog2n, n2 , n3 , 2n , n!, nn .  Ba hàm cuối cùng ta gọi là dạng hàm mũ, các hàm khác gọi là hàm đa thức.
  • 118. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 118  Một giải thuật mà thời gian thực hiện có độ phức tạp là một hàm đa thức thì chấp nhận được tức là có thể cài đặt để thực hiện, còn các giải thuật có độ phức tạp hàm mũ thì phải tìm cách cải tiến giải thuật.
  • 119. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 119  Một Số Lớp Các Thuật Toán.  Lớp (1) 1: Nếu tất cả các chỉ thị của chương trình đều được thực hiện chỉ một vài lần và ta nói thời gian chạy của nó là hằng số.  Lớp (2) logn: khi thời gian chạy của chương trình là logarit. Thời gian chạy thuộc loại này xuất hiện trong các chương trình mà giải 1 bài toán lớn bằng cách chuyển nó thành 1 bài toán nhỏ hơn, bằng cách cắt bỏ kích thước một hằng số nào đó.  Lớp (3) n: khi thời gian chạy của chương trình là tuyến tính.  Lóp (4) nlogn: xuất hiện trong các chương trình mà giải một bài toán lớn bằng cách chuyển nó thành các bài toán nhỏ hơn, giải quyết các bài toán này 1 cách độc lập, sau đó tổ hợp lời giải.  Lớp (5) n2 : Thời gian chạy của thuật toán là bậc 2, thường là xử lý các cặp phần tử dữ liệu (có thể 2 vòng lặp lồng nhau). Trường hợp này chỉ có ý nghĩa khi bài toán nhỏ.
  • 120. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 120  Một Số Lớp Các Thuật Toán.  Lớp (6) n3 : Một thuật toán xử lý bộ ba phần tử dữ liệu (có thể 3 vòng lặp lồng nhau) có thời gian chạy bậc 3. Trường hợp này chỉ có ý nghĩa khi bài toán nhỏ.  Nhận xét: O(1) O(lgn) O(n) O(nlgn) O(n⊂ ⊂ ⊂ ⊂ 2 ) O(n⊂ 3 ) ⊂ O(2n ) Các thuật toán với thời gian chạy có cấp hàm mũ thì tốc độ rất chậm. Các thuật toán với thời gian chạy có cấp hàm đa thức được chấp nhận
  • 121. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 121  Ðộ phức tạp của chương trình có gọi chương trình con không đệ qui  Nếu chúng ta có một chương trình với các chương trình con không đệ quy, để tính thời gian thực hiện của chương trình, trước hết chúng ta tính thời gian thực hiện của các chương trình con không gọi các chương trình con khác.  Sau đó chúng ta tính thời gian thực hiện của các chương trình con chỉ gọi các chương trình con mà thời gian thực hiện của chúng đã được tính.  Chúng ta tiếp tục quá trình đánh giá thời gian thực hiện của mỗi chương trình con sau khi thời gian thực hiện của tất cả các chương trình con mà nó gọi đã được đánh giá.  Cuối cùng ta tính thời gian cho chương trình chính.
  • 122. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 122  PHÂN TÍCH CÁC CHƯƠNG TRÌNH ÐỆ QUY. • Với các chương trình có gọi các chương trình con đệ quy, ta không thể áp dụng cách tính như vừa trình bày ở trên bởi vì một chương trình đệ quy sẽ gọi chính bản thân nó. • Với các chương trình đệ quy, trước hết ta cần thành lập các phương trình đệ quy, sau đó giải phương trình đệ quy, nghiệm của phương trình đệ quy sẽ là thời gian thực hiện của chương trình đệ quy.
  • 123. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 123  Thành Lập Phương Trình Đệ Quy.  Phương trình đệ quy là một phương trình biểu diễn mối liên hệ giữa T(n) và T(k), trong đó T(n) là thời gian thực hiện chương trình với kích thước dữ liệu nhập là n, T(k) thời gian thực hiện chương trình với kích thước dữ liệu nhập là k, với k < n. Ðể thành lập được phương trình đệ quy, ta phải căn cứ vào chương trình đệ quy.  Thông thường một chương trình đệ quy để giải bài toán kích thước n, phải có ít nhất một trường hợp dừng ứng với một n cụ thể và lời gọi đệ quy để giải bài toán kích thước k (k<n).  Để thành lập phương trình đệ quy, ta gọi T(n) là thời gian để giải bài toán kích thước n, ta có T(k) là thời gian để giải bài toán kích thước k. Khi đệ quy dừng, ta phải xem xét khi đó chương trình làm gì và tốn hết bao nhiêu thời gian, chẳng hạn thời gian này là c(n). Khi đệ quy chưa dừng thì phải xét xem có bao nhiêu lời gọi đệ quy với kích thước k ta sẽ có bấy nhiêu T(k). Ngoài ra ta còn phải xem xét đến thời gian để phân chia bài toán và tổng hợp các lời giải, chẳng hạn thời gian này là d(n).
  • 124. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 124  Dạng tổng quát của một phương trình đệ quy sẽ là: Trong đó C(n) là thời gian thực hiện chương trình ứng với trường hợp đệ quy dừng. F(T(k)) là một đa thức của các T(k). d(n) là thời gian để phân chia bài toán và tổng hợp các kết quả.
  • 125. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 125  Có bốn phương pháp giải phương trình đệ quy:  Phương pháp truy hồi  Phương pháp đoán nghiệm.  Phương pháp phương trình đặc trưng  Lời giải tổng quát của một lớp các phương trình đệ quy.
  • 126. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 126  Phương pháp truy hồi:  Dùng đệ quy để thay thế bất kỳ T(m) với m < n vào phía phải của phương trình cho đến khi tất cả T(m) với m > 1 được thay thế bởi biểu thức của các T(1) hoặc T(0). Vì T(1) và T(0) luôn là hằng số nên chúng ta có công thức của T(n) chứa các số hạng chỉ liên quan đến n và các hằng số. Từ công thức đó ta suy ra T(n).
  • 127. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 127  Phương pháp đoán nghiệm.  Ta đoán một nghiệm f(n) và dùng chứng minh quy nạp để chứng tỏ rằng T(n) ≤ f(n) với mọi n.  Thông thường f(n) là một trong các hàm quen thuộc như logn, n, nlogn, n2 , n3 , 2n , n!, nn .  Ðôi khi chỉ đoán dạng của f(n) trong đó có một vài tham số chưa xác định (chẳng hạn f(n) = an2 với a chưa xác định) và trong quá trình chứng minh quy nạp ta sẽ suy diễn ra giá trị thích hợp của các tham số.
  • 128. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 128  Phương pháp phương trình đặc trưng.  Phương trình truy hồi tuyến tính thuần nhất với các hệ số không đổi. Xét phương trình dạng a0tn + a1tn-1+...+aktn-k = 0 Ở đó ti là các ẩn số, với i=0,...,n-k Cách giải: áp dụng phương pháp dùng phương trình đặc trưng Bằng cách đặc tn = λn Khi đó ta có phương trình đặc trưng là a0λk + a1λk-1 +...+ ak-1λ + ak = 0
  • 129. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 129  Phương pháp phương trình đặc trưng.  Phương trình truy hồi tuyến tính không thuần nhất với các hệ số không đổi Xét phương trình dạng a0tn + a1tn-1+...+aktn-k = bn p(n) Với b là hằng số, p là đa thức bậc d theo n Biến đổi đa thức không thuần nhất về thuần nhất hoặc giải nó
  • 130. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 130  Lời giải tổng quát của một lớp các phương trình đệ quy:  Khi thiết kế các giải thuật, người ta thường vận dụng phương pháp chia để trị. Ở đây có thể trình bày tóm tắt phương pháp như sau:  Ðể giải một bài toán kích thước n, ta chia bài toán đã cho thành a bài toán con, mỗi bài toán con có kích thước n/b. Giải các bài toán con này và tổng hợp kết quả lại để được kết quả của bài toán đã cho. Với các bài toán con chúng ta cũng sẽ áp dụng phương pháp đó để tiếp tục chia nhỏ ra nữa cho đến các bài toán con kích thước 1. Kĩ thuật này sẽ dẫn chúng ta đến một giải thuật đệ quy.  Giả thiết rằng mỗi bài toán con kích thước 1 lấy một đơn vị thời gian và thời gian để chia bài toán kích thước n thành các bài toán con kích thước n/b và tổng hợp kết quả từ các bài toán con để được lời giải của bài toán ban đầu là d(n).
  • 131. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 131  Lời giải tổng quát của một lớp các phương trình đệ quy:  Tất cả các giải thuật đệ quy như trên đều có thể thành lập một phương trinh đệ quy tổng quát, chung cho lớp các bài toán ấy.  Nếu gọi T(n) là thời gian để giải bài toán kích thước n thì T(n/b) là thời gian để giải bài toán con kích thước n/b.  Khi n = 1 theo giả thiết trên thì thời gian giải bài toán kích thước 1 là 1 đơn vị, tức là T(1) = 1. Khi n lớn hơn 1, ta phải giải đệ quy a bài toán con kích thước n/b, mỗi bài toán con tốn T(n/b) nên thời gian cho a lời giải đệ quy này là aT(n/b).  Ngoài ra ta còn phải tốn thời gian để phân chia bài toán và tổng hợp các kết quả, thời gian này theo giả thiết trên là d(n). Vậy ta có phương trình đệ quy:
  • 132. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 132  Lời giải tổng quát của một lớp các phương trình đệ quy:  Ta sử dụng phương pháp truy hồi để giải phương trình này. Khi n > 1 ta có = … =  Giả sử n = bk , quá trình suy rộng trên sẽ kết thúc khi i = k.  Khi đó ta được  Thay vào trên ta có:  Giải phương trình trên bằng cách sử dụng hàm tiến triển, nghiệm thần nhuất và nghiệm riêng.
  • 133. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 133  Ứng dụng của các thuật toán máy học trong phân tích dự báo.  TỔNG QUAN LÝ THUYẾT VÀ MÔ HÌNH CÁC PHƯƠNG PHÁP DỰ BÁO.  Các loại phương pháp dự báo: Dự báo điểm và dự báo khoảng. Phương pháp định tính và định lượng Dự báo ngắn hạn (<3 tháng), dự báo trung hạn (6tháng- 2năm), dự báo dài hạn (>2 năm)
  • 134. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 134  Phương pháp định tính.  Phương pháp chuyên gia: phương pháp chuyên gia là phương pháp dự báo mà kết quả là các "thông số" do các chuyên gia đưa ra.  Phương pháp Delphi: tổ chức phối hợp các loại trưng cầu và xử lý ý kiến chuyên gia.  Phương pháp định lượng.  Phương pháp chuỗi thời gian: dựa trên phân tích chuỗi quan sát của một biến duy nhất theo biến số độc lập là thời gian.  Mô hình nhân quả: giả định biến số dự báo có thể được giải thích bởi hình vi của những biến số kinh tế khác.
  • 135. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 135  Ứng Dụng Các Mô Hình Dự Báo Của Máy Học.  Chương Trình Ứng Dụng Hệ Thống Mạng RFNNs.  Chương Trình Ứng Dụng Hệ Thống Mạng RBFNNs.  Chương Trình Ứng Dụng Hệ Thống Mạng Nơrôn Lan Truyền Ngược (FNN).  Chương Trình Ứng Dụng Hệ luật mờ (SAM).  Chương Trình Ứng Dụng Mạng Nơ rôn dạng Lan Truyền Ngược và thuật toán di truyền vào phân tích dự báo. Các chương trình ứng dụng mô hình mạng nơ rôn mờ hồi quy, sử dụng file dữ liệu huấn luyện, thử nghiệm và dự báo dạng văn bản (test). Tham khảo file: Predict_Analysis.pdf
  • 136. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 136  Ưng dụng thuật giải LpageRank và mạng nơrôn lan truyền ngược vào công cụ tìm kiếm.  Mô hình tìm kiếm thông tin bằng LPageRank và mạng Nơron
  • 137. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 137  Mô hình tìm kiếm có thể gom lại gồm hai thành phần chính: một thành phần chạy trực tuyến trên web (online) dùng để tương tác với người dùng, nhận và xử lý câu truy vấn, một thành phần chạy không trực tuyến (offline) dùng để xử lý web log, xử lý tập từ khóa trên trang, xử lý gán trọng số cho trang web, xử lý gom nhóm session và huấn luyện mạng.  Để quá trình tìm kiếm của người dùng ít tốn thời gian và tài nguyên xử lý, toàn bộ quá trình tính toán và tiền xử lý được thi hành trước trên máy chủ, thành phần trực tuyến chỉ tính toán lại một phần kết quả do phụ thuộc vào câu truy vấn của người dùng đồng thời tổng hợp các kết quả mà thành phần không trực tuyến gởi đến để tối ưu kết quả tìm kiếm.
  • 138. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 138  Ứng dụng mạng neural network fuzzy Artmap kết hợp cùng Ontology thu thập dữ liệu trong công cụ tìm kiếm.  Mô hình này gồm các thành phần chính là Web Spider, LogMiner, Ontology Building, SearchEngine.
  • 139. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 139  Web Spider  Thành phần Web Spider trong hệ thống thực hiện hai chức năng: (a) khởi tạo đồ thị liên kết cho website và (b) thu thập các trang HTML cho mỗi trang và đánh chỉ mục cho các trang HTML đó.  Log Miner.  Thành phần Log Miner trong hệ thống cũng thực hiện nhiệm vụ: (a) Xóa tất cả những thông tin không thích hợp, (b) phân tích phiên truy cập, (c) hoàn thành xây dựng đồ thị xác suất cho website và (d) tính LPageRank.  Webpage Classifier.  Thành phần Webpage Classifier thực hiện: (a) tính toán mỗi giá trị đánh giá tiêu chuẩn trang web và (b) những giá trị này sẽ làm đầu vào và được phân lớp bởi mạng fuzzy ARTMAP.
  • 140. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 140  Ontology Building.  Việc xây dựng Ontology được thực hiện bởi thành phần Ontology Building. Đây là một tiến trình xây dựng cơ sở tri thức cho công cụ tìm kiếm, bao gồm thêm vào những mẫu mới của khái niệm và quan hệ vào Ontology.  Search Engine.  Thành phần Web Spider, Log Miner, Webpage Classifier của công cụ tìm kiếm làm việc off-line, chuẩn bị dữ liệu cho on-line sử dụng. Search Engine là thành phần on-line của công cụ tìm kiếm, có trách nhiệm nhận truy vấn từ người dùng, phân tích ngữ pháp và chuyển sang biểu diễn như vector của những trang web, và tiến hành nhận những trang web có độ thích hợp cao so với truy vấn.
  • 141. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 141  Ứng dụng xây dựng các thành phần của chương trình thu thập các thông tin liên quan đến lĩnh vực công nghệ thông tin trên Internet gồm ngôn ngữ tiếng Anh và tiếng Việt, sau đó tiếp tục phân loại các thông tin này vào các môn học cần thiết.  Mô hình thực hiện của hệ thống rút trích và phân lớp được mô tả như sau:
  • 142. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 142  Module rút trích thông tin bằng phương pháp CRFs.
  • 143. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 143  Module rút trích dữ liệu bằng phương pháp SVM.
  • 144. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 144  Module rút trích thông tin bằng phương pháp CRFs-SVM.
  • 145. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 145  Module phân lớp văn bản với SVM-FSVM.
  • 146. Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 146  Module phân lớp văn bản với Naïve Bayes.