May hoc 012012

Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 1
Báo Cáo Viên: PGS.TS. Vũ Thanh Nguyên

 Công nghệ Máy học là một trong những phương
pháp chính trong khai phá dữ liệu. Nó được sử dụng
trong tiến trình khám phá tri thức.
 Một số lợi ích của máy học:
 Các thông tin ngày càng nhiều, hàng ngày ta phải xử lý rất nhiều
thông tin đến từ nhiều nguồn khác nhau. Máy học có thể giúp xứ lý
và dự báo các thông tin đó bằng cách tạo ra các luất sản xuất từ dữ
liệu thu thập.
 Ở những nơi không có chuyên gia, máy học có thể giúp tạo ra được
các quyết định từ các dữ liệu có được.
 Các thuật toán máy học có thể giúp xử lý khi dữ liệu không đầy đử,
không chính xác.

 Một số lợi ích của máy học:
 Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn
nhân tạo) và giải mã mối liên hệ giữa các tri thức được lưu trữ trong
mạng từ dữ liệu.
 …

 Rất khó để định nghĩa một cách chính xác về máy
học.
 “Học - learn” có ý nghĩa khác nhau trong từng lĩnh
vực: tâm lý học, giáo dục, trí tuệ nhân tạo,…
 Một định nghĩa rộng nhất: “máy học là một cụm từ
dùng để chỉ khả năng một chương trình máy tính để
tăng tính thực thi dựa trên những kinh nghiêm đã
trải qua” hoặc “máy học là để chỉ khả năng một
chương trình có thể phát sinh ra một cấu trúc dữ
liệu mới khác với các cấu trúc dữ liệu cũ”

 Lợi điểm của các phương pháp máy học là nó phát
sinh ra các luật tường minh, có thể được sửa đổi,
hoặc được huấn luyện trong một giới hạn nhất định.
 Các phương pháp máy học hoạt động trên các dữ
liệu có đặc tả thông tin.
 Các thông tin được trình bày theo một cấu trúc gồm
4 mức được gọi là tri thức kim tự tháp (pyramid
knowledge).

 Mô hình kim tự tháp: Từ dữ liệu đến tri thức.

 Máy học là sự tự động của quy trình học và việc
học thì tương đương với việc xây dựng những luật
dựa trên việc quan sát trạng thái trên cơ sở dữ liệu
và những sự chuyển hoá của chúng.
 Đây là lĩnh vực rộng lớn không chỉ bao gồm việc
học từ mẫu, mà còn học tăng cường, học với
“thầy”,...
 Các thuật toán học lấy bộ dữ liệu và những thông
tin quen thuộc của nó khi nhập và trả về một kết
quả câu nói hay một câu ví dụ, một khái niệm để
diễn tả những kết quả học.

 Máy học kiểm tra những ví dụ trước đó và kiểm tra
luôn cả những kết quả của chúng khi xuất và học
làm cách nào để tái tạo lại những kết quả này và tạo
nên những sự tổng quát hóa cho những trường hợp
mới.
 Nói chung, máy học sử dụng một tập hữu hạn dữ
liệu được gọi là tập huấn luyện. Tập này chứa
những mẫu dữ liệu mà nó được viết bằng mã theo
một cách nào đó để máy có thể đọc và hiểu được.

 Tuy nhiên, tập huấn luyện bao giờ cũng hữu hạn do
đó không phải toàn bộ dữ liệu sẽ được học một cách
chính xác.

 Một tiến trình máy học gồm 2 giai đoạn:
 Giai đoạn học (learning): hệ thống phân tích dữ liệu và
nhận ra sự mối quan hệ (có thể là phi tuyến hoặc tuyến
tính) giữa các đối tượng dữ liệu. Kết quả của việc học có
thể là: nhóm các đối tượng vào trong các lớp, tạo ra các
luật, tiên đoán lớp cho các đối tượng mới.
 Giai đoạn thử nghiệm (testing): Mối quan hệ (các luật,
lớp...) được tạo ra phải được kiểm nghiệm lại bằng một
số hàm tính toán thực thi trên một phần của tập dữ liệu
huấn luyện hoặc trên một tập dữ liệu lớn.

 Các thuật toán máy học được chia làm 3 loại: học
giám sát, học không giám sát và học nửa giám sát.
 Học có giám sát (Supervised Learning).
 Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ
thuật máy học giúp hệ thống xây dựng cách xác định
những lớp dữ liệu. Hệ thống phải tìm một sự mô tả cho
từng lớp (đặc tính của mẫu dữ liệu).
 Người ta có thể sử dụng các luật phân loại hình thành
trong quá trình học và phân lớp để có thể sử dụng dự báo
các lớp dữ liệu sau này.

 Thuật toán học có giám sát gồm tập dữ liệu huấn luyện
M cặp:
S = {(xi, cj)| i=1,…,M; j=1,…,C}
 Các cặp huấn luyện này được gọi là mẫu, với
xi là vector n-chiều còn gọi là vector đặc trưng,
cj là lớp thứ j đã biết trước.
 Thuật toán máy học giám sát tìm kiếm không gian của
những giả thuyết có thể, gọi là H. Đối với một hay nhiều
giả thuyết, mà ước lượng tốt nhất hàm không được biết
chính xác f : x  c.

 Đối với công việc phân lớp có thể xem giả thuyết như
một tiêu chí phân lớp.
 Thuật toán máy học tìm ra những giả thuyết bằng cách
khám phá ra những đặc trưng chung của những ví dụ
mẫu thể hiện cho mỗi lớp.
 Kết quả nhận được thường ở dạng luật (Nếu ... thì).
 Khi áp dụng cho những mẫu dữ liệu mới, cần dựa trên
những giả thuyết đã có để dự báo những phân lớp tương
ứng của chúng. Nếu như không gian giả thuyết lớn, thì
cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm
một hàm xấp xỉ tốt nhất f.

 Tùy thuộc vào mức độ của thuật toán học giám sát,
người ta có những mô hình học giám sát như sau:
 Học vẹt (rote): hệ thống luôn luôn được “dạy” những luật đúng,
rồi có học hội tụ.
 Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi
đúng cho một công việc tương tự, nhưng không xác định. Vì
thế hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra
một luật mới có thể áp dụng cho trường hợp mới.
 Học dựa trên trường hợp (case-based learning): trong trường
hợp này hệ thống học lưu trữ tất cả các trường hợp, cùng với
kết quả đầu ra của chúng. Khi bắt gặp một trường hợp mới, nó
sẽ cố gắng hiệu chỉnh đến trường hợp mới này cách xử lý trước
đó của nó đã được lưu trữ.

 Học dựa trên sự giải thích (explanation-based learning), hệ
thống sẽ phân tích tập hợp những giải pháp nhằm chỉ ra tại sao
mỗi phương pháp là thành công hay không thành công. Sau khi
những giải thích này được tạo ra, chúng sẽ được dùng để giải
quyết những vấn đề mới.

 Học Không giám sát (Unsupervised Learning).
 Đây là việc học từ quan sát và khám phá. Hệ
thống khai thác dữ liệu được ứng dụng với
những đối tượng nhưng không có lớp được định
nghĩa trước, mà để nó phải tự hệ thống quan sát
những mẫu và nhận ra mẫu. Hệ thống này dẫn
đến một tập lớp, mỗi lớp có một tập mẫu được
khám phá trong tập dữ liệu.
 Học không giám sát còn gọi là học từ quan sát
và khám phá.

 Trong trường hợp chỉ có ít, hay gần như không
có tri thức về dữ liệu đầu vào, khi đó một hệ
thống học không giám sát sẽ khám phá ra những
phân lớp của dữ liệu, bằng cách tìm ra những
thuộc tính, đặc trưng chung của những mẫu hình
thành nên tập dữ liệu.
 Một thuật toán máy học giám sát luôn có thể
biến đổi thành một thuật toán máy học không
giám sát (Langley 1996).

 Đối với một bài toán mà những mẫu dữ liệu
được mô tả bởi n đặc trưng, người ta có thể chạy
thuật toán học giám sát n-lần, mỗi lần với một
đặc trưng khác nhau đóng vai trò thuộc tính lớp,
mà chúng ta đang tiên đoán.
 Kết quả sẽ là n tiêu chí phân lớp (n bộ phân lớp),
với hy vọng là ít nhất một trong n bộ phân lớp
đó là đúng.

 Học nửa giám sát.
 Học nửa giám sát là các thuật toán học tích hợp
từ học giám sát và học không giám sát. Việc học
nửa giám sát tận dụng những ưu điểm của việc
học giám sát và học không giám sát và loại bỏ
những khuyết điểm thường gặp trên hai kiểu học
này.

 Thuật Toán Naïve Bayes
 Đây là thuật toán được xem là đơn giản và đước sử dụng
rộng rãi.
 Thuật toán Naïve Bayes dựa trên định lý Bayes được
phát biểu như sau:
 Trong đó:
 Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng cứ
mới X
 P(X) : xác xuất X xảy ra, P(Y) : xác xuất Y xảy ra
 P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của X
khi Y đúng)
 P(Y|X) : xác suất hậu nghiệm của Y nếu biết X.

 Thuật Toán Naïve Bayes được ứng dụng rất nhiều
trong thực tế. Một trong những ứng dụng cụ thể là
ứng dụng bài toán phân lớp.
 Đây là thuật toán được xem là đơn giản nhất trong
các phương pháp phân lớp. Bộ phân lớp Bayes có
thể dự báo các xác suất là thành viên của lớp, chẳng
hạn xác suất mẫu cho trước thuộc về một lớp xác
định.

 Với mỗi lớp dữ liệu trong bộ huấn luyện, ta tính xác
suất phụ thuộc của văn bản cần phân loại:
 Với c1 là lớp dữ liệu cần tính xác suất và x là văn bản dữ
liệu cần phân loại
 Công thức tính P(x|ci):
P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci)
 Trong đó: P(wk|ci) là xác suất xuất hiện của từ wk
trong lớp văn bản ci (k=1n; i=1,2,3…)

 Mô hình Hệ thống mạng Nơrôn Lan truyền
ngược – Backpropogation Neural Network
(FNN).
 Các mô hình sử dụng mạng neuron là một cách tiếp cận
khá phổ biến cho vấn đề nêu trên. Điều đó xuất phát từ
khả năng ghi nhớ và học của cấu trúc này.
 Bên cạnh đó, tính ổn định của mạng neuron cũng là một
yếu tố quan trọng giúp nó được chọn vì đây là điều kiện
quan trọng đặt ra cho bài toán mô hình.

 Thuật toán lan truyền ngược (BackPropagation
Algorithm)
file: backproalgorithm.pdf
 Phương pháp cài đặt cho thuật toán học Back-
Propagation.
file: setup_backproalgorithm.pdf

 Mô hình hệ thống mạng Nơrôn dạng hàm radial
- RADIAL BASIS FUNCTION NEURAL
NETWORKS (RBFNNs).
 Hệ thống Mạng Nơrôn RBFNNs sẽ giải quyết vấn đề xấp xỉ một
hàm liên tục n biến trên một miền compact. RBFNNs tiến hành lấy
đặc trưng cục bộ của hàm, và như vậy sẽ dễ dàng khởi tạo và huấn
luyện dữ liệu khi học.

 Cấu trúc RBFNNs: Một mạng RBFNNs gồm có 3 lớp
 Lớp đầu vào (inputs)
 Lớp các hàm Gauss (số nút là do người sử dụng quy định)
 Lớp đầu ra (outputs)
 Các liên kết từ tầng inputs đến tầng các hàm gauss không có trọng
số
 Các liên kết ở tầng các hàm Gauss đến tầng ouputs có trọng số.
 Mỗi node ở tầng các hàm gauss có các thông số cần xác định là:
trọng tâm (xác định trọng tâm hàm gaus) , thông số sigma (xác định
độ lệch chuẩn của hàm gauss). Xác định các thông số ở tầng này
dùng để phân lớp.
 Các trọng số trên đường liên kết từ tầng các hàm Gauss đến tầng
ouput được xác định thông qua cách học bình thường:
phương pháp học lan truyền ngược (back propagation), phương
pháp học tuyến tính (line search), phương pháp học theo vết cũ
(backtracking).

 Hoạt động của mô hình.
 Mỗi mẫu dữ liệu nhập sẽ qua k hàm gauss (giả sử ở tầng này có k
nút hàm gauss), hay có thể hiểu là có k lớp, xem mẫu thuộc vào lớp
nào qua tính xác xuất phân bố chuẩn (là hàm gauss của các lớp).
Các giá trị tính được này được tổ hợp tuyến tính (tính trung bình có
trọng số).
 Giải thuật học cho RBFNNs
File: Ước lượng mạng: EstNet_Rbfnn.pdf
File: Huấn Luyện mạng: TraiNet_Rbfnn.pdf

 Mô Hình Hệ Thống Mạng Nơrôn mờ hồi quy -
RECURRENT FUZZY NEURAL NETWORK
(RFNNs).
 Một cách tiếp cận của mô hình máy học cho nhiều bài toán ứng
dụng khác nhau là mô hình mạng nơ ron mờ hồi quy (Recurrent
Fuzzy Neural Network).
 Mô hình mạng nơ ron này kết hợp từ lý thuyết tập mờ và mô hình
mạng nơrôn tận dụng những ưu điểm như có khả năng xấp xỉ một
hàm liên tục với độ chính xác cho trước (mạng nơrôn) và khai thác
khả năng xử lý những tri thức như con người (lý thuyết tập mờ).
 Mạng nơ ron mờ hồi quy tỏ ra đạt hiệu quả cao cho những ứng
dụng như: dự báo chuỗi thời gian, nhận dạng và điều khiển những
hệ phi tuyến…

 Cấu trúc RFNNs.
 Cấu trúc mô hình RFNNs được thể hiện như hình dưới đây

 Một RFNNs gồm 4 lớp như sau:
 Lớp 1: Là lớp nhập gồm N dữ liệu nhập (input).
 Lớp 2: Gọi là lớp các hàm thành viên. Các nút trong lớp này thực
hiện việc mờ hoá. Lớp này dùng để tính giá trị hàm thành viên theo
hàm phân phối Gauss. Số nút trong lớp 2 là N x M, trong đó M là số
luật mờ (số nút của lớp 3)
 Lớp 3: Lớp các luật mờ. Các nút trong lớp này tạo thành cơ sở luật
mờ (Fuzzy rule base) gồm M nút. Liên kết giữa lớp 2 và lớp 3 biểu
diễn giả thiết của luật mờ. Liên kết giữa lớp 3 và lớp 4 biểu diễn kết
luận của luật mờ.
 Lớp 4: Lớp xuất gồm P nút.
Liên kết giữa lớp 3 và lớp 4 được gán trọng số.
Như vậy số nút của mô hình là: N + (N x M) + M + P

 Hoạt động của mô hình
 File: Activiti_RFNN.pdf

 Lập luận mờ
 Giả sử cho hệ RFNNs với nhiều đầu vào (Input) và một đầu ra
(Output). Gọi xi là biến ngôn ngữ thứ i và αj là giá trị kích hoạt của
luật j, wj là trọng số của kết nối thứ j.
 Một luật suy diễn mờ được biểu diễn như sau
Rj : Nếu u1j là A1j, u2j là A2j, .. , unj là Anj Thì y=wj
 Trong đó
i = 1, 2, .. , n. n là số đầu vào (Input)
uij = xi + θij * oij(2)
(t-1)
Aij là các tập mờ
Wj là trọng số kết nối
 Đầu vào của mỗi hàm thành viên là đầu vào xi của mạng cộng với
số hạng oij(2)θij.

 Sơ đồ kết nối dựa trên luật suy diễn mờ như hình sau

 Hệ thống mờ với những thành phần nhớ (Feedback unit) có thể
được xem như là một hệ suy luận mờ động và giá trị suy luận được
tính bởi
 với M là số luật
 Từ mô tả trên, ta thấy RFNNs là một hệ suy luận mờ có các phần tử
nhớ. Sau khi huấn luyện xong, các thông số trong mạng cùng với
các phần tử nhớ đã xác định tri thức.

 Giải thuật học cho RFNNs
 File: learnin_RFNN.pdf

 Mô Hình Hệ thống Fuzzy Artmap Neural
Network.
 Hệ thống fuzzy ARTMAP neural network là mạng neural học giám
sát có khả năng nhận dạng nhanh và ổn định, có khả năng dự báo
chính xác phù hợp cho phân lớp.
 Cấu trúc của mạng là cấu trúc tiến hóa và là sự kết hợp của hai
mạng fuzzy ART, ARTa và ARTb. Hai mạng này được liên kết với
nhau bởi mạng neural MAP Field.

 Sơ đồ khối của hệ thống fuzzy ARTMAP

 Quá trình học của mạng ARTMAP là một quá trình hoạt động đồng thời
của 2 mạng ARTa và ARTb.
 Cho mẫu đầu vào a vào lớp Fo
a
của mạng ARTa và mẫu đầu vào b
vào lớp Fo
b
của mạng ARTb với b là mẫu dự đoán chính xác của a.
 Lớp mã hóa Fo tạo ra vector A = (a, ac
) trong ARTa và B = (b, bc
)
trong ARTb với ac
, bc
tương ứng là phần bù của a, b.
 Lớp F1 với vector đầu vào x (xa
= A cho ARTa và xb
= B cho
ARTb) tạo ra những ma trận trọng số thích nghi Wj liên kết giữa lớp
F1 và lớp F2 (Wj
a
cho ARTa và Wj
b
cho ARTb).
 Vector y (ya
= A cho ARTa và yb
= B cho ARTb) biểu diễn sự kích
hoạt của lớp F2.

 Mạng fuzzy ARTMAP có các tham số giống với mạng fuzzy ART là
tham số α > 0 được sử dụng trong quá trình so sánh giữa các neural
trong F2, tham số huấn luyện β [0 1] biểu diễn tốc độ học, và tham số∈
vigilance ρ [0 1] được sử dụng trong quá trình tìm neural chiến thắng∈
trong F2, đồng thời mạng fuzzy ARTMAP có thêm giá trị nhỏ nhất của
tham số vigilance của ARTa ρ¬a
, tham số vigilance ρab
và tham số huấn
luyện βab
của lớp MAP.
 Quá trình tính toán sẽ tìm ra một neural chiến thắng lớn nhất tại F2
a
tương ứng với đầu vào A và xem là neural kích hoạt J. Trong khi đó F2
b
sẽ kích hoạt một neural K từ mẫu vào B. Quá trình so sánh sẽ xảy ra tại
MAP Field.Nếu neural kích hoạt K của B trùng với neural kích hoạt J
của A thì việc dự đoán của ARTa là chính xác, đồng thời cập nhật Wj
ab
.
Ngược lại, một tín hiệu kích hoạt từ Map Field sẽ tác động lên ρa
một
lượng làm thay đổi ρa
, sau đó quá trình sẽ lặp lại đối với ARTa để tìm
neural kích hoạt khớp với ARTb.

 Giải thuật fuzzy ARTMAP neural network
File: training_FuzzyArtmap.pdf

 Mô hình Hệ luật mờ - Standard Additive Model
(SAM).
 Việc sử dụng mô hình mạng neuron (và một số mô hình khác…)
cho bài toán xấp xỉ hiện vẫn đang còn nhiều nhược điểm. Trước hết
đó là khả năng học của mạng neuron.
 Hơn nữa, việc xác định cấu trúc mạng neuron phù hợp cho từng bộ
số liệu vẫn là một công việc hết sức khó khăn:
 Với hệ thống các neuron trong các lớp và các cung liên kết, mạng
neuron thật sự là một hộp đen đối với người dùng, đặc biệt là các
chuyên gia.
 Các chuyên gia tham gia vào việc huấn luyện mạng neuron cũng
không thể hiểu và nắm bắt được toàn bộ các hiệu chỉnh xảy ra bên
trong (trên các neuron và dây liên kết) của nó.

 Chính vì các hạn chế nói trên ⇒ xây dựng một cấu
trúc khá đặc biệt để xây dựng các hệ thống xấp xỉ,
đó là hệ luật mờ.
 các mô hình xấp xỉ các hàm phi tuyến chỉ thực sự
được đưa ra bởi Bart Kosko vào năm 1992.

 Việc sử dụng hệ mờ để xây dựng các mô hình xấp
xỉ xuất phát từ những tính năng đặc biệt của nó:
 Có thể chứng minh tính ổn định của hệ mờ.
 Các đại lượng mang giá trị ngôn ngữ (mờ) của các chuyên gia
có thể dễ dàng biểu diễn thông qua các tập mờ. Nhờ đó giúp
hệ mờ phản ánh đầy đủ tri thức của chuyên gia (thông qua các
luật mờ). Cách biểu diễn này tạo sự gần gũi giữa hệ thống với
chuyên gia. Chuyên gia có thể hiểu và tham gia vào việc xây
dựng cũng như điều chỉnh hệ mờ thông qua việc chỉnh sửa
các luật mờ có trong hệ.
 Không như mạng neuron, hệ mờ thật sự là một hộp trắng mà
thông số của nó có thể dễ dàng hiểu và điều chỉnh được bởi
chuyên gia.

 MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN.
 Hệ luật mờ là hệ thống m luật mờ dạng Rj: IF x = Aj
THEN y = Bj; , hoạt động theo cơ chế song song.
 Có nhiều cách kết hợp vế trái và phải trong mỗi luật mờ
và kết hợp kết quả của các luật mờ trong hệ luật mờ.
 Tuy nhiên, vì các đặc tính thuận lợi trong tính toán (tính
tích phân để xác định trọng tâm), người ta thường dùng
đến hệ luật mờ hoạt động theo qui tắc kết hợp SUM-
PRODUCT.
 Do tính kết hợp SUM các luật mờ mà hệ luật mờ này có
tên gọi là SAM (Standard Additive Model).

 Trong hệ mờ SAM, ứng với mỗi giá trị vào x=x0, luật
thứ j : Rj được kích hoạt và cho kết quả là tập mờ Bj’xác
định theo Bj và mức độ thỏa mãn vế trái aj(x0) dựa trên
qui tắc PRODUCT.
Bj’ = aj(x0)×Bj
 m kết quả ra Bj’ của các luật trong hệ luật được SAM
kết hợp theo qui tắc SUM để cho kết quả chung của toàn
hệ thống là tập mờ B. Từ phụ lục A, ta có:

 Giá trị B sẽ được khử mờ để nhận được một giá trị rõ
duy nhất. Gọi y là kết quả sau khi khử mờ tập mờ kết
quả B của hệ SAM, ta có:
∑
∑
=
=
=== m
1j
j0jj
m
1j
jj0jj
00
V).x(a.w
c.V).x(a.w
))x(B(Centroid)x(Fy

 ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI
TUYẾN.
 Hệ SAM hoạt động như một ánh xạ: F: Rn  Rp. Chính nhờ đặc
trưng này mà với bất kỳ hàm phi tuyến liên tục giới hạn f(x), f : U ⊂
Rn  Rp, với U là tập compact, ta luôn có thể xây dựng một hệ mờ
SAM: F: Rn  Rp cho phép xấp xỉ f bởi F.
 Cũng như các mô hình xấp xỉ khác, mỗi mô hình xấp xỉ mờ hàm phi
tuyến SAM luôn tương ứng với một giá trị sai số nhất định. Giá trị
này được xác định trên mức độ chênh lệnh giữa giá trị cho bởi hàm
f(x) và giá trị nhận được từ hệ F(x), ∀x∈X. Gọi e là giá trị sai số
của mô hình xấp xỉ SAM, ta có
 Giả sử f là hàm số được xấp xỉ (có thể chưa biết). ε > 0 cho trước.

TUYẾN.
 Định nghĩa:
ε-close = {F là hệ mờ xấp xỉ f : |f(x) – F(x)| ≤ ε ∀x ∈ X}
 Dưới góc độ khảo sát đồ thị, khả năng xấp xỉ của hệ mờ F đối với
một hàm phi tuyến y = f(x) được thể hiện như sau:
• Mỗi luật mờ trong hệ mờ hoạt động theo cơ chế xấp xỉ cho phép tương
ứng với mỗi tập mờ vào Aj (có cơ sở là không gian các giá trị vào X)
là một tập mờ kết quả Bj (có cơ sở là không gian các giá trị ra Y). Aj
và Bj làm hình thành một khối (patch) mờ Aj×Bj xác định trong không
gian tích X×Y.
• Thông qua việc kết hợp các khối mờ hình thành từ các luật mờ Rj hoặc
lấy trung bình giữa các khối mờ này nếu chúng chồng lấp lẫn nhau
nhờ vào cơ chế khử mờ bằng phương pháp trọng tâm, hệ mờ SAM F
có thể bao phủ đồ thị biểu diễn của hàm f(x) mà nó xấp xỉ. f có thể
chưa biết.

TUYẾN.
 So sánh giữa 2 hình (1a) và (1b), nhận xét rằng số lượng khối mờ càng
nhiều và nhỏ thì khả năng bao phủ của F trên đường biểu diễn của f càng
sát thực; nghĩa là độ chính xác trong xấp xỉ của F đối với f càng cao. Điều
đó có nghĩa là một hệ mờ càng có nhiều luật thì độ chính xác trong xấp xỉ
các hàm phi tuyến của hệ mờ càng cao. Đây chính là vấn đề tranh chấp
giữa một bên là độ chính xác trong xấp xỉ của hệ luật mờ và một bên là kích
thước (số luật) của nó. Mặt khác, khi số chiều của không gian XY gia tăng
sẽ làm dẫn đến sự bùng nổ số luật của hệ theo cấp số mũ.

TUYẾN.
 Vấn đề đặt ra ở đây là làm sao xây dựng các khối mờ hay nói một cách cụ
thể hơn là xây dựng các tập mờ và luật mờ cần thiết cho hệ mờ F để nó có
thể xấp xỉ một hàm phi tuyến f(x).
 Đây là một vấn đề khá phức tạp và quan trọng. Bởi vì số lượng các luật mờ
và cấu trúc các thông số của nó ảnh hưởng nghiêm trọng đến hiệu quả xấp
xỉ của hệ mờ ⇒ xây dựng các cơ chế học đủ mạnh.

 CƠ CHẾ HỌC TRONG SAM.
 Học là hoạt động quan trọng của SAM nhằm xây dựng cơ sở tri thức cần
thiết dưới dạng các luật mờ phục vụ cho việc mô phỏng hàm phi tuyến mà
hệ đảm nhận.
 Nhờ cơ chế học mà SAM có thể khắc phục hạn chế là phải chờ đợi tri thức
chuyên gia.
 Ngoài ra, việc học còn giúp cho SAM có khả năng tự điều chỉnh các thông
số cấu trúc cũng như kiểm tra tính tối ưu trong cấu trúc luật để từ đó có thể
nâng cao độ chính xác trong hoạt động xấp xỉ của nó.
 Thông qua việc hiệu chỉnh các thông số: kích thước, trọng tâm các tập mờ,
SAM tự động định vị lại vị trí và kích thước của các khối mờ, nhờ đó quá
trình xấp xỉ của SAM được chính xác hơn.
 Đối với SAM, một phương pháp học được đánh giá là tốt hay không ở chổ
nó có điều chỉnh nhanh chóng hay không kích thước và vị trí của các khối
mờ cũng như đảm bảo duy trì các khối mờ tại các điểm uốn của hàm f.

 Quá trình học của SAM (hay của hệ mờ nói chung) thông thường bao gồm
hai bước chính là học cấu trúc và học tham số ⇒ phối hợp thêm cơ chế học
tối ưu hệ luật.
 Quá trình học của SAM ở đây bao gồm các giai đoạn sau:
 Tự phát sinh cấu trúc luật (structure learning): Đây là bước khởi đầu
của quá trình học. Bước này được thực hiện theo cơ chế tự học
(unsupervised learning). Bằng cách thực hiện việc phân lớp mờ trên bộ
dữ liệu học, hệ SAM sẽ tự phát hiện ra các luật mờ cần thiết cho việc
xấp xỉ hàm phi tuyến đặc trưng cho bộ số liệu học đó.

 Quá trình học của SAM ở đây bao gồm các giai đoạn sau:
 Điều chỉnh các thông số (parameters learning): Sau khi đã xây dựng
được bộ luật mờ cần thiết, công việc học tiếp theo của SAM là điều
chỉnh các thông số của hệ luật như: trọng số của từng luật, trọng tâm
và kích thước của các tập mờ tham gia ở vế trái và vế phải của các
luật. Quá trình này được tiến hành theo cơ chế học có giám sát
(supervised learning). Thông qua việc kiểm tra sai số giữa giá trị kết
quả do hệ sinh ra từ bộ dữ liệu học với kết quả mong muốn, hệ sẽ thực
hiện điều chỉnh lại các thông số cho phù hợp. Việc điều chỉnh thông số
được tiến hành theo thuật toán học điều chỉnh sai số nhỏ nhất.
 Tối ưu hóa hệ luật (optimal learning): Giai đoạn học này cho phép
SAM có thể phát hiện và loại bỏ các luật mờ không cần thiết cho hoạt
động xấp xỉ của nó. Nhờ cơ chế này mà SAM có thể gọn nhẹ hơn
nhằm tăng đáng kể tốc độ xử lý cũng như giảm nhiễu. Cơ chế học ở
đây cũng gần giống như cơ chế học có giám sát.

 HỌC CẤU TRÚC.
 Bài toán học cấu trúc có thể phát biểu như sau:
Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj},
j=1,ntd, với ntd: số bộ dữ liệu học
Cho trước dạng hàm phụ thuộc của các tập mờ.
 Hãy xây dựng một phân lớp mờ P({xj|yj}) trên các bộ số liệu học. Trên
cơ sở đó, xác định các tập mờ và hàm phụ thuộc tương ứng để từ đó
phát sinh các luật mờ của hệ mờ SAM có khả năng xấp xỉ một cách tốt
nhất hàm phi tuyến y=f(x) (chưa biết) đặc trưng của bộ dữ liệu học.

 Việc giải quyết bài toán này được tiến hành theo hai bước sau:
 Xác định các tập mờ bằng thuật toán phân lớp dữ liệu mờ
(Data Fuzzy Clustering)
 Phân lớp mờ dữ liệu là bước quan trọng trong quá trình xây dựng các
luật mờ của một hệ mờ tự học.
 Nhiệm vụ đặt ra đối với quá trình phân lớp mờ dữ liệu là từ một tập
hữu hạn các bộ số liệu học cho trước, tìm cách tách chúng ra thành
từng nhóm với các đặc trưng riêng sao cho các bộ số liệu trong cùng
một nhóm càng giống nhau và các bộ số liệu giữa các nhóm càng khác
nhau càng tốt.
 Đối với quá trình phân lớp dữ liệu mờ thì bên cạnh việc phân tách dữ
liệu, phải tiến hành đồng thời việc xác định mức độ phụ thuộc của
từng bộ số liệu đối với nhóm mà nó thuộc về, để từ đó có thể xác định
hàm thành viên của tập mờ tương ứng với nhóm sẽ được tạo ra sau
này.

 Bài toán phân lớp mờ dữ liệu được phát biểu như sau:
 Gọi Rn là không gian các vector có n thành phần thực.
 Đặt X = {x1, x2, ..., xntd}, xj ∈ Rn, là tập hữu hạn bộ số liệu học, trong
đó ntd (number of training data) là số bộ dữ liệu học.
 Gọi Vcn là không gian vector các ma trận c×n, c ∈ Z+
cho trườc,
1<c<n.
 Xác định một phân lớp mờ trên X biểu diễn bởi một bộ vector trọng
tâm:
V = {v1, v2, ..., vc}, vi ∈ Rn. cho tương ứng với 1 ma trận
U = {uij} ∈ Vcn, với uij là giá trị thực trong đoạn [0,1] diễn tả mức
độ phụ thuộc của bộ số liệu học xj ứng với vector trọng tâm vi, và
thỏa hai điều kiện sau:
1. ∀x ∈ X, uij ∈ [0,1],

 Bài toán phân lớp mờ dữ liệu được phát biểu như sau:
2. :
Nhiệm vụ đặt ra của bài toán phân lớp mờ là phải làm giảm thiểu giá trị
hàm mục tiêu J xác định trên U và V có dạng như sau:
And
trong đó:
w(xi) là trọng số khởi đầu của xi.
d(xj, vk) là độ đo biểu diễn mức độ khác biệt giữa xj và vector trọng
tâm của phân lớp thứ k: vk. Độ đo chọn phải thỏa hai tính chất sau:
d(xj, vk) > 0
d(xj, vk) = d(vk, xj)

 Hiện nay có rất nhiều thuật toán đề cập đến vấn đề này. Đa số các
thuật toán đều có mục tiêu chung là xác định V. Giá trị của U có thể
được xác định một cách tuyệt đối hoặc tương đối thông qua một đại
lượng khác nhằm mục đích hạn chế thao tác xử lý và tài nguyên sử
dụng.
 Thuật toán phân lớp mờ trung bình (Fuzzy C-Means-FCM).
File: FCM_Algorithm.pdf
 Một hướng giải quyết khác được hình thành từ ý tưởng của phương
pháp học cạnh tranh. Qua đó số lớp mờ được xác định một cách tự
động từ bộ số liệu học.
 Thuật toán FCM cải tiến với phân lớp mờ dẫn đầu.
File: FCM_First_Algorithm.pdf

 Một phương pháp phân lớp theo hướng tiếp cận tựa FCM là phương
pháp dùng vector lượng tử thích nghi. Giống như các vector V của
thuật toán FCM, các vector lượng tử được dùng như một công cụ để
dò tìm các phân lớp mờ. Điểm đặc biệt của phương pháp này là sử
dụng phương pháp học cạnh tranh, nhờ đó giảm thiểu đáng kể thao tác
xử lý cũng như không gian lưu trữ cần dùng cho thuật toán.
 Thuật toán vector lượng tử thích nghi (Adaptive Vector
Quantization - AVQ)
File: AVQ_algorithm.pdf
 Thuật toán vector lượng tử thích nghi với phân lớp dẫn đầu
(Adaptive Vector Quantization Leader - AVQL)
File: AVQL_algorithm

 Xây dựng các luật mờ.
 Sau khi thực hiện quá trình phân lớp mờ, công việc tiếp theo là
xây dựng các luật mờ từ các phân lớp đó.
 Dựa trên các thông tin về các phân lớp mờ: các trọng tâm của các
vector lượng tử qi, người ta tiến hành xây dựng các luật mờ.
 Trọng tâm của các tập mờ có thể dễ dàng xác định thông qua tọa
độ các vector lượng tử. Nhưng để xác định dạng hàm thành viên
đòi hỏi phải xác định được độ rộng của các tập mờ.
 Kosko với đề nghị sử dụng các luật mờ dạng ellipse (ellipsoid
rules: luật tương ứng với khối mờ dạng ellipse thay vì hình chữ
nhật như thường dùng) và thuật toán phân lớp mờ thông qua các
vector lượng tử với cơ chế học cạnh tranh đã cung cấp một cơ chế
giúp xác định chính xác độ rộng của các tập mờ thông qua tâm
của các ellipse và độ nghiêng của chúng.

 Tuy nhiên phương pháp này có nhiều trở ngại do mức độ phức
tạp của nó khi cài đặt.
 Việc xác định chính xác độ rộng của các tập mờ trong bước này
không thực sự quan trọng lắm bởi vì sau đó ta còn có thể kịp thời
hiệu chỉnh bằng giai đoạn học điều chỉnh thông số.
 Một cách đơn giản, độ rộng của một tập mờ thứ i có thể xác định
thông qua tập mờ lân cận của nó theo công thức sau:
Trong đó:
mi: trọng tâm của tập mờ thứ i
mclosest: trọng tâm của tập mờ gần tập mờ thứ i nhất.
r: hệ số chồng lấn giữa các tập mờ do người dùng quyết
định.

 Mỗi khối mờ cho phép hình thành một luật mờ trong hệ. Dạng
hàm biểu diễn tập mờ phải được xác định trước ⇒ Dùng hàm
hình thang vì lý do dễ cài đặt của nó.
 Đồ thị biểu diễn của hàm có dạng hình thang. Hàm hình thang
tương ứng với tập mờ thứ j được định nghĩa bằng bộ 4 giá trị (lj,
mlj, mrj, rj). Với lj, rj >0, mlj ≤ mrj. Giá trị hàm thành viên của tập
mờ thứ j được xác định như sau:

 ĐIỀU CHỈNH THÔNG SỐ.
 Khi các luật mờ đã được xác định, học điều chỉnh thông số giúp
giảm sai số giữa kết quả của hệ và kết quả mong muốn.
 Bài toán được phát biểu như sau: Cho trước bộ dữ liệu học vào
{xj} và bộ kết quả mong muốn {yj}, j=1.ntd ; với ntd: số bộ dữ
liệu học.
 Cho hệ luật mờ SAM với các luật mờ và trọng số.
 Hãy điều chỉnh thông số của các tập mờ vế trái, vế phải và trọng
số các luật mờ sao cho sai số giữa kết quả cho bởi hệ luật mờ và
kết quả mong muốn là ổn định và nhỏ nhất.

 ĐIỀU CHỈNH THÔNG SỐ.
 Quá trình học điều chỉnh thông số được tiến hành dựa trên luật
học sai số nhỏ nhất. Luật học sai số nhỏ nhất áp dụng cho tham số
ξ trong SAM có dạng:
 Trong đó µt là hệ số học biến đổi theo thời gian và có xu hướng
giảm dần. Mục đích của giai đoạn học điều chỉnh thông số là tối
thiểu bình phương sai số:
E(x) = 1/2 (f(x)-F(x))2
 Sai số trong xấp xỉ của hệ luật mờ phụ thuộc vào các tham số
tham gia vào hệ, bao gồm: các tập mờ vế trái Aji, các tập mờ vế
phải Bj, các trọng số wj (tham khảo file: editparameter.pdf).
 Thuật toán học thông số. file: para_algorithm.pdf

 TỐI ƯU HỆ LUẬT.
 Về mặt lý thuyết, một hệ SAM càng có nhiều luật thì độ chính
xác trong hoạt động xấp xỉ của nó càng lớn.
 Tuy nhiên, nếu hệ có quá nhiều luật thì thời gian cho quá trình xử
lý trong hệ luật sẽ là yếu tố đáng quan tâm. Một vấn đề đặt ra là
làm sao có thể giải quyết hợp lý mối quan hệ giữa kích thước (số
luật) của hệ SAM và độ chính xác trong xấp xỉ của nó.
 Một hệ luật tối ưu sẽ chỉ giữ lại một số (hoặc tất cả) các luật ban
đầu trong hệ SAM.
 Mỗi luật được giữ lại cho tương ứng với giá trị 1, các luật bị loại
cho tương ứng với giá trị 0. Giả sử SAM có m luật và vị trí của
các luật không đổi trong suốt quá trình xem xét, ta có thể biểu
diễn trạng thái của các luật trong hệ ở thời điểm bắt đầu và thời
điểm sau khi xử lý để chọn các luật tối ưu.

 TỐI ƯU HỆ LUẬT.
 Bài toán tối ưu hệ luật được phát biểu như sau:
Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong
muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học.
Cho hệ luật mờ SAM với các luật mờ và trọng số.
Hãy tìm số vị trí 1 ít nhất sao cho sai số giữa kết quả cho
bởi hệ SAM và kết quả mong muốn là ổn định
và nhỏ nhất.
 Người ta thường kết hợp một số thuật toán khác (như thuật toán
di truyền) để tối ưu hóa hệ luật.
 Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm
sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và
đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó
chọn một cá thể tốt nhất làm kết quả của thuật toán.

 Giải Thuật Di Truyền.
 Là một kỹ thuật nhằm tìm kiếm giải pháp thích hợp cho các bài
toán tối ưu tổ hợp (combinatorial optimization).
 Giải thuật di truyền vận dụng các nguyên lý của tiến hóa như
phép lai, phép đột biến, phép sinh sản và chọn lọc tự nhiên.
 Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn
ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp
những đại diện trừu tượng (nhiêm sắc thể) của các giải pháp có
thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề.
 Tập hợp này sẽ tiến triển theo hướng chọn lọc những giải pháp
tốt hơn (chọn lọc tự nhiên).

 Giải Thuật Di Truyền.
 Thông thường, những giải pháp được thể hiện dưới dạng những
chuỗi thông tin mã hóa khác nhau (phần lớn ở dạng nhị phân).
 Quá trình tiến hóa xảy ra từ một tập hợp những cá thể hoàn
toàn ngẫu nhiên ở tất cả các thế hệ.
 Trong từng thế hệ, tính thích nghi của tập hợp này được ước
lượng (nhằm ngăn chặn khả năng bùng nổ tổ hợp), nhiều cá thể
được chọn lọc định hướng từ tập hợp hiện thời (dựa vào thể
trạng), được sửa đổi (bằng đột biến hoặc tổ hợp lại) để hình
thành một tập hợp mới.
 Tập hợp này sẽ tiếp tục được chọn lọc lặp đi lặp lại trong các
thế hệ kế tiếp của giải thuật.

 TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI
TRUYỀN GA.
 Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể,
dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để
phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết
quả của thuật toán.
 Quá trình thực hiện như sau:
 Biểu diễn các nhiễm sắc thể:
Mỗi nhiễm sắc thể là một chuỗi các giá trị nhị phân diễn tả trạng
thái hoạt động của luật tương ứng trong hệ SAM. Mỗi thế
hệ sẽ chỉ sử dụng 10 nhiễm sắc thể. Thế hệ đầu tiên bao
giờ cũng chứa đầy đử các luật (tất cả giá trị bằng 1).

TRUYỀN GA.
 Hàm thích nghi:
 Mối qua hệ giữa kích thước SAM và độ chính xác trong xấp xỉ của
SAM được giải quyết bằng hàm thích nghi sau:
m: Số luật (trạng thái 1) được sử dụng trong hệ SAM, n: Số bộ số
liệu học

TRUYỀN GA.
 Thuật toán:
 b1. Khởi tạo 10 nhiễm sắc thể, có 1 nhiễm sắc thể biễu diễn đầy đủ các
luật.
 b2. Tạo các nhiễm sắc thể mới bằng các phương pháp: Lai nhị phân
(Tỷ lệ 0.5) và đột biến nhị phân (Tỷ lệ 0.01).
 b3. Dùng phương pháp bánh xe quay với hàm thích nghi (c1) để giữ
lại 10 nhiễm sắc thể tốt nhất (có hàm Fit(.) → min ).
 b4. Nếu điều kiện lặp chưa kết thúc, quay lại b2.
 b5. Chọn nhiễm sắc thể tốt nhất trong 10 nhiễm sắc thể nhận được làm
kết quả trả về.
Chuỗi nhị phân tìm được sẽ được dùng làm cơ sở cho việc hủy bỏ các luật
không cần thiết trong hệ SAM.

 SƠ ĐỒ HỌC CỦA SAM

 Support Vector Machines (SVMs) là một phương
pháp phân loại máy học do Vladimir Vapnik và các
cộng sự xây dựng nên từ những năm 70 của thế kỷ
20.
 SVMs là một phương pháp phân loại xuất phát từ lý
thuyết học thống kê, dựa trên nguyên tắc tối thiểu
rủi ro cấu trúc (Structural Risk Minimisation).
 SVMs sẽ cố gắng tìm cách phân loại dữ liệu sao
cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test
Error Minimisation).

 Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi
tuyến) dữ liệu vào không gian các vector đặc trưng
(space of feature vectors) mà ở đó một siêu phẳng
tối ưu được tìm ra để tách dữ liệu thuộc hai lớp
khác nhau.
 SVMs đã được ứng dụng rất nhiều trong việc nhận
dạng mẫu như nhận dạng chữ viết tay, nhận dạng
đối tượng, nhận dạng khuôn mặt trong ảnh, và phân
loại văn bản…

 Chúng ta hãy xem xét một bài toán phân loại văn bản bằng
phương pháp Support Vector Machines như sau:
 Bài toán: Kiểm tra xem một tài liệu bất kỳ d thuộc hay không thuộc
một phân loại c cho trước? Nếu d∈c thì d được gán nhãn là 1,
ngược lại thì d được gán nhãn là –1.
 Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …,
tn}, thì mỗi văn bản di sẽ được biểu diễn bằng một vector dữ liệu
xi=(wi1, wi2, …, win), wij∈R là trọng số của từ tj trong văn bản di.
Như vậy, tọa độ của mỗi vector dữ liệu xi tương ứng với tọa độ của
một điểm trong không gian Rn
. Quá trình phân loại văn bản sẽ thực
hiện xử lý trên các vector dữ liệu xi chứ không phải là các văn bản
di. Bởi vậy, trong phần này chúng tôi sẽ sử dụng đồng nhất các
thuật ngữ văn bản, vector dữ liệu, điểm dữ liệu.

 Dữ liệu huấn luyện của SVMs là tập các văn bản đã được gán nhãn
trước Tr={(x1, y1), (x2, y2), …, (xl, yl)}, trong đó, xi là vector dữ liệu
biểu diễn văn bản di (xi∈Rn
), yi∈{+1, -1}, cặp (xi, yi) được hiểu là
vector xi (hay văn bản di) được gán nhãn là yi.
 Nếu coi mỗi văn bản di được biểu diễn tương ứng với một điểm dữ
liệu trong không gian Rn
thì ý tưởng của SVMs là tìm một mặt hình
học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân
chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thuộc về
phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1
thuộc về phía âm của siêu phẳng (f(x-)<0).

 Với bài toán phân loại SVMs, một siêu phẳng phân chia dữ liệu
được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất
đến siêu phẳng là lớn nhất. Khi đó, việc xác định một tài liệu x∉Tr
có thuộc phân loại c hay không, tương ứng với việc xét dấu của f(x),
nếu f(x)>0 thì x∈c, nếu f(x)≤0 thì x∉c.
 Siêu phẳng phân chia tập mẫu huấn luyện

 đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình
chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các
vector hỗ trợ (support vector).
 Các đường nét đứt mà các support vector nằm trên đó được gọi là
lề (margin).
 Tài liệu tham khảo: file: SVM_data.pdf

 Trong SVMs thông thường thì các điểm dữ liệu đều có giá
trị như nhau, mỗi một điểm sẽ thuộc hoàn toàn vào một
trong hai lớp.
 Tuy nhiên trong nhiều trường hợp có một vài điểm sẽ không
thuộc chính xác vào một lớp nào đó, những điểm này được
gọi là những điểm nhiễu, và mỗi điểm có thể sẽ không có ý
nghĩa như nhau đối với mặt phẳng quyết định.
 Để giải quyết vấn đề này Lin CF. và Wang SD (2002) đã
giới thiệu Fuzzy support vector machines (FSVMs) bằng
cách sử dụng một hàm thành viên để xác định giá trị đóng
góp của mỗi điểm dữ liệu đầu vào của SVMs vào việc hình
thành siêu phẳng.

 Cho tập dữ liệu huấn luyện
Với xi là một mẫu huấn luyện, , yi là nhãn của xi ,
si là một hàm thành viên thỏa , là một hằng số đủ nhỏ > 0.
Bài toán được mô tả như sau:
C là một hằng số. Hàm thành viên si thể hiện mức độ ảnh
hưởng của điểm xi đối với một lớp. Giá trị có thể làm
giảm giá trị của biến , vì vậy điểm xi tương ứng với có
thể được giảm mức độ ảnh hưởng hơn.

 Giải quyết bài toán: file: FSVM_Optimal.pdf
 Chọn hàm thành viên
 Việc chọn hàm thành viên si thích hợp là rất quan trọng trong
FSVMs. Theo Chun hàm thành viên si dùng để giảm mức độ ảnh
hưởng của những điểm dữ liệu nhiễu là một hàm xác định khoảng
cách giữa điểm dữ liệu xi với trung tâm của nhóm tương ứng với i.
Gọi C+
là tập chứa các điểm xi với yi =1, C+
={xi|xi ∈ S và yi =1}
Tương tự gọi C-
={xi|xi ∈ S và yi =-1}, X+ và X- là trung tâm của lớp
C+
, C-
.
Bán kính của lớp C+
là: r+ = max||X+ - xi|| với xi ∈ C+
và bán kính của lớp C-
là: r- = max||X- - xi|| với xi ∈ C-

 Hàm thành viên si được định nghĩa như sau:
là một hằng số để tránh trường hợp si = 0
 Tuy nhiên FSVMs với hàm thành viên (4.32) vẫn chưa đạt kết quả tốt
do việc tính toán khoảng cách giữa các điểm dữ liệu với trung tâm của
nhóm được tiến hành ở không gian đầu vào, không gian n chiều.
 Trong khi đó trong trường hợp tập dữ liệu không thể phân chia tuyến
tính, để hình thành siêu phẳng ta phải đưa dữ liệu về một không gian
khác với số chiều m cao hơn gọi là không gian đặc trưng (feature
space).

 Xiufeng Jiang, Zhang Yi và Jian Cheng Lv
(2006) đã xây dựng một hàm thành viên khác
dựa trên ý tưởng của hàm thành viên đã cho
nhưng được tính toán trong không gian đặc
trưng m chiều
 Tham khảo file: member_FSVM.pdf

 Thuật toán huấn luyện Fuzzy Support Vector Machines.
 Quá trình huấn luyện FSVMs là quá trình giải
bài toán tối ưu để tìm được nghiệm tối ưu. Quá
trình huấn luyện này khá phức tạp và đòi hỏi
nhiều chi phí cho việc tính toán.
 Sử dụng thuật toán Kernel-Adatron có thể đơn
giản hóa quá trình huấn luyện FSVMs.
 Tham khảo file: training_FSVM.pdf

 Thuật toán PageRank.
 PageRank được phát triển tại Stanford
University bởi Larry Page và sau là Sergey Brin
về một cơ chế tìm kiếm mới.
 Dự án bắt đầu vào 1995 và xuất hiện với tên gọi
là Google vào năm 1998.
 Trong một thời gian ngắn sau đó, PageRank đã
thực sự khẳng định vị thế của công cụ tìm kiếm
Google trên toàn bộ hệ thống Internet của thế
giới.

 Thuật toán PageRank.
 PageRank đã dựa trên ý tưởng phân tích chỉ dẫn
được phát triển từ 1950 bởi Eugene Garfield của
đại học Pennsylvania.
 Trong giải thuật của PageRank đã sử dụng cơ
chế quyết định tính quan trọng toàn vẹn của một
trang web.
 PageRank của một trang web là một giá trị xấp
xỉ độ xác xuất truy cập đến trang này từ một vài
trang khác trên web site.

 Mô hình PageRank.
 Giải thuật PageRank quan niệm, mọi trang web
trên một web site đều có một số liên kết từ nó đi
ra (forward links hay outedges) và một số liên
kết đến nó (back links hay inedges).

 Việc đánh giá trang web của giải thuật PageRank dựa
trên giả thuyết, một trang web được liên kết đến nhiều
thì quan trọng hơn là một trang web có ít liên kết.
 Cách tính toán của PageRank: một trang web được xếp
hạng cao nếu tổng xếp hạng từ những liên kết đến của nó
cao.
 Chỉ có thể thực hiện được trong một tập có giới hạn các tài liệu,
vì thực tế, số lượng các trang web trên Internet là vô cùng lớn
và không thể thống kê hay thu thập được toàn bộ các trang web
liên kết với nhau để có thể xây dựng cho nó một tập các trang
được gán trọng số đầy đủ.

 Giải thuật PageRank.
 PageRank của một trang được tính như sau:
với B là những trang cha của A liên kết đến A, Parents(A) là tập tất
cả những trang web liên kết đến A và N(B) là số liên kết ra đến
những trang khác nhau được tìm thấy trên A.
Tại mỗi bước, người dùng quyết định truy cập vào một trang web với m
đường liên kết đi ra đến những trang khác nhau. Tại mỗi thời điểm,
người dùng hoặc với xác suất được quyết định để tự nhập vào một
URL mới và ngẫu nhiên truy cập tới một trang trong tập hợp hoặc
với xác suất 1- truy cập lên một trong những liên kết trên trang.

 PageRank giả sử rằng người dùng không thiên vị trong
việc lựa chọn các đường liên kết vì vậy xác suất truy cập
đến một liên kết bất kì là
 Với cách giả định đó ta có cách tính toán trong công thức của
PageRank là như sau:
 Giải thuật PageRank thực hiện tính toán lập đi lập lại từ một trạng
thái để tính PageRank cho tất cả các trang web trong site và tiếp tục
thực hiện tính lại cho đến khi đạt đến điều kiện ổn định cho phép.
Trong đó giá trị qua thực nghiệm được cho từ 0.05 đến 0.15.

 Giải thuật PageRank cụ thể như sau:
Với N trang web {A1, A2,…, AN)
B1:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N,
PR(A2)=1/N,…PR(AN)=1/N
B2: Tính giá trịPageRank của tất cả các trang bằng công thức (2.2)
B3: Tính sai số của tất cả các trang =PR(A)i –PR(A)i-1 (i: là lần lặp
thứ i)
Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng
Nếu tồn tại >ngưỡng quay lại bước 2

 Để có được giá trị PageRank tốt, luôn phản ánh đúng tình trạng
trang web, Google tính toán lại giá trị PageRank tại mỗi thời điểm
thăm dò trang web và xây dựng lại tập chỉ mục.
 Do đó, Google sẽ tăng số lượng tài liệu cho tập hợp của nó và làm
giảm đi việc xấp xỉ giá trị khởi tạo cho tất cả các tài liệu.
 Việc sử dụng tác tử thăm dò trang web và làm chỉ mục trang web là
công việc tốn thời gian và chi phí nên Google luôn tìm cách để tối
ưu quá trình này như xây dựng các công cụ hỗ trợ cho Google trên
trình duyệt như Google Toolbar, hoặc máy chủ lưu trữ tạm thời
(Caching Server) hỗ trợ cho công cụ tìm kiếm.

 Sau khi ra đời, thuật toán pageRank được cải tiến thành
nhiều thuật toán khác nhau như thuật toán HITS – Hypertext
Induced Topic Selection (Thuật toán lựa chọn chủ đề phù
hợp cho siêu văn bản), Weighted PageRank (Thuật toán
PageRank dựa trên tỉ trọng), Thuật toán Topic Sensitive
PageRank (thuật toán PageRank dựa trên chủ đề) và thuật
toán LpageRank.

 HITS là 1 thuật toán cơ bản trên liên kết hoàn toàn. Nó được sử dụng để
đánh giá các trang web mà nhận lĩnh từ web dựa trên nội dung nguyên
bản tới 1 câu truy vấn đã cho.
 Một khi các trang web được tập hợp lại, thuật toán HITS bỏ qua nội
dung nguyên bản và tập trung tự bản thân chỉ trong cấu trúc web.
 Thuật toán HITS thường trả lại nhiều trang web tổng quát hơn là tập trung vào 1 chủ
đề bởi vì các trang web không chứa đựng nhiều nguồn từ chủ đề.
 Sự lệch của chủ đề xuất hiện khi hub có nhiều chủ đề vì tất cả các liên kết ngoài của
1 trang của hub có tỉ trọng tương đương

 PageRank được tạo ra bằng cách sử dụng toàn bộ đồ thị web, hơn là một
tập con.
 Một số nghiên cứu của một số tác giả (S. Chakrabarti, D. Pennock…)
cho thấy các tính chất của đồ thị web nhạy cảm với chủ đề trang.
 Các trang có xu hướng trỏ tới những trang khác mà cùng một chủ đề
chung.
 Phương pháp này tính độ lệch của độ đo PageRank khi sử dụng tập nhỏ
các chủ đề đại diện, được lấy từ danh mục mở (open directory) trong sự
liên kết với phân lớp đa thức Bayes dùng cho phân loại câu truy vấn và
ngữ cảnh.

 Có 2 khả năng có thể xảy ra:
 Người sử dụng nhập dữ liệu cần thiết cho 1 câu truy vấn đề tìm
kiếm thông tin cần thiết. Khi đó cần xác định chủ đề gần nhất có
liên quan đến câu truy vấn và sử dụng vector của PageRank theo
chủ đề tương ứng đề xếp hạng các tài liệu đáp ứng câu truy vấn.
Điều này bảo đảm rằng độ đo “tầm quan trọng” phản ánh sự tham
chiếu đối với cấu trúc liên kết của các trang mà có cùng sự liên
quan đến câu truy vấn.
 Hoặc giả định người sử dụng đang xem một tài liệu
(duyệt web hay đọc email), và lựa chọn một thuật ngữ từ tài liệu mà
ông muốn thêm thông tin. Khi đó bằng cách lựa chọn vector của
PageRank theo chủ đề tương ứng dựa trên bối cảnh của câu truy vấn
nó sẽ cung cấp kết quả tìm kiếm chính xác hơn.

 Thuật toán có thể tóm tắt như sau:
 Trong suốt thời gian offline của Web craw, các chủ đề của vector của độ đo
PageRank sẽ được tạo ra, một độ lệch sử dụng các URL của các mục đầu
tiên của danh mục mở tại thời điểm truy vấn, độ tương tự của truy vấn (truy
vấn hoặc ngữ cảnh) được tính toán cho các chủ đề.
 Khi đó thay vì sử dụng một vector đơn xếp hạng chung, kết hợp tuyến tính
các vector của các chủ đề và tỉ trọng sử dụng độ đo tương tự của câu truy
vấn tới các chủ đề.
 Bằng cách sử dụng một tập của các vectơ xếp hạng, chúng ta có thể xác
định chính xác hơn những trang này thực sự quan trọng hơn đối với một
truy vấn hoặc ngữ cảnh cụ thể.
 Bởi vì các liên kết dựa trên tính toán được thực hiện offline, trong suốt giai
đoạn tiền xử lý, chi phí thời gian truy vấn không lớn hơn nhiều so với thuật
toán PageRank thông thường.

 Thuật toán có thể tóm tắt như sau:
 Minh họa hệ thống sử dụng thuật toán topic sensitive PageRank
 Thuật toán Topic Sensitive PageRank cụ thể như sau:
TSPR_Algorithm.pdf

 Giải thuật LPageRank được tác giả Qing Cui và Alex Dekhtyar giới
thiệu vào năm 2005 với hướng nghiên cứu sử dụng web log để giảm bớt
chi phí thu thập liên kết và cải tiến việc đánh giá mức độ truy cập lên
trang trong việc tính toán trọng số của trang web.
 Nhìn một cách tổng quan, thì LPageRank là PageRank được tính toán
dựa trên đồ thị xác suất của trang web được xây dựng từ các mẫu truy
cập trong nhật ký sử dụng web của người dùng.
 Đồ thị xác suất là đồ thị được xây dựng từ tập tất cả các liên kết cấu trúc
của tập tất cả các trang web trong web site. Mỗi liên kết từ một trang này
đến một trang khác tượng trưng cho một cung trong đồ thị. Tần số liên kết
giữa các trang với nhau tương ứng với tần số truy cập giữa chúng của người
dùng và cũng được xem là trọng số của cung trong đồ thị.
 Do đó, đồ thị thể hiện khả năng truy cập từ một trang đến các trang khác
thông qua trọng số của cung kết nối. Đồ thị xác suất được xây dựng dựa
trên kết quả phân tích thông tin web log (Tập tin log ghi lại sự truy cập của
người dùng trên một web site).

 Giải thuật xây dựng đồ thị xác suất.
 Mỗi mẫu truy cập của web log mô tả một cung liên kết từ trang một trang
này đến một trang khác trong web site.
 Xét một phiên truy cập của người dùng, ta sẽ có được một chuỗi truy cập từ
một trang lần lượt đến một hay nhiều trang khác.
 Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ
thị xác suất như sau:
 Với mỗi cung của đồ thị (B,A) tương ứng với một mẫu truy cập từ B
liên kết đến A trong một phiên truy cập (session), ta tăng trọng số của
cung (B,A) lên 1 nếu trong một phiên truy cập có liên kết từ B đến A.
Sau khi duyệt tất cả các session ta sẽ có một đồ thị có trọng số thể hiện
mối liên kết giữa các liên kết (link). Sau cùng, ta tiến hành chuẩn hóa
trọng số các cung trong đồ thị với bằng cách chia trọng số của cung
cho tổng trọng số các cung ra cho mỗi nút trong đồ thị.

 Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ
thị xác suất như sau:
 Trong quá trình này, ta xây dựng một ma trận vuông A có kích thước
mxm với m là số URL trong toàn bộ các session thu thập được. Mỗi
giá trị trong ma trận vuông A[i,j] ứng với cung (i,j), giá trị của nó
được tăng lên sau mỗi liên kết từ i đến j được duyệt qua. Cuối cùng, ta
chuẩn hóa ma trận A để thu được ma trận đồ thị xác suất.

Cho tập trang web N{A1,A2,..,Am} được biểu diễn với ma trận vuông A
mxm.
Tập phiên truy cập S.
B1: duyệt tất cả các mẫu truy cập trong S
Gán A[i,j]=A[i,j]+1 nếu mẫu chứa liên kết từ trang Ai đến Aj.
B2: duyệt tất cả các trang trong tập N
Gán A[i,j]=A[i,j]/N(A) với N(A) là số cung ra đi từ Ai đến trang khác.

 Giải thuật LPageRank được cải tiến từ giải thuật
PageRank với web log.
 Giả sử G=(W,E,P) là đồ thị xác suất cho tập các trang web của site
là W. Sau đó tính LPageRank(LPR) của trang web như sau:
 Lưu ý rằng LPR(A)=PR(A) đối với đồ thị G nếu P(B,A) =
đối với tất cả các cung.

 Giải thuật LpageRank.
B1: Duyệt đồ thị xác suất ta lấy giá trị xác suất cung P(B,A).
B2:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N,
…PR(AN)=1/N
B3: Tính giá trịPageRank của tất cả các trang bằng công thức sai:
B4: Tính sai
số của tất cả các trang =LPR(A)i –LPR(A)i-1 (i: là lần lặp thứ i).
Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng.
Nếu tồn tại >ngưỡng quay lại bước 3.

 Đánh giá Giải thuật LPageRank .
 Với cách cải tiến này, giá trị LPageRank cho mỗi trang sẽ được tính
toán phụ thuộc vào việc người dùng truy cập lên trang web đó nhiều
hay ít. Nói cách khác, giá trị này phụ thuộc vào mức độ quan tâm
của người dùng đối với trang web.
 Giải thuật LPageRank đã tối ưu hơn cách thực hiện máy móc của
PageRank khi không quan tâm đến hành vi sử dụng web của người
dùng của giải thuật PageRank. Đây là sự khác nhau cơ bản mà
LPageRank đã sử dụng để tối ưu cho công cụ tìm kiếm.

 CRFs là mô hình trạng thái tuyến tính vô hướng (máy trạng
thái hữu hạn được huấn luyện có điều kiên) và tuân theo tính
chất Markov thứ nhất.
 CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho
chuỗi như tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm
danh từ...⇒ sử dụng phương pháp CRF kết hợp với một vài phương
pháp xử lý khác (như xử lý ngôn ngữ tự nhiên) giúp nâng cao hiệu quả
của trích xuất thông tin web.
 Gọi o = (o1, o2, …, oT) là một chuỗi dữ liệu quan sát cần được gán nhãn.
Gọi S là tập trạng thái, mỗi trạng thái liên kết với một nhãn . Đặt s = (s1,
s2,…, sT) là một chuỗi trạng thái nào đó, CRFs xác định xác suất điều
kiện của một chuỗi trạng thái khi biết chuỗi quan sát như sau:

 Gọi là thừa số chuẩn hóa trên
toàn bộ các chuỗi nhãn có thể. fk xác định một hàm đặc trưng
và là trọng số liên kết với mỗi đặc trưng fk.
 Mục đích của việc học máy với CRFs là ước lượng các
trọng số này.
 Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng thái (per-
state) và đặc trưng chuyển (transition).
 (2)
 (3)
 Ở đây δ là Kronecker- δ.
 Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của trạng thái hiện tại st và một vị từ ngữ
cảnh - một hàm nhị phân xk(o,t) xác định các ngữ cảnh quan trọng của quan sát o tại
vị trí t. Một đặc trưng chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng cách kết hợp
nhãn l’ của trạng thái trước st-1 và nhãn l của trạng thái hiện tại st.

 Người ta thường huấn luyện CRFs bằng cách làm cực đại
hóa hàm likelihood theo dữ liệu huấn luyện sử dụng các kĩ
thuật tối ưu. Việc lập luận (dựa trên mô hình đã học) là tìm
ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu vào.
Đối với CRFs, người ta thường sử dụng thuật toán qui hoạch
động điển hình (Viterbi) để thực hiện lập luận với dữ liệu
mới.
 Cách giải quyết vấn đề.
 Giả sử cần rút trích thông tin từ trang web cho trước, khi đó cần xác
định mục tiêu
Xác định trang web có chứa tin tức hay không?
Xác định vùng thông tin chứa tin tức?
Xác định tin tức thuộc loại tin tức nào?

 Có thể xem mục tiêu đặt ra được diễn giải như sau:
Cho một trang web x và tập DOM (document object model), nút lá
cây x1
,…,xk
trong x. Đặt = y1
,…,yk
là nhãn có thể gán cho x1
,…,xk
với y1
,…,yk
là các nội dung của các nút x1
,…,xk
. Lần lượt xét các
nút đặc trưng chứa tin tức (xác định) để duyệt các nhãn của nó và
chọn nhãn có nội dung là tin tức cần tìm.
 Khi giải quyết các mục tiêu đề ra ta gặp các vấn đề cụ thế
o Công việc xác định trang web chứa tin tức nghĩa là khi nhập 1 trang web
bất kỳ ta phải xác định trang web đó có nội dung chứa tin tức hay không?
o Nếu như trang web có chứa tin tức, tìm kiếm các vùng dữ liệu mà nội dung
của nó có chứa tin tức.
o Qua vùng tin tức ta cần xác định tin tức đó là tin tức thuộc thể loại nào.

 Đề giải quyết các vấn đề này ta có thể gặp 1 số khó khăn
như:
 Việc xác định vùng nội dung chứa tin tức được xác định dựa trên
nội dung tin tức, điều này liên quan đến vấn đề xử lý văn bản tiếng
Việt (nếu rút trích văn bản bằng tiếng Việt). Đây là một vấn đề khó
khăn khi rút trích.
 Quá trình xử lý các trang web được thực hiện thông qua nhiều tầng
lần, dễ xảy ra những sự cố.
 Để giải quyết những khó khăn được nêu ở trên, phương
pháp được áp dụng để xử lý là:
 Xử lý tiếng việt chỉ xảy ra ở bước xác định từ loại điều này giúp vấn đề trở
nên đơn giản hơn.
 Xác định ngữ pháp của câu
 Sự giúp đỡ của bộ từ điển tiếng Việt .

 Các bước trong quá trình phân tích đánh giá thời gian chạy
của thuật toán: thông thường người ta chia thành các bước
sau:
 Bước 1: kích thước dữ liệu. Ta coù theå xem thôøi gian chaïy
cuûa thuaät toaùn laø moät haøm theo kích thöôùc cuûa döõ
lieäu nhaäp.
Neáu goïi n laø kích thöôùc cuûa döõ lieäu nhaäp thì
thôøi gian thöïc hieän T cuûa thuaät toaùn
ñöôïc bieåu dieãn nhö moät haøm theo n, kyù
hieäu laø : T(n).
Thời gian thực hiện chương trình là một hàm không âm, tức
là T(n) ≥ 0 n ≥ 0.∀

 Các bước trong quá trình phân tích đánh giá thời gian chạy
của thuật toán: thông thường người ta chia thành các bước
sau:
 Böôùc 2: nhaäân ra caùc thao taùc tröøu töôïng cuûa thuaät
toaùn ñeå taùch bieät söï phaân tích (1)
vaø söï caøi ñaët (2)
.
Vaäy yeáu toá (1)
ñöôïc xaùc ñònh bôûi tính chaát cuûa thuaät
toaùn, yeáu toá (2)
ñöôïc xaùc ñònh bôûi tính naêng cuûa
maùy tính.
 Böôùc 3: tìm ra caùc giaù trò trung bình vaø tröôøng hôïp
xaáu nhaát cho moãi ñaïi löôïng cô baûn. Thôøi gian chaïy
cuûa thuaät toaùn hieån nhieân coøn phuï thuoäc vaøo tính
chaát cuûa döõ lieäu nhaäp nhö: daõy coù thöù töï thuaän,
daõy coù thöù töï ngöôïc, caùc soá haïng cuûa daõy coù thöù
töï ngaãu nhieân…

 Ðơn vị đo thời gian thực hiện.
Ðơn vị của T(n) không phải là đơn vị đo thời gian bình
thường như giờ, phút giây... mà thường được xác định bởi
số các lệnh được thực hiện trong một máy tính lý tưởng.
 Thời gian thực hiện trong trường hợp xấu nhất.
 Nói chung thì thời gian thực hiện chương trình không chỉ phụ thuộc
vào kích thước mà còn phụ thuộc vào tính chất của dữ liệu vào.
Nghĩa là dữ liệu vào có cùng kích thước nhưng thời gian thực hiện
chương trình có thể khác nhau.
 Vì vậy thường ta coi T(n) là thời gian thực hiện chương trình trong
trường hợp xấu nhất trên dữ liệu vào có kích thước n, tức là: T(n) là
thời gian lớn nhất để thực hiện chương trình đối với mọi dữ liệu vào
có cùng kích thước n.

 Tỷ suất tăng (growth rate)
Ta nói rằng hàm không âm T(n) có tỷ suất tăng f(n) nếu tồn tại các
hằng số C và N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0.
 Khái niệm độ phức tạp của giải thuật.
Cho một hàm T(n), T(n) gọi là có độ phức tạp f(n) nếu tồn tại các
hằng C, N0 sao cho T(n) ≤ Cf(n) với mọi n ≥ N0 (tức là T(n) có tỷ suất
tăng là f(n)) và kí hiệu T(n) là O(f(n)) (đọc là “ô của f(n)”)
 Nói cách khác độ phức tạp tính toán của giải thuật là một hàm chặn trên
của hàm thời gian.
 Vì hằng nhân tử C trong hàm chặn trên không có ý nghĩa nên ta có thể
bỏ qua vì vậy hàm thể hiện độ phức tạp có các dạng thường gặp sau:
log2n, n, nlog2n, n2
, n3
, 2n
, n!, nn
.
 Ba hàm cuối cùng ta gọi là dạng hàm mũ, các hàm khác gọi là hàm đa
thức.

 Một giải thuật mà thời gian thực hiện có độ phức tạp là một
hàm đa thức thì chấp nhận được tức là có thể cài đặt để thực
hiện, còn các giải thuật có độ phức tạp hàm mũ thì phải tìm
cách cải tiến giải thuật.

 Một Số Lớp Các Thuật Toán.
 Lớp (1) 1: Nếu tất cả các chỉ thị của chương trình đều được thực
hiện chỉ một vài lần và ta nói thời gian chạy của nó là hằng số.
 Lớp (2) logn: khi thời gian chạy của chương trình là logarit. Thời
gian chạy thuộc loại này xuất hiện trong các chương trình mà giải 1
bài toán lớn bằng cách chuyển nó thành 1 bài toán nhỏ hơn, bằng
cách cắt bỏ kích thước một hằng số nào đó.
 Lớp (3) n: khi thời gian chạy của chương trình là tuyến tính.
 Lóp (4) nlogn: xuất hiện trong các chương trình mà giải một bài
toán lớn bằng cách chuyển nó thành các bài toán nhỏ hơn, giải
quyết các bài toán này 1 cách độc lập, sau đó tổ hợp lời giải.
 Lớp (5) n2
: Thời gian chạy của thuật toán là bậc 2, thường là xử lý
các cặp phần tử dữ liệu (có thể 2 vòng lặp lồng nhau). Trường hợp
này chỉ có ý nghĩa khi bài toán nhỏ.

 Một Số Lớp Các Thuật Toán.
 Lớp (6) n3
: Một thuật toán xử lý bộ ba phần tử dữ liệu (có thể 3
vòng lặp lồng nhau) có thời gian chạy bậc 3. Trường hợp này chỉ có
ý nghĩa khi bài toán nhỏ.
 Nhận xét:
O(1) O(lgn) O(n) O(nlgn) O(n⊂ ⊂ ⊂ ⊂ 2
) O(n⊂ 3
) ⊂ O(2n
)
Các thuật toán với thời gian chạy có cấp hàm mũ thì tốc
độ rất chậm.
Các thuật toán với thời gian chạy có cấp hàm đa thức được
chấp nhận

 Ðộ phức tạp của chương trình có gọi chương trình con
không đệ qui
 Nếu chúng ta có một chương trình với các chương trình con không
đệ quy, để tính thời gian thực hiện của chương trình, trước hết
chúng ta tính thời gian thực hiện của các chương trình con không
gọi các chương trình con khác.
 Sau đó chúng ta tính thời gian thực hiện của các chương trình con
chỉ gọi các chương trình con mà thời gian thực hiện của chúng đã
được tính.
 Chúng ta tiếp tục quá trình đánh giá thời gian thực hiện của mỗi
chương trình con sau khi thời gian thực hiện của tất cả các chương
trình con mà nó gọi đã được đánh giá.
 Cuối cùng ta tính thời gian cho chương trình chính.

 PHÂN TÍCH CÁC CHƯƠNG TRÌNH ÐỆ QUY.
• Với các chương trình có gọi các chương trình con đệ quy, ta không
thể áp dụng cách tính như vừa trình bày ở trên bởi vì một chương
trình đệ quy sẽ gọi chính bản thân nó.
• Với các chương trình đệ quy, trước hết ta cần thành lập các phương
trình đệ quy, sau đó giải phương trình đệ quy, nghiệm của phương
trình đệ quy sẽ là thời gian thực hiện của chương trình đệ quy.

 Thành Lập Phương Trình Đệ Quy.
 Phương trình đệ quy là một phương trình biểu diễn mối liên hệ giữa T(n) và
T(k), trong đó T(n) là thời gian thực hiện chương trình với kích thước dữ
liệu nhập là n, T(k) thời gian thực hiện chương trình với kích thước dữ liệu
nhập là k, với k < n. Ðể thành lập được phương trình đệ quy, ta phải căn cứ
vào chương trình đệ quy.
 Thông thường một chương trình đệ quy để giải bài toán kích thước n, phải
có ít nhất một trường hợp dừng ứng với một n cụ thể và lời gọi đệ quy để
giải bài toán kích thước k (k<n).
 Để thành lập phương trình đệ quy, ta gọi T(n) là thời gian để giải bài toán
kích thước n, ta có T(k) là thời gian để giải bài toán kích thước k. Khi đệ
quy dừng, ta phải xem xét khi đó chương trình làm gì và tốn hết bao nhiêu
thời gian, chẳng hạn thời gian này là c(n). Khi đệ quy chưa dừng thì phải
xét xem có bao nhiêu lời gọi đệ quy với kích thước k ta sẽ có bấy nhiêu
T(k). Ngoài ra ta còn phải xem xét đến thời gian để phân chia bài toán và
tổng hợp các lời giải, chẳng hạn thời gian này là d(n).

 Dạng tổng quát của một phương trình đệ quy sẽ là:
Trong đó C(n) là thời gian thực hiện chương trình ứng với trường hợp đệ
quy dừng. F(T(k)) là một đa thức của các T(k). d(n) là thời gian để
phân chia bài toán và tổng hợp các kết quả.

 Có bốn phương pháp giải phương trình đệ quy:
 Phương pháp truy hồi
 Phương pháp đoán nghiệm.
 Phương pháp phương trình đặc trưng
 Lời giải tổng quát của một lớp các phương trình đệ quy.

 Phương pháp truy hồi:
 Dùng đệ quy để thay thế bất kỳ T(m) với m < n vào phía
phải của phương trình cho đến khi tất cả T(m) với m > 1
được thay thế bởi biểu thức của các T(1) hoặc T(0). Vì
T(1) và T(0) luôn là hằng số nên chúng ta có công thức
của T(n) chứa các số hạng chỉ liên quan đến n và các
hằng số. Từ công thức đó ta suy ra T(n).

 Phương pháp đoán nghiệm.
 Ta đoán một nghiệm f(n) và dùng chứng minh quy nạp
để chứng tỏ rằng T(n) ≤ f(n) với mọi n.
 Thông thường f(n) là một trong các hàm quen thuộc như
logn, n, nlogn, n2
, n3
, 2n
, n!, nn
.
 Ðôi khi chỉ đoán dạng của f(n) trong đó có một vài tham
số chưa xác định (chẳng hạn f(n) = an2
với a chưa xác
định) và trong quá trình chứng minh quy nạp ta sẽ suy
diễn ra giá trị thích hợp của các tham số.

 Phương pháp phương trình đặc trưng.
 Phương trình truy hồi tuyến tính thuần nhất với các hệ số
không đổi.
Xét phương trình dạng
a0tn + a1tn-1+...+aktn-k = 0
Ở đó ti là các ẩn số, với i=0,...,n-k
Cách giải: áp dụng phương pháp dùng phương trình đặc
trưng
Bằng cách đặc tn = λn
Khi đó ta có phương trình đặc trưng là
a0λk
+ a1λk-1
+...+ ak-1λ + ak = 0

 Phương pháp phương trình đặc trưng.
 Phương trình truy hồi tuyến tính không thuần nhất với
các hệ số không đổi
Xét phương trình dạng
a0tn + a1tn-1+...+aktn-k = bn
p(n)
Với b là hằng số, p là đa thức bậc d theo n
Biến đổi đa thức không thuần nhất về thuần nhất hoặc
giải nó

 Lời giải tổng quát của một lớp các phương trình đệ
quy:
 Khi thiết kế các giải thuật, người ta thường vận dụng phương
pháp chia để trị. Ở đây có thể trình bày tóm tắt phương pháp
như sau:
 Ðể giải một bài toán kích thước n, ta chia bài toán đã cho thành a bài
toán con, mỗi bài toán con có kích thước n/b. Giải các bài toán con
này và tổng hợp kết quả lại để được kết quả của bài toán đã cho. Với
các bài toán con chúng ta cũng sẽ áp dụng phương pháp đó để tiếp tục
chia nhỏ ra nữa cho đến các bài toán con kích thước 1. Kĩ thuật này sẽ
dẫn chúng ta đến một giải thuật đệ quy.
 Giả thiết rằng mỗi bài toán con kích thước 1 lấy một đơn vị thời gian
và thời gian để chia bài toán kích thước n thành các bài toán con kích
thước n/b và tổng hợp kết quả từ các bài toán con để được lời giải của
bài toán ban đầu là d(n).

quy:
 Tất cả các giải thuật đệ quy như trên đều có thể thành lập một phương trinh
đệ quy tổng quát, chung cho lớp các bài toán ấy.
 Nếu gọi T(n) là thời gian để giải bài toán kích thước n thì T(n/b) là thời
gian để giải bài toán con kích thước n/b.
 Khi n = 1 theo giả thiết trên thì thời gian giải bài toán kích thước 1 là 1 đơn
vị, tức là T(1) = 1. Khi n lớn hơn 1, ta phải giải đệ quy a bài toán con kích
thước n/b, mỗi bài toán con tốn T(n/b) nên thời gian cho a lời giải đệ quy
này là aT(n/b).
 Ngoài ra ta còn phải tốn thời gian để phân chia bài toán và tổng hợp các kết
quả, thời gian này theo giả thiết trên là d(n). Vậy ta có phương trình đệ quy:

quy:
 Ta sử dụng phương pháp truy hồi để giải phương trình này. Khi n > 1 ta có
= … =
 Giả sử n = bk
, quá trình suy rộng trên sẽ kết thúc khi i = k.
 Khi đó ta được
 Thay vào trên ta có:
 Giải phương trình trên bằng cách sử dụng hàm tiến triển, nghiệm thần nhuất
và nghiệm riêng.

 Ứng dụng của các thuật toán máy học trong phân
tích dự báo.
 TỔNG QUAN LÝ THUYẾT VÀ MÔ HÌNH CÁC PHƯƠNG
PHÁP DỰ BÁO.
 Các loại phương pháp dự báo:
Dự báo điểm và dự báo khoảng.
Phương pháp định tính và định lượng
Dự báo ngắn hạn (<3 tháng), dự báo trung hạn (6tháng-
2năm), dự báo dài hạn (>2 năm)

 Phương pháp định tính.
 Phương pháp chuyên gia: phương pháp chuyên gia là phương
pháp dự báo mà kết quả là các "thông số" do các chuyên gia đưa ra.
 Phương pháp Delphi: tổ chức phối hợp các loại trưng cầu và xử lý
ý kiến chuyên gia.
 Phương pháp định lượng.
 Phương pháp chuỗi thời gian: dựa trên phân tích chuỗi quan sát
của một biến duy nhất theo biến số độc lập là thời gian.
 Mô hình nhân quả: giả định biến số dự báo có thể được giải thích
bởi hình vi của những biến số kinh tế khác.

 Ứng Dụng Các Mô Hình Dự Báo Của Máy Học.
 Chương Trình Ứng Dụng Hệ Thống Mạng RFNNs.
 Chương Trình Ứng Dụng Hệ Thống Mạng RBFNNs.
 Chương Trình Ứng Dụng Hệ Thống Mạng Nơrôn Lan Truyền
Ngược (FNN).
 Chương Trình Ứng Dụng Hệ luật mờ (SAM).
 Chương Trình Ứng Dụng Mạng Nơ rôn dạng Lan Truyền
Ngược và thuật toán di truyền vào phân tích dự báo.
Các chương trình ứng dụng mô hình mạng nơ rôn mờ hồi quy, sử dụng
file dữ liệu huấn luyện, thử nghiệm và dự báo dạng văn bản (test).
Tham khảo file: Predict_Analysis.pdf

 Ưng dụng thuật giải LpageRank và mạng nơrôn
lan truyền ngược vào công cụ tìm kiếm.
 Mô hình tìm kiếm thông tin bằng LPageRank và mạng
Nơron

 Mô hình tìm kiếm có thể gom lại gồm hai thành phần chính:
một thành phần chạy trực tuyến trên web (online) dùng để
tương tác với người dùng, nhận và xử lý câu truy vấn, một
thành phần chạy không trực tuyến (offline) dùng để xử lý
web log, xử lý tập từ khóa trên trang, xử lý gán trọng số cho
trang web, xử lý gom nhóm session và huấn luyện mạng.
 Để quá trình tìm kiếm của người dùng ít tốn thời gian và tài
nguyên xử lý, toàn bộ quá trình tính toán và tiền xử lý được
thi hành trước trên máy chủ, thành phần trực tuyến chỉ tính
toán lại một phần kết quả do phụ thuộc vào câu truy vấn của
người dùng đồng thời tổng hợp các kết quả mà thành phần
không trực tuyến gởi đến để tối ưu kết quả tìm kiếm.

 Ứng dụng mạng neural network fuzzy Artmap kết hợp
cùng Ontology thu thập dữ liệu trong công cụ tìm kiếm.
 Mô hình này gồm các thành phần chính là Web Spider,
LogMiner, Ontology Building, SearchEngine.

 Web Spider
 Thành phần Web Spider trong hệ thống thực hiện hai chức năng: (a)
khởi tạo đồ thị liên kết cho website và (b) thu thập các trang HTML
cho mỗi trang và đánh chỉ mục cho các trang HTML đó.
 Log Miner.
 Thành phần Log Miner trong hệ thống cũng thực hiện nhiệm vụ: (a)
Xóa tất cả những thông tin không thích hợp, (b) phân tích phiên
truy cập, (c) hoàn thành xây dựng đồ thị xác suất cho website và (d)
tính LPageRank.
 Webpage Classifier.
 Thành phần Webpage Classifier thực hiện: (a) tính toán mỗi giá trị
đánh giá tiêu chuẩn trang web và (b) những giá trị này sẽ làm đầu
vào và được phân lớp bởi mạng fuzzy ARTMAP.

 Ontology Building.
 Việc xây dựng Ontology được thực hiện bởi thành phần Ontology
Building. Đây là một tiến trình xây dựng cơ sở tri thức cho công cụ
tìm kiếm, bao gồm thêm vào những mẫu mới của khái niệm và quan
hệ vào Ontology.
 Search Engine.
 Thành phần Web Spider, Log Miner, Webpage Classifier của công
cụ tìm kiếm làm việc off-line, chuẩn bị dữ liệu cho on-line sử dụng.
Search Engine là thành phần on-line của công cụ tìm kiếm, có trách
nhiệm nhận truy vấn từ người dùng, phân tích ngữ pháp và chuyển
sang biểu diễn như vector của những trang web, và tiến hành nhận
những trang web có độ thích hợp cao so với truy vấn.

 Ứng dụng xây dựng các thành phần của chương trình thu thập các thông
tin liên quan đến lĩnh vực công nghệ thông tin trên Internet gồm ngôn
ngữ tiếng Anh và tiếng Việt, sau đó tiếp tục phân loại các thông tin này
vào các môn học cần thiết.
 Mô hình thực hiện của hệ thống rút trích và phân lớp được mô tả như
sau:

 Module rút trích thông tin bằng phương pháp CRFs.

 Module rút trích dữ liệu bằng phương pháp SVM.

 Module rút trích thông tin bằng phương pháp CRFs-SVM.

 Module phân lớp văn bản với SVM-FSVM.

 Module phân lớp văn bản với Naïve Bayes.

May hoc 012012

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to May hoc 012012

Similar to May hoc 012012 (20)

May hoc 012012