SlideShare a Scribd company logo
1 of 14
Download to read offline
Mục lục
2
MỞ ĐẦU
Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi
Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977.
Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống
kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông
thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và
dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không
quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô
hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu
quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm
ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.)
Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp
(likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn
đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm
ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình
đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại .
Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số
trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan
sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán
k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần
của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất
Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng
hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô
hình xác suất cho các đối tượng dữ liệu.
3
CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ
1.1 .Hàm logarit
Cho a là một số dương khác 1 và b là một số dương, số thực α thỏa mãn aα
= b
được gọi là lôgarit cơ số a của b và kí hiệu loga(b).
1.2 .Công thức xác suất
Xác suất là các số trong khoảng [0,1], được gán tương ứng với một biến cố mà
khả năng xảy ra hoặc không xảy ra là ngẫu nhiên. Kí hiệu: P(Z)
Công thức sử dụng: P(A|B)= P(A). P(B/A)/ P(B)
1.3 .Entropy thông tin
Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự
kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín
hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
1.4 .Gom cụm dữ liệu
Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta
vẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân
loại đất đai, phân loại tài sản, phân loại sách trong thư viện….
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm. Các đối tượng trong
cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác.
Mục tiêu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối
tượng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng tương tự nhau
trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng
còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Quá trình gom cụm dữ liệu
Các yêu cầu tiêu biểu về việc gom cụm dữ liệu
4
Khả năng co giãn về tập dữ liệu (scalability).
Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes).
Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape).
Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain
knowledge for input parameters).
Khả năng xử lý dữ liệu có nhiễu (noisy data).
Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental
clustering and insensitivity to the order of input records).
Khả năng xử lý dữ liệu đa chiều (high dimensionality).
Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering).
Khả diễn và khả dụng (interpretability and usability).
Phân loại các phương pháp gom cụm dữ liệu tiêu biểu.
Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí
nào đó.
Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu
chí nào đó.
Dựa trên mật độ (density-based): dựa trên connectivity and density functions.
Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.
Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm;
sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.
CHƯƠNG 2: NỘI DUNG THUẬT TOÁN
2.1.Khái niệm:
Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum
Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng
các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương
thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành
phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai
bước:
5
Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan
sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách
sử dụng kì vọng có điều kiện.
Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu
ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu
ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng
lặp.
Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa
phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa
phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc
vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng
tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có
hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá
trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất.
Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình
phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại
toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi
sử dụng mô hình phức tạp hơn.
Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả
nếu dữ liệu có tính phân cụm cao.
2.2.Chi tiết thuật toán EM
Thuật toán ước lượng cực đại hay gọi là thuật toán EM là kỹ thuật phổ biến để
tìm giải pháp khả năng cực đại cho mô hình xác suất có biến ẩn. Ở đây chúng tôi đưa
ra các xử lý rất chung của thuật toán EM và trong quá trình chứng minh thuật toán EM
có tính heuristic tại mục 3.2.1 và 3.2.2 đối với hỗn hợp Gaussian thực hiện tối đa hóa
hàm khả năng.
Xét một mô hình xác suất trong đó chúng ta gọi tất cả các các biến được quan sát là X
và tất cả các biến tiềm ẩn là Z. Các phân phối p (X, Z | θ) bị chi phối bởi một tập hợp
các tham số ký hiệu là θ. Mục tiêu của chúng tôi là tối đa hóa hàm khả năng được cho
bởi:
6
P (X | θ)= Σz P(X, Z | θ) (1)
Ở đây chúng ta giả sử Z là rời rạc, tương tự với Z liên tục hoặc là tập các biến
rời rạc và liên tục, với phép tổng được thay thế bởi phép hội. Chúng ta sẽ giả sử tối ưu
hóa trực tiếp của P (X | θ) là khó khăn, nhưng tối ưu hóa hàm khả năng của dữ liệu đấy
đủ(X, Z | θ) là dễ dàng hơn. Tiếp theo, chúng tôi giới thiệu một phân phối q(Z) được
xác định qua các biến ẩn, và chúng tôi quan sát thấy rằng, đối với bất kỳ sự lựa chọn
của q (Z), có sự khai triển sau:
ln P(X| θ)= L(q, θ) + KL(q||p) (2)
Trong đó:
L(q, θ) = ∑z q(Z) ln { } (3)
KL(q||p) = -∑z q(Z) ln { } (4)
Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback-
Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln
p (X | θ)
Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ.
Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý
rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi
7
KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai
triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho
ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5)
mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ).
Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân
phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q||
p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q,
θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh
hoạ trong hình 1a.
Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải
pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật
toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị
hiện tại của véc tơ tham số là θold
. Trong bước E, cận bé hơn L (q, θold
) được tối đa hóa
đối với q (Z) trong khi đang cố định θold
. Các giải pháp cho vấn đề tối đa hóa này được
dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θold
) không phụ
thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θold
) sẽ xảy ra khi không có phân kỳ
Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X,
θold
).
8
Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập
bằng phân phối hậu nghiệm cho các tham số hiện tại θold
, dẫn đến cận dưới thấp
hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ.
Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa
hóa đối với θ để đưa đến giá trị mới θnew
. Điều này sẽ tăng L (trừ khi nó đã được tối đa
một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q
được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị
mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu
nghiệm mới p (Z | X, θnew
), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng
trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện
trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θold
) vào (3), chúng tôi thấy
rằng, sau bước E, ràng buộc có dạng:
L(q,) = ∑z p(Z|X, θold
) ln p(Z|X, θ) - ∑z p(Z|X, θold
) ln p(Z|X, θold
)
= Q(θ, θold
) + const (6)
Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập
với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood
với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian.
Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối
kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một
bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu
không đầy đủ p(X | θ) tương ứng.
9
Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định
và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θnew
Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm
log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá
trị tham số mới.
Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian
của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ
của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại
hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θold
, và trong bước E đầu tiên
chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít
hơn L (θ, θold
), có giá trị bằng log likelihood tại θold
như được hiển thị bằng các đường
cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θnew
lớn hơn
θold
. Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θnew
như được hiển
thị bằng các đường cong màu xanh lá cây.
Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ
liệu điểm (xn) trong khi Z sẽ gồm N biến tiềm ẩn (zn) tương ứng, trong đó n = 1 ,..., N.
Từ giả định độc lập, chúng tôi có p(X, Z) =∏n(xn, zn), từ đó chúng ta có p(X) =∏n(xn).
Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E
có dạng:
10
p(Z|X, θ) ( xn, zn| θ)
p(Z|X, θ) = = = ( xn, zn| θ) (7)
∑z p(X,Z| θ) ∑z( xn, zn| θ)
Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó
là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu xn cụ thể chỉ phụ
thuộc vào giá trị của xn và trên các tham số θ của những thành phần hỗn hợp, không
phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M
theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi
các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn
không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối
hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua
các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P
(θ, X) / P (X) và như vậy:
ln p(θ| X) = ln p(θ, X)- ln p(X) (8)
Sử dụng các khai triển (2), chúng ta có:
ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X)
L(q, θ) + ln p(θ)- ln p(X) (9)
Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q
và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM
chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các
ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm
hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để
thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là
bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai
phần mở rộng khả năng của thuật toán EM, như sau.
Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có
thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán
GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối
đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến
11
lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước
M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện,
hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M
(Meng và Rubin, 1993). Ví dụ, các tham số có thể được phân chia thành các nhóm, và
bước M được chia thành nhiều bước trong đó bao gồm việc tối ưu hóa một trong
những tập con với phần còn lại của tổ chức cố định. Chúng tôi tương tự như vậy có thể
khái quát bước E của các thuật toán EM bằng cách thực hiện một một phần, việc tối ưu
hóa của L (q, θ) đối với q (Z) (Neal và Hinton, 1999). Như chúng ta đã thấy, đối với
bất kỳ giá trị nhất định của θ có một tối đa duy nhất L (q, θ) đối với q (Z) tương ứng
với phân phối hậu nghiệm q θ(Z) = p (Z | X, θ) và cho rằng sự lựa chọn của q (Z)
những ràng buộc L (q, θ) bằng với hàm log likelihood ln p (X | θ). Sau đó thuật toán
hội tụ khi tối đa hóa L (q, θ) sẽ tìm thấy một giá trị của θ mà tối đa hóa hàm log
likelihood ln (X | θ). Hãy xem xét trường hợp của N điểm dữ liệu độc lập x1,..., xn với
tương ứng các biến tiềm ẩn z1,..., zn. Trong bước E, thay vì tính toán lại cho tất cả các
điểm dữ liệu, chúng tôi chỉ cần đánh giá lại ảnh hưởng cho một điểm dữ liệu. Nó có
thể xuất hiện trong M bước tiếp theo sẽ đòi hỏi tính toán liên quan đến ảnh hưởng cho
tất cả các điểm dữ liệu. Xem xét ví dụ, trường hợp của một hỗn hợp Gaussian, và giả
sử chúng tôi thực hiện một cập nhật cho m điểm dữ liệu, trong đó các giá trị của các
trách nhiệm được ký hiệu là γold
(zmk) và γnew
(zmk). Trong bước M, các số liệu thống kê
đầy đủ yêu cầu có thể được cập nhật từng bước. Ta được:
(γnew
(zmk) - γnew
(zmk) )
k
new
= k
old
+ (xm - k
old
) (10)
Nk
new
Và
Nk
new
= Nk
old
+ γnew
(zmk) – γold
(zmk) (11)
Các kết quả tương tự cho covariant và các hệ số trộn.
Vì vậy, cả hai bước E và M có thời gian cố định độc lập với tổng số điểm dữ
liệu. Bởi vì các tham số được sửa đổi sau mỗi điểm dữ liệu, chứ không phải chờ đợi
12
cho đến sau khi toàn bộ dữ liệu được xử lý, sự hội tụ có thể nhanh hơn phiên bản cũ.
Mỗi bước E hoặc M tăng giá trị của L (q, θ) và, như chúng tôi đã thấy ở trên, nếu các
thuật toán hội tụ đến một điểm tối đa của L (q, θ) (cục bộ hoặc toàn cục), điều này sẽ
tương ứng với đến một tối đa (cục bộ hoặc toàn cục) của hàm log likelihood ln p(X |
θ).
2.3.Ví dụ: Thí nghiệm tung đồng xu
Chúng ta cùng tung 2 đồng xu đồng chất lần lượt là A và B. Lần lượt gọi θA và
θB là xác suất xuất hiện số lần mặt ngửa (H) của mỗi đồng xu. Mục tiêu của chúng ta
là ước tính θ =( θA ,θB ) bằng cách: ngẫu nhiên chọn một trong hai đồng tiền (với xác
suất bằng nhau), và thực hiện tung đồng xu mười lần độc lập với các đồng tiền được
lựa chọn. Ta thực hiện năm lần như thế. Như vậy, toàn bộ thủ tục liên quan đến tổng
cộng 50 tung đồng xu.
Hình 2: Thông số ước tính số liệu đầy đủ và không đầy đủ
13
Hình a. Khả năng ước lượng tối đa.Với mỗi một bộ sau khi tung 10 lần thì khả năng
ước lượng tối đa số lần sấp, ngửa của mỗi đồng xu A và B được tính riêng
Hình b. Tối đa hóa kì vọng.
Cụ thể:
Bước 1: Ước lượng tham số của đồng xu A và B lần lượt là θA =0,6 ; θB =0,5
Bước 2: Tại bước E ta sử dụng công thức xác suất thống kê:
P(A/B)=(P(A). P(B/A))/ P(B)
Tải bản FULL (file word 26 trang): bit.ly/2Ywib4t
Dự phòng: fb.com/KhoTaiLieuAZ
14
Ta lần lượt gọi:
Số lần tung là x=(x1, x2, x3, x4, x5) trong đó xi ∈{0,1…10}
Số lần tung các loại đồng xu là z=( z1 ,z2 ,z3 ,z4 ,z5 ) trong đó zi ∈{A,B} (z là một biến
ẩn hay là yếu tố tiềm ẩn). Như vậy, ta có:
Tính toán tương tự ta được
P(z2=A |x2 =9)= 0,8 P(z2=B |x2 =1)= 0,2
P(z3=A |x3 =8)=0,73 P(z2=B |x2 =2)=0,27
P(z4=A |x4 =4)=0,35 P(z2=B |x2 =6)=0,65
P(z5=A |x5 =7)=0,65 P(z2=B |x2 =3)=0,35
P(x1 =5| z1=A). P(z1=A)
P(z1=A |x1 =5) =
P(x1=5)
()5 5
. (
=
P(x1=5)
P(x1 =5| z1=B). P(z1=B)
P(z1=B |x1 =5) =
P(x1=5)
()5 5
. (
=
P(x1=5)
P(z1=A |x1 =5)
= 0,45
P(z1=A |x1 =5) + P(z1=B |x1 =5)
P(z1=B |x1 =5)
= 0,55
P(z1=A |x1 =5) + P(z1=B |x1 =5)
1432233

More Related Content

What's hot

Bài tập kiến trúc máy tính
Bài tập kiến trúc máy tínhBài tập kiến trúc máy tính
Bài tập kiến trúc máy tính
Ha Nguyen
 
20 deluyentapgiaitich1
20 deluyentapgiaitich120 deluyentapgiaitich1
20 deluyentapgiaitich1
Tran Anh
 
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phânPhương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
Hajunior9x
 
Hệ PhâN TáN
Hệ PhâN TáNHệ PhâN TáN
Hệ PhâN TáN
it
 

What's hot (20)

Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
Map reduce hdfs
Map reduce hdfsMap reduce hdfs
Map reduce hdfs
 
Chuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệChuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệ
 
Bài tập kiến trúc máy tính
Bài tập kiến trúc máy tínhBài tập kiến trúc máy tính
Bài tập kiến trúc máy tính
 
LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI
LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜILUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI
LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI
 
Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1
 
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên MatlabNhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
 
20 deluyentapgiaitich1
20 deluyentapgiaitich120 deluyentapgiaitich1
20 deluyentapgiaitich1
 
Hệ mật mã Elgamal
Hệ mật mã ElgamalHệ mật mã Elgamal
Hệ mật mã Elgamal
 
Bài 5: Các thuật toán sắp xếp và tìm kiếm cơ bản - Giáo trình FPT
Bài 5: Các thuật toán sắp xếp và tìm kiếm cơ bản - Giáo trình FPTBài 5: Các thuật toán sắp xếp và tìm kiếm cơ bản - Giáo trình FPT
Bài 5: Các thuật toán sắp xếp và tìm kiếm cơ bản - Giáo trình FPT
 
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phânPhương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
Phương pháp số và lập trình - Nội suy, Đạo hàm, Tích phân
 
Hệ PhâN TáN
Hệ PhâN TáNHệ PhâN TáN
Hệ PhâN TáN
 
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đĐề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
 
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTITKHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
 
Neo4j
Neo4jNeo4j
Neo4j
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
 
Giáo trình bảo mật thông tin
Giáo trình bảo mật thông tinGiáo trình bảo mật thông tin
Giáo trình bảo mật thông tin
 
tìm hiểu các lỗ hổng bảo mật
tìm hiểu các lỗ hổng bảo mậttìm hiểu các lỗ hổng bảo mật
tìm hiểu các lỗ hổng bảo mật
 
Mạng neuron, trí tuệ nhân tạo
Mạng neuron, trí tuệ nhân tạoMạng neuron, trí tuệ nhân tạo
Mạng neuron, trí tuệ nhân tạo
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 

Similar to Thuật toán EM demo

Mpp04 521-r1501 v
Mpp04 521-r1501 vMpp04 521-r1501 v
Mpp04 521-r1501 v
Trí Công
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
guest717ec2
 
Chap4 new (tran dai's conflicted copy 2013 04-02)
Chap4 new (tran dai's conflicted copy 2013 04-02)Chap4 new (tran dai's conflicted copy 2013 04-02)
Chap4 new (tran dai's conflicted copy 2013 04-02)
Loc Tran
 
Các phương pháp đếm nâng cao
Các phương pháp đếm nâng caoCác phương pháp đếm nâng cao
Các phương pháp đếm nâng cao
Thế Giới Tinh Hoa
 

Similar to Thuật toán EM demo (20)

Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
 
Đề tài: Thuật toán phân cụm dữ liệu mờ, HAY
Đề tài: Thuật toán phân cụm dữ liệu mờ, HAYĐề tài: Thuật toán phân cụm dữ liệu mờ, HAY
Đề tài: Thuật toán phân cụm dữ liệu mờ, HAY
 
Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
 
Dinh thi-huong
Dinh thi-huongDinh thi-huong
Dinh thi-huong
 
Luận văn: Chỉnh hóa nghiệm cho bài toán nhiệt và bài toán ELASTIC ngược
Luận văn: Chỉnh hóa nghiệm cho bài toán nhiệt và bài toán ELASTIC ngượcLuận văn: Chỉnh hóa nghiệm cho bài toán nhiệt và bài toán ELASTIC ngược
Luận văn: Chỉnh hóa nghiệm cho bài toán nhiệt và bài toán ELASTIC ngược
 
Mpp04 521-r1501 v
Mpp04 521-r1501 vMpp04 521-r1501 v
Mpp04 521-r1501 v
 
Chap7 new
Chap7 newChap7 new
Chap7 new
 
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏngSuy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
 
Toan a2 bai giang
Toan a2   bai giangToan a2   bai giang
Toan a2 bai giang
 
08 mat101 bai4_v2.3013101225
08 mat101 bai4_v2.301310122508 mat101 bai4_v2.3013101225
08 mat101 bai4_v2.3013101225
 
Chap4 new
Chap4 newChap4 new
Chap4 new
 
Chap4 new (tran dai's conflicted copy 2013 04-02)
Chap4 new (tran dai's conflicted copy 2013 04-02)Chap4 new (tran dai's conflicted copy 2013 04-02)
Chap4 new (tran dai's conflicted copy 2013 04-02)
 
Gtga trị
Gtga trịGtga trị
Gtga trị
 
QHTN_BaiSoan_V1_202105.pdf
QHTN_BaiSoan_V1_202105.pdfQHTN_BaiSoan_V1_202105.pdf
QHTN_BaiSoan_V1_202105.pdf
 
QHTN_BaiSoan_V1_202105 (1).pdf
QHTN_BaiSoan_V1_202105 (1).pdfQHTN_BaiSoan_V1_202105 (1).pdf
QHTN_BaiSoan_V1_202105 (1).pdf
 
Toan a2 bai giang
Toan a2   bai giangToan a2   bai giang
Toan a2 bai giang
 
Các phương pháp đếm nâng cao
Các phương pháp đếm nâng caoCác phương pháp đếm nâng cao
Các phương pháp đếm nâng cao
 
Hệ mật mã Mcelice
Hệ mật mã MceliceHệ mật mã Mcelice
Hệ mật mã Mcelice
 
Pca principal componentsanalysis
Pca principal componentsanalysisPca principal componentsanalysis
Pca principal componentsanalysis
 

More from nataliej4

More from nataliej4 (20)

đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155
 
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
 
Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279
 
Từ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc giaTừ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc gia
 
Công tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vươngCông tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vương
 
Bài giảng nghề giám đốc
Bài giảng nghề giám đốcBài giảng nghề giám đốc
Bài giảng nghề giám đốc
 
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán   tin họcđề Cương chương trình đào tạo trình độ trung cấp kế toán   tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin học
 
Giáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao độngGiáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao động
 
Lựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắnLựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắn
 
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
 
Sổ tay hướng dẫn khách thuê tòa nhà ree tower
Sổ tay hướng dẫn khách thuê   tòa nhà ree towerSổ tay hướng dẫn khách thuê   tòa nhà ree tower
Sổ tay hướng dẫn khách thuê tòa nhà ree tower
 
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
 
Bài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tậtBài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tật
 
đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864
 
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
 
Bài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùngBài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùng
 
Bài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanhBài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanh
 
Giới thiệu học máy – mô hình naïve bayes learning intro
Giới thiệu học máy – mô hình naïve bayes   learning introGiới thiệu học máy – mô hình naïve bayes   learning intro
Giới thiệu học máy – mô hình naïve bayes learning intro
 
Lý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắcLý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắc
 
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
 

Recently uploaded

bài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hànhbài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hành
dangdinhkien2k4
 
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
ChuThNgnFEFPLHN
 
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfSLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
hoangtuansinh1
 
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptxBài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
DungxPeach
 
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
ltbdieu
 

Recently uploaded (20)

xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdfxemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
 
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI KỸ NĂNG VIẾT ĐOẠN VĂN NGHỊ LUẬN XÃ HỘI 200 C...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI KỸ NĂNG VIẾT ĐOẠN VĂN NGHỊ LUẬN XÃ HỘI 200 C...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI KỸ NĂNG VIẾT ĐOẠN VĂN NGHỊ LUẬN XÃ HỘI 200 C...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI KỸ NĂNG VIẾT ĐOẠN VĂN NGHỊ LUẬN XÃ HỘI 200 C...
 
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
 
bài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hànhbài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hành
 
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
 
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
 
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
 
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfSLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
 
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng ĐồngGiới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
 
Access: Chuong III Thiet ke truy van Query.ppt
Access: Chuong III Thiet ke truy van Query.pptAccess: Chuong III Thiet ke truy van Query.ppt
Access: Chuong III Thiet ke truy van Query.ppt
 
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptxBài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
Bài tập nhóm Kỹ Năng Gỉai Quyết Tranh Chấp Lao Động (1).pptx
 
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
 
Kiến thức cơ bản về tư duy số - VTC Net Viet
Kiến thức cơ bản về tư duy số - VTC Net VietKiến thức cơ bản về tư duy số - VTC Net Viet
Kiến thức cơ bản về tư duy số - VTC Net Viet
 
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hộiTrắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
 
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
 
Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhàBài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
 
Giáo trình xây dựng thực đơn. Ths Hoang Ngoc Hien.pdf
Giáo trình xây dựng thực đơn. Ths Hoang Ngoc Hien.pdfGiáo trình xây dựng thực đơn. Ths Hoang Ngoc Hien.pdf
Giáo trình xây dựng thực đơn. Ths Hoang Ngoc Hien.pdf
 
Đề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
Đề thi tin học HK2 lớp 3 Chân Trời Sáng TạoĐề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
Đề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
 
bài thi bảo vệ nền tảng tư tưởng của Đảng.docx
bài thi bảo vệ nền tảng tư tưởng của Đảng.docxbài thi bảo vệ nền tảng tư tưởng của Đảng.docx
bài thi bảo vệ nền tảng tư tưởng của Đảng.docx
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 

Thuật toán EM demo

  • 2. 2 MỞ ĐẦU Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977. Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.) Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp (likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại . Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô hình xác suất cho các đối tượng dữ liệu.
  • 3. 3 CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ 1.1 .Hàm logarit Cho a là một số dương khác 1 và b là một số dương, số thực α thỏa mãn aα = b được gọi là lôgarit cơ số a của b và kí hiệu loga(b). 1.2 .Công thức xác suất Xác suất là các số trong khoảng [0,1], được gán tương ứng với một biến cố mà khả năng xảy ra hoặc không xảy ra là ngẫu nhiên. Kí hiệu: P(Z) Công thức sử dụng: P(A|B)= P(A). P(B/A)/ P(B) 1.3 .Entropy thông tin Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu. 1.4 .Gom cụm dữ liệu Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…. Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm. Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác. Mục tiêu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Quá trình gom cụm dữ liệu Các yêu cầu tiêu biểu về việc gom cụm dữ liệu
  • 4. 4 Khả năng co giãn về tập dữ liệu (scalability). Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes). Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape). Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters). Khả năng xử lý dữ liệu có nhiễu (noisy data). Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records). Khả năng xử lý dữ liệu đa chiều (high dimensionality). Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering). Khả diễn và khả dụng (interpretability and usability). Phân loại các phương pháp gom cụm dữ liệu tiêu biểu. Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó. Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó. Dựa trên mật độ (density-based): dựa trên connectivity and density functions. Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure. Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất. CHƯƠNG 2: NỘI DUNG THUẬT TOÁN 2.1.Khái niệm: Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai bước:
  • 5. 5 Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách sử dụng kì vọng có điều kiện. Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng lặp. Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất. Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi sử dụng mô hình phức tạp hơn. Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả nếu dữ liệu có tính phân cụm cao. 2.2.Chi tiết thuật toán EM Thuật toán ước lượng cực đại hay gọi là thuật toán EM là kỹ thuật phổ biến để tìm giải pháp khả năng cực đại cho mô hình xác suất có biến ẩn. Ở đây chúng tôi đưa ra các xử lý rất chung của thuật toán EM và trong quá trình chứng minh thuật toán EM có tính heuristic tại mục 3.2.1 và 3.2.2 đối với hỗn hợp Gaussian thực hiện tối đa hóa hàm khả năng. Xét một mô hình xác suất trong đó chúng ta gọi tất cả các các biến được quan sát là X và tất cả các biến tiềm ẩn là Z. Các phân phối p (X, Z | θ) bị chi phối bởi một tập hợp các tham số ký hiệu là θ. Mục tiêu của chúng tôi là tối đa hóa hàm khả năng được cho bởi:
  • 6. 6 P (X | θ)= Σz P(X, Z | θ) (1) Ở đây chúng ta giả sử Z là rời rạc, tương tự với Z liên tục hoặc là tập các biến rời rạc và liên tục, với phép tổng được thay thế bởi phép hội. Chúng ta sẽ giả sử tối ưu hóa trực tiếp của P (X | θ) là khó khăn, nhưng tối ưu hóa hàm khả năng của dữ liệu đấy đủ(X, Z | θ) là dễ dàng hơn. Tiếp theo, chúng tôi giới thiệu một phân phối q(Z) được xác định qua các biến ẩn, và chúng tôi quan sát thấy rằng, đối với bất kỳ sự lựa chọn của q (Z), có sự khai triển sau: ln P(X| θ)= L(q, θ) + KL(q||p) (2) Trong đó: L(q, θ) = ∑z q(Z) ln { } (3) KL(q||p) = -∑z q(Z) ln { } (4) Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback- Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln p (X | θ) Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ. Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi
  • 7. 7 KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5) mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ). Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q|| p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q, θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh hoạ trong hình 1a. Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị hiện tại của véc tơ tham số là θold . Trong bước E, cận bé hơn L (q, θold ) được tối đa hóa đối với q (Z) trong khi đang cố định θold . Các giải pháp cho vấn đề tối đa hóa này được dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θold ) không phụ thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θold ) sẽ xảy ra khi không có phân kỳ Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X, θold ).
  • 8. 8 Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập bằng phân phối hậu nghiệm cho các tham số hiện tại θold , dẫn đến cận dưới thấp hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ. Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa hóa đối với θ để đưa đến giá trị mới θnew . Điều này sẽ tăng L (trừ khi nó đã được tối đa một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu nghiệm mới p (Z | X, θnew ), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θold ) vào (3), chúng tôi thấy rằng, sau bước E, ràng buộc có dạng: L(q,) = ∑z p(Z|X, θold ) ln p(Z|X, θ) - ∑z p(Z|X, θold ) ln p(Z|X, θold ) = Q(θ, θold ) + const (6) Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian. Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu không đầy đủ p(X | θ) tương ứng.
  • 9. 9 Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θnew Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá trị tham số mới. Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θold , và trong bước E đầu tiên chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít hơn L (θ, θold ), có giá trị bằng log likelihood tại θold như được hiển thị bằng các đường cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θnew lớn hơn θold . Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θnew như được hiển thị bằng các đường cong màu xanh lá cây. Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ liệu điểm (xn) trong khi Z sẽ gồm N biến tiềm ẩn (zn) tương ứng, trong đó n = 1 ,..., N. Từ giả định độc lập, chúng tôi có p(X, Z) =∏n(xn, zn), từ đó chúng ta có p(X) =∏n(xn). Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E có dạng:
  • 10. 10 p(Z|X, θ) ( xn, zn| θ) p(Z|X, θ) = = = ( xn, zn| θ) (7) ∑z p(X,Z| θ) ∑z( xn, zn| θ) Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu xn cụ thể chỉ phụ thuộc vào giá trị của xn và trên các tham số θ của những thành phần hỗn hợp, không phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P (θ, X) / P (X) và như vậy: ln p(θ| X) = ln p(θ, X)- ln p(X) (8) Sử dụng các khai triển (2), chúng ta có: ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X) L(q, θ) + ln p(θ)- ln p(X) (9) Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai phần mở rộng khả năng của thuật toán EM, như sau. Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến
  • 11. 11 lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện, hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M (Meng và Rubin, 1993). Ví dụ, các tham số có thể được phân chia thành các nhóm, và bước M được chia thành nhiều bước trong đó bao gồm việc tối ưu hóa một trong những tập con với phần còn lại của tổ chức cố định. Chúng tôi tương tự như vậy có thể khái quát bước E của các thuật toán EM bằng cách thực hiện một một phần, việc tối ưu hóa của L (q, θ) đối với q (Z) (Neal và Hinton, 1999). Như chúng ta đã thấy, đối với bất kỳ giá trị nhất định của θ có một tối đa duy nhất L (q, θ) đối với q (Z) tương ứng với phân phối hậu nghiệm q θ(Z) = p (Z | X, θ) và cho rằng sự lựa chọn của q (Z) những ràng buộc L (q, θ) bằng với hàm log likelihood ln p (X | θ). Sau đó thuật toán hội tụ khi tối đa hóa L (q, θ) sẽ tìm thấy một giá trị của θ mà tối đa hóa hàm log likelihood ln (X | θ). Hãy xem xét trường hợp của N điểm dữ liệu độc lập x1,..., xn với tương ứng các biến tiềm ẩn z1,..., zn. Trong bước E, thay vì tính toán lại cho tất cả các điểm dữ liệu, chúng tôi chỉ cần đánh giá lại ảnh hưởng cho một điểm dữ liệu. Nó có thể xuất hiện trong M bước tiếp theo sẽ đòi hỏi tính toán liên quan đến ảnh hưởng cho tất cả các điểm dữ liệu. Xem xét ví dụ, trường hợp của một hỗn hợp Gaussian, và giả sử chúng tôi thực hiện một cập nhật cho m điểm dữ liệu, trong đó các giá trị của các trách nhiệm được ký hiệu là γold (zmk) và γnew (zmk). Trong bước M, các số liệu thống kê đầy đủ yêu cầu có thể được cập nhật từng bước. Ta được: (γnew (zmk) - γnew (zmk) ) k new = k old + (xm - k old ) (10) Nk new Và Nk new = Nk old + γnew (zmk) – γold (zmk) (11) Các kết quả tương tự cho covariant và các hệ số trộn. Vì vậy, cả hai bước E và M có thời gian cố định độc lập với tổng số điểm dữ liệu. Bởi vì các tham số được sửa đổi sau mỗi điểm dữ liệu, chứ không phải chờ đợi
  • 12. 12 cho đến sau khi toàn bộ dữ liệu được xử lý, sự hội tụ có thể nhanh hơn phiên bản cũ. Mỗi bước E hoặc M tăng giá trị của L (q, θ) và, như chúng tôi đã thấy ở trên, nếu các thuật toán hội tụ đến một điểm tối đa của L (q, θ) (cục bộ hoặc toàn cục), điều này sẽ tương ứng với đến một tối đa (cục bộ hoặc toàn cục) của hàm log likelihood ln p(X | θ). 2.3.Ví dụ: Thí nghiệm tung đồng xu Chúng ta cùng tung 2 đồng xu đồng chất lần lượt là A và B. Lần lượt gọi θA và θB là xác suất xuất hiện số lần mặt ngửa (H) của mỗi đồng xu. Mục tiêu của chúng ta là ước tính θ =( θA ,θB ) bằng cách: ngẫu nhiên chọn một trong hai đồng tiền (với xác suất bằng nhau), và thực hiện tung đồng xu mười lần độc lập với các đồng tiền được lựa chọn. Ta thực hiện năm lần như thế. Như vậy, toàn bộ thủ tục liên quan đến tổng cộng 50 tung đồng xu. Hình 2: Thông số ước tính số liệu đầy đủ và không đầy đủ
  • 13. 13 Hình a. Khả năng ước lượng tối đa.Với mỗi một bộ sau khi tung 10 lần thì khả năng ước lượng tối đa số lần sấp, ngửa của mỗi đồng xu A và B được tính riêng Hình b. Tối đa hóa kì vọng. Cụ thể: Bước 1: Ước lượng tham số của đồng xu A và B lần lượt là θA =0,6 ; θB =0,5 Bước 2: Tại bước E ta sử dụng công thức xác suất thống kê: P(A/B)=(P(A). P(B/A))/ P(B) Tải bản FULL (file word 26 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ
  • 14. 14 Ta lần lượt gọi: Số lần tung là x=(x1, x2, x3, x4, x5) trong đó xi ∈{0,1…10} Số lần tung các loại đồng xu là z=( z1 ,z2 ,z3 ,z4 ,z5 ) trong đó zi ∈{A,B} (z là một biến ẩn hay là yếu tố tiềm ẩn). Như vậy, ta có: Tính toán tương tự ta được P(z2=A |x2 =9)= 0,8 P(z2=B |x2 =1)= 0,2 P(z3=A |x3 =8)=0,73 P(z2=B |x2 =2)=0,27 P(z4=A |x4 =4)=0,35 P(z2=B |x2 =6)=0,65 P(z5=A |x5 =7)=0,65 P(z2=B |x2 =3)=0,35 P(x1 =5| z1=A). P(z1=A) P(z1=A |x1 =5) = P(x1=5) ()5 5 . ( = P(x1=5) P(x1 =5| z1=B). P(z1=B) P(z1=B |x1 =5) = P(x1=5) ()5 5 . ( = P(x1=5) P(z1=A |x1 =5) = 0,45 P(z1=A |x1 =5) + P(z1=B |x1 =5) P(z1=B |x1 =5) = 0,55 P(z1=A |x1 =5) + P(z1=B |x1 =5) 1432233