Cross-entropy method

Cơ sở thuật toán trong Trí tuệ nhân tạo

Phương pháp cross-entropy
Phân loại
Là một phương pháp tối ưu xác suất (probabilistic optimization) thuộc lĩnh vực tối ưu ngẫu nhiên
(stochastic optimization). Nó tương tự như các phương pháp tối ưu ngẫu nhiên khác và các thuật toán
như Luyện thép và giống các thuật toán ước lượng phân bố như Probabilistic Incremental Learning
Algorithm.

Cảm hứng
Cross-entropy method (CEM) không có nguồn cảm hứng nào mà được phát triển như là một kỹ thuật
ước lượng hiệu quả cho xác suất các sự kiện hiếm. Tên của nó bắt nguồn từ phương pháp cross-entropy
của Kullback-Leibler để đo lượng thông tin (bits) cần thiết để xác định một sự kiện từ một tập các xác
suất.

Chiến lược
Chiến lược của giải thuật là lấy mẫu không gian bài toán và xấp xỉ phân phối của các lời giải tốt. Có thể
đạt được điều này bằng các giả sử không gian thuật toán có một phân phối (chẳng hạn Gaussian), lấy
mẫu miền bài toán bằng cách tạo ra các lời giải ứng cử viên sử dụng phân phối và cập nhật phân phối
dựa vào các lời giải ứng cử viên tốt nhất được tìm thấy.

Nội dung
Để hiểu đầy đủ và chính xác nội dung của phương pháp cross-entropy, phần này đi ngược về quá khứ
để tìm hiểu cách cross-entropy được áp dụng trong xác suất thống kê rồi sau đó được chuyển sang áp
dụng cho tối ưu tổ hợp như thế nào.

Ví dụ đầu tiên
Chúng ta hãy cùng bắt đầu với một ví dụ nhỏ. Xem xét đồ thị ở Hình 1 với các biến ngẫu nhiên X1,...,
X5. Giả sử trọng số trên các cạnh độc lập với nhau và có phân phối hàm mũ với giá trị trung bình u1,...,
u5 tương ứng. Gọi X = (X1,..., X5) và u = (u1,... u5). Từ đây trở đi X in đậm là ký hiệu vec-tơ biến ngẫu
nhiên còn Xi in thường là ký hiệu thành phần của nó. Ký hiệu hàm mật độ xác suất của X là f( ∙ ; u), ta
có:

Gọi S(X) là tổng chiều dài của đường đi ngắn nhất từ nút A đến nút B. Chúng ta cần ước lượng bằng
cách mô phỏng

nghĩa là xác suất độ dài đường đi S(X) vượt quá số γ cho trước.

Hình 1: Đường đi ngắn nhất từ A đến B
Các đơn giản nhất để ước lượng là sử dụng mô phỏng Monte Carlo thô (Crude Monte Carlo - CMC).
Nghĩa là chúng ta tạo ra một bộ mẫu ngẫu nhiên X1,…, XN từ phân phối của X và sử dụng

như một ước lượng không lệch của . Tuy nhiên với γ lớn, xác suất thường rất nhỏ và CMC cần khối
lượng công việc lớn mới có thể mô phỏng được, nghĩa là N cần phải tăng lên rất lớn để ước lượng
chính xác . Một cách tốt hơn để mô phỏng là sử dụng lấy mẫu quan trọng (importance sampling - IS).
Giả sử g là một hàm mật độ xác suất khác sao cho g(x) = 0 => , ta có:

trong đó chỉ số dưới g có nghĩa kì vọng được tính theo g, được gọi là mật độ lấy mẫu quan trọng. Một
ước lượng không chệch của là

trong đó được gọi là ước lượng lấy mẫu quan trọng (importance sampling estimator) hoặc ước lượng
tỉ lệ khả năng (likelihood ratio estimator),
W(x) = f(x)/g(x)
được gọi là tỉ lệ khả năng (likelihood ratio – LR) và X1,…, XN là các mẫu ngẫu nhiên từ g hay nói cách
khác X1,…, XN là các vec-tơ ngẫu nhiên độc lập đồng phân phối với mật độ g. Trường hợp đặc biệt khi
không có “sự thay đổi phép đo”, nghĩa là g = f, ta có W = 1 và ước lượng LR rút về ước lượng CMC.
Nếu chọn g sao cho X1,…, X5 là độc lập và phân phối mũ với trung bình v1,…, v5 thì:

Trong trường hợp này “sư thay đổi phép đo” được xác định bởi vec-tơ tham số v = (v1,…, v5). Vấn đề
chính là chọn v như thế nào để cho kết quả chính xác nhất với ít công sức tính toán. Một trong những
mặt mạnh của CE trong ước lượng sự kiện hiếm là nó xác định/ước lượng tham số tối ưu một cách

nhanh chóng. Không đi sâu vào chi tiết, ta có thể đưa ra một khung thuật toán CE tương đối tổng quát
cho ước lượng sự kiện hiếm như sau:
1. Gán .
2. Sinh mẫu ngẫu nhiên X1,…, XN theo mật độ phân phối f( ∙ ; t-1).
Tính các giá trị S(Xi) cho mọi i
và sắp xếp chúng từ nhỏ đến lớn, S(1) ≤ S(2) ≤ … ≤ S(N). Gọi là điểm phân vị mẫu (1-ρ) của
các giá trị: nếu nó nhỏ hơn γ. Ngược lại, đặt = γ.
3. Sử dụng cùng bộ mẫu để tính với j = 1,…, n (=5),

4. Nếu = γ thì chuyển sang bước 5; nếu không đặt t = t+1 và chuyển sang bước 2.
5. Gọi T là bước lặp cuối cùng. Sinh mẫu X1,…, XN1 tương ứng với mật độ phân phối xác suất f( ∙ ;
T) và ước lượng qua phép ước lượng lấy mẫu quan trọng

1 cho thấy hiệu quả của phương pháp CE, sử dụng N = 1.000 và ρ = 0,1. Thời gian tính ra bảng
này chỉ dưới một giây.

1 Sự hội tụ của chuỗi .
Sử dụng các tham số ước lượng tối ưu , bước cuối cùng với
5 -5
N1 = 10 cho ta ước lượng 1,34 . 10 với sai sô tương đối ước lượng bằng 0,03. Quá trình mô phỏng
chạy trong 3 giây cài đặt trên Matlab với bộ xử lý Pentium III 500 MHz. Ngược lại, phương pháp CMC
với 107 mẫu chạy trong xấp xỉ 630 giây và 108 mẫu chạy trong khoảng 6350 giây với sai số không tốt
hơn.

Cross-entropy dùng trong ước lượng xác suất sự kiện hiếm
Ví dụ vừa trình bày cho phép ta hình dung về phương pháp cross-entropy, trong phần này chúng ta sẽ
tìm hiểu sâu hơn phương pháp entropy là gì ở dạng tổng quát của nó.
Gọi X = (X1,…, Xn) là một vec-tơ ngẫu nhiên nhận giá trị trong không gian . Gọi {f ( ∙ ; v)} là một họ
các hàm mật độ xác suất trên tuân theo độ đo . Ở đây v là (vec-tơ) tham số giá trị thực. Ta có:

với mọi hàm (đo được) H. Trong hầu hết (nếu không phải tất cả) các ứng dụng, là một độ đo đếm
hoặc Lebesgue. Trong phần sau để đơn giản chúng ta viết .
Gọi S là một hàm thực trên . Giả sử chúng ta quan tâm đến xác suất S(x) lớn hơn hoặc bằng một số
nguyên γ, theo f ( ∙ ; u). Xác suất này được viết như sau

Nếu xác suất này rất nhỏ, chẳng hạn nhỏ hơn 10-5, ta gọi {S(X) ≥ γ} là một sự kiện hiếm.
Một cách đơn giản để ước lượng là sử dụng ước lượng Monte Carlo thô. Tuy nhiên khi {S(X) ≥ γ} là
một sự kiện hiếm cần mất rất nhiều công mô phỏng để ước lượng được chính xác, nghĩa là với lỗi
tương đối nhỏ và khoảng tin cậy hẹp.
Một cách làm khác dựa trên lấy mẫu quan trọng: lấy một mẫu ngẫu nhiên X1,…, XN từ một hàm mật độ
mẫu quan trọng g trên và đánh giá bằng ước lượng LR:

Dễ thấy rằng cách tốt nhất để ước lượng là thay đổi phép đo với mật độ

Cụ thể, sử dụng phép biến đổi này ta có

với mọi i. Nói cách khác, ước lượng trên có độ lệch bằng không và chúng ta chỉ cần tạo ra N = 1 mẫu.
Rõ ràng khó khăn gặp phải là g* phụ thuộc vào tham số chưa biết . Hơn nữa, thông thường chọn g
trong họ mật độ {f ( ∙ ; v)} thuận tiện hơn các cách khác. Ý tưởng là chọn vec-tơ tham số, gọi là tham
số tham chiếu (đôi khi gọi là tham số nghiêng) v sao cho khoảng cách giữa g* và f ( ∙ ; v) là nhỏ nhất.
Một phép đo khoảng cách thuận tiện giữa hai mật độ g và h là khoảng cách Kullback-Leibler, cũng
được gọi là cross-entropy giữa g và h. Khoảng cách Kullback-Leibler được định nghĩa như sau:

Lưu ý rằng không phải “khoảng cách” theo nghĩa thông thường, chẳng hạn, không đối xứng.
Tối thiểu hoá khoảng cách Kullback-Leibler giữa g* và f ( ∙ ; v) tương đương với việc giải bài toán cực
đại hoá:

Áp dụng một số phép biến đổi và phép lấy mẫu quan trọng một lần nữa với sự thay đổi phép đo f ( ∙ ;
w) ta có:

với D được định nghĩa ngầm như ở trên và

là tỷ lệ khả năng tại x giữa f ( ∙ ; u) và f ( ∙ ; w). Lời giải cho bài toán trên là hệ phương trình sau:

với đạo hàm được lấy theo v.
Ý nghĩa của phương pháp này là lời giải của phương trình có thể được tính một cách giải tích.
Một chú ý quan trọng là phương pháp trên chỉ sử dụng được trong trường hợp xác suất của “sự kiện
đích” {S(X) ≥ γ} không qua nhỏ, chẳng hạn . Với xác suất của các sự kiện hiếm, hầu hết các
giá trị chỉ thị sẽ bằng không với N trung bình.
Thuật toán đa mức được sử dụng để vượt qua rào cản này. Ý tưởng là dựng một chuỗi các tham số
tham chiếu {vt, t ≥ 0} và một chuỗi mức {γt, t ≥ 1} và lặp với cả γt và vt.
Để khởi tạo ta chọn một số ρ không quá nhỏ, chẳng hạn ρ = 10-2 và gán v0 = u. Tiếp theo chọn γ1 (γ1 <
γ) sau cho với mật độ ban đầu f (x; u), xác suất ít nhất là ρ. Sau đó coi v1 là tham số
tham chiếu tối ưu để ước lượng và lặp lại hai bước trên lần lượt. Thuật toán được chia làm hai pha:
1. Cập nhật γt. Với một vt-1, gọi γt là một (1-ρ)-phân vị của S(X), nghĩa là:

với X ~ f ( ∙ ; vt-1).
Một ước lượng đơn giản của có thể tính được bằng cách sinh một mẫu ngẫu nhiên X1,…, XN từ f (
∙ ; vt-1), tính hiệu năng S(Xi) cho mọi i, sắp xếp từ nhỏ nhất đến lớn nhất: S(1) ≤ S(2) ≤ … ≤ S(N) và cuối
cùng đánh giá phân vị mẫu bằng

2. Cập nhật vt. Với và vt-1 cố định, tìm vt từ lời giải của

Bài toán ngẫu nhiên tương đương như sau: với và cố định, tính từ lời giải của

Tại bước lặp đầu tiên, bắt đầu với , để có một ước lượng tốt của , ta làm cho sự kiện đích bớt

hiếm bằng cách (tạm thời) sử dụng một mức nhỏ hơn γ. Giá trị của đạt được bằng cách này (hy
vọng là) làm cho sự kiện {S(X) ≥ γ} bớt hiếm trong lần lặp tiếp theo, nhờ đó có thể tiến gần hơn đến
γ. Thuật toán kết thúc khi tại một bước lặp t nào đó mức đạt đến ít nhất là γ vì thế giá trị ban đầu γ có
thể được sử dụng mà không dẫn đến số mẫu quá ít.
Ta có giải thuật sau:
1. Gán
2. Sinh một mẫu X1,…, XN từ mật độ f ( ∙ ; vt-1) và tính điểm (1-ρ)-phân vị với điều kiện nhỏ
hơn γ. Ngược lại đặt
3. Sử dụng cũng mẫu X1,…, XN để giải bài toán ngẫu nhiên sau, ký hiệu lời giải là .

4. Nếu , đặt t = t+1 và quay lại bước 2. Nếu không đi tiếp đến bước 5.
5. Ước lượng xác suất sự kiện hiếm sử dụng ước lượng LR:

với T là bước lặp cuối cùng (= số mức đã sử dụng).

Cross-entropy dùng trong tối ưu tổ hợp
Xem xét bài toán cực đại hoá tổng quá sau. Gọi là một tập hữu hạn các trạng thái và S là một hàm
hiệu năng giá trị thực trên . Ta muốn tìm giá trị lớn nhất của S trên và (các) trạng thái đạt cực đại.
Ký hiệu giá trị cực đại là γ*,

Phương pháp luận của cross-entropy là gắn một bài toán ước lượng với một bài toán tối ưu. Để làm
được điều này ta định nghĩa nhóm các hàm chỉ thị trên tập với các ngưỡng khác
nhau. Gọi là họ của các mật độ phân phối xác suất (rời rạc) trên , tham số hoá bởi
vec-tơ tham số giá trị thực v.
Với một nhất định ta gắn bài toán trên với bài toán ước lượng số

Trong đó là độ đo xác suất dưới trạng thái ngẫu nhiên X có mật độ phân phối và ký hiệu
toán tử kỳ vọng tương ứng. Ta gọi bài toán này là bài toán ngẫu nhiên liên kết (associated stochastic
problem – ASP). Để chỉ ra sự liên kết này, giả sử γ bằng γ* và là phân phối đều trên . Để ý
rằng - trong đó | ký hiệu số phần tử trong – là một số nhỏ. Vì thế với γ
= γ*, một cách tự nhiên để ước lượng là sử dụng ước lượng LR với tham số tham chiếu v* cho bởi

Tham số này có thể được ước lượng bằng

trong đó Xi được sinh từ mật độ
Nếu γ gần đến γ* thì gán hầu hết mật độ xác suất của nó cho x* vì thế có thể dùng nó để sinh
một lời giải gần đúng cho bài toán ban đầu. Tuy nhiên cần chú ý rằng ước lượng chỉ thực tế khi
với đủ nhiều mẫu.
Ở đây ta thấy sự tương đồng rất rõ ràng với bài toán mô phỏng sự kiện hiếm. ý tưởng một lần nữa là sử
dụng phương pháp hai pha, nhiều mức trong đó đồng thời xây dựng chuỗi mức và các
(vec-tơ) tham số sao cho gần với giá trị tối ưu γ* và sao cho mật độ xác suất tương
ứng gán vào tập các trạng thái có hiệu năng cao.
Ta có thuật toán sau:
1. Gọi . Đặt t = 1
2. Sinh mẫu X1,…, XN từ hàm mật độ xác suất f ( ∙ ; vt-1) và tính (1-ρ)-phân vị mẫu của hiệu
năng.
3. Sử dụng cùng một mẫu X1,…, XN và giải phương trình ngẫu nhiên sau với W = 1. Ký hiệu lời
giải là .

4. Nếu với một số t ≥ d, chẳng hạn d = 5,

thì dừng (gọi T là lần lặp cuối cùng); ngược lại đặt t = t + 1 và quay lại bước 2
Trong thuật toán này điều kiện dừng, vec-tơ khởi đầu , kích thước mẫu N và số ρ cần biết trước còn
lại được “tự điều chỉnh”.
Công thức được sử dụng ở bước 3 chính là công thức trong phương pháp ước lượng sự kiện hiếm
nhưng bài toán tối ưu không đòi hỏi một vec-tơ tham số u cho trước nào nên ta có thể bỏ qua tỷ lệ khả
năng bằng cách gán W = 1.

Cross-entropy và ước lượng phân phối
Xét trường hợp đặc biệt khi X = (X1, X2,…, Xn) là vec-tơ các thành phần độc lập cùng phân phối chuẩn.
Nghĩa là

và

Thay vào công thức ở bước 3 và cho đạo hàm từng phần theo µ, σ bằng không ta có công thức cập nhật
tham số như sau:

Trong đó lần lượt là kỳ vọng và phương sai của tập các mẫu thoả mãn điều kiện
.
Nếu thay vì chọn giá trị γ xác định cho mỗi bước lặp ta chọn các giá trị tốt nhất của X bằng cách nào đó
(chẳng hạn sắp xếp và chọn 10% đứng đầu) thì thuật toán cross-entropy trùng khớp với thuật toán ước
lượng đa biến chuẩn (Estimation of Multivariate Normal Algorithm – EMNA), một trường hợp riêng
của thuật toán ước lượng phân phối.

Luật cập nhật mịn
Thay vì cập nhật trực tiếp, người ta thường sử dụng luật cập nhật có dạng

trong đó là vec-tơ tìm được từ công thức ở bước 3. Cách làm này đặc biệt phù hợp với các bài toán
tối ưu trên biến ngẫu nhiên rời rạc. Lý do chính thủ tục cập nhật mịn này làm việc tốt hơn là nó ngăn
cản các giá trị 0 và 1 trong vec-tơ tham số. Khi một phần tử đạt 0 hay 1, nó thường giữ nguyên giá trị
mãi mãi, đó là điều không được mong đợi. Bằng thực nghiệm người ta chỉ ra rằng α nằm trong khoảng
[0,4; 0,9] cho kết quả tốt nhất.

Giả mã
Algorithm 5.6.1: Pseudocode for the Cross-Entropy Method.
Input: Problemsize , Samplesnum , UdateSamplesnum , Learnrate ,
Variancemin
Output: Sbest
1 Means ← InitializeMeans();
2 Variances ← InitializeVariances();
3 Sbest ← ∅;
4 while Max(Variances) ≤ Variancemin d
5 Samples ← 0;
6 for i = 0 to Samplesnum do
7 Samples ← GenerateSample(Means, Variances);
8 end
9 EvaluateSamples(Samples);
10 SortSamplesByQuality(Samples);
11 if Cost(Sample s0) ≤ Cost(Sbest ) then

12 Sbest ← Sample s0;
13 end
14 Samplesselected ←SelectBestSamples(Samples, UpdateSamplesnum );
15 for i = 0 to Problemsize do
16 Mean si ← Learnrate × Mean si +
(1 - Learnrate) × Mean(Samplesselected, i);
17 Variance si ← Learnrate × Variance si +
(1 - Learnrate) × Variance(Samplesselected, i);
18 end
19 end
20 return Sbest;

Heuristic
 Phương pháp cross-entropy được sửa đổi cho phù hợp với các bài toán tối ưu tổ hợp mặc dù đã
được ứng dụng vào tối ưu hoá hàm liên tục cũng như các bài toán mô phỏng nhiễu.
 Một tham số alpha (α) hay tốc độ học thuộc [0; 1] thường được đặt giá trị cao, chẳng hạn 0,7.
 Một hàm làm mịn có thể được sử dụng để điều khiển việc cập nhật tổng hợp các phân phối các
mẫu trong không gian bài toán. Ví dụ, trong tối ưu hàm liên tục, một tham số β có thể thay thế
α để cập nhật độ lệch chuẩn, tại thời điểm t nhận giá trị βt = β - β x (1- 1/t)q. trong đó β ban
đầu có giá trị cao tầm [0,8; 0,9] và q là một số nguyên nhỏ thuộc [5; 10].

Tham khảo
Các nguồn chính
Phương pháp cross-entropy được đề xuất bởi Rubinstein năm 1997 [2] dùng cho tối ưu các hệ thống
mô phỏng sự kiện rời rạc. Sau đó nó được tổng quát hoá bởi Rubinstein và để xuất như một phương
pháp tối ưu hoá cho tối ưu hàm tổ hợp năm 1999 [3]. Công trình này sau đó được phát triển thêm bởi
Rubinstein làm sáng tỏ những chi tiết về việc sử dụng phương pháp cross-entropy cho bài toán tối ưu tổ
hợp.

Tìm hiểu thêm
De Boer và các đồng nghiệp trình bày chi tiết về phương pháp cross-entropy bao gồm ứng dụng trong
mô phỏng sự kiện hiếm, sự sửa đổi cho phù hợp với tối ưu tổ hợp và ứng dụng ví dụ cho bài toán max-
cut, người du lịch và một ví dụ tối ưu số học cụm (clustering numeric optimization) [1]. Rubinstein và
Kroese trình bày kĩ càng về cách tiếp cận này trong quyển sách của họ, tóm tắt những lý thuyết phù
hợp và tình hình nghiên cứu mới nhất [5].

Mục lục tài liệu
[1] P. T. De Boer, D. P. Kroese, S. Mannor, and R. Y. Rubinstein. A tutorial on the cross-entropy
method. Annals of Operations Research, 134(1):19–67, 2005.
[2] R. Y. Rubinstein. Optimization of computer simulation models with rare events. European Journal
of Operations Research, 99:89–112, 1997.

[3] R. Y. Rubinstein. The simulated entropy method for combinatorial and continuous optimization.
Methodology and Computing in Applied Probability, 1(2):127–190, 1999.
[4] R. Y. Rubinstein. Stochastic optimization: algorithms and applications, chapter Combinatorial
optimization, cross-entropy, ants and rare events, pages 303–364. Springer, 2001.
[5] R. Y. Rubinstein and D. P. Kroese. The Cross-Entropy Method: A Unified Approach to
Combinatorial Optimization. Springer, 2004.

Cross-entropy method

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Cross-entropy method

Similar to Cross-entropy method (20)

More from Minh Lê

More from Minh Lê (12)

Cross-entropy method