Game theory - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI
TS.VƯƠNG QUÂN HOÀNG
DHVP Research & ĐHTH Bruxelles
E-mail: dhvp.economics@gmail.com
Bản Thảo Tài Liệu Nghiên Cứu
Hà Nội - Ngày 1 tháng 4 năm 2011

LÝ THUYẾT TRÒ CHƠI
Vương Quân Hoàng

Mục lục
Mục lục iii
Danh mục hình vẽ v
Danh mục bảng biểu vii
Lời giới thiệu ix
1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1
1.1 Những nét cơ bản . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 . . . . . . 3
1.2.1 Giải các trò chơi 2 × n . . . . . . . . . . . . . . . . 3
1.2.2 Trò chơi m × 2 . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 7
1.3 Một số ví dụ và tính chất trò chơi ma trận . . . . . . . . . 9
2 Trò Chơi 2-Người Hữu Hạn 17
2.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Tìm điểm cân bằng Nash . . . . . . . . . . . . . . . . . . 19
2.2.1 Cân bằng Nash thuần . . . . . . . . . . . . . . . . 19
2.2.2 Trò chơi bimatrix 2 × 2 . . . . . . . . . . . . . . . 21
2.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 23
2.3 Một số ứng dụng và bài toán minh họa . . . . . . . . . . . 26
3 Dạng Mở Rộng Hữu Hạn 35
3.1 Bài toán dạng mở . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Dạng chiến lược . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Quy nạp lùi và hoàn chỉnh trò chơi con . . . . . . . . . . 39
i

ii ⃝c 2011 - Vương Quân Hoàng
3.4 Cân bằng Bayes hoàn hảo . . . . . . . . . . . . . . . . . . 43
4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 53
4.1 Nhóm đặc trưng . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Trò chơi tĩnh, thông tin không đầy đủ . . . . . . . . . . . 54
4.3 Trò chơi tín hiệu . . . . . . . . . . . . . . . . . . . . . . . 59
5 Bất Hợp Tác 69
5.1 Khuôn khổ tổng quát: trò chơi chiến lược . . . . . . . . . 69
5.2 Cạnh tranh số lượng Cournot . . . . . . . . . . . . . . . . 70
5.2.1 Mô hình đơn giản, thông tin đầy đủ . . . . . . . . 71
5.2.2 Mô hình đơn giản, thông tin không đầy đủ . . . . 73
5.3 Cạnh tranh giá Bertrand . . . . . . . . . . . . . . . . . . . 75
5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 76
5.5 Chiến lược hỗn hợp và thông tin không đầy đủ . . . . . . 79
6 Trò Chơi Lặp Lại 87
6.1 Cân bằng hoàn hảo trò chơi con . . . . . . . . . . . . . . 87
6.1.1 Nghịch lý người tù . . . . . . . . . . . . . . . . . . 87
6.1.2 Quan sát tổng quát . . . . . . . . . . . . . . . . . 91
6.2 Cân bằng Nash . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2.1 Ví dụ trò chơi bimatrix khác: . . . . . . . . . . . . 93
6.2.2 Một định lý dân gian cho cân bằng Nash . . . . . 95
7 Trò Chơi Tiến Hóa - 1 101
7.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa . . 102
7.2 Động học bộ sao chép và tính ổn định tiến hóa . . . . . . 105
7.3 Trò chơi bất đối xứng . . . . . . . . . . . . . . . . . . . . 107
8 Hợp Tác Chuyển Đổi Lợi Ích 115
8.1 Ví dụ và các ý niệm cơ bản . . . . . . . . . . . . . . . . . 115
8.1.1 Bài toán xuất phát . . . . . . . . . . . . . . . . . . 116
8.2 Tập lõi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3 Giá trị Shapley . . . . . . . . . . . . . . . . . . . . . . . . 121
8.4 Hạch nhân - nucleolus . . . . . . . . . . . . . . . . . . . . 123

Lý Thuyết Trò Chơi - DHVP Research iii
9 Mô Hình Hợp Tác 133
9.1 Các dạng bài toán mặc cả . . . . . . . . . . . . . . . . . . 133
9.1.1 Nghiệm Nash cho bài toán mặc cả . . . . . . . . . 133
9.2 Nền kinh tế trao đổi . . . . . . . . . . . . . . . . . . . . . 138
10 Trò Chơi Ma Trận 151
10.1 Định lý Minimax . . . . . . . . . . . . . . . . . . . . . . . 151
10.2 Phát biểu hệ thống về quy hoạch tuyến tính . . . . . . . . 152
11 Công Cụ Toán Học 157
11.1 Thuật ngữ và khái niệm thường sử dụng . . . . . . . . . . 157
11.2 Các bổ đề về lựa chọn thay thế . . . . . . . . . . . . . . . 158
11.3 Định lý đối ngẫu của quy hoạch tuyến tính . . . . . . . . 160
11.4 Một số định lý điểm bất động . . . . . . . . . . . . . . . . 160
11.5 Định lý Birkhoff–von Neumann . . . . . . . . . . . . . . 160
Phụ lục a
Phụ lục tra cứu a

Danh mục hình vẽ
2.1 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1 Sơ đồ trò chơi dạng mở . . . . . . . . . . . . . . . . . . . 36
3.2 Sơ đồ cây - thông tin hoàn hảo . . . . . . . . . . . . . . . 37
3.3 Sơ đồ cây rút gọn - thông tin hoàn hảo . . . . . . . . . . . 40
3.4 Sơ đồ cây 3-NC . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Sơ đồ 3-NC cân bằng Bayes . . . . . . . . . . . . . . . . . 45
4.1 Xung đột sở thích giới tính, thông tin không đầy đủ . . . 56
4.2 Trò chơi tín hiệu 1 . . . . . . . . . . . . . . . . . . . . . . 60
5.1 Cournot 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Hàm lợi ích của hãng i khi độc quyền Bertrand . . . . . . 78
5.3 Lược đồ dạng mở trò chơi Stackelberg . . . . . . . . . . . 78
5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 78
6.1 δ và lợi ích giới hạn tại G∞
p (δ) . . . . . . . . . . . . . . . . 96
6.2 δ và lợi ích giới hạn tại G∞
p (δ) . . . . . . . . . . . . . . . . 96
7.1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng . . . . . . . 108
8.1 Sơ đồ hợp tác tải điện 3-TP . . . . . . . . . . . . . . . . . 116
8.2 Tập C trò chơi 3-TP . . . . . . . . . . . . . . . . . . . . . 120
9.1 Bài toán mặc cả: phân chia . . . . . . . . . . . . . . . . . 134
9.2 Bài toán mặc cả 2-NC . . . . . . . . . . . . . . . . . . . . 135
9.3 4 điều kiện Nash về nghiệm mặc cả . . . . . . . . . . . . 136
9.4 Tập lõi và cân bằng Walras . . . . . . . . . . . . . . . . . 144
v

vi ⃝c 2011 - Vương Quân Hoàng
11.1 Giải thích hình học bổ đề Farkas . . . . . . . . . . . . . . 159

Danh mục bảng biểu
4.1 PPXS theo đặc trưng của NC có 2 đặc trưng . . . . . . . . 58
8.1 Liên minh lưới điện 3-TP . . . . . . . . . . . . . . . . . . 116
8.2 Giá trị trò chơi găng tay . . . . . . . . . . . . . . . . . . . 118
8.3 Giá trị theo sở nguyện NC . . . . . . . . . . . . . . . . . . 119
8.4 Mô hình hoán vị lịch hẹn . . . . . . . . . . . . . . . . . . 120
8.5 Giá trị Shapley cho TU-game 3-TP . . . . . . . . . . . . . 122
8.6 Phép thử hạch nhân trò chơi 3-TP . . . . . . . . . . . . . 124
8.7 Phép thử hạch nhân trò chơi 3-TP (b) . . . . . . . . . . . 126
vii

Lời giới thiệu
Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộc
cách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ, nhưng ít ồn
ào. Nó đã bước qua ranh giới thuần túy dành cho các nhà toán học
để trở thành lĩnh vực ứng dụng phân tích kinh tế, chính sách dồi dào
tiềm năng. LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xã
hội liên quan tới hành vi con người, và trở thành một công cụ không gì
sánh nổi trong việc cung cấp logic và lập luận phân tích sâu. Có lẽ chỉ
có nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độ
ứng dụng rộng rãi. Tuy nhiên, trong các môi trường thống kê khó hoạt
động do tình trạng “dữ liệu bẩn” hay quá rời rạc, khó thu thập, phương
tiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý, có tính
tiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết trò
chơi. Đó là lý do mà tài liệu này ra đời, và tự đặt LTTC như một bộ phận
không thể tách rời của các nguyên lý kinh tế toán.
Lý thuyết trò chơi: nét đại lược
Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hình
toán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết định
một cách khôn ngoan.” Còn nhớ ở Việt Nam năm 2009, khi mà người
tiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mức
giá tiền phải trả nhiều một cách không tương xứng, đã có vị quan chức
gợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi. Khẩu khí này
rất đượm hương vị LTTC!
Gọi là lý thuyết, bởi vì lĩnh vực này cung cấp các kỹ thuật toán học để
phân tích các tình huống trong đó hai cá nhân, hoặc đông hơn nữa, tiến
hành ra các quyết định, mà các quyết định đó gây ra ảnh hưởng lên lợi
ix

x ⃝c 2011 - Vương Quân Hoàng
ích của (những) người khác có mặt trong tình huống (trò chơi).
Như vậy, LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả
(xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cần
để nhận biết các vấn đề hành vi con người. Các nhà kinh doanh, chính
trị gia, chiến lược quân sự lại còn càng cần hơn, vì họ phải xử lý quan
hệ đa chiều phức tạp giữa các đám đông thuộc cấp, xã hội, đối tác-đối
tượng, v.v..
LTTC hiện diện từ rất lâu rồi, lẩn khuất trong các lĩnh vực xã hội,
quân sự, cho dù không mang cái tên hiện đại như ngày hôm nay. Những
nghiên cứu lớn đã xuất hiện từ thế kỷ XIX, cùng với sự phát triển của
bộ môn xác suất, với cái tên như Bertrand. Tuy vậy, LTTC hiện đại –
với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi như
được đánh dấu từ thế kỷ XX, với những tác phẩm trứ danh của Zermelo
(1913), Emile Borel (“La théorie du Jeu et les équations intégrales à
noyau symétrique,” Comptes Rendus de l’Académie des Sciences, Vol.
173: 1304-1308, 1921), Von Neumann (1928), và cuốn sách rất ấn tượng
của Von Neumann và Morgenstern (Theory of Games and Economic
Behavior, 1944).
Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của Prince-ton,
và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gian
Thế chiến Đệ Nhị. Nơi sinh ra những đóng góp lớn của lý thuyết trò
chơi, cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đóng
góp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại. Sự gần gũi
về mặt không gian này, theo các nhà nghiên cứu về lịch sử phát triển

Lý Thuyết Trò Chơi - DHVP Research xi
tri thức nhân loại, xét ở góc nhìn rộng rãi, không hề tình cờ hay ngẫu
nhiên. Và như vậy, nó là kết cục tất yếu. Phần lớn sự hấp dẫn, cuốn
hút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kết
quả của vị trí trung của lý thuyết trò chơi, với tư cách nền tảng toán học
và logic cho tất cả các ngành khoa học xã hội. Trong thời kỳ đầu thế kỷ
XX này, những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngành
khoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũ
khí hạt nhân, và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nền
văn minh nhân loại.
Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kế
các hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ, nhưng
lại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòa
hành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêu
diệt nhau. Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoa
học xã hội cũng sẽ đạt được những bước tiến đủ lớn, có tính căn nguyên
và đảm bảo học thuật, có khả năng cung cấp nhận thức sâu sắc tương
xứng với những tiến bộ khoa học vật chất, đặc biệt là vật lý lý thuyết và
ứng dụng. Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiều
nhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyết
trò chơi trong nửa còn lại của thế kỷ XX.
Cuối cùng thì mong mỏi đó cũng được đền đáp. Bằng chứng rất thực
về sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắn
đẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinh
tế toàn cầu.
Về bản chất công việc, các nhà nghiên cứu LTTC thực ra bỏ công sức
nhằm hiểu được bản chất của xung đột và hợp tác, thông qua việc tìm
hiểu, xây dựng các mô hình định lượng, kèm theo đó là các ví dụ mang
tính chất ước đoán về các tình huống, hành vi của cuộc sống. Các ví dụ
thì như chúng ta vẫn thấy, thường phải được đơn giản hóa đi (một cách
phi thực tế), nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đề
rất căn bản của bản chất xung đột hay hợp tác. Tính đơn giản này giúp
giải quyết vấn đề được thuận lợi hơn, trong khi vẫn có thể duy trì tính
tổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực. Điều
này cũng là chuyện thường thấy trong rất nhiều ngành khoa học khác
nữa: Gạt bỏ các chi tiết dù là có thực, nhưng không quá quan trọng, để
tập trung cho một số ít các câu hỏi lớn, không thể bỏ qua.
Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ, nhằm

xii ⃝c 2011 - Vương Quân Hoàng
ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người.
Do cách gọi, các cá nhân liên quan tới một trò chơi thì đều được gọi là
“người chơi.” Nói chính xác là họ ra các quyết định, thậm chí rất nghiêm
túc và bằng trí khôn chuẩn mực, chứ không có chơi bời gì hết.) Điều
kiện để nghiên cứu là hai giả thiết: Thứ nhất, người chơi có tính hợp lý.
Thứ hai, người chơi sử dụng trí khôn để ra quyết định.
Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từ
các mô hình chọn lọc tiến hóa. Trong một vũ trụ mà sự hỗn loạn tăng
lên là một quy luật vật lý, các cơ quan phức tạp (như cơ thể con người,
hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi,
theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo các
thế hệ). Như thế, theo cách nhìn của chọn lọc tiến hóa, các cá nhân có
xu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thích
nghi sinh sản.”
Có lẽ, chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâu
của các chương tiếp theo sau đây.
Biên soạn
Tài liệu này được biên soạn với mục đích trước tiên làm tài liệu
nghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w:
www.vietnamica.net), phục vụ các nghiên cứu ứng dụng về chính sách
kinh tế trong giai đoạn 2011-2015.
Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần Trí
Dũng và Nguyễn Xuân Dũng. Ngoài ra, Nguyễn Thu Hoài tham gia trợ
giúp một số công việc liên quan.
Để trở thành một tài liệu hoàn chỉnh, có thể sử dụng cho giảng dạy
và in ấn rộng rãi, sẽ còn phải gia công rất nhiều, đặc biệt là đưa vào các
nghiên cứu ứng dụng kinh tế - xã hội mà LTTC đã và đang giải quyết rất
hiệu quả, đưa ra nhiều ngụ ý chính sách tốt.
Hà Nội - Tháng 6-2011
TS. Vương Quân Hoàng
e: vuong@vietnamica.net

Chương 1
Trò Chơi 2-Người Tổng-0
Hữu Hạn
1.1 Những nét cơ bản
Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vào
một ma trận, do đó loại trò chơi này còn được gọi là trò chơi ma trận.
Trò chơi ma trận là một ma trậnA kích thướcm×n chứa các số thực,
với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1)
là một phân phối xác suất p tương ứng với các dòng của ma trậnA. Điều
đó có nghĩa là, chiến lược của NC1 là một phần tử của tập
Δm := {p = (p1, . . . , pm) ∈ Rm|
Σm
pi = 1, pi ≥ 0, ∀i = 1, . . . ,m}.
Tương tự, chiến lược của người chơi 2 (NC2) là một PPXS q trên các
cột của A; tức là một phần tử của tập
Δn := {q = (q1, . . . , qn) ∈ Rn|
Σm
qj = 1, qj ≥ 0, ∀j = 1, . . . , n}.
Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọn
dòng thứ i một cách chắc chắn, tức là pi = 1. Chiến lược thuần này có
thể ký hiệu là ei.
1Như vậy m; n là các số nguyên dương, bé nhất là bằng 1.
1

2 ⃝c 2011 - Vương Quân Hoàng
Tương tự vậy, chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cột
thứ j một cách chắc chắn, tức là qj = 1; ký hiệu là ej .
Ý nghĩa của ma trận A như sau. Nếu NC1 chơi hàng i, tức là lựa chọn
chiến lược thuần ei, thì NC1 nhận được lợi ích tài chính aij , trong khi
NC2 nhận được −aij (nghĩa là trả), tương ứng vị trí dòng i và cột j trong
A.
Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q, thì lợi ích của NC1
thu về tương ứng với một dãy PPXS (chính là ý nghĩa của chiến lược hỗn
hợp) là: pAq =
ΣmΣn piqjaij . Khi này NC2 nhận được −pAq (tức là
trả).
Để giải bài toán trò chơi dạng ma trận như trên, ta cần thêm khái
niệm chiến lược maximin và minimax sau đây.
Chiến lược maximin và minimax. Chiến lược p được gọi là max-imin
cho NC1 trong trò chơi ma trận A nếu như
min{pAq} ≥ min{p′
Aq} ∀p′ ∈ Δm, q ∈ Δn. (1.1)
Theo cách tương tự, chiến lược minimax q của NC2 nếu như:
min{pAq} ≤ min{pAq′} ∀q′ ∈ Δn. (1.2)
Một cách dễ hình dung, đối với NC1 chiến lược maximin là lựa chọn
PPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất, tương ứng với
lựa chọn của NC2. Còn minimax là lựa chọn PPXS sao cho NC2 tối thiểu
hóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1.
Như vậy, để biết được lựa chọn p có phải chiến lược maximin hay
không, chỉ cần kiểm tra sự thỏa mãn dấu ≥ của bất đẳng thức (1.1) với
các chiến lược thuần ej , với từng giá trị j = 1, 2, . . . , n.2
Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi ma
trận A, sẽ tồn tại một trị số v = v(A) có tính chất như sau:
1. Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1,
nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p là
chiến lược maximin.
2. Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2
phải trả NC1, nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào,
nếu và chỉ nếu q là chiến lược minimax.
2Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau.

Lý Thuyết Trò Chơi - DHVP Research 3
Trong thuật ngữ của chúng ta, v = v(A) được gọi là giá trị của trò
chơi A. Các chiến lược maximin và minimax như vừa nói được gọi là
các chiến lược tối ưu tương ứng với NC1 và NC2. Khi nói rằng ‘giải bài
toán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu,
đồng thời cả giá trị của trò chơi.
Điểm yên ngựa. Một vị trí xác định bởi cặp (i, j) trong ma trận A
được gọi là điểm yên ngựa - saddlepoint - nếu như aij ≥ akj với mọi giá
trị k = 1, . . . ,m, và aij ≤ aik với mọi k = 1, . . . , n.
Giá trị tại điểm yên ngựa aij có ý nghĩa là điểm có giá trị lớn nhất
trong cột j và nhỏ nhất trong hàng i. Từ đó ta thấy rằng, nếu (i, j) là
điểm yên ngựa, thì NC1 có thể đảm bảo nhận được giá trị lợi ích tối
thiểu aij bằng cách chơi chiến lược thuần theo dòng i, tức là ei. Tương
tự, NC2 đảm bảo chỉ phải trả tối đa −aij bằng cách lựa chọn chiến lược
thuần cột ej .
Theo suy luận này, aij chắc chắn phải là giá trị của trò chơi A,
v(A) = aij , đồng thời ej là chiến lược minimax tối ưu của NC2, ei mà
maximin tối ưu của NC1.
1.2 Tìm nghiệm trò chơi kích thước 2 × n và
m × 2
Tiếp theo, ta xét cách tìm nghiệm trò chơi ma trận và khái niệm nghiệm
trội có liên quan tới kỹ thuật xử lý bài toán ma trận.
1.2.1 Giải các trò chơi 2 × n
Xét trò chơi 2-dòng và n-cột, với một ma trận A bằng số cụ thể có kích
thước 2 × 4.
A =
(
10 2 4 1
2 10 8 12
)
Ta đặt các chiến lược thuần theo cột lần lượt là e1 =
(
10
2
)
, e2 =
(
2
10
)
, e3 =
(
4
8
)
, và e4 =
(
1
12
)
.

Các chiến lược thuần trên là của NC2 (do lấy theo cột). Bây giờ, ta
xét chiến lược chơi hỗn hợp p = (p, 1 − p) bất kỳ của NC1. Thiết lập các
mức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuần
ở trên của NC2, ta sẽ có một hệ thống như sau:
pAe1 = 10p + 2(1 − p)
pAe2 = 2p + 10(1 − p)
pAe3 = 4p + 8(1 − p)
pAe4 = p + 12(1 − p)
Sử dụng Mathematica vẽ đồ thị hệ các phương trình tuyến tính ở trên
ta có:
In[1]:= e1[p_] := 8 p + 2; e2[p_] := 10 - 8 p;
e3[p_] := 8 - 4 p; e4[p_] := 12 - 11 p;
In[3]:= Plot[{e1[p], e2[p], e3[p], e4[p]}, {p,0,1}];
Có 4 điểm đáng chú ý của đồ thị này là (0, 2), ( 1
2 , 6), ( 20
21 , 32
21 ), (1, 1).
Đây là các điểm mà khi nối lại, ta thu được đường bao đáy của miền
tạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0, 1] như đã nói. Khi
p = 1/2 cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6, và đây
cũng là giá trị của trò chơi v(A) = 6.3
3Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệ
phương trình, cũng như quan sát qua đồ thị.

Đó là với NC1, còn các chiến lược tối ưu minimax của NC2 sẽ có hình
dạng ra sao?
Trước tiên, dạng tổng quát của chiến lược minimax cho NC2 là q =
(q1, q2, q3, q4). Lợi dụng việc xác định được v(A) = 6, ta sẽ loại được q4
do q4 = 0, vì nếu như q4 > 0 thì chi phí của việc chơi chiến lược thuần
e4 là 1
2
· 1+ 1
2
· 12 > 6, điều này mâu thuẫn với nhận thức lúc trước rằng
NC2 chỉ trả nhiều nhất là bằng v(A).
Tiếp tục lợi dụng v(A) = 6 và p∗ = 1/2 đã biết, sau khi biết q4 = 0, ta
lại thu được một hệ:
6 = 10q1 + 2q2 + 4q3
6 = 2q1 + 10q2 + 8q3
1 = q1 + q2 + q3
Hệ này rút gọn xuống thành:
1 = 3q1 − q2
1 = q1 + q2 + q3
Từ đây có thể thấy rằng, khi q1 = 1/3 → q2 = 0, và q1 = 1/2 → q2 = 1/2.
Cả q1, q2 đều không thể lớn hơn 1/2. Ràng buộc với q3 không xác định.
Tập hợp các chiến lược tối ưu cho NC2 có dạng:
{q = (q1, q2, q3, q4)|1
3
≤ q1 ≤ 1
2, q2 = 3q1 − 1, q4 = 0}.
1.2.2 Trò chơi m × 2
Giả sử ta chuyển vị ma trận 2 × 4 vừa rồi thành trò chơi 4 × 2 có dạng:
A =


10 2
2 10
4 8
1 12


Bây giờ ta viết lại dạng các chiến lược thuần ei, i = 1, . . . , 4: e1 = (10, 2),
e2 = (2, 10), e3 = (4, 8), e4 = (1, 12). Thực ra, đây là cách xử lý để đưa
đầu bài về dạng dễ giải quyết hơn, do với số cột n = 2, ta lại có tình

huống NC2 có chiến lược với PPXS đơn giản, dạng tương tự khi trước
q = (q, 1 − q).4
Tiếp theo, ta thiết lập hệ các lợi ích cho NC1, tương ứng với chiến
lược q của NC2, nếu NC1 chơi chiến lược thuần ei, i = 1, . . . , 4.5
e1Aq = 10q + 2(1 − q) = 8q + 2
e2Aq = 2q + 10(1 − q) = 10 − 8q
e3Aq = 4q + 8(1 − q) = 8 − 4q
e4Aq = q + 12(1 − q) = 12 − 11q
Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau:
In[1]:= e1[q_]:=8*q+2; e2[q_]:=10-8*q;
In[2]:= e3[q_]:=8-4*q; e4[q_]:=12-11*q;
In[4]:= Plot[{e1[q], e2[q],e3[q],e4[q]},{q,0,1}, AxesLabel ->
{"q","Player 1 Payoff"}, GridLines -> Automatic]
Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phía
trên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên
(0, 12), ( 10
19 , 118
19 ), (1, 10). Trong các điểm có giá trị lớn nhất nằm trên
đường bao đi qua 3 điểm này, điểm có trị số nhỏ nhất là ( 10
19 , 118
19 ), điểm
giao nhau giữa đường 12 − 11q và 8q + 2. Đây cũng là điểm cho biết
chiến lược giá trị phải trả minimax tối ưu cho NC2.
4Lưu ý: Trong bài toán A2n thì PPXS của chiến lược ký hiệu là p.
5NC1 nhận giá trị theo dòng của ma trận A.

Giá trị của trò chơi là 118
19 , và tương ứng với nó là chiến lược minimax
tối ưu với NC2 là q∗ = ( 10
19 , 9
19 ).
Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p =
(p1, p2, p3, p4), tận dụng kết quả đã biết của q∗ và v(A) = 118
19 . Dựa
trên đồ thị ở trên, p2 = p3 = 0, do hai đường này nằm dưới đường bao
phía trên tạo bởi e1Aq và e4Aq.6
Như vậy, cần tìm một phép kết hợp giữa e1 và e4 sao cho chiến lược
này tạo ra lợi ích không nhỏ hơn 118
19 với mọi giá trị q. Điều kiện này dẫn
tới việc khai triển p theo hai cột của A như sau:
10p1 + 2 · 0 + 4 · 0 + p2 =
118
19
2p1 + 10 · 0 + 8 · 0 + 12p2 =
118
19
p1 + 0 + 0 + p4 = 1
Ta tìm được cặp nghiệm duy nhất, và là chiến lược maximin cho NC1
dưới đây7
In[17]:= Solve[{10 p1 + p4 == 118/19, 2*p1 + 12*p4 == 118/19},
{p1, p4}]
Out[17]={{p1 - 11/19, p4 - 8/19}}
Rõ ràng p1 + p4 = 1 cũng thỏa mãn nốt điều kiện thứ 3. Cuối cùng,
ta kết luận chiến lược tối ưu maximin - và cũng là duy nhất - cho NC1 có
dạng ( 11
19 , 0, 0, 8
19 ).
1.2.3 Tính trội tuyệt đối
Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việc
phân tích nghiệm của một TC được thuận lợi hơn, thông qua việc loại bỏ
bớt các chiến lược thuần không thích hợp. Trước hết, ta xét khái niệm.
6Khi thay giá trị q = 10
19 vào hai phương trình 2 và 3, ta thu được các giá trị lợi ích
19 , 112
19 . Cả hai giá trị này đều nhỏ hơn v(A), do đó nếu p2; p3̸= 0
cho NC1 lần lượt là 110
thì chiến lược p không thỏa mãn tính chất maximin.
7Trong tài liệu này, chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm
thời gian.

Tính trội tuyệt đối. GọiAlà một trò chơi ma trận kích thướcm×n và
i là một dòng (hàng) củaA. Một chiến lược thuần ei gọi là lép vế (strictly
dominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1, . . . , pm) ∈
Δm với pi = 0 sao cho pAej eiAej , với mọi j = 1, . . . , n.
Tương tự như vậy, gọi j là một cột củaA. Chiến lược thuần ej gọi là lép
vế nếu tồn tại q = (q1, . . . , qn) ∈ Δn với qj = 0 sao cho: eiAq eiAej ,
với mọi i = 1, . . . ,m.
Để làm rõ khái niệm này, chúng ta xét minh họa bằng ví dụ số như
sau. Cho ma trận A3×3:
A =


6 0 2
0 5 4
3 2 1

.
Theo quy ước, NC1 chơi theo hàng. Giả sử PPXS tạo thành chiến lược
hỗn hợp của NC1 là p = ( 7
12 , 5
12 , 0). Theo định nghĩa, ta thực hiện phép
tính:
p · A =
( 7
12
5
12 0
)


6 0 2
0 5 4
3 2 1

.
Thực hiện phép nhân này trong môi trường Mathematica
In[2]:= {{7/12, 5/12, 0}} . {{6, 0, 2}, {0, 5, 4}, {3, 2, 1}}
Out[2]= {{7/2, 25/12, 17/6}}
ta thu được kết quả p · A = (31
2 , 2 1
12 , 25
6 ). Rõ ràng, pA e3A bất kể
PPXS q ra sao. e3 lép vế, và dòng 3 có thể loại khỏi trò chơi, ta thu được:
B =
(
6 0 2
0 5 4
)
.
4 , 3
4 , 0). Tính B · q qua Mathematica,
Bây giờ ta xét tiếp chiến lược q = ( 1
ta thu được:
In[5]:= B={{6,0,2},{0,5,4}};
In[6]:= q={{1/4,3/4,0}};
In[7]:= B.Transpose[q]
Out[7]= {{3/2},{15/4}}

So sánh ta thấy ngay rằng
B · q =
( 3
2
31
2
)

(
2
4
)
= B · e3
Từ đây suy ra, NC2 sẽ không sử dụng phương án chơi cột 3, và ma trận
tiếp tục được rút gọn còn:
C =
(
6 0
0 5
)
.
Ở dạng ma trận rút gọn đơn giản này, việc giải bài toán trở nên thuận
lợi và nhanh chóng. Bản thân trò chơi C không có điểm yên ngựa, do
đó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin.
Xét PPXS p = (p, 1 − q) với từng chiến lược thuần của NC2, ta dễ dàng
thu được pAe1 = 6p và pAe2 = 5 − 5p, và giải ra được:
In[24]:= Solve[6*p==5-5*p,p]
Out[24]= {{p [Rule] 5/11}}
Như vậy p = ( 5
11 , 6
11 ), tương ứng v(A) = 30
11 .
Tương tự vậy, ta xét tiếp chiến lược cho NC2, thông qua xét q =
(q, 1 − q), và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chất
đối xứng qua trục chuyển vị: q = ( 5
11 , 6
11 ). Hiển nhiên giá trị trò chơi
vẫn là v(A) = 30
11 .
1.3 Một số ví dụ và tính chất trò chơi ma trận
Ví dụ 4. Cho trò chơi ma trận (3 × 4) như sau:
A =


2 −1 0 2
2 0 0 3
0 0 −1 2

,
Giải bài toán trò chơi ma trận A.
Theo định nghĩa của điểm yên ngựa, ma trận A tồn tại hai điểm yên
ngựa là a22, a23. Giá trị trò chơi v(A) = a22 = a23 = 0. Xét một cách
đơn giản, do chắc chắn NC1 sẽ chơi hàng 2 - vì cả hai điểm yên ngựa
đều nằm trên hàng thứ 2, do đó, PPXS thể hiện chiến lược maximin của

NC1 là chiến lược thuần, và có dạng p = (0, 1, 0). Hiển nhiên, p có tính
duy nhất.
Còn xét NC2, ta có thể giả sử chiến lược minimax qua PPXS dạng
q = (0, q, 1−q, 0). Triển khai ta có được so sánh 3 giá trị 1, 0, 1 và giá trị
minimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1
lựa chọn phương án maximin. Như vậy q = (0, q, 1 − q, 0) là nghiệm
cuối cùng, với mọi giá trị 0 ≤ q ≤ 1.
Ví dụ 5. Giải ma trận
A =


1 3 1
2 2 0
0 3 2

.
A =


16 12 2
2 6 16
8 8 6
0 7 8


.
A =
(
3 1 4 0
1 2 0 5
)
.
A =


1 0 2
4 1 1
3 1 3

.
Tính chất 9. Cho A là một trò chơi ma trận m × n. Hãy chỉ ra rằng
bất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị, nghĩa là nếu (i, j) và
(k, l) là hai điểm yên ngựa, thì aij = akl.
Tính chất 10. Nếu A(4×4) là trò chơi trong đó (1, 1) và (4, 4) là các
điểm yên ngựa. Chứng minh rằng, A có ít nhất 2 điểm yên ngựa khác
nữa.

Ví dụ 11. Hãy tìm một ví dụ trò chơi ma trận kích thước (4 × 4) có
chính xác 3 điểm yên ngựa.

VQG ghi chú:

Chương 2
Trò Chơi 2-Người Hữu
Hạn
Chương thứ hai này đề cập tới trò chơi 2-người, trong đó mỗi NC lựa
chọn phương án từ nhiều chiến lược thuần hoặc là “ngẫu nhiên hóa”1
các chiến lược này. Bài toán ta sẽ xét ở đây không yêu cầu trò chơi phải
có tổng bằng 0. Do nới lỏng yêu cầu này, ta có thể xem xét một lớp nhiều
trò chơi hơn, có tính chất sát thực hơn với các ứng dụng kinh tế xã hội.
Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tên
với giới nghiên cứu: “Nghịch lý người tù,” và “Xung đột giới.”2
Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫn
dắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuần
của các bài toán. Tính trội tuyệt đối đã giới thiệu khi trước cũng được
đưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash. Hỗ trợ cho
chương này là Chương 12, bổ sung thêm các ý tưởng được gọt giũa sắc
bén và gia tăng thêm công cụ.
2.1 Cơ sở lý thuyết
Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạn
được trình bày qua 2 ma trận, thường được ghép vào làm một - ta sẽ gọi
là ma trận cặp (bimatrix).
1Từ khái niệm randomize mà chúng ta sẽ làm rõ nội dung sau.
2Tương ứng với những thuật ngữ ngày nay không xa lạ với các giáo trình là “Prisoners’
dilemma” và “Battle of sexes.”
17

Định nghĩa. Một trò chơi ma trận cặp (bimatrix) là một cặp ma trận
có kích thước m × n ký hiệu (A,B).
Cách hiểu trò chơi (A,B) như sau. Nếu như NC1 (theo quy ước là
chơi theo hàng, hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j, thì NC1
nhận lợi ích aij , và NC2 nhận bij , là các phần tử tương ứng của A và B.
Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp, tập hợp chiến
lược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước.
Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợp
tác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply).
Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau.
Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi ích
kỳ vọng của mình, thông qua hiểu biết hay phỏng đoán cá nhân về các
chiến lược mà đối thủ có thể lựa chọn.
Khái niệm phản ứng tối ưu. Chiến lược p của NC1 gọi là phản ứng
tối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thước
m × n - ký hiệu là (A,B) nếu pAq ≥ p′Aq với mọi p ∈ Δm.
Tương tự như trên, q được gọi là phản ứng tối ưu với chiến lược p
của NC1 nếu như pBq ≥ pBq′ với mọi q ∈ Δn.
Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash, chiến
lược của mỗi NC chính là phản hối tối ưu với người kia. Bây giờ chúng
ta xét tới định nghĩa của cân bằng Nash.
Cân bằng Nash. Một cặp chiến lược, ký hiệu p∗, q∗, được gọi là cân
bằng Nash nếu như p∗ là phản hồi tối ưu của NC1 khi NC2 chơi chiến
lược q∗, và q∗ là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiến
lược p∗.
Nếu p∗ và q∗ là các chiến lược thuần, thì cân bằng Nash cũng được
gọi là cân bằng Nash thuần.
Cân bằng Nash chúng ta vừa nêu là cho trò chơi đang xét: 2-người,
hữu hạn dòng, cột. Về sau này, cân bằng Nash sẽ còn được mở rộng cho
nhiều loại trò chơi khác nữa, nhiều người chơi, nhiều tập chiến lược và
nhiều loại hàm lợi ích tương ứng. Giáo sư John Nash chứng minh rằng,
với trò chơi đang xét của chúng ta, luôn tồn tại một cân bằng Nash.
Nói rộng ra, bản thân ý niệm cân bằng Nash được phát triển không
phải để tìm một điểm cân bằng Nash, mà ngược lại là vì có nhiều điểm
cân bằng Nash, và cần giải thích ý nghĩa của chúng trong trò chơi. Bản

thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nash
của một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logic
của người giải trò chơi. Một lưu ý bên lề nữa là, bản thân định nghĩa
về cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu người
chơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không.
Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trả
lời. Đó là, ý nghĩa của một chiến lược hỗn hợp là gì. Liệu chiến lược hỗn
hợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không?
Ở đây, một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợp
của một NC - chẳng hạn NC1 - biểu thị niềm tin, hoặc sự phỏng đoán,
của NC kia - tức là NC2 - về cách mà NC1 sẽ chơi. Như vậy, chiến lược
hỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trong
một trò chơi. Đây là khái niệm do von Neumann và Morgenstern đưa
ra. Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở các
phần sau.
2.2 Tìm điểm cân bằng Nash
Trước tiên, ta cần biết rằng, việc tìm tất cả các điểm cân bằng Nash của
một trò chơi bimatrix bất kỳ là việc rất khó. Ở đây, trước mắt ta tạm
thời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nash
thuần của trò chơi bimatrix. Tiếp theo, chúng ta xem xét việc tìm cân
bằng Nash cho các bimatrix kích thước 2 × 2, 2 × 3, 3 × 2 bằng cách sử
dụng đồ thị. Với các ma trận kích thước lớn hơn nữa, việc giải bằng đồ
thị rất khó khăn và hầu như không thể.
2.2.1 Cân bằng Nash thuần
Để tìm cân bằng Nash trong trò chơi bimatrix, trước hết ta có thể xác
định các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần của
NC1. Rồi tiếp theo, xác định các phản hồi tối ưu của NC1 với từng chiến
lược thuần của NC2. Các cặp chiến lược đồng thời là phản hối tối ưu của
cả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi.
Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu.



W X Y Z
T 2, 2 4, 0 1, 1 3, 2
M 0, 3 1, 5 4, 4 3, 4
B 2, 0 2, 1 5, 1 1, 0


Trước tiên, ta xác định phản hồi tối ưu của NC2.


W X Y Z
T 2, 2∗ 4, 0 1, 1 3, 2∗
M 0, 3 1, 5∗ 4, 4 3, 4
B 2, 0 2, 1∗ 5, 1∗ 1, 0


Tiếp theo, ta xác định phản hồi tối ưu của NC1.


W X Y Z
T 2∗, 2∗ 4∗, 0 1, 1 3∗, 2∗
M 0, 3 1, 5∗ 4, 4 3∗, 4
B 2∗, 0 2, 1∗ 5∗, 1∗ 1, 0


3 điểm cân bằng Nash ta tìm được từ các chiến lược thuần là (T,W),
(T,Z) và (B, Y ).3
Xét một cách chặt chẽ, ta cũng phải xét đến các phản ứng tối ưu có
tính hỗn hợp đối với một chiến lược thuần của đối thủ để kết luận xem
liệu chiến lược thuần này có khả năng xảy ra ở điểm cân bằng Nash hay
không. Tuy vậy, có thể nhận thấy bất kỳ một phản ứng tối ưu hỗn hợp
nào cũng là một tổ hợp các phản ứng tối ưu thuần, do đó không thể tạo
ra lợi ích lớn hơn.
Giả sử trong bài toán trên, NC2 lựa chọn chiến lược hỗn hợp
(q, 0, 0, 1−q) để đáp ứng chiến lược thuần T của NC1. Lựa chọn này dẫn
tới lợi ích của NC2 trong trường hợp này có giá trị 2q+0+0+2(1−q) = 2.
Tuy vậy, chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơn
trường hợp chiến lược thuần (1, 0, 0, 0 hay (0, 0, 0, 1).
Bên cạnh đó, chúng ta cũng có thể chỉ ra rằng, tất cả các cặp chiến
lược có dạng (T, (q, 0, 0, 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằng
Nash của trò chơi bimatrix này.
3Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểm
cân bằng Nash của trò chơi đang xét. Theo cách viết cặp chiến lược thuần: e1; e1,
e1; e4, e3; e3. Theo cách viết dạng mở rộng ((1; 0; 0); (1; 0; 0; 0)), ((1; 0; 0); (0; 0; 1; 0)),
((0; 0; 1); (0; 0; 1; 0)).

Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giá
trị lợi ích tối ưu Pareto. Ta biết rằng, một cặp lợi ích được gọi là tối ưu
Pareto nếu như không còn cặp giá trị nào khác lớn hơn, hoặc ít nhất có
một trong hai giá trị hơn, trong khi giá trị còn lại tối thiểu bằng. Cụ thể,
bằng chứng dễ thấy là cặp 4, 4 có giá trị lớn hơn hẳn các cặp cân bằng
Nash 2, 2, 3, 2.
2.2.2 Trò chơi bimatrix 2 × 2
Phần tiếp theo này đề cập cách sử dụng đồ thị để tìm nghiệm của trò
chơi ma trận cặp (bimatrix) kích thước 2 × 2, với trò chơi cho dưới đây.
(A,B) =
( L R
T 2, 2 0, 1
B 1, 1 3, 3
)
Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi
(A,B) này là 2, 2 và 3, 3. Để tìm tất cả cân bằng Nash cho trò chơi này,
ta đi tìm các phản ứng tối ưu của cả hai NC.
Xét tổng quát chiến lược hỗn hợp q, 1−q của NC2. Khi nào phản ứng
tối ưu của NC1 là 1, 0 (tức là T)? Rõ ràng là chỉ khi lợi ích kỳ vọng thu
được từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợp
nào giữa T và B qua PPXS p, 1 − p. Như vậy, NC1 chọn T khi:
2q + 0(1 − q) q + 3(1 − q)
Như vậy, chọn T khi q 3
4 . Tương tự, khi q 3
4 , thì B là phản ứng tối
ưu.4
Còn trường hợp khi lợi ích chơi T và B bằng nhau:
2q + 0(1 − q) = q + 3(1 − q),
chỉ xảy ra khi q = 3
4 . Trong trường hợp q = 3
4 , thì mọi chiến lược hỗn
hợp dạng p = (p, 1−p) của NC1 đều là phản ứng tối ưu. Bây giờ, ta tóm
tắt lại lô-gic vừa trình bày của các phản ứng tối ưu, của NC1 và NC2.
Giả sử, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS
(q, 1 − q) của NC2 là β1(q, 1 − q), thì
4Tức là đổi chiều dấu: 2q + 0(1 − q) q + 3(1 − q).

β1(q, 1 − q) =


{(1, 0)} nếu 3
4 q ≤ 1
{(p, 1 − p)|0 p ≤ 1} nếu q = 3
4
{(0, 1)} nếu 0 q 3
4
(2.1)
Theo cùng lô-gic, lại gọi tập các phản ứng tối ưu của NC2 đối với
(p, 1 − p) là β2(p, 1 − p), thì ta cũng có:
β2(p, 1 − p) =


{(1, 0)} nếu 2
3 p ≤ 1
{(q, 1 − q)|0 q ≤ 1} nếu p = 2
3
{(0, 1)} nếu 0 q 2
3
(2.2)
Theo cách hiểu của trò chơi, các điểm cân bằng Nash là sự kết hợp
chiến lược p∗, q∗ sao cho p∗ ∈ β1(q∗), và q∗ ∈ β2(p∗). Như vậy, các cân
bằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm
(2.1) và (2.2) - được biểu thị qua đồ thị (2.1).
Hình 2.1: Sơ đồ β2
Nash-E
Nash-E
1
Nash-E
0
2/3
q
p 2/3 1
3 điểm cân bằng Nash của trò chơi (qua 3 chấm tròn là nơi giao
cắt các đường β1, β2 ở hình trên) là: ((1, 0), (1, 0)), ((0, 1), (0, 1)) và
(( 2
3 , 1
3 ), ( 3
4 , 1
4 )).

2.2.3 Tính trội tuyệt đối
Về cơ bản, để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọn
kích thước của trò chơi, thông qua loại bỏ các chiến lược lép vế. Khi
loại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột, thì
kích thước ma trận sẽ giảm dần, cho tới khi không còn tồn tại chiến lược
thuần lép vế nào nữa. Lý thuyết đã chứng minh rõ rằng, khi làm theo
cách loại trừ để giảm kích thước ma trận như vừa nêu, không có điểm
cân bằng Nash nào vô tình bị loại bỏ, và cũng không có cân bằng Nash
nào nảy sinh ra do giảm kích thước. Hơn nữa, thứ tự của việc loại bỏ
các chiến lược lép vế cũng không quan trọng, cái nào trước, cái nào sau
không ảnh hưởng tới kết quả cuối cùng.
Về tính trội tuyệt đối, với trò chơi (A,B)m×n một chiến lược thuần
ei tương ứng với hàng i gọi là lép vế, nếu như tồn tại một chiến lược hỗn
hợp p = (p1, . . . , pi = 0, . . . , pm) sao cho: pAej eiAej với từng giá
trị j = 1, . . . , n. Tương tự, chiến lược thuần ej theo cột j là lép vế nếu
tồn tại một PPXS q = (q1, . . . , qi = 0, . . . , qn), sao cho eiBq eiBej với
từng giá trị i = 1, . . . ,m.
Tiếp theo, chúng ta cùng xem xét một ví dụ ứng dụng để minh họa.
Rút gọn kính thước ma trận trò chơi bimatrix: Cho trò chơi ma
trận bimatrix sau:


W X Y Z
T 2, 2 2, 1 2, 2 0, 0
M 1, 0 4, 1 2, 4 1, 5
B 0, 4 3, 1 3, 0 3, 3

 (2.3)
Đầu tiên, ta nhận thấy nếu xét các chiến lược thuần theo dòng (NC1),
hay theo cột (NC2), thì không có chiến lược thuần nào bị lép vế hoàn
toàn so với một chiến lược thuần khác đang có. Bây giờ ra ‘dò thử’ chiến
lược thuần X; điều này như ta đã biết nghĩa là q2 = 1. Hãy xem thử tồn
tại một PPXS q nào đó có tính trội tuyệt đối so với X hay không.
Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trận
bimatrix (A,B) với bài toán (2.3). Như vậy, khi so với chiến lược X,
trong PPXS q nào đó thích hợp thì rõ ràng q2 = 0. Lại giả sử tiếp trường
hợp q4 = 0, khi này ta xét thử PPXS (q, 0, 1 − q, 0). Ta sẽ phải thiết lập
các biểu thức eiBq rồi đặt bất đẳng thức với dấu lớn hơn khi so với từng
phần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B.

2q + 1 · 0 + 2(1 − q) + 0 · 0 1
0q + 1 · 0 + 4(1 − q) + 5 · 0 1
4q + 1 · 0 + 0(1 − q) + 3 · 0 1
Rút gọn lại ta có được
2 1
3 4q
4q 1
Bất đẳng thức đầu tiên đương nhiên đúng. Điều kiện để 2 bất đẳng thức
còn lại được thỏa mãn dễ thấy là 1
4 q 3
4 . Như vậy, X lép vế khi q
trong khoảng giá trị vừa tính ra, và X có thể được loại khỏi trò chơi. Ta
sẽ rút gọn trò chơi thành (2.4):


W Y Z
T 2, 2 2, 2 0, 0
M 1, 0 2, 4 1, 5
B 0, 4 3, 0 3, 3

 (2.4)
Bây giờ, khi đã quan sát trò chơi rút gọn (2.4), ta thử tìm kiếm khả
năng chiến lược thuần M (dòng 2) lép vế - nghĩa là p2 = 0 - trước một
chiến lược hỗn hợp p = (p, 0, 1 − p) trong điều kiện p hợp lý nào đó.5
Bây giờ, ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiết
lập các bất đẳng thức cho điều kiện của p phù hợp. Nếu tồn tại p như vậy,
ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định.
Do NC1 (tương ứng (A)) chơi theo hàng, nên cần so sánh với e2Aej với
j lần lượt nhận các giá trị 1, 2, 3 chính là (1, 2, 1); đây chính là dòng M
của (A).
Sau đó, ta tính pAej và so sánh từng hàng lần lượt với các phần tử
củaM nói trên, để thu được hệ bất đẳng thức:6
5DoM lép vế, nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gán
bằng 0 trong p = (p; 0; 1 − p).
6Để thỏa mãn tính trội tuyệt đối, tất cả các bất đẳng thức xuất phát đều có vế trái lớn
hơn vế phải.

p · 2 + 0 · 1 + (1 − p) · 0 1
p · 2 + 0 · 2 + (1 − p) · 3 2
p · 0 + 0 · 1 + (1 − p) · 3 1
Rút gọn hệ này, ta dễ dàng có được:
2p 1
3 − p 0
2 3p
Bất đẳng thức thứ 2 của hệ này tầm thường. Từ 2 bất đẳng thức còn
lại, ta thu được điều kiện cho p là: 1
2 p 2
3 . Điều này khẳng định việc
loại bỏ M khỏi chiến lược thuần của NC1, và tiếp tục rút gọn (2.4) trở
thành (2.5)
( W Y Z
T 2, 2 2, 2 0, 0
B 0, 4 3, 0 3, 3
)
(2.5)
Ngay lập tức, ở trò chơi mới (2.5) ta nhận thấy trong (B) xuất hiện
W có tính trội tuyệt đối so với Z do đó, ta tiếp tục loại chiến lược Z của
(2.5), và ta đã rút gọn về trò chơi () kích thước 2 × 2:
( W Y
T 2, 2 2, 2
B 0, 4 3, 0
)
(2.6)
Bây giờ ta chuyển qua giải trò chơi (2.6). Giả sử NC2 có PPXS tổng
quát dạng (q, 1 − q), NC1 sẽ lựa chọn T khi:
2q + 2(1 − q) 0q + 3(1 − q)
Nghĩa là q 1/3. Như vậy, khi q = 1/3 thì mọi chiến lược p = (p, 1 − p)
đều mang lại cùng lợi ích, và NC1 không còn phải đắn đo. Ngược lại, thì
lựa chọn B khi:
2q + 2(1 − q) 0q + 3(1 − q),

nghĩa là q 1/3.
Tóm tắt lại, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS
(q, 1 − q) của NC2 là β1(q, 1 − q), thì
β1(q, 1 − q) =


{(1, 0)} nếu 0 ≤ q 1
3
{(p, 1 − p)|0 ≤ p ≤ 1} nếu q = 1
3
{(0, 1)} nếu 1
3 q ≤ 1
(2.7)
Bây giờ ta lại xét phản ứng tối ưu của NC2 với PPXS chiến lược thuần
NC1 có dạng (p, 1 − p). Rõ ràng, chọnW khi:
2p + 4(1 − p) 2p + 0(1 − p),
tức là p 1. Khi p = 1, mọi (q, 1 − q) đều là phản ứng tối ưu. Trường
hợp p 1 không xảy ra, do đó không nằm trong tập phản ứng tối ưu của
NC2. Tương tự, ta tóm tắt lại:
β2(p, 1 − p) =
{
{(1, 0)} nếu 0 ≤ p 1
{(q, 1 − q)|0 ≤ q ≤ 1} nếu p = 1 (2.8)
Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1,
NC2 trong H.(2.2) dưới đây.
Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìm
thấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏa mãn
các tính chất mong muốn. Như vậy, tập hợp các chiến lược hỗn hợp là
tập các PPXS sau: {((1, 0), (q, 1 − q))| 1
3
≤ q ≤ 1}.
Từ đây, ta suy ra tập các cân bằng Nash ở dạng của trò chơi bimatrix
ban đầu (nghĩa là khi chưa rút gọn) sẽ có dạng: {((1, 0, 0), (q, 0, 1 −
q, 0))| 1
3
≤ q ≤ 1}.
2.3 Một số ứng dụng và bài toán minh họa
Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnh
tranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trời
và trong nhà. Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa.
Nếu cả 2 công ty cùng sản xuất ghế ngoài trời, thì mỗi công ty hưởng
lợi 2 tỷ. Nếu cả hai cùng sản xuất ghế trong nhà, thì lợi ích đem lại cho

Hình 2.2: Sơ đồ β2
Nash-E
Nash-E
1
q
1/3
0
p 1
mỗi công ty là 1 tỷ. Nếu hai công ty lựa chọn loại ghế khác nhau, thì mỗi
công ty thiệt hại 1 tỷ.
Yêu cầu: Dựng trò chơi bimatrix cho ứng dụng này. Giải tập hợp
toàn bộ các điểm cân bằng Nash của trò chơi.
Ứng dụng 4: Trò chơi phúc lợi. Một chính phủ có kế hoạch hỗ
trợ tài chính cho nông dân tăng việc làm và thu nhập. Giả sử nông dân
chỉ tìm kiếm cơ hội tăng việc làm và thu nhập từ công việc nếu không
có nguồn phúc lợi do chính phủ hỗ trợ. Nông dân cũng có thể thất bại
trong việc cố gắng mở rộng cơ hội việc làm và thu nhập. Lợi ích tương
ứng cho CP và ND là 3,2 nếu CP cấp phúc lợi và ND cố gắng tìm kiếm
thêm cơ hội việc làm; là -1,1 nếu CP không hỗ trợ và ND vẫn nỗ lực tự
tìm kiếm việc làm; và -1,3 nếu CP hỗ trợ và ND không nỗ lực; và 0,0
trong trường hợp CP không hỗ trợ và ND cũng không cố gắng vận động.
Yêu cầu: Dựng mô hình trò chơi bimatrix. Xác định tập các điểm cân
bằng Nash thể hiện chiến lược phản ứng tối ưu giữa CP và ND.
Ứng dụng 5: Trò chơi tiền lương. Hai công ty đều có một vị trí
tuyển dụng mới. Giả sử công ty i (i = 1, 2) đưa ra mức lương wi, trong
đó 0 1
2w1 w2 2w1 và w1̸= w2.

Giả sử có 2 công nhân, mỗi người có thể nộp đơn cho duy nhất chỉ
một công ty. Hai công nhân đồng thời phải quyết định nộp đơn cho
công ty 1 hay công ty 2. Nếu chỉ có một công nhân nộp đơn cho một
công ty, người đó sẽ có việc làm; nếu cả hai cùng nộp đơn cho một công
ty, công ty sẽ thuê một trong hai người một cách ngẫu nhiên (với xác
suất 1/2) và người kia sẽ thất nghiệp (lợi ích bằng 0).
Yêu cầu: Xây dựng trò chơi tuyển dụng này.
Ứng dụng 6: Trò chơi quảng cáo. Hai công ty bán cùng loại sản
phẩm. Mỗi phần trăm thị phần giành được đem lại lợi ích tài chính là
1. Không cần quảng cáo thì mỗi công ty chiếm thị phần là 50%. Chi
phí quảng cáo là 10, và quảng cáo giúp tăng thị phần 20%, trong khi
công ty kia thì mất đi tương ứng. Hai công ty quyết định việc tham gia
quảng cáo đồng thời và độc lập với nhau. Tổng quy mô thị trường của
sản phẩm này không đổi.
Ứng dụng 7: Trò chơi phiếu bầu. Hai đảng tranh cử mỗi đảng có
3 phiếu bầu có thể sử dụng phân phối có 3 ứng viên. Một ủy ban được
lập ra gồm có 3 người. Mỗi đảng muốn có càng nhiều ứng viên trong
ủy ban càng tốt. Trong số 6 ứng viên, 3 ứng viên nào nhận được nhiều
phiếu bầu nhất sẽ được lựa chọn vào ủy ban; trong trường hợp số phiếu
bằng nhau, sẽ rút thăm những người có cùng số phiếu (xác suất phân
phối đều).
Bài tập 8: Loại bỏ chiến lược lép vế. Cho ma trận bimatrix sau
( W X Y Z
T 6, 6 4, 4 1, 2 8, 5
B 4, 5 6, 6 2, 8 4, 4
)
(2.9)
Tìm các chiến lược thuần của NC1 và NC2 bị lép vế so với một chiến
lược thuần khác. Xác định các tổ hợp giữa hai chiến lược thuần W, Y
của NC2 có tính trội tuyệt đối so với X. Tìm các điểm cân bằng của trò
chơi này.
Bài tập 9: Cân bằng Nash. Tìm các điểm cân bằng Nash của trò
chơi bimatrix (2.10).



W X Y
T 2, 0 1, 1 4, 2
M 3, 4 1, 2 2, 3
B 1, 3 0, 2 3, 0

 (2.10)
Bài tập 10: Trò chơi tham số. Trò chơi (2.11) có chứa tham số
a ∈ R. Xác định các cân bằng Nash cho mọi giá trị có thể của tham số a.
( L R
T 1, 1 a, 0
B 0, 0 2, 1
)
(2.11)

VQG ghi chú:

Chương 3
Dạng Mở Rộng Hữu Hạn
Trong phần này, ta xét loại bài toán được gọi là dạng mở rộng và một
loạt các khái niệm liên quan như thời điểm quyết định, nút quyết định,
bước chuyển động, perfection trò chơi con, quy nạp lùi, cân bằng Bayes
hoàn hảo.
3.1 Bài toán dạng mở
Trò chơi dạng mở được đặc tả bằng một cây trò chơi, chứa các nút và
nhánh. Mỗi nút là một nút quyết định hoặc nút may rủi, hoặc là nút kết
thúc (đưa ra giá trị lợi ích). Mỗi nhánh tương ứng với một hành động
của NC hoặc là lựa chọn có tính may rủi (còn gọi là bước chuyển động
vô thức - move of nature hoặc chance move).
Nút trên cùng gọi là gốc xuất phát của cây trò chơi. Trong sơ đồ này,
nút gốc là một nút quyết định của NC1, và là xuất phát điểm của trò chơi.
Từ đây, NC1 sẽ lựa chọn trong 3 bước chuyển động A,B,C. NC2 nhận
thức được 3 lựa chọn này của NC1. Sự kiện đầu tiên của NC2 trong sơ
đồ là đường gạch đứt quảng nối giữa hai nút quyết định bên hai nhánh
trái. Khi này, NC2 có 2 quyết định l, r. Cặp 2 nút được nối bằng gạch
đứt nét này được gọi là tập thông tin của NC2. Với tập thông tin này,
NC2 biết rằng tiến hành trò chơi sẽ dẫn tới một trong hai nút quyết định
khi NC2 đến lượt, tuy nhiên lại không thể đoán biết là bước chơi trước
của NC1 sẽ dẫn tới điểm nào.
Nếu NC1 đi bước C, thì sẽ xuất hiện một bước may rủi, chia 2 nhánh
U,D. Nếu rơi vào nhánh U, với xác suất 1/3 thì sẽ đến lượt NC2 quyết
35

Hình 3.1: Sơ đồ trò chơi dạng mở
NC1
C May rủi
U
1/4
D
3/4
NC2 NC1
08
l r l r L R a b
88
00
84
A
41
72
B
63
40
NC2
định, ngược lại ở nhánh D, với xác suất 3/4 sẽ đến lượt NC1. Ta cũng
lưu ý các ký hiệu nhánh L,R, a, b. Còn lại các nút ở hàng cuối là các nút
kết thúc. Các cặp giá trị tại mỗi nút kết thúc cho biết lợi ích của NC1
ở hàng trên, và NC2 dòng dưới. Các nút kết thúc cũng gọi là tập thông
tin, nhưng có tính chất tầm thường. Tập thông tin chứa (nối) ít nhất 2
nút quyết định gọi là tập thông tin không tầm thường. Những trò chơi
chứa tập thông tin không tầm thường gọi là trò chơi với thông tin không
hoàn hảo. Ngược lại là trò chơi hoàn hảo, chỉ chứa các tập thông tin tầm
thường thu được qua các nút đơn nhất.
3.2 Dạng chiến lược
Trong trò chơi dạng mở (3.1) đang xét, có hai khái niệm khác biệt cần
lưu ý là hành động và chiến lược. Hành động là một bước chơi có thể
xảy ra của một NC trước một tập thông tin. Trong trò chơi ví dụ ở sơ đồ
cây phía trên, NC1 có các hành động A,B,C, a, b, và NC2 là l, r, L,R.
Chiến lược - theo cách hiểu của LTTC - là một kế hoạch hoàn chỉnh
để chơi toàn bộ trò chơi. Ví dụ về một chiến lược của NC trong sơ đồ trò
chơi (3.1) là “Chuyển động đầu tiên là bước C, sau đó nếu bước may

rủi cho kết cục D thì thực thi a.”
Điều đáng chú ý là khái niệm chiến lược còn chấp nhận cả kế hoạch
hoàn chỉnh, nhưng không thể xảy ra trong sơ đồ trò chơi, ví dụ như, với
NC1 có thể có chiến lược sau: “Chơi bước A, sau đó nếu kết cục may rủi
là D thì chơi nước b.” Với lô-gic bình thường, kế hoạch chơi này trông
rất kỳ quặc, vì nếu đã chơi bước A rồi, thì NC1 không còn cơ hội để chơi
nước b nữa. Tuy vậy, LTTC vẫn chấp nhận đây là một phương án hoàn
chỉnh các nước chơi để hoàn tất một trò chơi.
Đối với NC2, tồn tại chiến lược chơi: “Chơi l nếu NC1 chơi A hoặc
B, và chơi L nếu NC2 hành động C và bước may rủi cho kết cục U.” Rõ
ràng, trong kế hoạch chơi trọn vẹn này, NC2 không thể biết NC1 có lựa
chọn A hay B hay không, do đó phản ánh suy nghĩ này vào cách chơi của
mình. Trường hợp này khác hẳn so với khi ta bỏ gạch nối ở nhánh bên
trái của sơ đồ (3.1), và trò chơi có thông tin hoàn hảo, như trong sơ đồ
(3.2).
Hình 3.2: Sơ đồ cây - thông tin hoàn hảo
NC1
C May rủi
U
1/4
D
3/4
NC2 NC1
08
l r l r L R a b
88
00
84
A
NC2
41
72
B
NC2
63
40
Với trường hợp cho ở hình (3.2), NC2 biết chính xác mình cần đi
bước nào sau bước A hoặc B của NC1.
Cuối cùng, có thể viết lại khái niệm chiến lược chơi là một dãy các
hành động, trong đó tại mỗi tập thông tin của mỗi người chơi, chỉ có

duy nhất một bước đi (hành động) được thực hiện.
Trong cả 2 lược đồ trên, thì chiến lược của NC1 đều có 2 hành động, do
xuất hiện 2 tập thông tin, trong đó có 1 tập là tầm thường. NC1 có 3 hành
động có thể thực hiện ở tập thông tin 1, và 2 ở nút tập thứ 2. Theo đó,
tập chiến lược của NC1 có thể được ký hiệu là {Aa, Ab,Ba,Bb,Ca,Cb}.
Tuy nhiên, với NC2 thì tập chiến lược khác biệt lớn giữa hai sơ đồ
(3.1) và (3.2).
Trước tiên, với sơ đồ H.(3.1), thông tin không hoàn hảo, NC2 có tập
chiến lược {lL, lR, rL, rR}. Nhưng trong H.(3.2), tập chiến lược của
NC2 có dạng {llL, llR, lrL, lrR, rlL, rlR, rrL, rrR}.
Lý do quan trọng bậc nhất của việc xét tập chiến lược là vì qua đó,
trò chơi có thể được rút gọn trò chơi đi một bước kiểu ma trận cặp. Một
khi đã xác định được các tổ hợp chiến lược của người chơi trong trò chơi
(trong các ví dụ đang xét là cặp chiến lược, có thể đi tới tính toán giá trị
lợi ích theo hành trình của sơ đồ cây.
Xét thử cặp chiến lược (Cb, rL) trong trò chơi ở lược đồ H.(3.1). Khi
này, NC1 khai cuộc với hành động C, sau đó là bước may rủi; nếu U xuất
hiện, NC2 đánh L, ngược lại nếu là D, thì NC2 đi nước b. Như vậy, với
xác suất 1/4, cặp lợi ích sinh ra là (0, 0), và 3/4 là (0, 8). Lợi ích kỳ vọng
cho NC1 là 0, và NC2 là 6. Theo cách làm này, có thể tính ra 6 × 4 cặp
lợi ích cho trò chơi H.(3.1), và 6 × 8 cặp lợi ích cho H.(3.2). Các cặp lợi
ích này được viết lại thành dạng một ma trận cặp (bimatrix) lợi ích (kỳ
vọng) như sau.
Tương ứng với H.(3.1), ta thu được:


lL lR rL rR
Aa 4, 1 4, 1 7∗, 2∗ 7∗, 2∗
Ab 4, 1 4, 1 7∗, 2∗ 7∗, 2∗
Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0
Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0
Ca 6, 6 8∗, 7∗ 6, 6 8∗, 7∗
Cb 0, 6 2, 7∗ 0, 6 2, 7∗


, (3.1)

và tương ứng H.(3.2), thì có:


llL llR lrL lrR rlL rlR rrL rrR
Aa 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗
Ab 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗
Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0
Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0
Ca 6∗, 6 8∗, 7∗ 6∗, 6 8∗, 7∗ 6, 6 8∗, 7∗ 6, 6 8∗, 7∗
Cb 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗


(3.2)
Trò chơi ma trận cặp như trên được gọi là dạng chiến lược của trò
chơi dạng mở. Định nghĩa cân bằng Nash cho trò chơi dạng mở cũng
đồng thời là cân bằng Nash của dạng chiến lược. Điều này đúng với các
cân bằng Nash thuần, và nói chung cũng đúng với các cân bằng Nash
trong chiến lược hỗn hợp.
3.3 Quy nạp lùi và hoàn chỉnh trò chơi con
Xét trò chơi ở sơ đồ H.(3.2); trò chơi dạng mở với thông tin hoàn hảo.
Có thể tiến hành phân tích trò chơi này dựa trên nguyên lý quy nạp
lùi. Ta bắt đầu với các nút ngay trước nút kết thúc, và biến đổi chúng
thành các nút kết thúc với các giá trị lợi ích được tính ra từ bước chơi tối
ưu. Quy nạp lùi như trên giúp thu gọn trò chơi H.(3.2) trở thành dạng
H.(3.3).
Ở sơ đồ rút gọn ở H.(3.3), chiến lược của NC2 đã được xác định hoàn
toàn là lựa chọn rlR.
NC1 chọn a trong tập thông tin bên dưới. Tiếp theo, trong trò chơi
rút gọn, NC1 chọn bước đi đem lại lợi ích tối đa. Do A mang lại lợi ích
7, và B mang lại 6, C có lợi ích kỳ vọng 8 ( 1
4 + 3
4 ) × 8, lựa chọn tối ưu
của NC1 là C. Từ đó suy ra, ta có cặp chiến lược (Ca, rlR) với cặp lợi ích
tương ứng (8, 7). Đây là một trong 10 điểm cân bằng Nash của trò chơi
dạng chiến lược (3.2), có tên gọi điểm cân bằng quy nạp lùi. Các nhà
toán học đã chứng minh rằng áp dụng nguyên lý quy nạp lùi luôn tìm
ra một cân bằng Nash (thuần); có thể hình dung trực giác kết luận này,
nhưng việc chứng minh điều này không đơn giản.
Bên cạnh đó, ta nhận thấy trò chơi thông tin hoàn hảo có ít nhất một
cân bằng Nash trong các chiến lược thuần, và điểm này có thể tìm ra
bằng phương pháp quy nạp lùi.

Hình 3.3: Sơ đồ cây rút gọn - thông tin hoàn hảo
NC1
C May rủi
U
1/4
D
3/4
88
84
A
72
B
63
Cũng cần phân biệt giữa điểm cân bằng quy nạp lùi - trong trò chơi
đang xét là (Ca, rlR)) - và kết cục quy nạp lùi. Kết cục quy nạp lùi ám
chỉ các bước triển khai chơi thực sự, hay nói một cách tương đương khác
là một quỹ tích cân bằng, trong trường hợp này là (Ca,R). Ta quan sát
thấy tồn tại nhiều điểm cân bằng Nash khác trong trò chơi tạo ra cùng
kết cục hay quỹ tích, chẳng hạn như (Ca, llR), (Ca, lrR), và (Ca, rrR):
chúng đều dẫn đến quỹ đạo (Ca,R), nhưng lại khác nhau ở phần bên
trái của cây trò chơi, trong đó NC2 có ít nhất một quyết định dưới mức
tối ưu. Như vậy, nguyên lý quy nạp lùi giúp đảm bảo rằng mọi người
chơi luôn đi bước tối ưu, thậm chí ngay cả ở những phần của cây trò
chơi không thực sự được chơi trên thực tế.
Cách tổng quát để tiến hành quy nạp lùi là sử dụng ý tưởng về trò
chơi con (subgame perfection)., với định nghĩa trò chơi con như sau:
“Một trò chơi con là một phần bất kỳ của một cây trò chơi, khởi đầu ở
một nút quyết định đơn của một NC hoặc là một nút may rủi, mà sau
đó không bị kết nối với cây trò chơi qua một tập thông tin nào sau đó.”
Trò chơi trong sơ đồ H.(3.2) có tới 6 trò chơi con khác nhau, bao
gồm: (1) toàn bộ trò chơi; (2) trò chơi bắt đầu từ bước may rủi; (3,4,5,6)
4 trò chơi bắt đầu từ 4 nút ngay trước nút kết thúc.
Định nghĩa của điểm cân bằng hoàn hảo của trò chơi con như sau:
Đó là một kết hợp chiến lược dẫn đến cân bằng Nash trong tất cả các
trò chơi con. Xét H.(3.2), để một kết hợp chiến lược trở thành cân bằng
hoàn hảo của trò chơi con, sự kết hợp đó buộc phải sinh ra một điểm
cân bằng Nash ở tất cả các trò chơi con. Do toàn bộ trò chơi cũng chính
là trò chơi con, nên một điểm cân bằng như thế bắt buộc phải là cân

bằng Nash của toàn bộ trò chơi, và suy ra, cả 10 cân bằng Nash của sơ
đồ đang xét đều là ứng viên cho điểm cân bằng hoàn hảo đó. Vì thế,
một điểm cân bằng hoàn hảo của trò chơi con bắt buộc luôn phải là một
cân bằng Nash. Cân bằng hoàn hảo đó cũng phải dẫn đến một điểm cân
bằng trong cả 4 trò chơi con một người chơi trước nút kết thúc.1
Trong ví dụ này, nó có nghĩa là các bước đi r, l,R, và a.
Suy ra rằng, NC lựa chọn tối ưu trong cả trò chơi con khởi đầu từ nút
may rủi. Tổng kết lại, ta tìm (các) cân bằng Nash và điểm duy nhất thỏa
mãn là (Ca, rlR). Do đó, điểm cân bằng hoàn hảo trò chơi con duy nhất
của trò chơi này là (Ca, rlR), và đây cũng là điểm cân bằng quy nạp lùi.
Trong trò chơi thông tin hoàn hảo, các điểm cân bằng quy nạp lùi và cân
bằng hoàn hảo trò chơi trùng nhau.
Tiếp theo, tìm hiểu trò chơi với thông tin không hoàn hảo trong sơ
đồ H.(3.1). Trong trò chơi này, nguyên lý quy nạp lùi không áp dụng
được cho nhánh bên trái của cây trò chơi, vì lý do NC2 không biết liệu
NC1 sẽ đi bước A hay B trong khi NC2 phải lựa chọn một bước đi trong
tập thông tin phía nhánh trái, và NC này không thể quyết định giữa l và
r. Về trò chơi con, khi này tồn tại: (1) toàn bộ trò chơi; (2,3) 2 trò chơi
con theo kết cục U và D; và (4) trò chơi con khởi đầu từ bước may rủi.
Như vậy, ràng buộc của phép hoàn chỉnh trò chơi con là, NC1 đi bước a,
NC2 đi R, và sự kết hợp chiến lược này là điểm cân bằng Nash của toàn
bộ trò chơi.
Trong số 6 điểm cân bằng Nash của trò chơi ma trận cặp (??), chỉ
còn hai điểm cân bằng phù hợp là (Ca, lR) và (Ca, rR). Và đây là hai
điểm cân bằng hoàn hảo trò chơi con của H.(3.1).
Có thể thấy rằng, phép hoàn chỉnh trò chơi con có khả năng ứng dụng
tổng quát hơn so với của nguyên lý quy nạp lùi thông qua trò chơi cho
ở cây H.(3.4). Trò chơi này có 3 người chơi và phép quy nạp lùi không
áp dụng được.
Còn với phép hoàn chỉnh trò chơi con, ta lưu ý tới thực tế là trò chơi
này chỉ có 2 trò chơi con duy nhất là (1) toàn bộ; và (2) trò chơi khởi
đầu từ nút quyết định của NC2. Trò chơi (2) diễn ra giữa NC2 và NC3
có dạng chiến lược (3.3).
1Có thể coi các điểm cân bằng Nash cho trò chơi 1-NC là NC đó sẽ chọn bước đi có
lợi tối ưu.

Hình 3.4: Sơ đồ cây 3-NC
NC1
NC2
L
A
l r
R
l r
331
000
000
113
B
200
NC3
( l r
L 3, 1 0, 0
R 0, 0 1, 3
)
. (3.3)
Trò chơi dạng chiến lược (3.3) có 2 điểm cân bằng Nash thuần là
(L, l) và (R, r). Như vậy, nếu chơi theo chiến lược cân bằng đầu tiên, thì
NC1 chơi A, thu về lợi ích bằng 3, trong khi đánh B thu về 2. Nếu theo
điểm cân bằng thứ hai trong trò chơi con, NC1 rõ ràng chơi B vì đánh
nước A chỉ thu về lợi ích là 1. Do đó, hai cân bằng trò chơi con hoàn hảo
là (A, L, l) và (B,R, r).
Một cách khác là, ta có thể tính trước tiên các cân bằng Nash của toàn
bộ trò chơi. Dạng chiến lược của trò chơi được thể hiện trong các ma
trận lợi ích khi NC1 đánh A và B.
1 : A
( l r
L 3∗, 3∗, 1∗ 0, 0, 0
R 0, 0, 0 1, 1∗, 3∗
)
1 : B
( l r
L 2, 0∗, 0∗ 2∗, 0∗, 0∗
R 2∗, 0∗, 0∗ 2∗, 0∗, 0∗
)

Trong các ma trận này, phản ứng tối ưu được đánh dấu sao. NC1 phải
so sánh lợi ích từ cả hai ma trận để cân nhắc. Các cân bằng Nash thuần
thu được là (A, L, l), (B, L, r), (B,R, l), và (B,R, r). Cân bằng hoàn hảo
trò chơi con là cân bằng thực hiện được phối hợp chiến lược chơi (L, l)
hoặc (R, r) dẫn ta tới kết luận về hai điểm cân bằng nói ở trên.
3.4 Cân bằng Bayes hoàn hảo
Các khái niệm cân bằng Nash và cân bằng trò chơi con hoàn hảo còn
được tiếp tục phát triển tinh tế hơn qua khái niệm cân bằng Bayes hoàn
hảo. Xét một tập thông tin của một NC trong trò chơi dạng cây. Một
niềm tin của NC đó chỉ đơn giản hiểu là một PPXS qua các nút của tập
thông tin, hoặc trên các hành động đáp ứng trước tập thông tin đó. Nếu
tập thông tin tầm thường (tức là chỉ là một nút đơn) thì niềm tin đó cũng
tầm thường, tức là gán xác suất bằng 1 cho nút quyết định duy nhất đó.
Một cân bằng Bayes hoàn hảo của một trò chơi dạng cây (mở rộng) là
một sự kết hợp các chiến lược và một quy ước về niềm tin sao cho hai
điều sau đây được thỏa mãn: 1) Niềm tin nhất quán với các chiến lược
đang xét; và 2) Những NC lựa chọn một cách tối ưu với sự tồn tại của
các niềm tin đã biết.
Điều kiện thứ nhất được gọi là tính nhất quán Bayes về niềm tin, và
điều kiện thứ hai là tính hợp lý tuần tự. Điều kiện đầu phát biểu rằng
niềm tin cần thỏa mãn cập nhật thông tin dạng Bayes đối với các chiến
lược bất kỳ khi nào có thể. Điều kiện sau yêu cầu NC cần hành động
nhằm tối đa hóa lợi ích kỳ vọng dựa trên niềm tin của mình.
Ta xét ví dụ minh họa (3.1). Trò chơi này có một tập thông tin không
tầm thường. Giả sử niềm tin của NC2 trước tập thông tin này được cho
bởi xác suất α cho nút bên trái và 1−α cho nút bên phải. Mọi tập thông
tin khác đều tầm thường, vì vậy niềm tin sẽ gán xác suất 1 cho mỗi nút
tương ứng. Áp dụng điều kiện (2) ngụ ý NC2 cần lựa chọn R và NC1
chọn a tại các tập thông tin tương ứng.
Trước tập thông tin không tầm thường, NC2 cần lựa chọn hành vi
tối đa hóa lợi ích kỳ vọng. Mức kỳ vọng từ lựa chọn l của NC2 là
α · 1+(1α) · 3 = 32α và từ hành vi chọn r là α · 2+(1α) · 0 = 2α. Vì thế,
chiến lược chọn l là tối ưu nếu như 32α ≥ 2α; điều này có nghĩa là khi
α ≤ 3/4. Và, r cho kỳ vọng tối đa nếu α ≥ 3/4.
Trong trò chơi đang xét, với NC1, lựa chọn C luôn tối ưu, với yếu tố

kết cục R, a cho trước: C cho lợi ích 8 trong khi đó A,B chỉ mang lại
tối đa là 7. Nhưng nếu NC1 không lựa chọn A hoặc B thì điều kiện (1)
không đặt ra ràng buộc nào với niềm tin [α] của NC2. Một cách chặt
chẽ thì, nếu NC1 chọn C thì tập thông tin không tầm thường của NC2
không có khả năng sử dụng, và vì thế xác suất [α] không được hiệu chỉnh
Bayes, tức là, bằng việc tính xác suất có điều kiện khả năng chạm tới nút
trái hay phải của tập thông tin NC2. Điều này có nghĩa là ta có thể chọn
bất kỳ giá trị α nào mong muốn, nhưng tương ứng với giá trị α đó NC2
cần lựa chọn tối ưu. Từ đó suy ra, về cơ bản ta có 2 cân bằng Bayes hoàn
hảo, đó là (Ca, lL) ứng với niềm tin α ≤ 3/4, và (Ca, rL) khi α ≥ 3/4.
Ta lại lưu ý rằng đây chính là hai cân bằng trò chơi con hoàn hảo, chỉ có
điều bây giờ được hỗ trợ bởi ý niệm về mức độ tin tưởng của NC2 vào
tập thông tin không tầm thường của mình.
Đồng thời, ta cũng nhận thấy một cân bằng Bayes hoàn hảo luôn
đóng vai trò cân bằng trò chơi con hoàn hảo, và vì thế cũng là một cân
bằng Nash. Thực ra, bằng cách gán các xác suất cho các nút của một tập
thông tin, chúng ta cũng tạo điều kiện để áp dụng nguyên lý quy nạp lùi.
Điều kiện của cân bằng Bayes có ảnh hưởng mạnh hơn phép hoàn
chỉnh trò chơi con. Giả sử vẫn xét trò chơi này, ta thay cặp lợi ích (4, 1)
sau A và l bằng cặp (4, 3). Kiểm tra nhanh ta có các cân bằng trò chơi
con hoàn hảo vẫn là (Ca, lL), (Ca, rL). Đương nhiên NC2 tỉnh táo sẽ
không bao giờ lựa chọn r tại tập thông tin không tầm thường vì l đem
lại lợi ích lớn hơn, nhưng phép hoàn chỉnh trò chơi con lại không loại
bỏ khả năng này. Tuy thế, rõ ràng không khả năng NC2 gán niềm tin để
r là lựa chọn tối ưu. Với PPXS (α, 1 − α) đã giả sử, r đem lại lợi ích 2α,
trong khi l đem lại 3, mà 0 ≤ α ≤ 1 Vậy thì, cân bằng Bayes hoàn hảo
duy nhất có được là (Ca, lL), bất kể trị số niềm tin của NC2 trước tập
thông tin không tầm thường ở mức nào.
Một minh họa khác là trò chơi 3-NC trong sơ đồ (3.5). Có hai cách
tìm các cân bằng Bayes hoàn hảo của sơ đồ chơi này. Ta có thể tìm các
cân bằng trò chơi con hoàn hảo và các xác suất gán niềm tin tương ứng.
Theo cách khác, ta có thể áp dụng quy nạp lùi.
Nếu sử dụng quy nạp lùi, bắt đầu với NC3. Nếu NC3 lựa chọn l thì
lợi ích (kỳ vọng) là α. Còn nếu NC3 chọn r, thì lợi ích là 33α. Suy ra, l
là lựa chọn tối ưu nếu α ≥ 3/4, và r tối ưu nếu α ≤ 3/4.
Bây giờ, giả sử NC3 chọn l. NC2 rõ ràng chọn L. Khi này, điều kiện
(1) của cân bằng Bayes hoàn hảo dẫn đến kết cục α = 1: điều này có

Hình 3.5: Sơ đồ 3-NC cân bằng Bayes
NC1
NC2
L
A
[α]
l
r
R
l r
331
000
000
113
B
200
[1 − α]
NC3
nghĩa là NC3 trên thực tế phải tin rằng NC2 đã lựa chọn L. Rõ ràng, khi
này 1 = α 3/4, nên l chính là hành vi tối ưu của NC3. Rốt cục, NC1
lựa chọn A, thu được lợi ích 3 (thay vì chơi B để đạt 2). Như vậy, chúng
ta có một điểm cân bằng Bayes hoàn hảo (A, L, l) với niềm tin α = 1.
Nếu NC3 chơi r, NC2 về logic sẽ chơi R, điều này dẫn đến α = 0, do
đó NC3 chọn r trên thực tế. Lúc này, NC1 cần chơi B, và như vậy ta có
được cân bằng Bayes hoàn hảo (B,R, r) với niềm tin α = 0.

VQG ghi chú:

Chương 4
Trò Chơi Hữu Hạn Thông
Tin Không Đầy Đủ
Trong trò chơi với thông tin không đầy đủ, những NC có thể thiếu thông
tin về hành động của NC khác. Mọi trò chơi 1-nước, chuyển động đồng
thời đều thuộc nhóm thông tin không hoàn hảo. Cũng có khả năng NC
của trò chơi loại này không có thông tin về một số tính chất của trò chơi
hay đặc tính của NC. Chẳng hạn, một NC có thể không biết hết thông
tin về các hành vi có thể của những NC khác, hoặc về lợi ích có thể đạt
được của NC khác.
Ở đây, ta xây dựng mô hình trò chơi thông tin không đầy đủ bằng cách
giả định rằng mỗi NC thuộc một số nhóm đặc trưng khác nhau (type)..
Đặc trưng của NC bao quát tất cả các thông tin liên quan (đặc biệt là
hành động và lợi ích) về NC đó. Hơn nữa, cũng giả sử rằng mỗi NC biết
rõ mình thuộc đặc trưng nào, và có một PPXS trên các đặc trưng của
những NC khác. Thường thì các PPXS này được giả định có tính nhất
quán, theo nghĩa rằng, các PPXS này được đúc kết từ một loại PPXS đã
biết, có tính chung nhất, trên tất cả các tổ hợp đặc trưng của NC trong
trò chơi.
Ta vẫn chỉ xét trò chơi có số NC hữu hạn, số nhóm đặc trưng hữu
hạn, và số chiến lược chơi hữu hạn. Các trò chơi này có thể là trò chơi
tĩnh (đồng thời, 1-bước) hoặc động (dạng mở rộng/cây). Một cân bằng
Nash trong bối cảnh này cũng còn được gọi là cân bằng Bayes.
53

4.1 Nhóm đặc trưng
Ta xét một tập hợp người chơi, N = {1, 2, ..., n}. Với mỗi NC i ∈ N, tồn
tại một tập hữu hạn các đặc trưng Ti mà NC đó có thể sở hữu. Nếu ta ký
hiệu T = T1×T2×· · ·×Tn cho tập hợp T = {(t1, t2, . . . , tn)|t1 ∈ T1, t2 ∈
T2, . . . , tn ∈ Tn},1 thì một trò chơi thông tin không đầy đủ quy định một
trò chơi với mọi tổ hợp có thể t = (t1, t2, . . . , tn) ∈ T. Ta giả định rằng
mỗi NC i biết rõ đặc trưng ti của mình, và với đặc trưng ti đó sẽ gán
các xác suất p(t1, . . . , ti−1, ti+1, . . . , tn|ti) cho tất cả các tổ hợp đặc trưng
t1 ∈ T1, . . . , ti−1 ∈ Ti−1, ti+1 ∈ Ti+1, . . . , tn ∈ Tn của những NC khác
Thông thường, các xác suất nói trên được tính ra từ một phân phối
xác suất chung p trên T, trong đó p(t) là xác suất mà tổ hợp đặc trưng là
t. Hơn nữa, giả định mỗi NC i, ngoài đặc trưng ti của mình, còn nhận
thức rõ về PPXS p. Vì thế, nếu NC i có đặc trưng ti, thì NC này có thể
tính được xác suất mà loại tổ hợp đặc trưng của những NC khác là véc-tơ
(t1, . . . , ti−1, ti+1, . . . , tn). Xác suất này bằng xác suất có điều kiện
p(t1, . . . , ti−1, ti+1, . . . , tn|ti) = Σp(t1, . . . , ti−1, ti, ti+1, . . . , tn)
p(t′
1, . . . , t′
i−1, ti, t′
i+1, . . . , t′
n)
trong đó, tổng ở mẫu được tính ra từ tất cả các đặc trưng có thể của
những NC khác, tức là trên mọi khả năng t′
1
∈ T1, . . . , t′
i−1
∈ Ti−1, t′
i+1
∈
Ti+1, . . . , t′
n
∈ Tn. Do đó, tổng ở mẫu này chính là xác suất để NC i có
đặc trưng ti.
Một NC trong trò chơi thông tin không đầy đủ có thể hành động phụ
thuộc vào đặc trưng cá nhân của riêng mình, nhưng không phụ thuộc
vào đặc trưng của những NC khác. Tuy nhiên, vì NC này biết được các
xác suất của các đặc trưng của NC khác, nên có thể tính toán được lợi
ích kỳ vọng của từng bước chơi.
4.2 Trò chơi tĩnh, thông tin không đầy đủ
Ví dụ được đưa ra dưới đây giúp minh họa trò chơi tĩnh thông tin không
đầy đủ, với những khái niệm chúng ta vừa cung cấp ở trên.
1Tức là tập hợp của tất cả các tổ hợp các đặc trưng có thể tồn tại trong trò chơi.

Xung đột sở thích giới tính: Tình huống xảy ra giữa một chàng
trai và một cô gái, muốn hẹn gặp nhau, hoặc xem một trận bóng đá,
hoặc dự một buổi diễn ba-lê. Hai người đều không nhớ về quyết định đi
đâu trong lần hẹn. Họ ở khác chỗ nhau và phải tự quyết định đi đâu; dĩ
nhiên giả sử không có phương tiện thông tin để liên lạc. Mục tiêu chính
là phải gặp được nhau. Chàng trai thích bóng đá hơn, ngược lại cô gái
thích ba-lê hơn.2
Trong bài toán này, NC1 không biết liệu NC2 (cô gái) muốn hò hẹn
với anh ta hay không, nghĩa là không thể chắc chắn bản thân mình muốn
lựa chọn Yes hay No. Mô hình được viết lại cho tính bất trắc chiến lược
này như sau.
Y :
( S B
S 2, 1 0, 0
B 0, 0 1, 2
)
Y :
( S B
S 2, 0 0, 2
B 0, 1 1, 0
)
(4.1)
trong đó, S là đi xem đá bóng (viết tắt chữ Soccer) và B là ba-lê. Chàng
trai là người chơi theo hàng (NC1) và cô gái theo cột (NC2). Tình huống
cần hợp tác này liên quan trực tiếp tới sự tổ hợp các lựa chọn cá nhân,
và khái niệm cân bằng Nash.3
NC1 gán xác suất bằng 1/2 cho mỗi trò chơi con Y,N. NC2 cũng biết
thông tin này. Theo cách chúng ta định nghĩa ở trên về đặc trưng thì
điều này có nghĩa là NC1 chỉ có 1 đặc trưng, biểu thị qua 1. Nhưng NC2
có 2 đặc trưng là Y và N. Hai tổ hợp đặc trưng của trò chơi là (1, y) và
(1, n), đều có xác suất xuất hiện là 1/2.
NC2 biết rõ đặc trưng của NC1 cũng như của bản thân, có nghĩa là
biết chắc trò chơi nào đang diễn ra. NC1 thì phải gán xác suất cho từng
đặc trưng của NC2, đều là 1/2. Sơ đồ dạng cây của tình huống xung đột
nói trên được cung cấp trong H.(4.1), có thể giúp giải quyết việc tìm cân
bằng Nash thuận lợi hơn.
Sơ đồ cho biết trò chơi bắt đầu ở nút May-Rủi, và đi đến lựa chọn
một trong hai ma trận cặp để chơi, với xác suất 1/2. Theo diễn đạt về
đặc trưng NC, trò chơi này lựa đặc trưng của NC2. NC2 được thông tin,
2Peter, Hans (2008) Game theory: a multi-leveled approach. Springer Verlag,
Heidelberg, Germany.
3Nash, John F. (1951) “Non-cooperative games.” Annals of Mathematics,
54:286–295.

Hình 4.1: Xung đột sở thích giới tính, thông tin không đầy đủ
May-Rủi
NC2
Y
1/2
S
S B
B
S B
21
00
00
12
NC2
N
1/2
B
S B S B
20
01
02
10
NC1
nhưng NC1 thì không. NC2 có 4 chiến lược khác nhau, nhưng NC1 chỉ
có 2. Từ sơ đồ dạng chiến lược của trò chơi, có thể quan sát thấy mọi
cân bằng Nash đều có tính hoàn hảo trò chơi con, vì không có trò chơi
con nào không tầm thường. Đồng thời, mọi cân bằng Nash đều hoàn
hảo Bayes, tập thông tin không tầm thường duy nhất (của NC1) sẽ được
tận dụng cho dù NC2 có đi phương án nào, như vậy niềm tin hoàn toàn
được xác định qua chiến lược của NC2 nhờ bổ sung thông tin Bayes.
Dạng chiến lược của trò chơi cho ở H.(4.2). Trong sơ đồ, chữ cái đầu
tiên trong một chiến lược của NC2 cho biết NC2 chơi gì nếu Y xuất hiện
ở bước May-Rủi. Tương tự, chữ cái thứ 2 tương ứng với trường hợp N.
Phản ứng tối ưu được đánh dấu.
( SS SB BS BB
S 2∗, 0.5 1∗, 1.5∗ 1∗, 0 0, 1
B 0, 0.5 0.5, 0 0.5, 1.5∗ 1∗, 1∗
)
(4.2)
Từ dạng chiến lược, thấy rằng trò chơi có cân bằng Nash thuần duy
nhất là (S, SB). Trong cân bằng này, NC1 chọn S, đặc trưng Y của NC2
chọn S và đặc trưng N của NC 2 chọn B.
Điểm cân bằng này cũng còn gọi là cân bằng Bayes, tuy nhiên nó là

một cân bằng Nash của một dạng trò chơi sơ đồ cây theo một quy cách
phù hợp. Cân bằng Nash thuần của một trò chơi dạng này có thể xác
định mà không cần vẽ sơ đồ cây hay tính ra ma trận dạng chiến lược.
Giả sử rằng, NC1 lựa chọn S tại điểm cân bằng. Khi này, phản ứng tối
ưu của NC2 là chơi S nếu cô gái có đặc trưng Y , và lựa chọn B, nếu đặc
trưng của cô ta là N.
Lợi ích kỳ vọng của NC1 là 1; thế nên nếu NC2 lựa chọn B thì chỉ thu
được lợi ích kỳ vọng 0,5. Do vậy, (S, SB) là cân bằng Nash.
Mặt khác, nếu như NC1 chọn B, thì phản ứng tối ưu của NC2 chứa
đặc trưng Y là B, còn đặc trưng N thì là S. Lợi ích của NC1 là 0,5, trong
khi đó nếu chơi S thì lợi ích của NC2 là 1, trong tình huống này. Do đó,
không có điểm cân bằng khi NC1 lựa chọn B.
Trường hợp thông tin không đầy đủ từ cả hai phía Đây là một
ví dụ của việc tiếp tục chỉnh sửa đầu bài của trò chơi xung đột lợi ích
giới tính vừa đề cập ở trên. Trong trò chơi mới này, không NC nào biết
chắc liệu rằng NC kia có muốn gặp mình không.
Y :
( S B
S 2, 1 0, 0
B 0, 0 1, 2
)
Y :
( S B
S 2, 0 0, 2
B 0, 1 1, 0
)
(4.3)
Y :
( S B
S 2, 1 0, 0
B 0, 0 1, 2
)
Y :
( S B
S 2, 0 0, 2
B 0, 1 1, 0
)
(4.4)
Chúng ta có 4 trò chơi ma trận cặp trong dạng chiến lược cho bởi
(4.3) và (4.4).
Các trò chơi này tương ứng với 4 tổ hợp đặc trưng có thể của NC1 và
NC2. Từ đây ta cũng có PPXS của 4 tổ hợp đặc trưng này trong bảng
(4.1).
Một phương án tìm các cân bằng Nash của trò chơi này là phác họa
dạng sơ đồ cây và tính ra các dạng chiến lược tương ứng. Cách khác là
kiểm tra một cách hệ thống 16 cặp chiến lược có thể.

Bảng 4.1: PPXS theo đặc trưng của NC có 2 đặc trưng
t Y1Y2 Y1N2 N1Y2 N1N2
p(t) 2/6 2/6 1/6 1/6
PPXS phụ thuộc theo loại có thể tính từ bảng (4.1), theo công thức
Bayes xác suất toàn phần ().
p(Y2|Y1) = p(Y1Y2)
p(Y1Y2) + p(Y1N2)
=
2/6
(2/6 + 2/6)
= 1/2
Theo cách này, các xác suất có điều kiện (theo loại đặc trưng) khác
được tính ra kết quả từ bài toán như sau: p(N2|Y1) = 1/2, p(Y2|N1) =
1/2, p(N2|N1) = 1/2, p(Y1|Y2) = 2/3, p(N1|Y2) = 1/3, p(Y1|N2) = 2/3,
p(N1|N2) = 1/3.
Giả sử NC1 chọn chiến lược SS, tức là chàng trai chọn S (chữ S đứng
trước) nếu đặc trưng của anh ta là Y1 và cũng S (chữ đứng sau) ngay cả
khi đặc trưng làN1. (Trong toàn bộ biện luận này, ký hiệu đầu của chiến
lược lựa chọn tương ứng với đặc trưng Y và chữ đứng sau ứng với N).
Khi đó, lợi ích kỳ vọng cho đặc trưng Y2 của NC2 nếu như cô ta
chọn S là (2/3) · 1 + (1/3) · 1 = 1. Nếu NC2 chọn B thì kỳ vọng là
(2/3) · 0 + (1/3) · 0 = 0. Từ đó suy ra, phản ứng tối ưu của đặc trưng Y2
là S.
Tương tự, với N2 của NC2, chọn S cho lợi ích 0, và B đem lại 2. B là
phản ứng tối ưu. Kết hợp lại, phản ứng tối ưu của NC2 đáp ứng lại chiến
lược SS của NC1 là SB.
Như thế chơi S đem lại cho đặc trưng Y1 của NC1 một mức kỳ vọng lợi
ích là (1/2) · 2+(1/2) · 0 = 1. Chọn B đem lại (1/2) · 0+(1/2) · 1 = 1/2,
cho nên S là phản ứng tối ưu cho đặc trưng Y1 của NC1. Tương tự, với
đặc trưng N1 thì chọn S đem lại lợi ích (1/2) · 0+(1/2) · 2 = 1 trong khi
đó chọn B đem lại 1/2. Vì thế, S vẫn là phản ứng tối ưu cả khi đặc trưng
là N1. Suy ra rằng, phản ứng tối ưu của NC1 trước chiến lược chơi SB
của cô gái là SS. Ta kết luận rằng, trong trường hợp này, (SS, SB) là
cân bằng Nash.
Tiếp theo, giả sử rằng NC1 chọn SB. Tính toán theo cách tương tự
cho thấy NC2 có 2 phương án phản ứng tối ưu, là SB và BB. Nếu NC2
chọn SB, thì chiến lược tối ưu của NC1 là SS, theo cùng lô-gic đã lập

luận lúc trước, và không có phương án tối ưu SB. Điều này chứng tỏ
đây không phải là cân bằng Nash. Còn phương án NC2 làBB, phản ứng
tối ưu của NC1 là BS, chứ không phải SB, tổ hợp này cũng không tạo
thành cân bằng Nash.
Thứ ba, giả sử rằng, NC1 chọn chiến lược BS. Như vậy, NC2 có hai
phản ứng tối ưu là BS và BB. Nếu NC2 chọn BS, phản ứng tối ưu của
NC1 là SS và không phải BS, tổ hợp này không tạo thành cân bằng
Nash. Trường hợp, NC2 chọn BB, chiến lược tối ưu của NC1 là BS, và
lúc này tổ hợp chiến lược (BS,BB) chính là một cân bằng Nash.
Cuối cùng ta lại giả sử rằng NC1 đi BB. NC2 phản ứng tối ưu qua
BS, dẫn đến NC1 cần phản ứng lựa chọn tốt nhất SS và không phải BB.
Suy ra, BB không phải bộ phận của cân bằng Nash ta mong muốn.
Có thể kết luận rằng trò chơi đang xét có 2 cân bằng Nash thuần: (1)
Cả hai loại đặc trưng của NC1 dẫn đến lựa chọn S, đặc trưng Y2 của NC2
cũng dẫn tới hành động S, nhưng đặc trưng N2 của NC2 lại hướng đến
phương án B; và, (2) Loại đặc trưng Y1 của NC1 dẫn đến lựa chọn B,
trong khi N1 là S. Trong khi đó, cả 2 đặc trưng của NC2 đều có lựa chọn
B tối ưu. Các điểm cân bằng này còn được gọi là cân bằng Nash có tính
chất Bayes.
4.3 Trò chơi tín hiệu
Dạng mở rộng của trò chơi có thể giúp nghiên cứu loại trò chơi tĩnh,
thông tin không đầy đủ, bằng cách bắt đầu trò chơi với nút May-Rủi,
tại đó lựa chọn loại đặc trưng của NC. Xét tổng quát hơn, dạng mở rộng
có thể mô hình hóa các trò chơi thông tin không đầy đủ, mà trong đó
những NC chuyển động tuần tự. Một lớp trò chơi quan trọng này là lớp
trò chơi phát tín hiệu. GS. Spence đã xây dựng mô hình trò chơi tín hiệu
thị trường đặc trưng cho loại bài toán này.4
Trò chơi tín hiệu (hữu hạn) khởi đầu với bước May-Rủi dẫn đến lựa
chọn đặc trưng của NC1. NC1 có thông tin về các loại đặc trưng của
mình, nhưng NC2 thì không có thông tin về đặc trưng này. NC1 hành
động trước, NC2 quan sát lựa chọn của NC1, rồi mới chuyển động, sau
đó trò chơi kết thúc. Mô hình bài toán này được gọi là trò chơi tín hiệu
bởi lẽ chuyển động của NC1 có thể là tín hiệu nhận biết loại đặc trưng,
4Spence, Michael A. (1973) “Job market signalling.” Quarterly Journal of Eco-nomics,
87: 355–374.

Game theory - Vuong Quan Hoang

Game theory - Vuong Quan Hoang

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Game theory - Vuong Quan Hoang

Similar to Game theory - Vuong Quan Hoang (20)

Game theory - Vuong Quan Hoang