SlideShare a Scribd company logo
LÝ THUYẾT TRÒ CHƠI 
TS.VƯƠNG QUÂN HOÀNG 
DHVP Research & ĐHTH Bruxelles 
E-mail: dhvp.economics@gmail.com 
Bản Thảo Tài Liệu Nghiên Cứu 
Hà Nội - Ngày 1 tháng 4 năm 2011
LÝ THUYẾT TRÒ CHƠI 
Vương Quân Hoàng
Mục lục 
Mục lục iii 
Danh mục hình vẽ v 
Danh mục bảng biểu vii 
Lời giới thiệu ix 
1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1 
1.1 Những nét cơ bản . . . . . . . . . . . . . . . . . . . . . . 1 
1.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 . . . . . . 3 
1.2.1 Giải các trò chơi 2 × n . . . . . . . . . . . . . . . . 3 
1.2.2 Trò chơi m × 2 . . . . . . . . . . . . . . . . . . . . 5 
1.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 7 
1.3 Một số ví dụ và tính chất trò chơi ma trận . . . . . . . . . 9 
2 Trò Chơi 2-Người Hữu Hạn 17 
2.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . 17 
2.2 Tìm điểm cân bằng Nash . . . . . . . . . . . . . . . . . . 19 
2.2.1 Cân bằng Nash thuần . . . . . . . . . . . . . . . . 19 
2.2.2 Trò chơi bimatrix 2 × 2 . . . . . . . . . . . . . . . 21 
2.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 23 
2.3 Một số ứng dụng và bài toán minh họa . . . . . . . . . . . 26 
3 Dạng Mở Rộng Hữu Hạn 35 
3.1 Bài toán dạng mở . . . . . . . . . . . . . . . . . . . . . . 35 
3.2 Dạng chiến lược . . . . . . . . . . . . . . . . . . . . . . . 36 
3.3 Quy nạp lùi và hoàn chỉnh trò chơi con . . . . . . . . . . 39 
i
ii ⃝c 2011 - Vương Quân Hoàng 
3.4 Cân bằng Bayes hoàn hảo . . . . . . . . . . . . . . . . . . 43 
4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 53 
4.1 Nhóm đặc trưng . . . . . . . . . . . . . . . . . . . . . . . 54 
4.2 Trò chơi tĩnh, thông tin không đầy đủ . . . . . . . . . . . 54 
4.3 Trò chơi tín hiệu . . . . . . . . . . . . . . . . . . . . . . . 59 
5 Bất Hợp Tác 69 
5.1 Khuôn khổ tổng quát: trò chơi chiến lược . . . . . . . . . 69 
5.2 Cạnh tranh số lượng Cournot . . . . . . . . . . . . . . . . 70 
5.2.1 Mô hình đơn giản, thông tin đầy đủ . . . . . . . . 71 
5.2.2 Mô hình đơn giản, thông tin không đầy đủ . . . . 73 
5.3 Cạnh tranh giá Bertrand . . . . . . . . . . . . . . . . . . . 75 
5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 76 
5.5 Chiến lược hỗn hợp và thông tin không đầy đủ . . . . . . 79 
6 Trò Chơi Lặp Lại 87 
6.1 Cân bằng hoàn hảo trò chơi con . . . . . . . . . . . . . . 87 
6.1.1 Nghịch lý người tù . . . . . . . . . . . . . . . . . . 87 
6.1.2 Quan sát tổng quát . . . . . . . . . . . . . . . . . 91 
6.2 Cân bằng Nash . . . . . . . . . . . . . . . . . . . . . . . . 93 
6.2.1 Ví dụ trò chơi bimatrix khác: . . . . . . . . . . . . 93 
6.2.2 Một định lý dân gian cho cân bằng Nash . . . . . 95 
7 Trò Chơi Tiến Hóa - 1 101 
7.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa . . 102 
7.2 Động học bộ sao chép và tính ổn định tiến hóa . . . . . . 105 
7.3 Trò chơi bất đối xứng . . . . . . . . . . . . . . . . . . . . 107 
8 Hợp Tác Chuyển Đổi Lợi Ích 115 
8.1 Ví dụ và các ý niệm cơ bản . . . . . . . . . . . . . . . . . 115 
8.1.1 Bài toán xuất phát . . . . . . . . . . . . . . . . . . 116 
8.2 Tập lõi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 
8.3 Giá trị Shapley . . . . . . . . . . . . . . . . . . . . . . . . 121 
8.4 Hạch nhân - nucleolus . . . . . . . . . . . . . . . . . . . . 123
Lý Thuyết Trò Chơi - DHVP Research iii 
9 Mô Hình Hợp Tác 133 
9.1 Các dạng bài toán mặc cả . . . . . . . . . . . . . . . . . . 133 
9.1.1 Nghiệm Nash cho bài toán mặc cả . . . . . . . . . 133 
9.2 Nền kinh tế trao đổi . . . . . . . . . . . . . . . . . . . . . 138 
10 Trò Chơi Ma Trận 151 
10.1 Định lý Minimax . . . . . . . . . . . . . . . . . . . . . . . 151 
10.2 Phát biểu hệ thống về quy hoạch tuyến tính . . . . . . . . 152 
11 Công Cụ Toán Học 157 
11.1 Thuật ngữ và khái niệm thường sử dụng . . . . . . . . . . 157 
11.2 Các bổ đề về lựa chọn thay thế . . . . . . . . . . . . . . . 158 
11.3 Định lý đối ngẫu của quy hoạch tuyến tính . . . . . . . . 160 
11.4 Một số định lý điểm bất động . . . . . . . . . . . . . . . . 160 
11.5 Định lý Birkhoff–von Neumann . . . . . . . . . . . . . . 160 
Phụ lục a 
Phụ lục tra cứu a
LÝ THUYẾT TRÒ CHƠI
Danh mục hình vẽ 
2.1 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 
2.2 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 
3.1 Sơ đồ trò chơi dạng mở . . . . . . . . . . . . . . . . . . . 36 
3.2 Sơ đồ cây - thông tin hoàn hảo . . . . . . . . . . . . . . . 37 
3.3 Sơ đồ cây rút gọn - thông tin hoàn hảo . . . . . . . . . . . 40 
3.4 Sơ đồ cây 3-NC . . . . . . . . . . . . . . . . . . . . . . . . 42 
3.5 Sơ đồ 3-NC cân bằng Bayes . . . . . . . . . . . . . . . . . 45 
4.1 Xung đột sở thích giới tính, thông tin không đầy đủ . . . 56 
4.2 Trò chơi tín hiệu 1 . . . . . . . . . . . . . . . . . . . . . . 60 
5.1 Cournot 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 
5.2 Hàm lợi ích của hãng i khi độc quyền Bertrand . . . . . . 78 
5.3 Lược đồ dạng mở trò chơi Stackelberg . . . . . . . . . . . 78 
5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 78 
6.1 δ và lợi ích giới hạn tại G∞ 
p (δ) . . . . . . . . . . . . . . . . 96 
6.2 δ và lợi ích giới hạn tại G∞ 
p (δ) . . . . . . . . . . . . . . . . 96 
7.1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng . . . . . . . 108 
8.1 Sơ đồ hợp tác tải điện 3-TP . . . . . . . . . . . . . . . . . 116 
8.2 Tập C trò chơi 3-TP . . . . . . . . . . . . . . . . . . . . . 120 
9.1 Bài toán mặc cả: phân chia . . . . . . . . . . . . . . . . . 134 
9.2 Bài toán mặc cả 2-NC . . . . . . . . . . . . . . . . . . . . 135 
9.3 4 điều kiện Nash về nghiệm mặc cả . . . . . . . . . . . . 136 
9.4 Tập lõi và cân bằng Walras . . . . . . . . . . . . . . . . . 144 
v
vi ⃝c 2011 - Vương Quân Hoàng 
11.1 Giải thích hình học bổ đề Farkas . . . . . . . . . . . . . . 159
Danh mục bảng biểu 
4.1 PPXS theo đặc trưng của NC có 2 đặc trưng . . . . . . . . 58 
8.1 Liên minh lưới điện 3-TP . . . . . . . . . . . . . . . . . . 116 
8.2 Giá trị trò chơi găng tay . . . . . . . . . . . . . . . . . . . 118 
8.3 Giá trị theo sở nguyện NC . . . . . . . . . . . . . . . . . . 119 
8.4 Mô hình hoán vị lịch hẹn . . . . . . . . . . . . . . . . . . 120 
8.5 Giá trị Shapley cho TU-game 3-TP . . . . . . . . . . . . . 122 
8.6 Phép thử hạch nhân trò chơi 3-TP . . . . . . . . . . . . . 124 
8.7 Phép thử hạch nhân trò chơi 3-TP (b) . . . . . . . . . . . 126 
vii
LÝ THUYẾT TRÒ CHƠI
Lời giới thiệu 
Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộc 
cách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ, nhưng ít ồn 
ào. Nó đã bước qua ranh giới thuần túy dành cho các nhà toán học 
để trở thành lĩnh vực ứng dụng phân tích kinh tế, chính sách dồi dào 
tiềm năng. LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xã 
hội liên quan tới hành vi con người, và trở thành một công cụ không gì 
sánh nổi trong việc cung cấp logic và lập luận phân tích sâu. Có lẽ chỉ 
có nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độ 
ứng dụng rộng rãi. Tuy nhiên, trong các môi trường thống kê khó hoạt 
động do tình trạng “dữ liệu bẩn” hay quá rời rạc, khó thu thập, phương 
tiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý, có tính 
tiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết trò 
chơi. Đó là lý do mà tài liệu này ra đời, và tự đặt LTTC như một bộ phận 
không thể tách rời của các nguyên lý kinh tế toán. 
Lý thuyết trò chơi: nét đại lược 
Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hình 
toán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết định 
một cách khôn ngoan.” Còn nhớ ở Việt Nam năm 2009, khi mà người 
tiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mức 
giá tiền phải trả nhiều một cách không tương xứng, đã có vị quan chức 
gợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi. Khẩu khí này 
rất đượm hương vị LTTC! 
Gọi là lý thuyết, bởi vì lĩnh vực này cung cấp các kỹ thuật toán học để 
phân tích các tình huống trong đó hai cá nhân, hoặc đông hơn nữa, tiến 
hành ra các quyết định, mà các quyết định đó gây ra ảnh hưởng lên lợi 
ix
x ⃝c 2011 - Vương Quân Hoàng 
ích của (những) người khác có mặt trong tình huống (trò chơi). 
Như vậy, LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả 
(xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cần 
để nhận biết các vấn đề hành vi con người. Các nhà kinh doanh, chính 
trị gia, chiến lược quân sự lại còn càng cần hơn, vì họ phải xử lý quan 
hệ đa chiều phức tạp giữa các đám đông thuộc cấp, xã hội, đối tác-đối 
tượng, v.v.. 
LTTC hiện diện từ rất lâu rồi, lẩn khuất trong các lĩnh vực xã hội, 
quân sự, cho dù không mang cái tên hiện đại như ngày hôm nay. Những 
nghiên cứu lớn đã xuất hiện từ thế kỷ XIX, cùng với sự phát triển của 
bộ môn xác suất, với cái tên như Bertrand. Tuy vậy, LTTC hiện đại – 
với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi như 
được đánh dấu từ thế kỷ XX, với những tác phẩm trứ danh của Zermelo 
(1913), Emile Borel (“La théorie du Jeu et les équations intégrales à 
noyau symétrique,” Comptes Rendus de l’Académie des Sciences, Vol. 
173: 1304-1308, 1921), Von Neumann (1928), và cuốn sách rất ấn tượng 
của Von Neumann và Morgenstern (Theory of Games and Economic 
Behavior, 1944). 
Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của Prince-ton, 
và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gian 
Thế chiến Đệ Nhị. Nơi sinh ra những đóng góp lớn của lý thuyết trò 
chơi, cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đóng 
góp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại. Sự gần gũi 
về mặt không gian này, theo các nhà nghiên cứu về lịch sử phát triển
Lý Thuyết Trò Chơi - DHVP Research xi 
tri thức nhân loại, xét ở góc nhìn rộng rãi, không hề tình cờ hay ngẫu 
nhiên. Và như vậy, nó là kết cục tất yếu. Phần lớn sự hấp dẫn, cuốn 
hút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kết 
quả của vị trí trung của lý thuyết trò chơi, với tư cách nền tảng toán học 
và logic cho tất cả các ngành khoa học xã hội. Trong thời kỳ đầu thế kỷ 
XX này, những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngành 
khoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũ 
khí hạt nhân, và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nền 
văn minh nhân loại. 
Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kế 
các hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ, nhưng 
lại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòa 
hành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêu 
diệt nhau. Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoa 
học xã hội cũng sẽ đạt được những bước tiến đủ lớn, có tính căn nguyên 
và đảm bảo học thuật, có khả năng cung cấp nhận thức sâu sắc tương 
xứng với những tiến bộ khoa học vật chất, đặc biệt là vật lý lý thuyết và 
ứng dụng. Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiều 
nhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyết 
trò chơi trong nửa còn lại của thế kỷ XX. 
Cuối cùng thì mong mỏi đó cũng được đền đáp. Bằng chứng rất thực 
về sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắn 
đẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinh 
tế toàn cầu. 
Về bản chất công việc, các nhà nghiên cứu LTTC thực ra bỏ công sức 
nhằm hiểu được bản chất của xung đột và hợp tác, thông qua việc tìm 
hiểu, xây dựng các mô hình định lượng, kèm theo đó là các ví dụ mang 
tính chất ước đoán về các tình huống, hành vi của cuộc sống. Các ví dụ 
thì như chúng ta vẫn thấy, thường phải được đơn giản hóa đi (một cách 
phi thực tế), nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đề 
rất căn bản của bản chất xung đột hay hợp tác. Tính đơn giản này giúp 
giải quyết vấn đề được thuận lợi hơn, trong khi vẫn có thể duy trì tính 
tổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực. Điều 
này cũng là chuyện thường thấy trong rất nhiều ngành khoa học khác 
nữa: Gạt bỏ các chi tiết dù là có thực, nhưng không quá quan trọng, để 
tập trung cho một số ít các câu hỏi lớn, không thể bỏ qua. 
Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ, nhằm
xii ⃝c 2011 - Vương Quân Hoàng 
ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người. 
Do cách gọi, các cá nhân liên quan tới một trò chơi thì đều được gọi là 
“người chơi.” Nói chính xác là họ ra các quyết định, thậm chí rất nghiêm 
túc và bằng trí khôn chuẩn mực, chứ không có chơi bời gì hết.) Điều 
kiện để nghiên cứu là hai giả thiết: Thứ nhất, người chơi có tính hợp lý. 
Thứ hai, người chơi sử dụng trí khôn để ra quyết định. 
Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từ 
các mô hình chọn lọc tiến hóa. Trong một vũ trụ mà sự hỗn loạn tăng 
lên là một quy luật vật lý, các cơ quan phức tạp (như cơ thể con người, 
hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi, 
theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo các 
thế hệ). Như thế, theo cách nhìn của chọn lọc tiến hóa, các cá nhân có 
xu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thích 
nghi sinh sản.” 
Có lẽ, chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâu 
của các chương tiếp theo sau đây. 
Biên soạn 
Tài liệu này được biên soạn với mục đích trước tiên làm tài liệu 
nghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w: 
www.vietnamica.net), phục vụ các nghiên cứu ứng dụng về chính sách 
kinh tế trong giai đoạn 2011-2015. 
Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần Trí 
Dũng và Nguyễn Xuân Dũng. Ngoài ra, Nguyễn Thu Hoài tham gia trợ 
giúp một số công việc liên quan. 
Để trở thành một tài liệu hoàn chỉnh, có thể sử dụng cho giảng dạy 
và in ấn rộng rãi, sẽ còn phải gia công rất nhiều, đặc biệt là đưa vào các 
nghiên cứu ứng dụng kinh tế - xã hội mà LTTC đã và đang giải quyết rất 
hiệu quả, đưa ra nhiều ngụ ý chính sách tốt. 
Hà Nội - Tháng 6-2011 
TS. Vương Quân Hoàng 
e: vuong@vietnamica.net
Chương 1 
Trò Chơi 2-Người Tổng-0 
Hữu Hạn 
1.1 Những nét cơ bản 
Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vào 
một ma trận, do đó loại trò chơi này còn được gọi là trò chơi ma trận. 
Trò chơi ma trận là một ma trậnA kích thướcm×n chứa các số thực, 
với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1) 
là một phân phối xác suất p tương ứng với các dòng của ma trậnA. Điều 
đó có nghĩa là, chiến lược của NC1 là một phần tử của tập 
Δm := {p = (p1, . . . , pm) ∈ Rm| 
Σm 
pi = 1, pi ≥ 0, ∀i = 1, . . . ,m}. 
Tương tự, chiến lược của người chơi 2 (NC2) là một PPXS q trên các 
cột của A; tức là một phần tử của tập 
Δn := {q = (q1, . . . , qn) ∈ Rn| 
Σm 
qj = 1, qj ≥ 0, ∀j = 1, . . . , n}. 
Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọn 
dòng thứ i một cách chắc chắn, tức là pi = 1. Chiến lược thuần này có 
thể ký hiệu là ei. 
1Như vậy m; n là các số nguyên dương, bé nhất là bằng 1. 
1
2 ⃝c 2011 - Vương Quân Hoàng 
Tương tự vậy, chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cột 
thứ j một cách chắc chắn, tức là qj = 1; ký hiệu là ej . 
Ý nghĩa của ma trận A như sau. Nếu NC1 chơi hàng i, tức là lựa chọn 
chiến lược thuần ei, thì NC1 nhận được lợi ích tài chính aij , trong khi 
NC2 nhận được −aij (nghĩa là trả), tương ứng vị trí dòng i và cột j trong 
A. 
Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q, thì lợi ích của NC1 
thu về tương ứng với một dãy PPXS (chính là ý nghĩa của chiến lược hỗn 
hợp) là: pAq = 
ΣmΣn piqjaij . Khi này NC2 nhận được −pAq (tức là 
trả). 
Để giải bài toán trò chơi dạng ma trận như trên, ta cần thêm khái 
niệm chiến lược maximin và minimax sau đây. 
Chiến lược maximin và minimax. Chiến lược p được gọi là max-imin 
cho NC1 trong trò chơi ma trận A nếu như 
min{pAq} ≥ min{p′ 
Aq} ∀p′ ∈ Δm, q ∈ Δn. (1.1) 
Theo cách tương tự, chiến lược minimax q của NC2 nếu như: 
min{pAq} ≤ min{pAq′} ∀q′ ∈ Δn. (1.2) 
Một cách dễ hình dung, đối với NC1 chiến lược maximin là lựa chọn 
PPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất, tương ứng với 
lựa chọn của NC2. Còn minimax là lựa chọn PPXS sao cho NC2 tối thiểu 
hóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1. 
Như vậy, để biết được lựa chọn p có phải chiến lược maximin hay 
không, chỉ cần kiểm tra sự thỏa mãn dấu ≥ của bất đẳng thức (1.1) với 
các chiến lược thuần ej , với từng giá trị j = 1, 2, . . . , n.2 
Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi ma 
trận A, sẽ tồn tại một trị số v = v(A) có tính chất như sau: 
1. Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1, 
nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p là 
chiến lược maximin. 
2. Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2 
phải trả NC1, nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào, 
nếu và chỉ nếu q là chiến lược minimax. 
2Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau.
Lý Thuyết Trò Chơi - DHVP Research 3 
Trong thuật ngữ của chúng ta, v = v(A) được gọi là giá trị của trò 
chơi A. Các chiến lược maximin và minimax như vừa nói được gọi là 
các chiến lược tối ưu tương ứng với NC1 và NC2. Khi nói rằng ‘giải bài 
toán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu, 
đồng thời cả giá trị của trò chơi. 
Điểm yên ngựa. Một vị trí xác định bởi cặp (i, j) trong ma trận A 
được gọi là điểm yên ngựa - saddlepoint - nếu như aij ≥ akj với mọi giá 
trị k = 1, . . . ,m, và aij ≤ aik với mọi k = 1, . . . , n. 
Giá trị tại điểm yên ngựa aij có ý nghĩa là điểm có giá trị lớn nhất 
trong cột j và nhỏ nhất trong hàng i. Từ đó ta thấy rằng, nếu (i, j) là 
điểm yên ngựa, thì NC1 có thể đảm bảo nhận được giá trị lợi ích tối 
thiểu aij bằng cách chơi chiến lược thuần theo dòng i, tức là ei. Tương 
tự, NC2 đảm bảo chỉ phải trả tối đa −aij bằng cách lựa chọn chiến lược 
thuần cột ej . 
Theo suy luận này, aij chắc chắn phải là giá trị của trò chơi A, 
v(A) = aij , đồng thời ej là chiến lược minimax tối ưu của NC2, ei mà 
maximin tối ưu của NC1. 
1.2 Tìm nghiệm trò chơi kích thước 2 × n và 
m × 2 
Tiếp theo, ta xét cách tìm nghiệm trò chơi ma trận và khái niệm nghiệm 
trội có liên quan tới kỹ thuật xử lý bài toán ma trận. 
1.2.1 Giải các trò chơi 2 × n 
Xét trò chơi 2-dòng và n-cột, với một ma trận A bằng số cụ thể có kích 
thước 2 × 4. 
A = 
( 
10 2 4 1 
2 10 8 12 
) 
Ta đặt các chiến lược thuần theo cột lần lượt là e1 = 
( 
10 
2 
) 
, e2 = 
( 
2 
10 
) 
, e3 = 
( 
4 
8 
) 
, và e4 = 
( 
1 
12 
) 
.
4 ⃝c 2011 - Vương Quân Hoàng 
Các chiến lược thuần trên là của NC2 (do lấy theo cột). Bây giờ, ta 
xét chiến lược chơi hỗn hợp p = (p, 1 − p) bất kỳ của NC1. Thiết lập các 
mức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuần 
ở trên của NC2, ta sẽ có một hệ thống như sau: 
pAe1 = 10p + 2(1 − p) 
pAe2 = 2p + 10(1 − p) 
pAe3 = 4p + 8(1 − p) 
pAe4 = p + 12(1 − p) 
Sử dụng Mathematica vẽ đồ thị hệ các phương trình tuyến tính ở trên 
ta có: 
In[1]:= e1[p_] := 8 p + 2; e2[p_] := 10 - 8 p; 
e3[p_] := 8 - 4 p; e4[p_] := 12 - 11 p; 
In[3]:= Plot[{e1[p], e2[p], e3[p], e4[p]}, {p,0,1}]; 
Có 4 điểm đáng chú ý của đồ thị này là (0, 2), ( 1 
2 , 6), ( 20 
21 , 32 
21 ), (1, 1). 
Đây là các điểm mà khi nối lại, ta thu được đường bao đáy của miền 
tạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0, 1] như đã nói. Khi 
p = 1/2 cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6, và đây 
cũng là giá trị của trò chơi v(A) = 6.3 
3Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệ 
phương trình, cũng như quan sát qua đồ thị.
Lý Thuyết Trò Chơi - DHVP Research 5 
Đó là với NC1, còn các chiến lược tối ưu minimax của NC2 sẽ có hình 
dạng ra sao? 
Trước tiên, dạng tổng quát của chiến lược minimax cho NC2 là q = 
(q1, q2, q3, q4). Lợi dụng việc xác định được v(A) = 6, ta sẽ loại được q4 
do q4 = 0, vì nếu như q4 > 0 thì chi phí của việc chơi chiến lược thuần 
e4 là 1 
2 
· 1+ 1 
2 
· 12 > 6, điều này mâu thuẫn với nhận thức lúc trước rằng 
NC2 chỉ trả nhiều nhất là bằng v(A). 
Tiếp tục lợi dụng v(A) = 6 và p∗ = 1/2 đã biết, sau khi biết q4 = 0, ta 
lại thu được một hệ: 
6 = 10q1 + 2q2 + 4q3 
6 = 2q1 + 10q2 + 8q3 
1 = q1 + q2 + q3 
Hệ này rút gọn xuống thành: 
1 = 3q1 − q2 
1 = q1 + q2 + q3 
Từ đây có thể thấy rằng, khi q1 = 1/3 → q2 = 0, và q1 = 1/2 → q2 = 1/2. 
Cả q1, q2 đều không thể lớn hơn 1/2. Ràng buộc với q3 không xác định. 
Tập hợp các chiến lược tối ưu cho NC2 có dạng: 
{q = (q1, q2, q3, q4)|1 
3 
≤ q1 ≤ 1 
2, q2 = 3q1 − 1, q4 = 0}. 
1.2.2 Trò chơi m × 2 
Giả sử ta chuyển vị ma trận 2 × 4 vừa rồi thành trò chơi 4 × 2 có dạng: 
A = 
 
 
10 2 
2 10 
4 8 
1 12 
 
 
Bây giờ ta viết lại dạng các chiến lược thuần ei, i = 1, . . . , 4: e1 = (10, 2), 
e2 = (2, 10), e3 = (4, 8), e4 = (1, 12). Thực ra, đây là cách xử lý để đưa 
đầu bài về dạng dễ giải quyết hơn, do với số cột n = 2, ta lại có tình
6 ⃝c 2011 - Vương Quân Hoàng 
huống NC2 có chiến lược với PPXS đơn giản, dạng tương tự khi trước 
q = (q, 1 − q).4 
Tiếp theo, ta thiết lập hệ các lợi ích cho NC1, tương ứng với chiến 
lược q của NC2, nếu NC1 chơi chiến lược thuần ei, i = 1, . . . , 4.5 
e1Aq = 10q + 2(1 − q) = 8q + 2 
e2Aq = 2q + 10(1 − q) = 10 − 8q 
e3Aq = 4q + 8(1 − q) = 8 − 4q 
e4Aq = q + 12(1 − q) = 12 − 11q 
Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau: 
In[1]:= e1[q_]:=8*q+2; e2[q_]:=10-8*q; 
In[2]:= e3[q_]:=8-4*q; e4[q_]:=12-11*q; 
In[4]:= Plot[{e1[q], e2[q],e3[q],e4[q]},{q,0,1}, AxesLabel -> 
{"q","Player 1 Payoff"}, GridLines -> Automatic] 
Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phía 
trên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên 
(0, 12), ( 10 
19 , 118 
19 ), (1, 10). Trong các điểm có giá trị lớn nhất nằm trên 
đường bao đi qua 3 điểm này, điểm có trị số nhỏ nhất là ( 10 
19 , 118 
19 ), điểm 
giao nhau giữa đường 12 − 11q và 8q + 2. Đây cũng là điểm cho biết 
chiến lược giá trị phải trả minimax tối ưu cho NC2. 
4Lưu ý: Trong bài toán A2n thì PPXS của chiến lược ký hiệu là p. 
5NC1 nhận giá trị theo dòng của ma trận A.
Lý Thuyết Trò Chơi - DHVP Research 7 
Giá trị của trò chơi là 118 
19 , và tương ứng với nó là chiến lược minimax 
tối ưu với NC2 là q∗ = ( 10 
19 , 9 
19 ). 
Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p = 
(p1, p2, p3, p4), tận dụng kết quả đã biết của q∗ và v(A) = 118 
19 . Dựa 
trên đồ thị ở trên, p2 = p3 = 0, do hai đường này nằm dưới đường bao 
phía trên tạo bởi e1Aq và e4Aq.6 
Như vậy, cần tìm một phép kết hợp giữa e1 và e4 sao cho chiến lược 
này tạo ra lợi ích không nhỏ hơn 118 
19 với mọi giá trị q. Điều kiện này dẫn 
tới việc khai triển p theo hai cột của A như sau: 
10p1 + 2 · 0 + 4 · 0 + p2 = 
118 
19 
2p1 + 10 · 0 + 8 · 0 + 12p2 = 
118 
19 
p1 + 0 + 0 + p4 = 1 
Ta tìm được cặp nghiệm duy nhất, và là chiến lược maximin cho NC1 
dưới đây7 
In[17]:= Solve[{10 p1 + p4 == 118/19, 2*p1 + 12*p4 == 118/19}, 
{p1, p4}] 
Out[17]={{p1 - 11/19, p4 - 8/19}} 
Rõ ràng p1 + p4 = 1 cũng thỏa mãn nốt điều kiện thứ 3. Cuối cùng, 
ta kết luận chiến lược tối ưu maximin - và cũng là duy nhất - cho NC1 có 
dạng ( 11 
19 , 0, 0, 8 
19 ). 
1.2.3 Tính trội tuyệt đối 
Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việc 
phân tích nghiệm của một TC được thuận lợi hơn, thông qua việc loại bỏ 
bớt các chiến lược thuần không thích hợp. Trước hết, ta xét khái niệm. 
6Khi thay giá trị q = 10 
19 vào hai phương trình 2 và 3, ta thu được các giá trị lợi ích 
19 , 112 
19 . Cả hai giá trị này đều nhỏ hơn v(A), do đó nếu p2; p3̸= 0 
cho NC1 lần lượt là 110 
thì chiến lược p không thỏa mãn tính chất maximin. 
7Trong tài liệu này, chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm 
thời gian.
8 ⃝c 2011 - Vương Quân Hoàng 
Tính trội tuyệt đối. GọiAlà một trò chơi ma trận kích thướcm×n và 
i là một dòng (hàng) củaA. Một chiến lược thuần ei gọi là lép vế (strictly 
dominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1, . . . , pm) ∈ 
Δm với pi = 0 sao cho pAej  eiAej , với mọi j = 1, . . . , n. 
Tương tự như vậy, gọi j là một cột củaA. Chiến lược thuần ej gọi là lép 
vế nếu tồn tại q = (q1, . . . , qn) ∈ Δn với qj = 0 sao cho: eiAq  eiAej , 
với mọi i = 1, . . . ,m. 
Để làm rõ khái niệm này, chúng ta xét minh họa bằng ví dụ số như 
sau. Cho ma trận A3×3: 
A = 
 
 
6 0 2 
0 5 4 
3 2 1 
 
. 
Theo quy ước, NC1 chơi theo hàng. Giả sử PPXS tạo thành chiến lược 
hỗn hợp của NC1 là p = ( 7 
12 , 5 
12 , 0). Theo định nghĩa, ta thực hiện phép 
tính: 
p · A = 
( 7 
12 
5 
12 0 
) 
 
 
6 0 2 
0 5 4 
3 2 1 
 
. 
Thực hiện phép nhân này trong môi trường Mathematica 
In[2]:= {{7/12, 5/12, 0}} . {{6, 0, 2}, {0, 5, 4}, {3, 2, 1}} 
Out[2]= {{7/2, 25/12, 17/6}} 
ta thu được kết quả p · A = (31 
2 , 2 1 
12 , 25 
6 ). Rõ ràng, pA  e3A bất kể 
PPXS q ra sao. e3 lép vế, và dòng 3 có thể loại khỏi trò chơi, ta thu được: 
B = 
( 
6 0 2 
0 5 4 
) 
. 
4 , 3 
4 , 0). Tính B · q qua Mathematica, 
Bây giờ ta xét tiếp chiến lược q = ( 1 
ta thu được: 
In[5]:= B={{6,0,2},{0,5,4}}; 
In[6]:= q={{1/4,3/4,0}}; 
In[7]:= B.Transpose[q] 
Out[7]= {{3/2},{15/4}}
Lý Thuyết Trò Chơi - DHVP Research 9 
So sánh ta thấy ngay rằng 
B · q = 
( 3 
2 
31 
2 
) 
 
( 
2 
4 
) 
= B · e3 
Từ đây suy ra, NC2 sẽ không sử dụng phương án chơi cột 3, và ma trận 
tiếp tục được rút gọn còn: 
C = 
( 
6 0 
0 5 
) 
. 
Ở dạng ma trận rút gọn đơn giản này, việc giải bài toán trở nên thuận 
lợi và nhanh chóng. Bản thân trò chơi C không có điểm yên ngựa, do 
đó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin. 
Xét PPXS p = (p, 1 − q) với từng chiến lược thuần của NC2, ta dễ dàng 
thu được pAe1 = 6p và pAe2 = 5 − 5p, và giải ra được: 
In[24]:= Solve[6*p==5-5*p,p] 
Out[24]= {{p [Rule] 5/11}} 
Như vậy p = ( 5 
11 , 6 
11 ), tương ứng v(A) = 30 
11 . 
Tương tự vậy, ta xét tiếp chiến lược cho NC2, thông qua xét q = 
(q, 1 − q), và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chất 
đối xứng qua trục chuyển vị: q = ( 5 
11 , 6 
11 ). Hiển nhiên giá trị trò chơi 
vẫn là v(A) = 30 
11 . 
1.3 Một số ví dụ và tính chất trò chơi ma trận 
Ví dụ 4. Cho trò chơi ma trận (3 × 4) như sau: 
A = 
 
 
2 −1 0 2 
2 0 0 3 
0 0 −1 2 
 
, 
Giải bài toán trò chơi ma trận A. 
Theo định nghĩa của điểm yên ngựa, ma trận A tồn tại hai điểm yên 
ngựa là a22, a23. Giá trị trò chơi v(A) = a22 = a23 = 0. Xét một cách 
đơn giản, do chắc chắn NC1 sẽ chơi hàng 2 - vì cả hai điểm yên ngựa 
đều nằm trên hàng thứ 2, do đó, PPXS thể hiện chiến lược maximin của
10 ⃝c 2011 - Vương Quân Hoàng 
NC1 là chiến lược thuần, và có dạng p = (0, 1, 0). Hiển nhiên, p có tính 
duy nhất. 
Còn xét NC2, ta có thể giả sử chiến lược minimax qua PPXS dạng 
q = (0, q, 1−q, 0). Triển khai ta có được so sánh 3 giá trị 1, 0, 1 và giá trị 
minimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1 
lựa chọn phương án maximin. Như vậy q = (0, q, 1 − q, 0) là nghiệm 
cuối cùng, với mọi giá trị 0 ≤ q ≤ 1. 
Ví dụ 5. Giải ma trận 
A = 
 
 
1 3 1 
2 2 0 
0 3 2 
 
. 
Ví dụ 6. Giải ma trận 
A = 
 
 
16 12 2 
2 6 16 
8 8 6 
0 7 8 
 
 
. 
Ví dụ 7. Giải ma trận 
A = 
( 
3 1 4 0 
1 2 0 5 
) 
. 
Ví dụ 8. Giải ma trận 
A = 
 
 
1 0 2 
4 1 1 
3 1 3 
 
. 
Tính chất 9. Cho A là một trò chơi ma trận m × n. Hãy chỉ ra rằng 
bất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị, nghĩa là nếu (i, j) và 
(k, l) là hai điểm yên ngựa, thì aij = akl. 
Tính chất 10. Nếu A(4×4) là trò chơi trong đó (1, 1) và (4, 4) là các 
điểm yên ngựa. Chứng minh rằng, A có ít nhất 2 điểm yên ngựa khác 
nữa.
Lý Thuyết Trò Chơi - DHVP Research 11 
Ví dụ 11. Hãy tìm một ví dụ trò chơi ma trận kích thước (4 × 4) có 
chính xác 3 điểm yên ngựa.
12 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 13 
VQG ghi chú:
14 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 15 
VQG ghi chú:
LÝ THUYẾT TRÒ CHƠI
Chương 2 
Trò Chơi 2-Người Hữu 
Hạn 
Chương thứ hai này đề cập tới trò chơi 2-người, trong đó mỗi NC lựa 
chọn phương án từ nhiều chiến lược thuần hoặc là “ngẫu nhiên hóa”1 
các chiến lược này. Bài toán ta sẽ xét ở đây không yêu cầu trò chơi phải 
có tổng bằng 0. Do nới lỏng yêu cầu này, ta có thể xem xét một lớp nhiều 
trò chơi hơn, có tính chất sát thực hơn với các ứng dụng kinh tế xã hội. 
Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tên 
với giới nghiên cứu: “Nghịch lý người tù,” và “Xung đột giới.”2 
Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫn 
dắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuần 
của các bài toán. Tính trội tuyệt đối đã giới thiệu khi trước cũng được 
đưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash. Hỗ trợ cho 
chương này là Chương 12, bổ sung thêm các ý tưởng được gọt giũa sắc 
bén và gia tăng thêm công cụ. 
2.1 Cơ sở lý thuyết 
Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạn 
được trình bày qua 2 ma trận, thường được ghép vào làm một - ta sẽ gọi 
là ma trận cặp (bimatrix). 
1Từ khái niệm randomize mà chúng ta sẽ làm rõ nội dung sau. 
2Tương ứng với những thuật ngữ ngày nay không xa lạ với các giáo trình là “Prisoners’ 
dilemma” và “Battle of sexes.” 
17
18 ⃝c 2011 - Vương Quân Hoàng 
Định nghĩa. Một trò chơi ma trận cặp (bimatrix) là một cặp ma trận 
có kích thước m × n ký hiệu (A,B). 
Cách hiểu trò chơi (A,B) như sau. Nếu như NC1 (theo quy ước là 
chơi theo hàng, hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j, thì NC1 
nhận lợi ích aij , và NC2 nhận bij , là các phần tử tương ứng của A và B. 
Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp, tập hợp chiến 
lược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước. 
Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợp 
tác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply). 
Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau. 
Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi ích 
kỳ vọng của mình, thông qua hiểu biết hay phỏng đoán cá nhân về các 
chiến lược mà đối thủ có thể lựa chọn. 
Khái niệm phản ứng tối ưu. Chiến lược p của NC1 gọi là phản ứng 
tối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thước 
m × n - ký hiệu là (A,B) nếu pAq ≥ p′Aq với mọi p ∈ Δm. 
Tương tự như trên, q được gọi là phản ứng tối ưu với chiến lược p 
của NC1 nếu như pBq ≥ pBq′ với mọi q ∈ Δn. 
Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash, chiến 
lược của mỗi NC chính là phản hối tối ưu với người kia. Bây giờ chúng 
ta xét tới định nghĩa của cân bằng Nash. 
Cân bằng Nash. Một cặp chiến lược, ký hiệu p∗, q∗, được gọi là cân 
bằng Nash nếu như p∗ là phản hồi tối ưu của NC1 khi NC2 chơi chiến 
lược q∗, và q∗ là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiến 
lược p∗. 
Nếu p∗ và q∗ là các chiến lược thuần, thì cân bằng Nash cũng được 
gọi là cân bằng Nash thuần. 
Cân bằng Nash chúng ta vừa nêu là cho trò chơi đang xét: 2-người, 
hữu hạn dòng, cột. Về sau này, cân bằng Nash sẽ còn được mở rộng cho 
nhiều loại trò chơi khác nữa, nhiều người chơi, nhiều tập chiến lược và 
nhiều loại hàm lợi ích tương ứng. Giáo sư John Nash chứng minh rằng, 
với trò chơi đang xét của chúng ta, luôn tồn tại một cân bằng Nash. 
Nói rộng ra, bản thân ý niệm cân bằng Nash được phát triển không 
phải để tìm một điểm cân bằng Nash, mà ngược lại là vì có nhiều điểm 
cân bằng Nash, và cần giải thích ý nghĩa của chúng trong trò chơi. Bản
Lý Thuyết Trò Chơi - DHVP Research 19 
thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nash 
của một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logic 
của người giải trò chơi. Một lưu ý bên lề nữa là, bản thân định nghĩa 
về cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu người 
chơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không. 
Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trả 
lời. Đó là, ý nghĩa của một chiến lược hỗn hợp là gì. Liệu chiến lược hỗn 
hợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không? 
Ở đây, một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợp 
của một NC - chẳng hạn NC1 - biểu thị niềm tin, hoặc sự phỏng đoán, 
của NC kia - tức là NC2 - về cách mà NC1 sẽ chơi. Như vậy, chiến lược 
hỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trong 
một trò chơi. Đây là khái niệm do von Neumann và Morgenstern đưa 
ra. Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở các 
phần sau. 
2.2 Tìm điểm cân bằng Nash 
Trước tiên, ta cần biết rằng, việc tìm tất cả các điểm cân bằng Nash của 
một trò chơi bimatrix bất kỳ là việc rất khó. Ở đây, trước mắt ta tạm 
thời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nash 
thuần của trò chơi bimatrix. Tiếp theo, chúng ta xem xét việc tìm cân 
bằng Nash cho các bimatrix kích thước 2 × 2, 2 × 3, 3 × 2 bằng cách sử 
dụng đồ thị. Với các ma trận kích thước lớn hơn nữa, việc giải bằng đồ 
thị rất khó khăn và hầu như không thể. 
2.2.1 Cân bằng Nash thuần 
Để tìm cân bằng Nash trong trò chơi bimatrix, trước hết ta có thể xác 
định các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần của 
NC1. Rồi tiếp theo, xác định các phản hồi tối ưu của NC1 với từng chiến 
lược thuần của NC2. Các cặp chiến lược đồng thời là phản hối tối ưu của 
cả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi. 
Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu.
20 ⃝c 2011 - Vương Quân Hoàng 
 
 
W X Y Z 
T 2, 2 4, 0 1, 1 3, 2 
M 0, 3 1, 5 4, 4 3, 4 
B 2, 0 2, 1 5, 1 1, 0 
 
 
Trước tiên, ta xác định phản hồi tối ưu của NC2. 
 
 
W X Y Z 
T 2, 2∗ 4, 0 1, 1 3, 2∗ 
M 0, 3 1, 5∗ 4, 4 3, 4 
B 2, 0 2, 1∗ 5, 1∗ 1, 0 
 
 
Tiếp theo, ta xác định phản hồi tối ưu của NC1. 
 
 
W X Y Z 
T 2∗, 2∗ 4∗, 0 1, 1 3∗, 2∗ 
M 0, 3 1, 5∗ 4, 4 3∗, 4 
B 2∗, 0 2, 1∗ 5∗, 1∗ 1, 0 
 
 
3 điểm cân bằng Nash ta tìm được từ các chiến lược thuần là (T,W), 
(T,Z) và (B, Y ).3 
Xét một cách chặt chẽ, ta cũng phải xét đến các phản ứng tối ưu có 
tính hỗn hợp đối với một chiến lược thuần của đối thủ để kết luận xem 
liệu chiến lược thuần này có khả năng xảy ra ở điểm cân bằng Nash hay 
không. Tuy vậy, có thể nhận thấy bất kỳ một phản ứng tối ưu hỗn hợp 
nào cũng là một tổ hợp các phản ứng tối ưu thuần, do đó không thể tạo 
ra lợi ích lớn hơn. 
Giả sử trong bài toán trên, NC2 lựa chọn chiến lược hỗn hợp 
(q, 0, 0, 1−q) để đáp ứng chiến lược thuần T của NC1. Lựa chọn này dẫn 
tới lợi ích của NC2 trong trường hợp này có giá trị 2q+0+0+2(1−q) = 2. 
Tuy vậy, chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơn 
trường hợp chiến lược thuần (1, 0, 0, 0 hay (0, 0, 0, 1). 
Bên cạnh đó, chúng ta cũng có thể chỉ ra rằng, tất cả các cặp chiến 
lược có dạng (T, (q, 0, 0, 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằng 
Nash của trò chơi bimatrix này. 
3Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểm 
cân bằng Nash của trò chơi đang xét. Theo cách viết cặp chiến lược thuần: e1; e1, 
e1; e4, e3; e3. Theo cách viết dạng mở rộng ((1; 0; 0); (1; 0; 0; 0)), ((1; 0; 0); (0; 0; 1; 0)), 
((0; 0; 1); (0; 0; 1; 0)).
Lý Thuyết Trò Chơi - DHVP Research 21 
Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giá 
trị lợi ích tối ưu Pareto. Ta biết rằng, một cặp lợi ích được gọi là tối ưu 
Pareto nếu như không còn cặp giá trị nào khác lớn hơn, hoặc ít nhất có 
một trong hai giá trị hơn, trong khi giá trị còn lại tối thiểu bằng. Cụ thể, 
bằng chứng dễ thấy là cặp 4, 4 có giá trị lớn hơn hẳn các cặp cân bằng 
Nash 2, 2, 3, 2. 
2.2.2 Trò chơi bimatrix 2 × 2 
Phần tiếp theo này đề cập cách sử dụng đồ thị để tìm nghiệm của trò 
chơi ma trận cặp (bimatrix) kích thước 2 × 2, với trò chơi cho dưới đây. 
(A,B) = 
( L R 
T 2, 2 0, 1 
B 1, 1 3, 3 
) 
Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi 
(A,B) này là 2, 2 và 3, 3. Để tìm tất cả cân bằng Nash cho trò chơi này, 
ta đi tìm các phản ứng tối ưu của cả hai NC. 
Xét tổng quát chiến lược hỗn hợp q, 1−q của NC2. Khi nào phản ứng 
tối ưu của NC1 là 1, 0 (tức là T)? Rõ ràng là chỉ khi lợi ích kỳ vọng thu 
được từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợp 
nào giữa T và B qua PPXS p, 1 − p. Như vậy, NC1 chọn T khi: 
2q + 0(1 − q)  q + 3(1 − q) 
Như vậy, chọn T khi q  3 
4 . Tương tự, khi q  3 
4 , thì B là phản ứng tối 
ưu.4 
Còn trường hợp khi lợi ích chơi T và B bằng nhau: 
2q + 0(1 − q) = q + 3(1 − q), 
chỉ xảy ra khi q = 3 
4 . Trong trường hợp q = 3 
4 , thì mọi chiến lược hỗn 
hợp dạng p = (p, 1−p) của NC1 đều là phản ứng tối ưu. Bây giờ, ta tóm 
tắt lại lô-gic vừa trình bày của các phản ứng tối ưu, của NC1 và NC2. 
Giả sử, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS 
(q, 1 − q) của NC2 là β1(q, 1 − q), thì 
4Tức là đổi chiều dấu: 2q + 0(1 − q)  q + 3(1 − q).
22 ⃝c 2011 - Vương Quân Hoàng 
β1(q, 1 − q) = 
 
 
{(1, 0)} nếu 3 
4  q ≤ 1 
{(p, 1 − p)|0  p ≤ 1} nếu q = 3 
4 
{(0, 1)} nếu 0  q  3 
4 
(2.1) 
Theo cùng lô-gic, lại gọi tập các phản ứng tối ưu của NC2 đối với 
(p, 1 − p) là β2(p, 1 − p), thì ta cũng có: 
β2(p, 1 − p) = 
 
 
{(1, 0)} nếu 2 
3  p ≤ 1 
{(q, 1 − q)|0  q ≤ 1} nếu p = 2 
3 
{(0, 1)} nếu 0  q  2 
3 
(2.2) 
Theo cách hiểu của trò chơi, các điểm cân bằng Nash là sự kết hợp 
chiến lược p∗, q∗ sao cho p∗ ∈ β1(q∗), và q∗ ∈ β2(p∗). Như vậy, các cân 
bằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm 
(2.1) và (2.2) - được biểu thị qua đồ thị (2.1). 
Hình 2.1: Sơ đồ β2 
Nash-E 
Nash-E 
1 
Nash-E 
0 
2/3 
q 
p 2/3 1 
3 điểm cân bằng Nash của trò chơi (qua 3 chấm tròn là nơi giao 
cắt các đường β1, β2 ở hình trên) là: ((1, 0), (1, 0)), ((0, 1), (0, 1)) và 
(( 2 
3 , 1 
3 ), ( 3 
4 , 1 
4 )).
Lý Thuyết Trò Chơi - DHVP Research 23 
2.2.3 Tính trội tuyệt đối 
Về cơ bản, để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọn 
kích thước của trò chơi, thông qua loại bỏ các chiến lược lép vế. Khi 
loại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột, thì 
kích thước ma trận sẽ giảm dần, cho tới khi không còn tồn tại chiến lược 
thuần lép vế nào nữa. Lý thuyết đã chứng minh rõ rằng, khi làm theo 
cách loại trừ để giảm kích thước ma trận như vừa nêu, không có điểm 
cân bằng Nash nào vô tình bị loại bỏ, và cũng không có cân bằng Nash 
nào nảy sinh ra do giảm kích thước. Hơn nữa, thứ tự của việc loại bỏ 
các chiến lược lép vế cũng không quan trọng, cái nào trước, cái nào sau 
không ảnh hưởng tới kết quả cuối cùng. 
Về tính trội tuyệt đối, với trò chơi (A,B)m×n một chiến lược thuần 
ei tương ứng với hàng i gọi là lép vế, nếu như tồn tại một chiến lược hỗn 
hợp p = (p1, . . . , pi = 0, . . . , pm) sao cho: pAej  eiAej với từng giá 
trị j = 1, . . . , n. Tương tự, chiến lược thuần ej theo cột j là lép vế nếu 
tồn tại một PPXS q = (q1, . . . , qi = 0, . . . , qn), sao cho eiBq  eiBej với 
từng giá trị i = 1, . . . ,m. 
Tiếp theo, chúng ta cùng xem xét một ví dụ ứng dụng để minh họa. 
Rút gọn kính thước ma trận trò chơi bimatrix: Cho trò chơi ma 
trận bimatrix sau: 
 
 
W X Y Z 
T 2, 2 2, 1 2, 2 0, 0 
M 1, 0 4, 1 2, 4 1, 5 
B 0, 4 3, 1 3, 0 3, 3 
 
 (2.3) 
Đầu tiên, ta nhận thấy nếu xét các chiến lược thuần theo dòng (NC1), 
hay theo cột (NC2), thì không có chiến lược thuần nào bị lép vế hoàn 
toàn so với một chiến lược thuần khác đang có. Bây giờ ra ‘dò thử’ chiến 
lược thuần X; điều này như ta đã biết nghĩa là q2 = 1. Hãy xem thử tồn 
tại một PPXS q nào đó có tính trội tuyệt đối so với X hay không. 
Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trận 
bimatrix (A,B) với bài toán (2.3). Như vậy, khi so với chiến lược X, 
trong PPXS q nào đó thích hợp thì rõ ràng q2 = 0. Lại giả sử tiếp trường 
hợp q4 = 0, khi này ta xét thử PPXS (q, 0, 1 − q, 0). Ta sẽ phải thiết lập 
các biểu thức eiBq rồi đặt bất đẳng thức với dấu lớn hơn khi so với từng 
phần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B.
24 ⃝c 2011 - Vương Quân Hoàng 
2q + 1 · 0 + 2(1 − q) + 0 · 0  1 
0q + 1 · 0 + 4(1 − q) + 5 · 0  1 
4q + 1 · 0 + 0(1 − q) + 3 · 0  1 
Rút gọn lại ta có được 
2  1 
3  4q 
4q  1 
Bất đẳng thức đầu tiên đương nhiên đúng. Điều kiện để 2 bất đẳng thức 
còn lại được thỏa mãn dễ thấy là 1 
4  q  3 
4 . Như vậy, X lép vế khi q 
trong khoảng giá trị vừa tính ra, và X có thể được loại khỏi trò chơi. Ta 
sẽ rút gọn trò chơi thành (2.4): 
 
 
W Y Z 
T 2, 2 2, 2 0, 0 
M 1, 0 2, 4 1, 5 
B 0, 4 3, 0 3, 3 
 
 (2.4) 
Bây giờ, khi đã quan sát trò chơi rút gọn (2.4), ta thử tìm kiếm khả 
năng chiến lược thuần M (dòng 2) lép vế - nghĩa là p2 = 0 - trước một 
chiến lược hỗn hợp p = (p, 0, 1 − p) trong điều kiện p hợp lý nào đó.5 
Bây giờ, ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiết 
lập các bất đẳng thức cho điều kiện của p phù hợp. Nếu tồn tại p như vậy, 
ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định. 
Do NC1 (tương ứng (A)) chơi theo hàng, nên cần so sánh với e2Aej với 
j lần lượt nhận các giá trị 1, 2, 3 chính là (1, 2, 1); đây chính là dòng M 
của (A). 
Sau đó, ta tính pAej và so sánh từng hàng lần lượt với các phần tử 
củaM nói trên, để thu được hệ bất đẳng thức:6 
5DoM lép vế, nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gán 
bằng 0 trong p = (p; 0; 1 − p). 
6Để thỏa mãn tính trội tuyệt đối, tất cả các bất đẳng thức xuất phát đều có vế trái lớn 
hơn vế phải.
Lý Thuyết Trò Chơi - DHVP Research 25 
p · 2 + 0 · 1 + (1 − p) · 0  1 
p · 2 + 0 · 2 + (1 − p) · 3  2 
p · 0 + 0 · 1 + (1 − p) · 3  1 
Rút gọn hệ này, ta dễ dàng có được: 
2p  1 
3 − p  0 
2  3p 
Bất đẳng thức thứ 2 của hệ này tầm thường. Từ 2 bất đẳng thức còn 
lại, ta thu được điều kiện cho p là: 1 
2  p  2 
3 . Điều này khẳng định việc 
loại bỏ M khỏi chiến lược thuần của NC1, và tiếp tục rút gọn (2.4) trở 
thành (2.5) 
( W Y Z 
T 2, 2 2, 2 0, 0 
B 0, 4 3, 0 3, 3 
) 
(2.5) 
Ngay lập tức, ở trò chơi mới (2.5) ta nhận thấy trong (B) xuất hiện 
W có tính trội tuyệt đối so với Z do đó, ta tiếp tục loại chiến lược Z của 
(2.5), và ta đã rút gọn về trò chơi () kích thước 2 × 2: 
( W Y 
T 2, 2 2, 2 
B 0, 4 3, 0 
) 
(2.6) 
Bây giờ ta chuyển qua giải trò chơi (2.6). Giả sử NC2 có PPXS tổng 
quát dạng (q, 1 − q), NC1 sẽ lựa chọn T khi: 
2q + 2(1 − q)  0q + 3(1 − q) 
Nghĩa là q  1/3. Như vậy, khi q = 1/3 thì mọi chiến lược p = (p, 1 − p) 
đều mang lại cùng lợi ích, và NC1 không còn phải đắn đo. Ngược lại, thì 
lựa chọn B khi: 
2q + 2(1 − q)  0q + 3(1 − q),
26 ⃝c 2011 - Vương Quân Hoàng 
nghĩa là q  1/3. 
Tóm tắt lại, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS 
(q, 1 − q) của NC2 là β1(q, 1 − q), thì 
β1(q, 1 − q) = 
 
 
{(1, 0)} nếu 0 ≤ q  1 
3 
{(p, 1 − p)|0 ≤ p ≤ 1} nếu q = 1 
3 
{(0, 1)} nếu 1 
3  q ≤ 1 
(2.7) 
Bây giờ ta lại xét phản ứng tối ưu của NC2 với PPXS chiến lược thuần 
NC1 có dạng (p, 1 − p). Rõ ràng, chọnW khi: 
2p + 4(1 − p)  2p + 0(1 − p), 
tức là p  1. Khi p = 1, mọi (q, 1 − q) đều là phản ứng tối ưu. Trường 
hợp p  1 không xảy ra, do đó không nằm trong tập phản ứng tối ưu của 
NC2. Tương tự, ta tóm tắt lại: 
β2(p, 1 − p) = 
{ 
{(1, 0)} nếu 0 ≤ p  1 
{(q, 1 − q)|0 ≤ q ≤ 1} nếu p = 1 (2.8) 
Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1, 
NC2 trong H.(2.2) dưới đây. 
Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìm 
thấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏa mãn 
các tính chất mong muốn. Như vậy, tập hợp các chiến lược hỗn hợp là 
tập các PPXS sau: {((1, 0), (q, 1 − q))| 1 
3 
≤ q ≤ 1}. 
Từ đây, ta suy ra tập các cân bằng Nash ở dạng của trò chơi bimatrix 
ban đầu (nghĩa là khi chưa rút gọn) sẽ có dạng: {((1, 0, 0), (q, 0, 1 − 
q, 0))| 1 
3 
≤ q ≤ 1}. 
2.3 Một số ứng dụng và bài toán minh họa 
Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnh 
tranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trời 
và trong nhà. Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa. 
Nếu cả 2 công ty cùng sản xuất ghế ngoài trời, thì mỗi công ty hưởng 
lợi 2 tỷ. Nếu cả hai cùng sản xuất ghế trong nhà, thì lợi ích đem lại cho
Lý Thuyết Trò Chơi - DHVP Research 27 
Hình 2.2: Sơ đồ β2 
Nash-E 
Nash-E 
1 
q 
1/3 
0 
p 1 
mỗi công ty là 1 tỷ. Nếu hai công ty lựa chọn loại ghế khác nhau, thì mỗi 
công ty thiệt hại 1 tỷ. 
Yêu cầu: Dựng trò chơi bimatrix cho ứng dụng này. Giải tập hợp 
toàn bộ các điểm cân bằng Nash của trò chơi. 
Ứng dụng 4: Trò chơi phúc lợi. Một chính phủ có kế hoạch hỗ 
trợ tài chính cho nông dân tăng việc làm và thu nhập. Giả sử nông dân 
chỉ tìm kiếm cơ hội tăng việc làm và thu nhập từ công việc nếu không 
có nguồn phúc lợi do chính phủ hỗ trợ. Nông dân cũng có thể thất bại 
trong việc cố gắng mở rộng cơ hội việc làm và thu nhập. Lợi ích tương 
ứng cho CP và ND là 3,2 nếu CP cấp phúc lợi và ND cố gắng tìm kiếm 
thêm cơ hội việc làm; là -1,1 nếu CP không hỗ trợ và ND vẫn nỗ lực tự 
tìm kiếm việc làm; và -1,3 nếu CP hỗ trợ và ND không nỗ lực; và 0,0 
trong trường hợp CP không hỗ trợ và ND cũng không cố gắng vận động. 
Yêu cầu: Dựng mô hình trò chơi bimatrix. Xác định tập các điểm cân 
bằng Nash thể hiện chiến lược phản ứng tối ưu giữa CP và ND. 
Ứng dụng 5: Trò chơi tiền lương. Hai công ty đều có một vị trí 
tuyển dụng mới. Giả sử công ty i (i = 1, 2) đưa ra mức lương wi, trong 
đó 0  1 
2w1  w2  2w1 và w1̸= w2.
28 ⃝c 2011 - Vương Quân Hoàng 
Giả sử có 2 công nhân, mỗi người có thể nộp đơn cho duy nhất chỉ 
một công ty. Hai công nhân đồng thời phải quyết định nộp đơn cho 
công ty 1 hay công ty 2. Nếu chỉ có một công nhân nộp đơn cho một 
công ty, người đó sẽ có việc làm; nếu cả hai cùng nộp đơn cho một công 
ty, công ty sẽ thuê một trong hai người một cách ngẫu nhiên (với xác 
suất 1/2) và người kia sẽ thất nghiệp (lợi ích bằng 0). 
Yêu cầu: Xây dựng trò chơi tuyển dụng này. 
Ứng dụng 6: Trò chơi quảng cáo. Hai công ty bán cùng loại sản 
phẩm. Mỗi phần trăm thị phần giành được đem lại lợi ích tài chính là 
1. Không cần quảng cáo thì mỗi công ty chiếm thị phần là 50%. Chi 
phí quảng cáo là 10, và quảng cáo giúp tăng thị phần 20%, trong khi 
công ty kia thì mất đi tương ứng. Hai công ty quyết định việc tham gia 
quảng cáo đồng thời và độc lập với nhau. Tổng quy mô thị trường của 
sản phẩm này không đổi. 
Ứng dụng 7: Trò chơi phiếu bầu. Hai đảng tranh cử mỗi đảng có 
3 phiếu bầu có thể sử dụng phân phối có 3 ứng viên. Một ủy ban được 
lập ra gồm có 3 người. Mỗi đảng muốn có càng nhiều ứng viên trong 
ủy ban càng tốt. Trong số 6 ứng viên, 3 ứng viên nào nhận được nhiều 
phiếu bầu nhất sẽ được lựa chọn vào ủy ban; trong trường hợp số phiếu 
bằng nhau, sẽ rút thăm những người có cùng số phiếu (xác suất phân 
phối đều). 
Bài tập 8: Loại bỏ chiến lược lép vế. Cho ma trận bimatrix sau 
( W X Y Z 
T 6, 6 4, 4 1, 2 8, 5 
B 4, 5 6, 6 2, 8 4, 4 
) 
(2.9) 
Tìm các chiến lược thuần của NC1 và NC2 bị lép vế so với một chiến 
lược thuần khác. Xác định các tổ hợp giữa hai chiến lược thuần W, Y 
của NC2 có tính trội tuyệt đối so với X. Tìm các điểm cân bằng của trò 
chơi này. 
Bài tập 9: Cân bằng Nash. Tìm các điểm cân bằng Nash của trò 
chơi bimatrix (2.10).
Lý Thuyết Trò Chơi - DHVP Research 29 
 
 
W X Y 
T 2, 0 1, 1 4, 2 
M 3, 4 1, 2 2, 3 
B 1, 3 0, 2 3, 0 
 
 (2.10) 
Bài tập 10: Trò chơi tham số. Trò chơi (2.11) có chứa tham số 
a ∈ R. Xác định các cân bằng Nash cho mọi giá trị có thể của tham số a. 
( L R 
T 1, 1 a, 0 
B 0, 0 2, 1 
) 
(2.11)
30 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 31 
VQG ghi chú:
32 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 33 
VQG ghi chú:
LÝ THUYẾT TRÒ CHƠI
Chương 3 
Dạng Mở Rộng Hữu Hạn 
Trong phần này, ta xét loại bài toán được gọi là dạng mở rộng và một 
loạt các khái niệm liên quan như thời điểm quyết định, nút quyết định, 
bước chuyển động, perfection trò chơi con, quy nạp lùi, cân bằng Bayes 
hoàn hảo. 
3.1 Bài toán dạng mở 
Trò chơi dạng mở được đặc tả bằng một cây trò chơi, chứa các nút và 
nhánh. Mỗi nút là một nút quyết định hoặc nút may rủi, hoặc là nút kết 
thúc (đưa ra giá trị lợi ích). Mỗi nhánh tương ứng với một hành động 
của NC hoặc là lựa chọn có tính may rủi (còn gọi là bước chuyển động 
vô thức - move of nature hoặc chance move). 
Nút trên cùng gọi là gốc xuất phát của cây trò chơi. Trong sơ đồ này, 
nút gốc là một nút quyết định của NC1, và là xuất phát điểm của trò chơi. 
Từ đây, NC1 sẽ lựa chọn trong 3 bước chuyển động A,B,C. NC2 nhận 
thức được 3 lựa chọn này của NC1. Sự kiện đầu tiên của NC2 trong sơ 
đồ là đường gạch đứt quảng nối giữa hai nút quyết định bên hai nhánh 
trái. Khi này, NC2 có 2 quyết định l, r. Cặp 2 nút được nối bằng gạch 
đứt nét này được gọi là tập thông tin của NC2. Với tập thông tin này, 
NC2 biết rằng tiến hành trò chơi sẽ dẫn tới một trong hai nút quyết định 
khi NC2 đến lượt, tuy nhiên lại không thể đoán biết là bước chơi trước 
của NC1 sẽ dẫn tới điểm nào. 
Nếu NC1 đi bước C, thì sẽ xuất hiện một bước may rủi, chia 2 nhánh 
U,D. Nếu rơi vào nhánh U, với xác suất 1/3 thì sẽ đến lượt NC2 quyết 
35
36 ⃝c 2011 - Vương Quân Hoàng 
Hình 3.1: Sơ đồ trò chơi dạng mở 
NC1 
C May rủi 
U 
1/4 
D 
3/4 
NC2 NC1 
08 
l r l r L R a b 
88 
00 
84 
A 
41 
72 
B 
63 
40 
NC2 
định, ngược lại ở nhánh D, với xác suất 3/4 sẽ đến lượt NC1. Ta cũng 
lưu ý các ký hiệu nhánh L,R, a, b. Còn lại các nút ở hàng cuối là các nút 
kết thúc. Các cặp giá trị tại mỗi nút kết thúc cho biết lợi ích của NC1 
ở hàng trên, và NC2 dòng dưới. Các nút kết thúc cũng gọi là tập thông 
tin, nhưng có tính chất tầm thường. Tập thông tin chứa (nối) ít nhất 2 
nút quyết định gọi là tập thông tin không tầm thường. Những trò chơi 
chứa tập thông tin không tầm thường gọi là trò chơi với thông tin không 
hoàn hảo. Ngược lại là trò chơi hoàn hảo, chỉ chứa các tập thông tin tầm 
thường thu được qua các nút đơn nhất. 
3.2 Dạng chiến lược 
Trong trò chơi dạng mở (3.1) đang xét, có hai khái niệm khác biệt cần 
lưu ý là hành động và chiến lược. Hành động là một bước chơi có thể 
xảy ra của một NC trước một tập thông tin. Trong trò chơi ví dụ ở sơ đồ 
cây phía trên, NC1 có các hành động A,B,C, a, b, và NC2 là l, r, L,R. 
Chiến lược - theo cách hiểu của LTTC - là một kế hoạch hoàn chỉnh 
để chơi toàn bộ trò chơi. Ví dụ về một chiến lược của NC trong sơ đồ trò 
chơi (3.1) là “Chuyển động đầu tiên là bước C, sau đó nếu bước may
Lý Thuyết Trò Chơi - DHVP Research 37 
rủi cho kết cục D thì thực thi a.” 
Điều đáng chú ý là khái niệm chiến lược còn chấp nhận cả kế hoạch 
hoàn chỉnh, nhưng không thể xảy ra trong sơ đồ trò chơi, ví dụ như, với 
NC1 có thể có chiến lược sau: “Chơi bước A, sau đó nếu kết cục may rủi 
là D thì chơi nước b.” Với lô-gic bình thường, kế hoạch chơi này trông 
rất kỳ quặc, vì nếu đã chơi bước A rồi, thì NC1 không còn cơ hội để chơi 
nước b nữa. Tuy vậy, LTTC vẫn chấp nhận đây là một phương án hoàn 
chỉnh các nước chơi để hoàn tất một trò chơi. 
Đối với NC2, tồn tại chiến lược chơi: “Chơi l nếu NC1 chơi A hoặc 
B, và chơi L nếu NC2 hành động C và bước may rủi cho kết cục U.” Rõ 
ràng, trong kế hoạch chơi trọn vẹn này, NC2 không thể biết NC1 có lựa 
chọn A hay B hay không, do đó phản ánh suy nghĩ này vào cách chơi của 
mình. Trường hợp này khác hẳn so với khi ta bỏ gạch nối ở nhánh bên 
trái của sơ đồ (3.1), và trò chơi có thông tin hoàn hảo, như trong sơ đồ 
(3.2). 
Hình 3.2: Sơ đồ cây - thông tin hoàn hảo 
NC1 
C May rủi 
U 
1/4 
D 
3/4 
NC2 NC1 
08 
l r l r L R a b 
88 
00 
84 
A 
NC2 
41 
72 
B 
NC2 
63 
40 
Với trường hợp cho ở hình (3.2), NC2 biết chính xác mình cần đi 
bước nào sau bước A hoặc B của NC1. 
Cuối cùng, có thể viết lại khái niệm chiến lược chơi là một dãy các 
hành động, trong đó tại mỗi tập thông tin của mỗi người chơi, chỉ có
38 ⃝c 2011 - Vương Quân Hoàng 
duy nhất một bước đi (hành động) được thực hiện. 
Trong cả 2 lược đồ trên, thì chiến lược của NC1 đều có 2 hành động, do 
xuất hiện 2 tập thông tin, trong đó có 1 tập là tầm thường. NC1 có 3 hành 
động có thể thực hiện ở tập thông tin 1, và 2 ở nút tập thứ 2. Theo đó, 
tập chiến lược của NC1 có thể được ký hiệu là {Aa, Ab,Ba,Bb,Ca,Cb}. 
Tuy nhiên, với NC2 thì tập chiến lược khác biệt lớn giữa hai sơ đồ 
(3.1) và (3.2). 
Trước tiên, với sơ đồ H.(3.1), thông tin không hoàn hảo, NC2 có tập 
chiến lược {lL, lR, rL, rR}. Nhưng trong H.(3.2), tập chiến lược của 
NC2 có dạng {llL, llR, lrL, lrR, rlL, rlR, rrL, rrR}. 
Lý do quan trọng bậc nhất của việc xét tập chiến lược là vì qua đó, 
trò chơi có thể được rút gọn trò chơi đi một bước kiểu ma trận cặp. Một 
khi đã xác định được các tổ hợp chiến lược của người chơi trong trò chơi 
(trong các ví dụ đang xét là cặp chiến lược, có thể đi tới tính toán giá trị 
lợi ích theo hành trình của sơ đồ cây. 
Xét thử cặp chiến lược (Cb, rL) trong trò chơi ở lược đồ H.(3.1). Khi 
này, NC1 khai cuộc với hành động C, sau đó là bước may rủi; nếu U xuất 
hiện, NC2 đánh L, ngược lại nếu là D, thì NC2 đi nước b. Như vậy, với 
xác suất 1/4, cặp lợi ích sinh ra là (0, 0), và 3/4 là (0, 8). Lợi ích kỳ vọng 
cho NC1 là 0, và NC2 là 6. Theo cách làm này, có thể tính ra 6 × 4 cặp 
lợi ích cho trò chơi H.(3.1), và 6 × 8 cặp lợi ích cho H.(3.2). Các cặp lợi 
ích này được viết lại thành dạng một ma trận cặp (bimatrix) lợi ích (kỳ 
vọng) như sau. 
Tương ứng với H.(3.1), ta thu được: 
 
 
lL lR rL rR 
Aa 4, 1 4, 1 7∗, 2∗ 7∗, 2∗ 
Ab 4, 1 4, 1 7∗, 2∗ 7∗, 2∗ 
Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 
Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 
Ca 6, 6 8∗, 7∗ 6, 6 8∗, 7∗ 
Cb 0, 6 2, 7∗ 0, 6 2, 7∗ 
 
 
, (3.1)
Lý Thuyết Trò Chơi - DHVP Research 39 
và tương ứng H.(3.2), thì có: 
 
 
llL llR lrL lrR rlL rlR rrL rrR 
Aa 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗ 
Ab 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗ 
Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0 
Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0 
Ca 6∗, 6 8∗, 7∗ 6∗, 6 8∗, 7∗ 6, 6 8∗, 7∗ 6, 6 8∗, 7∗ 
Cb 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗ 
 
 
(3.2) 
Trò chơi ma trận cặp như trên được gọi là dạng chiến lược của trò 
chơi dạng mở. Định nghĩa cân bằng Nash cho trò chơi dạng mở cũng 
đồng thời là cân bằng Nash của dạng chiến lược. Điều này đúng với các 
cân bằng Nash thuần, và nói chung cũng đúng với các cân bằng Nash 
trong chiến lược hỗn hợp. 
3.3 Quy nạp lùi và hoàn chỉnh trò chơi con 
Xét trò chơi ở sơ đồ H.(3.2); trò chơi dạng mở với thông tin hoàn hảo. 
Có thể tiến hành phân tích trò chơi này dựa trên nguyên lý quy nạp 
lùi. Ta bắt đầu với các nút ngay trước nút kết thúc, và biến đổi chúng 
thành các nút kết thúc với các giá trị lợi ích được tính ra từ bước chơi tối 
ưu. Quy nạp lùi như trên giúp thu gọn trò chơi H.(3.2) trở thành dạng 
H.(3.3). 
Ở sơ đồ rút gọn ở H.(3.3), chiến lược của NC2 đã được xác định hoàn 
toàn là lựa chọn rlR. 
NC1 chọn a trong tập thông tin bên dưới. Tiếp theo, trong trò chơi 
rút gọn, NC1 chọn bước đi đem lại lợi ích tối đa. Do A mang lại lợi ích 
7, và B mang lại 6, C có lợi ích kỳ vọng 8 ( 1 
4 + 3 
4 ) × 8, lựa chọn tối ưu 
của NC1 là C. Từ đó suy ra, ta có cặp chiến lược (Ca, rlR) với cặp lợi ích 
tương ứng (8, 7). Đây là một trong 10 điểm cân bằng Nash của trò chơi 
dạng chiến lược (3.2), có tên gọi điểm cân bằng quy nạp lùi. Các nhà 
toán học đã chứng minh rằng áp dụng nguyên lý quy nạp lùi luôn tìm 
ra một cân bằng Nash (thuần); có thể hình dung trực giác kết luận này, 
nhưng việc chứng minh điều này không đơn giản. 
Bên cạnh đó, ta nhận thấy trò chơi thông tin hoàn hảo có ít nhất một 
cân bằng Nash trong các chiến lược thuần, và điểm này có thể tìm ra 
bằng phương pháp quy nạp lùi.
40 ⃝c 2011 - Vương Quân Hoàng 
Hình 3.3: Sơ đồ cây rút gọn - thông tin hoàn hảo 
NC1 
C May rủi 
U 
1/4 
D 
3/4 
88 
84 
A 
72 
B 
63 
Cũng cần phân biệt giữa điểm cân bằng quy nạp lùi - trong trò chơi 
đang xét là (Ca, rlR)) - và kết cục quy nạp lùi. Kết cục quy nạp lùi ám 
chỉ các bước triển khai chơi thực sự, hay nói một cách tương đương khác 
là một quỹ tích cân bằng, trong trường hợp này là (Ca,R). Ta quan sát 
thấy tồn tại nhiều điểm cân bằng Nash khác trong trò chơi tạo ra cùng 
kết cục hay quỹ tích, chẳng hạn như (Ca, llR), (Ca, lrR), và (Ca, rrR): 
chúng đều dẫn đến quỹ đạo (Ca,R), nhưng lại khác nhau ở phần bên 
trái của cây trò chơi, trong đó NC2 có ít nhất một quyết định dưới mức 
tối ưu. Như vậy, nguyên lý quy nạp lùi giúp đảm bảo rằng mọi người 
chơi luôn đi bước tối ưu, thậm chí ngay cả ở những phần của cây trò 
chơi không thực sự được chơi trên thực tế. 
Cách tổng quát để tiến hành quy nạp lùi là sử dụng ý tưởng về trò 
chơi con (subgame perfection)., với định nghĩa trò chơi con như sau: 
“Một trò chơi con là một phần bất kỳ của một cây trò chơi, khởi đầu ở 
một nút quyết định đơn của một NC hoặc là một nút may rủi, mà sau 
đó không bị kết nối với cây trò chơi qua một tập thông tin nào sau đó.” 
Trò chơi trong sơ đồ H.(3.2) có tới 6 trò chơi con khác nhau, bao 
gồm: (1) toàn bộ trò chơi; (2) trò chơi bắt đầu từ bước may rủi; (3,4,5,6) 
4 trò chơi bắt đầu từ 4 nút ngay trước nút kết thúc. 
Định nghĩa của điểm cân bằng hoàn hảo của trò chơi con như sau: 
Đó là một kết hợp chiến lược dẫn đến cân bằng Nash trong tất cả các 
trò chơi con. Xét H.(3.2), để một kết hợp chiến lược trở thành cân bằng 
hoàn hảo của trò chơi con, sự kết hợp đó buộc phải sinh ra một điểm 
cân bằng Nash ở tất cả các trò chơi con. Do toàn bộ trò chơi cũng chính 
là trò chơi con, nên một điểm cân bằng như thế bắt buộc phải là cân
Lý Thuyết Trò Chơi - DHVP Research 41 
bằng Nash của toàn bộ trò chơi, và suy ra, cả 10 cân bằng Nash của sơ 
đồ đang xét đều là ứng viên cho điểm cân bằng hoàn hảo đó. Vì thế, 
một điểm cân bằng hoàn hảo của trò chơi con bắt buộc luôn phải là một 
cân bằng Nash. Cân bằng hoàn hảo đó cũng phải dẫn đến một điểm cân 
bằng trong cả 4 trò chơi con một người chơi trước nút kết thúc.1 
Trong ví dụ này, nó có nghĩa là các bước đi r, l,R, và a. 
Suy ra rằng, NC lựa chọn tối ưu trong cả trò chơi con khởi đầu từ nút 
may rủi. Tổng kết lại, ta tìm (các) cân bằng Nash và điểm duy nhất thỏa 
mãn là (Ca, rlR). Do đó, điểm cân bằng hoàn hảo trò chơi con duy nhất 
của trò chơi này là (Ca, rlR), và đây cũng là điểm cân bằng quy nạp lùi. 
Trong trò chơi thông tin hoàn hảo, các điểm cân bằng quy nạp lùi và cân 
bằng hoàn hảo trò chơi trùng nhau. 
Tiếp theo, tìm hiểu trò chơi với thông tin không hoàn hảo trong sơ 
đồ H.(3.1). Trong trò chơi này, nguyên lý quy nạp lùi không áp dụng 
được cho nhánh bên trái của cây trò chơi, vì lý do NC2 không biết liệu 
NC1 sẽ đi bước A hay B trong khi NC2 phải lựa chọn một bước đi trong 
tập thông tin phía nhánh trái, và NC này không thể quyết định giữa l và 
r. Về trò chơi con, khi này tồn tại: (1) toàn bộ trò chơi; (2,3) 2 trò chơi 
con theo kết cục U và D; và (4) trò chơi con khởi đầu từ bước may rủi. 
Như vậy, ràng buộc của phép hoàn chỉnh trò chơi con là, NC1 đi bước a, 
NC2 đi R, và sự kết hợp chiến lược này là điểm cân bằng Nash của toàn 
bộ trò chơi. 
Trong số 6 điểm cân bằng Nash của trò chơi ma trận cặp (??), chỉ 
còn hai điểm cân bằng phù hợp là (Ca, lR) và (Ca, rR). Và đây là hai 
điểm cân bằng hoàn hảo trò chơi con của H.(3.1). 
Có thể thấy rằng, phép hoàn chỉnh trò chơi con có khả năng ứng dụng 
tổng quát hơn so với của nguyên lý quy nạp lùi thông qua trò chơi cho 
ở cây H.(3.4). Trò chơi này có 3 người chơi và phép quy nạp lùi không 
áp dụng được. 
Còn với phép hoàn chỉnh trò chơi con, ta lưu ý tới thực tế là trò chơi 
này chỉ có 2 trò chơi con duy nhất là (1) toàn bộ; và (2) trò chơi khởi 
đầu từ nút quyết định của NC2. Trò chơi (2) diễn ra giữa NC2 và NC3 
có dạng chiến lược (3.3). 
1Có thể coi các điểm cân bằng Nash cho trò chơi 1-NC là NC đó sẽ chọn bước đi có 
lợi tối ưu.
42 ⃝c 2011 - Vương Quân Hoàng 
Hình 3.4: Sơ đồ cây 3-NC 
NC1 
NC2 
L 
A 
l r 
R 
l r 
331 
000 
000 
113 
B 
200 
NC3 
( l r 
L 3, 1 0, 0 
R 0, 0 1, 3 
) 
. (3.3) 
Trò chơi dạng chiến lược (3.3) có 2 điểm cân bằng Nash thuần là 
(L, l) và (R, r). Như vậy, nếu chơi theo chiến lược cân bằng đầu tiên, thì 
NC1 chơi A, thu về lợi ích bằng 3, trong khi đánh B thu về 2. Nếu theo 
điểm cân bằng thứ hai trong trò chơi con, NC1 rõ ràng chơi B vì đánh 
nước A chỉ thu về lợi ích là 1. Do đó, hai cân bằng trò chơi con hoàn hảo 
là (A, L, l) và (B,R, r). 
Một cách khác là, ta có thể tính trước tiên các cân bằng Nash của toàn 
bộ trò chơi. Dạng chiến lược của trò chơi được thể hiện trong các ma 
trận lợi ích khi NC1 đánh A và B. 
1 : A 
( l r 
L 3∗, 3∗, 1∗ 0, 0, 0 
R 0, 0, 0 1, 1∗, 3∗ 
) 
1 : B 
( l r 
L 2, 0∗, 0∗ 2∗, 0∗, 0∗ 
R 2∗, 0∗, 0∗ 2∗, 0∗, 0∗ 
)
Lý Thuyết Trò Chơi - DHVP Research 43 
Trong các ma trận này, phản ứng tối ưu được đánh dấu sao. NC1 phải 
so sánh lợi ích từ cả hai ma trận để cân nhắc. Các cân bằng Nash thuần 
thu được là (A, L, l), (B, L, r), (B,R, l), và (B,R, r). Cân bằng hoàn hảo 
trò chơi con là cân bằng thực hiện được phối hợp chiến lược chơi (L, l) 
hoặc (R, r) dẫn ta tới kết luận về hai điểm cân bằng nói ở trên. 
3.4 Cân bằng Bayes hoàn hảo 
Các khái niệm cân bằng Nash và cân bằng trò chơi con hoàn hảo còn 
được tiếp tục phát triển tinh tế hơn qua khái niệm cân bằng Bayes hoàn 
hảo. Xét một tập thông tin của một NC trong trò chơi dạng cây. Một 
niềm tin của NC đó chỉ đơn giản hiểu là một PPXS qua các nút của tập 
thông tin, hoặc trên các hành động đáp ứng trước tập thông tin đó. Nếu 
tập thông tin tầm thường (tức là chỉ là một nút đơn) thì niềm tin đó cũng 
tầm thường, tức là gán xác suất bằng 1 cho nút quyết định duy nhất đó. 
Một cân bằng Bayes hoàn hảo của một trò chơi dạng cây (mở rộng) là 
một sự kết hợp các chiến lược và một quy ước về niềm tin sao cho hai 
điều sau đây được thỏa mãn: 1) Niềm tin nhất quán với các chiến lược 
đang xét; và 2) Những NC lựa chọn một cách tối ưu với sự tồn tại của 
các niềm tin đã biết. 
Điều kiện thứ nhất được gọi là tính nhất quán Bayes về niềm tin, và 
điều kiện thứ hai là tính hợp lý tuần tự. Điều kiện đầu phát biểu rằng 
niềm tin cần thỏa mãn cập nhật thông tin dạng Bayes đối với các chiến 
lược bất kỳ khi nào có thể. Điều kiện sau yêu cầu NC cần hành động 
nhằm tối đa hóa lợi ích kỳ vọng dựa trên niềm tin của mình. 
Ta xét ví dụ minh họa (3.1). Trò chơi này có một tập thông tin không 
tầm thường. Giả sử niềm tin của NC2 trước tập thông tin này được cho 
bởi xác suất α cho nút bên trái và 1−α cho nút bên phải. Mọi tập thông 
tin khác đều tầm thường, vì vậy niềm tin sẽ gán xác suất 1 cho mỗi nút 
tương ứng. Áp dụng điều kiện (2) ngụ ý NC2 cần lựa chọn R và NC1 
chọn a tại các tập thông tin tương ứng. 
Trước tập thông tin không tầm thường, NC2 cần lựa chọn hành vi 
tối đa hóa lợi ích kỳ vọng. Mức kỳ vọng từ lựa chọn l của NC2 là 
α · 1+(1α) · 3 = 32α và từ hành vi chọn r là α · 2+(1α) · 0 = 2α. Vì thế, 
chiến lược chọn l là tối ưu nếu như 32α ≥ 2α; điều này có nghĩa là khi 
α ≤ 3/4. Và, r cho kỳ vọng tối đa nếu α ≥ 3/4. 
Trong trò chơi đang xét, với NC1, lựa chọn C luôn tối ưu, với yếu tố
44 ⃝c 2011 - Vương Quân Hoàng 
kết cục R, a cho trước: C cho lợi ích 8 trong khi đó A,B chỉ mang lại 
tối đa là 7. Nhưng nếu NC1 không lựa chọn A hoặc B thì điều kiện (1) 
không đặt ra ràng buộc nào với niềm tin [α] của NC2. Một cách chặt 
chẽ thì, nếu NC1 chọn C thì tập thông tin không tầm thường của NC2 
không có khả năng sử dụng, và vì thế xác suất [α] không được hiệu chỉnh 
Bayes, tức là, bằng việc tính xác suất có điều kiện khả năng chạm tới nút 
trái hay phải của tập thông tin NC2. Điều này có nghĩa là ta có thể chọn 
bất kỳ giá trị α nào mong muốn, nhưng tương ứng với giá trị α đó NC2 
cần lựa chọn tối ưu. Từ đó suy ra, về cơ bản ta có 2 cân bằng Bayes hoàn 
hảo, đó là (Ca, lL) ứng với niềm tin α ≤ 3/4, và (Ca, rL) khi α ≥ 3/4. 
Ta lại lưu ý rằng đây chính là hai cân bằng trò chơi con hoàn hảo, chỉ có 
điều bây giờ được hỗ trợ bởi ý niệm về mức độ tin tưởng của NC2 vào 
tập thông tin không tầm thường của mình. 
Đồng thời, ta cũng nhận thấy một cân bằng Bayes hoàn hảo luôn 
đóng vai trò cân bằng trò chơi con hoàn hảo, và vì thế cũng là một cân 
bằng Nash. Thực ra, bằng cách gán các xác suất cho các nút của một tập 
thông tin, chúng ta cũng tạo điều kiện để áp dụng nguyên lý quy nạp lùi. 
Điều kiện của cân bằng Bayes có ảnh hưởng mạnh hơn phép hoàn 
chỉnh trò chơi con. Giả sử vẫn xét trò chơi này, ta thay cặp lợi ích (4, 1) 
sau A và l bằng cặp (4, 3). Kiểm tra nhanh ta có các cân bằng trò chơi 
con hoàn hảo vẫn là (Ca, lL), (Ca, rL). Đương nhiên NC2 tỉnh táo sẽ 
không bao giờ lựa chọn r tại tập thông tin không tầm thường vì l đem 
lại lợi ích lớn hơn, nhưng phép hoàn chỉnh trò chơi con lại không loại 
bỏ khả năng này. Tuy thế, rõ ràng không khả năng NC2 gán niềm tin để 
r là lựa chọn tối ưu. Với PPXS (α, 1 − α) đã giả sử, r đem lại lợi ích 2α, 
trong khi l đem lại 3, mà 0 ≤ α ≤ 1 Vậy thì, cân bằng Bayes hoàn hảo 
duy nhất có được là (Ca, lL), bất kể trị số niềm tin của NC2 trước tập 
thông tin không tầm thường ở mức nào. 
Một minh họa khác là trò chơi 3-NC trong sơ đồ (3.5). Có hai cách 
tìm các cân bằng Bayes hoàn hảo của sơ đồ chơi này. Ta có thể tìm các 
cân bằng trò chơi con hoàn hảo và các xác suất gán niềm tin tương ứng. 
Theo cách khác, ta có thể áp dụng quy nạp lùi. 
Nếu sử dụng quy nạp lùi, bắt đầu với NC3. Nếu NC3 lựa chọn l thì 
lợi ích (kỳ vọng) là α. Còn nếu NC3 chọn r, thì lợi ích là 33α. Suy ra, l 
là lựa chọn tối ưu nếu α ≥ 3/4, và r tối ưu nếu α ≤ 3/4. 
Bây giờ, giả sử NC3 chọn l. NC2 rõ ràng chọn L. Khi này, điều kiện 
(1) của cân bằng Bayes hoàn hảo dẫn đến kết cục α = 1: điều này có
Lý Thuyết Trò Chơi - DHVP Research 45 
Hình 3.5: Sơ đồ 3-NC cân bằng Bayes 
NC1 
NC2 
L 
A 
[α] 
l 
r 
R 
l r 
331 
000 
000 
113 
B 
200 
[1 − α] 
NC3 
nghĩa là NC3 trên thực tế phải tin rằng NC2 đã lựa chọn L. Rõ ràng, khi 
này 1 = α  3/4, nên l chính là hành vi tối ưu của NC3. Rốt cục, NC1 
lựa chọn A, thu được lợi ích 3 (thay vì chơi B để đạt 2). Như vậy, chúng 
ta có một điểm cân bằng Bayes hoàn hảo (A, L, l) với niềm tin α = 1. 
Nếu NC3 chơi r, NC2 về logic sẽ chơi R, điều này dẫn đến α = 0, do 
đó NC3 chọn r trên thực tế. Lúc này, NC1 cần chơi B, và như vậy ta có 
được cân bằng Bayes hoàn hảo (B,R, r) với niềm tin α = 0.
46 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 47 
VQG ghi chú:
48 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 49 
VQG ghi chú:
50 ⃝c 2011 - Vương Quân Hoàng
Lý Thuyết Trò Chơi - DHVP Research 51 
VQG ghi chú:
LÝ THUYẾT TRÒ CHƠI
Chương 4 
Trò Chơi Hữu Hạn Thông 
Tin Không Đầy Đủ 
Trong trò chơi với thông tin không đầy đủ, những NC có thể thiếu thông 
tin về hành động của NC khác. Mọi trò chơi 1-nước, chuyển động đồng 
thời đều thuộc nhóm thông tin không hoàn hảo. Cũng có khả năng NC 
của trò chơi loại này không có thông tin về một số tính chất của trò chơi 
hay đặc tính của NC. Chẳng hạn, một NC có thể không biết hết thông 
tin về các hành vi có thể của những NC khác, hoặc về lợi ích có thể đạt 
được của NC khác. 
Ở đây, ta xây dựng mô hình trò chơi thông tin không đầy đủ bằng cách 
giả định rằng mỗi NC thuộc một số nhóm đặc trưng khác nhau (type).. 
Đặc trưng của NC bao quát tất cả các thông tin liên quan (đặc biệt là 
hành động và lợi ích) về NC đó. Hơn nữa, cũng giả sử rằng mỗi NC biết 
rõ mình thuộc đặc trưng nào, và có một PPXS trên các đặc trưng của 
những NC khác. Thường thì các PPXS này được giả định có tính nhất 
quán, theo nghĩa rằng, các PPXS này được đúc kết từ một loại PPXS đã 
biết, có tính chung nhất, trên tất cả các tổ hợp đặc trưng của NC trong 
trò chơi. 
Ta vẫn chỉ xét trò chơi có số NC hữu hạn, số nhóm đặc trưng hữu 
hạn, và số chiến lược chơi hữu hạn. Các trò chơi này có thể là trò chơi 
tĩnh (đồng thời, 1-bước) hoặc động (dạng mở rộng/cây). Một cân bằng 
Nash trong bối cảnh này cũng còn được gọi là cân bằng Bayes. 
53
54 ⃝c 2011 - Vương Quân Hoàng 
4.1 Nhóm đặc trưng 
Ta xét một tập hợp người chơi, N = {1, 2, ..., n}. Với mỗi NC i ∈ N, tồn 
tại một tập hữu hạn các đặc trưng Ti mà NC đó có thể sở hữu. Nếu ta ký 
hiệu T = T1×T2×· · ·×Tn cho tập hợp T = {(t1, t2, . . . , tn)|t1 ∈ T1, t2 ∈ 
T2, . . . , tn ∈ Tn},1 thì một trò chơi thông tin không đầy đủ quy định một 
trò chơi với mọi tổ hợp có thể t = (t1, t2, . . . , tn) ∈ T. Ta giả định rằng 
mỗi NC i biết rõ đặc trưng ti của mình, và với đặc trưng ti đó sẽ gán 
các xác suất p(t1, . . . , ti−1, ti+1, . . . , tn|ti) cho tất cả các tổ hợp đặc trưng 
t1 ∈ T1, . . . , ti−1 ∈ Ti−1, ti+1 ∈ Ti+1, . . . , tn ∈ Tn của những NC khác 
Thông thường, các xác suất nói trên được tính ra từ một phân phối 
xác suất chung p trên T, trong đó p(t) là xác suất mà tổ hợp đặc trưng là 
t. Hơn nữa, giả định mỗi NC i, ngoài đặc trưng ti của mình, còn nhận 
thức rõ về PPXS p. Vì thế, nếu NC i có đặc trưng ti, thì NC này có thể 
tính được xác suất mà loại tổ hợp đặc trưng của những NC khác là véc-tơ 
(t1, . . . , ti−1, ti+1, . . . , tn). Xác suất này bằng xác suất có điều kiện 
p(t1, . . . , ti−1, ti+1, . . . , tn|ti) = Σp(t1, . . . , ti−1, ti, ti+1, . . . , tn) 
p(t′ 
1, . . . , t′ 
i−1, ti, t′ 
i+1, . . . , t′ 
n) 
trong đó, tổng ở mẫu được tính ra từ tất cả các đặc trưng có thể của 
những NC khác, tức là trên mọi khả năng t′ 
1 
∈ T1, . . . , t′ 
i−1 
∈ Ti−1, t′ 
i+1 
∈ 
Ti+1, . . . , t′ 
n 
∈ Tn. Do đó, tổng ở mẫu này chính là xác suất để NC i có 
đặc trưng ti. 
Một NC trong trò chơi thông tin không đầy đủ có thể hành động phụ 
thuộc vào đặc trưng cá nhân của riêng mình, nhưng không phụ thuộc 
vào đặc trưng của những NC khác. Tuy nhiên, vì NC này biết được các 
xác suất của các đặc trưng của NC khác, nên có thể tính toán được lợi 
ích kỳ vọng của từng bước chơi. 
4.2 Trò chơi tĩnh, thông tin không đầy đủ 
Ví dụ được đưa ra dưới đây giúp minh họa trò chơi tĩnh thông tin không 
đầy đủ, với những khái niệm chúng ta vừa cung cấp ở trên. 
1Tức là tập hợp của tất cả các tổ hợp các đặc trưng có thể tồn tại trong trò chơi.
Lý Thuyết Trò Chơi - DHVP Research 55 
Xung đột sở thích giới tính: Tình huống xảy ra giữa một chàng 
trai và một cô gái, muốn hẹn gặp nhau, hoặc xem một trận bóng đá, 
hoặc dự một buổi diễn ba-lê. Hai người đều không nhớ về quyết định đi 
đâu trong lần hẹn. Họ ở khác chỗ nhau và phải tự quyết định đi đâu; dĩ 
nhiên giả sử không có phương tiện thông tin để liên lạc. Mục tiêu chính 
là phải gặp được nhau. Chàng trai thích bóng đá hơn, ngược lại cô gái 
thích ba-lê hơn.2 
Trong bài toán này, NC1 không biết liệu NC2 (cô gái) muốn hò hẹn 
với anh ta hay không, nghĩa là không thể chắc chắn bản thân mình muốn 
lựa chọn Yes hay No. Mô hình được viết lại cho tính bất trắc chiến lược 
này như sau. 
Y : 
( S B 
S 2, 1 0, 0 
B 0, 0 1, 2 
) 
Y : 
( S B 
S 2, 0 0, 2 
B 0, 1 1, 0 
) 
(4.1) 
trong đó, S là đi xem đá bóng (viết tắt chữ Soccer) và B là ba-lê. Chàng 
trai là người chơi theo hàng (NC1) và cô gái theo cột (NC2). Tình huống 
cần hợp tác này liên quan trực tiếp tới sự tổ hợp các lựa chọn cá nhân, 
và khái niệm cân bằng Nash.3 
NC1 gán xác suất bằng 1/2 cho mỗi trò chơi con Y,N. NC2 cũng biết 
thông tin này. Theo cách chúng ta định nghĩa ở trên về đặc trưng thì 
điều này có nghĩa là NC1 chỉ có 1 đặc trưng, biểu thị qua 1. Nhưng NC2 
có 2 đặc trưng là Y và N. Hai tổ hợp đặc trưng của trò chơi là (1, y) và 
(1, n), đều có xác suất xuất hiện là 1/2. 
NC2 biết rõ đặc trưng của NC1 cũng như của bản thân, có nghĩa là 
biết chắc trò chơi nào đang diễn ra. NC1 thì phải gán xác suất cho từng 
đặc trưng của NC2, đều là 1/2. Sơ đồ dạng cây của tình huống xung đột 
nói trên được cung cấp trong H.(4.1), có thể giúp giải quyết việc tìm cân 
bằng Nash thuận lợi hơn. 
Sơ đồ cho biết trò chơi bắt đầu ở nút May-Rủi, và đi đến lựa chọn 
một trong hai ma trận cặp để chơi, với xác suất 1/2. Theo diễn đạt về 
đặc trưng NC, trò chơi này lựa đặc trưng của NC2. NC2 được thông tin, 
2Peter, Hans (2008) Game theory: a multi-leveled approach. Springer Verlag, 
Heidelberg, Germany. 
3Nash, John F. (1951) “Non-cooperative games.” Annals of Mathematics, 
54:286–295.
56 ⃝c 2011 - Vương Quân Hoàng 
Hình 4.1: Xung đột sở thích giới tính, thông tin không đầy đủ 
May-Rủi 
NC2 
Y 
1/2 
S 
S B 
B 
S B 
21 
00 
00 
12 
NC2 
N 
1/2 
B 
S B S B 
20 
01 
02 
10 
NC1 
nhưng NC1 thì không. NC2 có 4 chiến lược khác nhau, nhưng NC1 chỉ 
có 2. Từ sơ đồ dạng chiến lược của trò chơi, có thể quan sát thấy mọi 
cân bằng Nash đều có tính hoàn hảo trò chơi con, vì không có trò chơi 
con nào không tầm thường. Đồng thời, mọi cân bằng Nash đều hoàn 
hảo Bayes, tập thông tin không tầm thường duy nhất (của NC1) sẽ được 
tận dụng cho dù NC2 có đi phương án nào, như vậy niềm tin hoàn toàn 
được xác định qua chiến lược của NC2 nhờ bổ sung thông tin Bayes. 
Dạng chiến lược của trò chơi cho ở H.(4.2). Trong sơ đồ, chữ cái đầu 
tiên trong một chiến lược của NC2 cho biết NC2 chơi gì nếu Y xuất hiện 
ở bước May-Rủi. Tương tự, chữ cái thứ 2 tương ứng với trường hợp N. 
Phản ứng tối ưu được đánh dấu. 
( SS SB BS BB 
S 2∗, 0.5 1∗, 1.5∗ 1∗, 0 0, 1 
B 0, 0.5 0.5, 0 0.5, 1.5∗ 1∗, 1∗ 
) 
(4.2) 
Từ dạng chiến lược, thấy rằng trò chơi có cân bằng Nash thuần duy 
nhất là (S, SB). Trong cân bằng này, NC1 chọn S, đặc trưng Y của NC2 
chọn S và đặc trưng N của NC 2 chọn B. 
Điểm cân bằng này cũng còn gọi là cân bằng Bayes, tuy nhiên nó là
Lý Thuyết Trò Chơi - DHVP Research 57 
một cân bằng Nash của một dạng trò chơi sơ đồ cây theo một quy cách 
phù hợp. Cân bằng Nash thuần của một trò chơi dạng này có thể xác 
định mà không cần vẽ sơ đồ cây hay tính ra ma trận dạng chiến lược. 
Giả sử rằng, NC1 lựa chọn S tại điểm cân bằng. Khi này, phản ứng tối 
ưu của NC2 là chơi S nếu cô gái có đặc trưng Y , và lựa chọn B, nếu đặc 
trưng của cô ta là N. 
Lợi ích kỳ vọng của NC1 là 1; thế nên nếu NC2 lựa chọn B thì chỉ thu 
được lợi ích kỳ vọng 0,5. Do vậy, (S, SB) là cân bằng Nash. 
Mặt khác, nếu như NC1 chọn B, thì phản ứng tối ưu của NC2 chứa 
đặc trưng Y là B, còn đặc trưng N thì là S. Lợi ích của NC1 là 0,5, trong 
khi đó nếu chơi S thì lợi ích của NC2 là 1, trong tình huống này. Do đó, 
không có điểm cân bằng khi NC1 lựa chọn B. 
Trường hợp thông tin không đầy đủ từ cả hai phía Đây là một 
ví dụ của việc tiếp tục chỉnh sửa đầu bài của trò chơi xung đột lợi ích 
giới tính vừa đề cập ở trên. Trong trò chơi mới này, không NC nào biết 
chắc liệu rằng NC kia có muốn gặp mình không. 
Y : 
( S B 
S 2, 1 0, 0 
B 0, 0 1, 2 
) 
Y : 
( S B 
S 2, 0 0, 2 
B 0, 1 1, 0 
) 
(4.3) 
Y : 
( S B 
S 2, 1 0, 0 
B 0, 0 1, 2 
) 
Y : 
( S B 
S 2, 0 0, 2 
B 0, 1 1, 0 
) 
(4.4) 
Chúng ta có 4 trò chơi ma trận cặp trong dạng chiến lược cho bởi 
(4.3) và (4.4). 
Các trò chơi này tương ứng với 4 tổ hợp đặc trưng có thể của NC1 và 
NC2. Từ đây ta cũng có PPXS của 4 tổ hợp đặc trưng này trong bảng 
(4.1). 
Một phương án tìm các cân bằng Nash của trò chơi này là phác họa 
dạng sơ đồ cây và tính ra các dạng chiến lược tương ứng. Cách khác là 
kiểm tra một cách hệ thống 16 cặp chiến lược có thể.
58 ⃝c 2011 - Vương Quân Hoàng 
Bảng 4.1: PPXS theo đặc trưng của NC có 2 đặc trưng 
t Y1Y2 Y1N2 N1Y2 N1N2 
p(t) 2/6 2/6 1/6 1/6 
PPXS phụ thuộc theo loại có thể tính từ bảng (4.1), theo công thức 
Bayes xác suất toàn phần (). 
p(Y2|Y1) = p(Y1Y2) 
p(Y1Y2) + p(Y1N2) 
= 
2/6 
(2/6 + 2/6) 
= 1/2 
Theo cách này, các xác suất có điều kiện (theo loại đặc trưng) khác 
được tính ra kết quả từ bài toán như sau: p(N2|Y1) = 1/2, p(Y2|N1) = 
1/2, p(N2|N1) = 1/2, p(Y1|Y2) = 2/3, p(N1|Y2) = 1/3, p(Y1|N2) = 2/3, 
p(N1|N2) = 1/3. 
Giả sử NC1 chọn chiến lược SS, tức là chàng trai chọn S (chữ S đứng 
trước) nếu đặc trưng của anh ta là Y1 và cũng S (chữ đứng sau) ngay cả 
khi đặc trưng làN1. (Trong toàn bộ biện luận này, ký hiệu đầu của chiến 
lược lựa chọn tương ứng với đặc trưng Y và chữ đứng sau ứng với N). 
Khi đó, lợi ích kỳ vọng cho đặc trưng Y2 của NC2 nếu như cô ta 
chọn S là (2/3) · 1 + (1/3) · 1 = 1. Nếu NC2 chọn B thì kỳ vọng là 
(2/3) · 0 + (1/3) · 0 = 0. Từ đó suy ra, phản ứng tối ưu của đặc trưng Y2 
là S. 
Tương tự, với N2 của NC2, chọn S cho lợi ích 0, và B đem lại 2. B là 
phản ứng tối ưu. Kết hợp lại, phản ứng tối ưu của NC2 đáp ứng lại chiến 
lược SS của NC1 là SB. 
Như thế chơi S đem lại cho đặc trưng Y1 của NC1 một mức kỳ vọng lợi 
ích là (1/2) · 2+(1/2) · 0 = 1. Chọn B đem lại (1/2) · 0+(1/2) · 1 = 1/2, 
cho nên S là phản ứng tối ưu cho đặc trưng Y1 của NC1. Tương tự, với 
đặc trưng N1 thì chọn S đem lại lợi ích (1/2) · 0+(1/2) · 2 = 1 trong khi 
đó chọn B đem lại 1/2. Vì thế, S vẫn là phản ứng tối ưu cả khi đặc trưng 
là N1. Suy ra rằng, phản ứng tối ưu của NC1 trước chiến lược chơi SB 
của cô gái là SS. Ta kết luận rằng, trong trường hợp này, (SS, SB) là 
cân bằng Nash. 
Tiếp theo, giả sử rằng NC1 chọn SB. Tính toán theo cách tương tự 
cho thấy NC2 có 2 phương án phản ứng tối ưu, là SB và BB. Nếu NC2 
chọn SB, thì chiến lược tối ưu của NC1 là SS, theo cùng lô-gic đã lập
Lý Thuyết Trò Chơi - DHVP Research 59 
luận lúc trước, và không có phương án tối ưu SB. Điều này chứng tỏ 
đây không phải là cân bằng Nash. Còn phương án NC2 làBB, phản ứng 
tối ưu của NC1 là BS, chứ không phải SB, tổ hợp này cũng không tạo 
thành cân bằng Nash. 
Thứ ba, giả sử rằng, NC1 chọn chiến lược BS. Như vậy, NC2 có hai 
phản ứng tối ưu là BS và BB. Nếu NC2 chọn BS, phản ứng tối ưu của 
NC1 là SS và không phải BS, tổ hợp này không tạo thành cân bằng 
Nash. Trường hợp, NC2 chọn BB, chiến lược tối ưu của NC1 là BS, và 
lúc này tổ hợp chiến lược (BS,BB) chính là một cân bằng Nash. 
Cuối cùng ta lại giả sử rằng NC1 đi BB. NC2 phản ứng tối ưu qua 
BS, dẫn đến NC1 cần phản ứng lựa chọn tốt nhất SS và không phải BB. 
Suy ra, BB không phải bộ phận của cân bằng Nash ta mong muốn. 
Có thể kết luận rằng trò chơi đang xét có 2 cân bằng Nash thuần: (1) 
Cả hai loại đặc trưng của NC1 dẫn đến lựa chọn S, đặc trưng Y2 của NC2 
cũng dẫn tới hành động S, nhưng đặc trưng N2 của NC2 lại hướng đến 
phương án B; và, (2) Loại đặc trưng Y1 của NC1 dẫn đến lựa chọn B, 
trong khi N1 là S. Trong khi đó, cả 2 đặc trưng của NC2 đều có lựa chọn 
B tối ưu. Các điểm cân bằng này còn được gọi là cân bằng Nash có tính 
chất Bayes. 
4.3 Trò chơi tín hiệu 
Dạng mở rộng của trò chơi có thể giúp nghiên cứu loại trò chơi tĩnh, 
thông tin không đầy đủ, bằng cách bắt đầu trò chơi với nút May-Rủi, 
tại đó lựa chọn loại đặc trưng của NC. Xét tổng quát hơn, dạng mở rộng 
có thể mô hình hóa các trò chơi thông tin không đầy đủ, mà trong đó 
những NC chuyển động tuần tự. Một lớp trò chơi quan trọng này là lớp 
trò chơi phát tín hiệu. GS. Spence đã xây dựng mô hình trò chơi tín hiệu 
thị trường đặc trưng cho loại bài toán này.4 
Trò chơi tín hiệu (hữu hạn) khởi đầu với bước May-Rủi dẫn đến lựa 
chọn đặc trưng của NC1. NC1 có thông tin về các loại đặc trưng của 
mình, nhưng NC2 thì không có thông tin về đặc trưng này. NC1 hành 
động trước, NC2 quan sát lựa chọn của NC1, rồi mới chuyển động, sau 
đó trò chơi kết thúc. Mô hình bài toán này được gọi là trò chơi tín hiệu 
bởi lẽ chuyển động của NC1 có thể là tín hiệu nhận biết loại đặc trưng, 
4Spence, Michael A. (1973) “Job market signalling.” Quarterly Journal of Eco-nomics, 
87: 355–374.
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang
Game theory   - Vuong Quan Hoang

More Related Content

What's hot

Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viênLuận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành LongLuận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
Viết thuê trọn gói ZALO 0934573149
 
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
alexandreminho
 
Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)hung bonglau
 
9 dạng bài tập định khoản kế toán
9 dạng bài tập định khoản kế toán9 dạng bài tập định khoản kế toán
9 dạng bài tập định khoản kế toánLớp kế toán trưởng
 
Chương iii.trinh tu logic cua nckh
Chương iii.trinh tu logic cua nckhChương iii.trinh tu logic cua nckh
Chương iii.trinh tu logic cua nckhbesstuan
 
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đĐề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
Hải Đào
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Nguyễn Danh Thanh
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
leemindinh
 
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Share Tài Liệu Đại Học
 
Bài giảng thẩm định dự án đầu tư
Bài giảng thẩm định dự án đầu tưBài giảng thẩm định dự án đầu tư
Bài giảng thẩm định dự án đầu tư
CleverCFO Education
 
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)Quynh Anh Nguyen
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinTran Tien
 
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viênĐề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Báo cáo tốt nghiệp
Báo cáo tốt nghiệpBáo cáo tốt nghiệp
Báo cáo tốt nghiệp
My Đá
 
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊChuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Thắng Nguyễn
 
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
The Boss
 
Bài tập môn nguyên lý kế toán
Bài tập môn nguyên lý kế toánBài tập môn nguyên lý kế toán
Bài tập môn nguyên lý kế toán
Học Huỳnh Bá
 
Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
 Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th... Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
hieu anh
 

What's hot (20)

Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viênLuận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
Luận văn: Yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên
 
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành LongLuận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
Luận văn: Xây dựng kế hoạch kinh doanh công ty chăn nuôi Phước Thành Long
 
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
276 CÂU TRẮC NGHIỆM ĐƯỜNG LỐI CÁCH MẠNG CỦA ĐCSVN
 
Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)
 
9 dạng bài tập định khoản kế toán
9 dạng bài tập định khoản kế toán9 dạng bài tập định khoản kế toán
9 dạng bài tập định khoản kế toán
 
Chương iii.trinh tu logic cua nckh
Chương iii.trinh tu logic cua nckhChương iii.trinh tu logic cua nckh
Chương iii.trinh tu logic cua nckh
 
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đĐề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
Đề tài: Phần mềm Quản Lý Siêu Thị Mini, HAY, 9đ
 
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
HỆ THỐNG THÔNG TIN KẾ TOÁN TẦM QUAN TRỌNG
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
 
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
Thương mại điện tử - Chương 4: Rủi ro và phòng tránh rủi ro trong thương mại ...
 
Bài giảng thẩm định dự án đầu tư
Bài giảng thẩm định dự án đầu tưBài giảng thẩm định dự án đầu tư
Bài giảng thẩm định dự án đầu tư
 
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)
Hướng dẫn thực hành kinh tế lượng ( phần mềm Eviews)
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tin
 
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viênĐề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
Đề tài: Giải pháp nâng cao hiệu quả sử dụng Internet của sinh viên
 
Báo cáo tốt nghiệp
Báo cáo tốt nghiệpBáo cáo tốt nghiệp
Báo cáo tốt nghiệp
 
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊChuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Chuong3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
 
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
Báo cáo đồ án tốt nghiệp "Ứng dụng trí tuệ nhân tạo nhận dạng chữ viết tay xâ...
 
Bài tập môn nguyên lý kế toán
Bài tập môn nguyên lý kế toánBài tập môn nguyên lý kế toán
Bài tập môn nguyên lý kế toán
 
Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
 Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th... Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
Các yếu tố ảnh hưởng đến ý định khởi nghiệp của sinh viên ngành Công nghệ th...
 

Similar to Game theory - Vuong Quan Hoang

ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdfĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
Man_Ebook
 
Dethidaihoc 0266
Dethidaihoc 0266Dethidaihoc 0266
Dethidaihoc 0266
Nguyen Thao Pham Nguyen
 
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012 Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012 Summer Song
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu dehannahisabellla
 
Tuyen tap de dh 2002 2012 theo chu de
Tuyen tap de dh  2002 2012 theo chu deTuyen tap de dh  2002 2012 theo chu de
Tuyen tap de dh 2002 2012 theo chu deĐăng Trọng
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu deMinh Thắng Trần
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
Tai Khonnan
 
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệpLuận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
Dịch vụ viết bài trọn gói ZALO: 0936 885 877
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
HanaTiti
 
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đLuận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đLuận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
huong dan_su_dung_maple
huong dan_su_dung_maplehuong dan_su_dung_maple
huong dan_su_dung_maple
Đặng Hồ Hà
 
Help maple 20000x
Help maple 20000xHelp maple 20000x
Help maple 20000x
Micheal Lim
 
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAYLuận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
Viết thuê trọn gói ZALO 0934573149
 
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đLuận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOTLuận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
Man_Ebook
 
TongHopLyThuyet.pdf
TongHopLyThuyet.pdfTongHopLyThuyet.pdf
TongHopLyThuyet.pdf
maytinh_5p
 

Similar to Game theory - Vuong Quan Hoang (20)

ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdfĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
ĐIỀU KHIỂN HỆ ĐA TÁC TỬ.pdf
 
Dethidaihoc 0266
Dethidaihoc 0266Dethidaihoc 0266
Dethidaihoc 0266
 
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012 Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012
Đề thi đại học môn Toán theo chủ đề từ 2002 đến 2012
 
Toan a2
Toan a2Toan a2
Toan a2
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
 
Tuyen tap de dh 2002 2012 theo chu de
Tuyen tap de dh  2002 2012 theo chu deTuyen tap de dh  2002 2012 theo chu de
Tuyen tap de dh 2002 2012 theo chu de
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
 
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de[Mathvn.com] tuyen tap de dh  2002-2012 theo chu de
[Mathvn.com] tuyen tap de dh 2002-2012 theo chu de
 
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệpLuận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
Luận văn: Sử dụng các công cụ của entropy để đánh giá phổ điểm tốt nghiệp
 
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
Luận văn: Sử dụng các công cụ của lý thuyết entropy thông tin để đánh giá phổ...
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
 
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đLuận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
 
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đLuận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
 
huong dan_su_dung_maple
huong dan_su_dung_maplehuong dan_su_dung_maple
huong dan_su_dung_maple
 
Help maple 20000x
Help maple 20000xHelp maple 20000x
Help maple 20000x
 
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAYLuận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
Luận văn: Lập trình ràng buộc với bài toán người chơi gôn, HAY
 
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đLuận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
Luận văn: Tính toán ngẫu nhiên trong tài chính, HAY, 9đ
 
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOTLuận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
Luận văn: Tính toán ngẫu nhiên trong lĩnh vực tài chính, HOT
 
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
Cải tiến giải thuật điều khiển robot tự hành thông minh tích hợp cảm biến đa ...
 
TongHopLyThuyet.pdf
TongHopLyThuyet.pdfTongHopLyThuyet.pdf
TongHopLyThuyet.pdf
 

Game theory - Vuong Quan Hoang

  • 1. LÝ THUYẾT TRÒ CHƠI TS.VƯƠNG QUÂN HOÀNG DHVP Research & ĐHTH Bruxelles E-mail: dhvp.economics@gmail.com Bản Thảo Tài Liệu Nghiên Cứu Hà Nội - Ngày 1 tháng 4 năm 2011
  • 2. LÝ THUYẾT TRÒ CHƠI Vương Quân Hoàng
  • 3. Mục lục Mục lục iii Danh mục hình vẽ v Danh mục bảng biểu vii Lời giới thiệu ix 1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1 1.1 Những nét cơ bản . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 . . . . . . 3 1.2.1 Giải các trò chơi 2 × n . . . . . . . . . . . . . . . . 3 1.2.2 Trò chơi m × 2 . . . . . . . . . . . . . . . . . . . . 5 1.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 7 1.3 Một số ví dụ và tính chất trò chơi ma trận . . . . . . . . . 9 2 Trò Chơi 2-Người Hữu Hạn 17 2.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Tìm điểm cân bằng Nash . . . . . . . . . . . . . . . . . . 19 2.2.1 Cân bằng Nash thuần . . . . . . . . . . . . . . . . 19 2.2.2 Trò chơi bimatrix 2 × 2 . . . . . . . . . . . . . . . 21 2.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 23 2.3 Một số ứng dụng và bài toán minh họa . . . . . . . . . . . 26 3 Dạng Mở Rộng Hữu Hạn 35 3.1 Bài toán dạng mở . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Dạng chiến lược . . . . . . . . . . . . . . . . . . . . . . . 36 3.3 Quy nạp lùi và hoàn chỉnh trò chơi con . . . . . . . . . . 39 i
  • 4. ii ⃝c 2011 - Vương Quân Hoàng 3.4 Cân bằng Bayes hoàn hảo . . . . . . . . . . . . . . . . . . 43 4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 53 4.1 Nhóm đặc trưng . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Trò chơi tĩnh, thông tin không đầy đủ . . . . . . . . . . . 54 4.3 Trò chơi tín hiệu . . . . . . . . . . . . . . . . . . . . . . . 59 5 Bất Hợp Tác 69 5.1 Khuôn khổ tổng quát: trò chơi chiến lược . . . . . . . . . 69 5.2 Cạnh tranh số lượng Cournot . . . . . . . . . . . . . . . . 70 5.2.1 Mô hình đơn giản, thông tin đầy đủ . . . . . . . . 71 5.2.2 Mô hình đơn giản, thông tin không đầy đủ . . . . 73 5.3 Cạnh tranh giá Bertrand . . . . . . . . . . . . . . . . . . . 75 5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 76 5.5 Chiến lược hỗn hợp và thông tin không đầy đủ . . . . . . 79 6 Trò Chơi Lặp Lại 87 6.1 Cân bằng hoàn hảo trò chơi con . . . . . . . . . . . . . . 87 6.1.1 Nghịch lý người tù . . . . . . . . . . . . . . . . . . 87 6.1.2 Quan sát tổng quát . . . . . . . . . . . . . . . . . 91 6.2 Cân bằng Nash . . . . . . . . . . . . . . . . . . . . . . . . 93 6.2.1 Ví dụ trò chơi bimatrix khác: . . . . . . . . . . . . 93 6.2.2 Một định lý dân gian cho cân bằng Nash . . . . . 95 7 Trò Chơi Tiến Hóa - 1 101 7.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa . . 102 7.2 Động học bộ sao chép và tính ổn định tiến hóa . . . . . . 105 7.3 Trò chơi bất đối xứng . . . . . . . . . . . . . . . . . . . . 107 8 Hợp Tác Chuyển Đổi Lợi Ích 115 8.1 Ví dụ và các ý niệm cơ bản . . . . . . . . . . . . . . . . . 115 8.1.1 Bài toán xuất phát . . . . . . . . . . . . . . . . . . 116 8.2 Tập lõi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.3 Giá trị Shapley . . . . . . . . . . . . . . . . . . . . . . . . 121 8.4 Hạch nhân - nucleolus . . . . . . . . . . . . . . . . . . . . 123
  • 5. Lý Thuyết Trò Chơi - DHVP Research iii 9 Mô Hình Hợp Tác 133 9.1 Các dạng bài toán mặc cả . . . . . . . . . . . . . . . . . . 133 9.1.1 Nghiệm Nash cho bài toán mặc cả . . . . . . . . . 133 9.2 Nền kinh tế trao đổi . . . . . . . . . . . . . . . . . . . . . 138 10 Trò Chơi Ma Trận 151 10.1 Định lý Minimax . . . . . . . . . . . . . . . . . . . . . . . 151 10.2 Phát biểu hệ thống về quy hoạch tuyến tính . . . . . . . . 152 11 Công Cụ Toán Học 157 11.1 Thuật ngữ và khái niệm thường sử dụng . . . . . . . . . . 157 11.2 Các bổ đề về lựa chọn thay thế . . . . . . . . . . . . . . . 158 11.3 Định lý đối ngẫu của quy hoạch tuyến tính . . . . . . . . 160 11.4 Một số định lý điểm bất động . . . . . . . . . . . . . . . . 160 11.5 Định lý Birkhoff–von Neumann . . . . . . . . . . . . . . 160 Phụ lục a Phụ lục tra cứu a
  • 7. Danh mục hình vẽ 2.1 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1 Sơ đồ trò chơi dạng mở . . . . . . . . . . . . . . . . . . . 36 3.2 Sơ đồ cây - thông tin hoàn hảo . . . . . . . . . . . . . . . 37 3.3 Sơ đồ cây rút gọn - thông tin hoàn hảo . . . . . . . . . . . 40 3.4 Sơ đồ cây 3-NC . . . . . . . . . . . . . . . . . . . . . . . . 42 3.5 Sơ đồ 3-NC cân bằng Bayes . . . . . . . . . . . . . . . . . 45 4.1 Xung đột sở thích giới tính, thông tin không đầy đủ . . . 56 4.2 Trò chơi tín hiệu 1 . . . . . . . . . . . . . . . . . . . . . . 60 5.1 Cournot 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.2 Hàm lợi ích của hãng i khi độc quyền Bertrand . . . . . . 78 5.3 Lược đồ dạng mở trò chơi Stackelberg . . . . . . . . . . . 78 5.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 78 6.1 δ và lợi ích giới hạn tại G∞ p (δ) . . . . . . . . . . . . . . . . 96 6.2 δ và lợi ích giới hạn tại G∞ p (δ) . . . . . . . . . . . . . . . . 96 7.1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng . . . . . . . 108 8.1 Sơ đồ hợp tác tải điện 3-TP . . . . . . . . . . . . . . . . . 116 8.2 Tập C trò chơi 3-TP . . . . . . . . . . . . . . . . . . . . . 120 9.1 Bài toán mặc cả: phân chia . . . . . . . . . . . . . . . . . 134 9.2 Bài toán mặc cả 2-NC . . . . . . . . . . . . . . . . . . . . 135 9.3 4 điều kiện Nash về nghiệm mặc cả . . . . . . . . . . . . 136 9.4 Tập lõi và cân bằng Walras . . . . . . . . . . . . . . . . . 144 v
  • 8. vi ⃝c 2011 - Vương Quân Hoàng 11.1 Giải thích hình học bổ đề Farkas . . . . . . . . . . . . . . 159
  • 9. Danh mục bảng biểu 4.1 PPXS theo đặc trưng của NC có 2 đặc trưng . . . . . . . . 58 8.1 Liên minh lưới điện 3-TP . . . . . . . . . . . . . . . . . . 116 8.2 Giá trị trò chơi găng tay . . . . . . . . . . . . . . . . . . . 118 8.3 Giá trị theo sở nguyện NC . . . . . . . . . . . . . . . . . . 119 8.4 Mô hình hoán vị lịch hẹn . . . . . . . . . . . . . . . . . . 120 8.5 Giá trị Shapley cho TU-game 3-TP . . . . . . . . . . . . . 122 8.6 Phép thử hạch nhân trò chơi 3-TP . . . . . . . . . . . . . 124 8.7 Phép thử hạch nhân trò chơi 3-TP (b) . . . . . . . . . . . 126 vii
  • 11. Lời giới thiệu Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộc cách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ, nhưng ít ồn ào. Nó đã bước qua ranh giới thuần túy dành cho các nhà toán học để trở thành lĩnh vực ứng dụng phân tích kinh tế, chính sách dồi dào tiềm năng. LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xã hội liên quan tới hành vi con người, và trở thành một công cụ không gì sánh nổi trong việc cung cấp logic và lập luận phân tích sâu. Có lẽ chỉ có nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độ ứng dụng rộng rãi. Tuy nhiên, trong các môi trường thống kê khó hoạt động do tình trạng “dữ liệu bẩn” hay quá rời rạc, khó thu thập, phương tiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý, có tính tiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết trò chơi. Đó là lý do mà tài liệu này ra đời, và tự đặt LTTC như một bộ phận không thể tách rời của các nguyên lý kinh tế toán. Lý thuyết trò chơi: nét đại lược Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hình toán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết định một cách khôn ngoan.” Còn nhớ ở Việt Nam năm 2009, khi mà người tiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mức giá tiền phải trả nhiều một cách không tương xứng, đã có vị quan chức gợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi. Khẩu khí này rất đượm hương vị LTTC! Gọi là lý thuyết, bởi vì lĩnh vực này cung cấp các kỹ thuật toán học để phân tích các tình huống trong đó hai cá nhân, hoặc đông hơn nữa, tiến hành ra các quyết định, mà các quyết định đó gây ra ảnh hưởng lên lợi ix
  • 12. x ⃝c 2011 - Vương Quân Hoàng ích của (những) người khác có mặt trong tình huống (trò chơi). Như vậy, LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả (xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cần để nhận biết các vấn đề hành vi con người. Các nhà kinh doanh, chính trị gia, chiến lược quân sự lại còn càng cần hơn, vì họ phải xử lý quan hệ đa chiều phức tạp giữa các đám đông thuộc cấp, xã hội, đối tác-đối tượng, v.v.. LTTC hiện diện từ rất lâu rồi, lẩn khuất trong các lĩnh vực xã hội, quân sự, cho dù không mang cái tên hiện đại như ngày hôm nay. Những nghiên cứu lớn đã xuất hiện từ thế kỷ XIX, cùng với sự phát triển của bộ môn xác suất, với cái tên như Bertrand. Tuy vậy, LTTC hiện đại – với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi như được đánh dấu từ thế kỷ XX, với những tác phẩm trứ danh của Zermelo (1913), Emile Borel (“La théorie du Jeu et les équations intégrales à noyau symétrique,” Comptes Rendus de l’Académie des Sciences, Vol. 173: 1304-1308, 1921), Von Neumann (1928), và cuốn sách rất ấn tượng của Von Neumann và Morgenstern (Theory of Games and Economic Behavior, 1944). Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của Prince-ton, và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gian Thế chiến Đệ Nhị. Nơi sinh ra những đóng góp lớn của lý thuyết trò chơi, cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đóng góp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại. Sự gần gũi về mặt không gian này, theo các nhà nghiên cứu về lịch sử phát triển
  • 13. Lý Thuyết Trò Chơi - DHVP Research xi tri thức nhân loại, xét ở góc nhìn rộng rãi, không hề tình cờ hay ngẫu nhiên. Và như vậy, nó là kết cục tất yếu. Phần lớn sự hấp dẫn, cuốn hút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kết quả của vị trí trung của lý thuyết trò chơi, với tư cách nền tảng toán học và logic cho tất cả các ngành khoa học xã hội. Trong thời kỳ đầu thế kỷ XX này, những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngành khoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũ khí hạt nhân, và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nền văn minh nhân loại. Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kế các hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ, nhưng lại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòa hành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêu diệt nhau. Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoa học xã hội cũng sẽ đạt được những bước tiến đủ lớn, có tính căn nguyên và đảm bảo học thuật, có khả năng cung cấp nhận thức sâu sắc tương xứng với những tiến bộ khoa học vật chất, đặc biệt là vật lý lý thuyết và ứng dụng. Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiều nhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyết trò chơi trong nửa còn lại của thế kỷ XX. Cuối cùng thì mong mỏi đó cũng được đền đáp. Bằng chứng rất thực về sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắn đẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinh tế toàn cầu. Về bản chất công việc, các nhà nghiên cứu LTTC thực ra bỏ công sức nhằm hiểu được bản chất của xung đột và hợp tác, thông qua việc tìm hiểu, xây dựng các mô hình định lượng, kèm theo đó là các ví dụ mang tính chất ước đoán về các tình huống, hành vi của cuộc sống. Các ví dụ thì như chúng ta vẫn thấy, thường phải được đơn giản hóa đi (một cách phi thực tế), nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đề rất căn bản của bản chất xung đột hay hợp tác. Tính đơn giản này giúp giải quyết vấn đề được thuận lợi hơn, trong khi vẫn có thể duy trì tính tổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực. Điều này cũng là chuyện thường thấy trong rất nhiều ngành khoa học khác nữa: Gạt bỏ các chi tiết dù là có thực, nhưng không quá quan trọng, để tập trung cho một số ít các câu hỏi lớn, không thể bỏ qua. Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ, nhằm
  • 14. xii ⃝c 2011 - Vương Quân Hoàng ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người. Do cách gọi, các cá nhân liên quan tới một trò chơi thì đều được gọi là “người chơi.” Nói chính xác là họ ra các quyết định, thậm chí rất nghiêm túc và bằng trí khôn chuẩn mực, chứ không có chơi bời gì hết.) Điều kiện để nghiên cứu là hai giả thiết: Thứ nhất, người chơi có tính hợp lý. Thứ hai, người chơi sử dụng trí khôn để ra quyết định. Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từ các mô hình chọn lọc tiến hóa. Trong một vũ trụ mà sự hỗn loạn tăng lên là một quy luật vật lý, các cơ quan phức tạp (như cơ thể con người, hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi, theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo các thế hệ). Như thế, theo cách nhìn của chọn lọc tiến hóa, các cá nhân có xu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thích nghi sinh sản.” Có lẽ, chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâu của các chương tiếp theo sau đây. Biên soạn Tài liệu này được biên soạn với mục đích trước tiên làm tài liệu nghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w: www.vietnamica.net), phục vụ các nghiên cứu ứng dụng về chính sách kinh tế trong giai đoạn 2011-2015. Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần Trí Dũng và Nguyễn Xuân Dũng. Ngoài ra, Nguyễn Thu Hoài tham gia trợ giúp một số công việc liên quan. Để trở thành một tài liệu hoàn chỉnh, có thể sử dụng cho giảng dạy và in ấn rộng rãi, sẽ còn phải gia công rất nhiều, đặc biệt là đưa vào các nghiên cứu ứng dụng kinh tế - xã hội mà LTTC đã và đang giải quyết rất hiệu quả, đưa ra nhiều ngụ ý chính sách tốt. Hà Nội - Tháng 6-2011 TS. Vương Quân Hoàng e: vuong@vietnamica.net
  • 15. Chương 1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1.1 Những nét cơ bản Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vào một ma trận, do đó loại trò chơi này còn được gọi là trò chơi ma trận. Trò chơi ma trận là một ma trậnA kích thướcm×n chứa các số thực, với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1) là một phân phối xác suất p tương ứng với các dòng của ma trậnA. Điều đó có nghĩa là, chiến lược của NC1 là một phần tử của tập Δm := {p = (p1, . . . , pm) ∈ Rm| Σm pi = 1, pi ≥ 0, ∀i = 1, . . . ,m}. Tương tự, chiến lược của người chơi 2 (NC2) là một PPXS q trên các cột của A; tức là một phần tử của tập Δn := {q = (q1, . . . , qn) ∈ Rn| Σm qj = 1, qj ≥ 0, ∀j = 1, . . . , n}. Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọn dòng thứ i một cách chắc chắn, tức là pi = 1. Chiến lược thuần này có thể ký hiệu là ei. 1Như vậy m; n là các số nguyên dương, bé nhất là bằng 1. 1
  • 16. 2 ⃝c 2011 - Vương Quân Hoàng Tương tự vậy, chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cột thứ j một cách chắc chắn, tức là qj = 1; ký hiệu là ej . Ý nghĩa của ma trận A như sau. Nếu NC1 chơi hàng i, tức là lựa chọn chiến lược thuần ei, thì NC1 nhận được lợi ích tài chính aij , trong khi NC2 nhận được −aij (nghĩa là trả), tương ứng vị trí dòng i và cột j trong A. Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q, thì lợi ích của NC1 thu về tương ứng với một dãy PPXS (chính là ý nghĩa của chiến lược hỗn hợp) là: pAq = ΣmΣn piqjaij . Khi này NC2 nhận được −pAq (tức là trả). Để giải bài toán trò chơi dạng ma trận như trên, ta cần thêm khái niệm chiến lược maximin và minimax sau đây. Chiến lược maximin và minimax. Chiến lược p được gọi là max-imin cho NC1 trong trò chơi ma trận A nếu như min{pAq} ≥ min{p′ Aq} ∀p′ ∈ Δm, q ∈ Δn. (1.1) Theo cách tương tự, chiến lược minimax q của NC2 nếu như: min{pAq} ≤ min{pAq′} ∀q′ ∈ Δn. (1.2) Một cách dễ hình dung, đối với NC1 chiến lược maximin là lựa chọn PPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất, tương ứng với lựa chọn của NC2. Còn minimax là lựa chọn PPXS sao cho NC2 tối thiểu hóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1. Như vậy, để biết được lựa chọn p có phải chiến lược maximin hay không, chỉ cần kiểm tra sự thỏa mãn dấu ≥ của bất đẳng thức (1.1) với các chiến lược thuần ej , với từng giá trị j = 1, 2, . . . , n.2 Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi ma trận A, sẽ tồn tại một trị số v = v(A) có tính chất như sau: 1. Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1, nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p là chiến lược maximin. 2. Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2 phải trả NC1, nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào, nếu và chỉ nếu q là chiến lược minimax. 2Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau.
  • 17. Lý Thuyết Trò Chơi - DHVP Research 3 Trong thuật ngữ của chúng ta, v = v(A) được gọi là giá trị của trò chơi A. Các chiến lược maximin và minimax như vừa nói được gọi là các chiến lược tối ưu tương ứng với NC1 và NC2. Khi nói rằng ‘giải bài toán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu, đồng thời cả giá trị của trò chơi. Điểm yên ngựa. Một vị trí xác định bởi cặp (i, j) trong ma trận A được gọi là điểm yên ngựa - saddlepoint - nếu như aij ≥ akj với mọi giá trị k = 1, . . . ,m, và aij ≤ aik với mọi k = 1, . . . , n. Giá trị tại điểm yên ngựa aij có ý nghĩa là điểm có giá trị lớn nhất trong cột j và nhỏ nhất trong hàng i. Từ đó ta thấy rằng, nếu (i, j) là điểm yên ngựa, thì NC1 có thể đảm bảo nhận được giá trị lợi ích tối thiểu aij bằng cách chơi chiến lược thuần theo dòng i, tức là ei. Tương tự, NC2 đảm bảo chỉ phải trả tối đa −aij bằng cách lựa chọn chiến lược thuần cột ej . Theo suy luận này, aij chắc chắn phải là giá trị của trò chơi A, v(A) = aij , đồng thời ej là chiến lược minimax tối ưu của NC2, ei mà maximin tối ưu của NC1. 1.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 Tiếp theo, ta xét cách tìm nghiệm trò chơi ma trận và khái niệm nghiệm trội có liên quan tới kỹ thuật xử lý bài toán ma trận. 1.2.1 Giải các trò chơi 2 × n Xét trò chơi 2-dòng và n-cột, với một ma trận A bằng số cụ thể có kích thước 2 × 4. A = ( 10 2 4 1 2 10 8 12 ) Ta đặt các chiến lược thuần theo cột lần lượt là e1 = ( 10 2 ) , e2 = ( 2 10 ) , e3 = ( 4 8 ) , và e4 = ( 1 12 ) .
  • 18. 4 ⃝c 2011 - Vương Quân Hoàng Các chiến lược thuần trên là của NC2 (do lấy theo cột). Bây giờ, ta xét chiến lược chơi hỗn hợp p = (p, 1 − p) bất kỳ của NC1. Thiết lập các mức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuần ở trên của NC2, ta sẽ có một hệ thống như sau: pAe1 = 10p + 2(1 − p) pAe2 = 2p + 10(1 − p) pAe3 = 4p + 8(1 − p) pAe4 = p + 12(1 − p) Sử dụng Mathematica vẽ đồ thị hệ các phương trình tuyến tính ở trên ta có: In[1]:= e1[p_] := 8 p + 2; e2[p_] := 10 - 8 p; e3[p_] := 8 - 4 p; e4[p_] := 12 - 11 p; In[3]:= Plot[{e1[p], e2[p], e3[p], e4[p]}, {p,0,1}]; Có 4 điểm đáng chú ý của đồ thị này là (0, 2), ( 1 2 , 6), ( 20 21 , 32 21 ), (1, 1). Đây là các điểm mà khi nối lại, ta thu được đường bao đáy của miền tạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0, 1] như đã nói. Khi p = 1/2 cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6, và đây cũng là giá trị của trò chơi v(A) = 6.3 3Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệ phương trình, cũng như quan sát qua đồ thị.
  • 19. Lý Thuyết Trò Chơi - DHVP Research 5 Đó là với NC1, còn các chiến lược tối ưu minimax của NC2 sẽ có hình dạng ra sao? Trước tiên, dạng tổng quát của chiến lược minimax cho NC2 là q = (q1, q2, q3, q4). Lợi dụng việc xác định được v(A) = 6, ta sẽ loại được q4 do q4 = 0, vì nếu như q4 > 0 thì chi phí của việc chơi chiến lược thuần e4 là 1 2 · 1+ 1 2 · 12 > 6, điều này mâu thuẫn với nhận thức lúc trước rằng NC2 chỉ trả nhiều nhất là bằng v(A). Tiếp tục lợi dụng v(A) = 6 và p∗ = 1/2 đã biết, sau khi biết q4 = 0, ta lại thu được một hệ: 6 = 10q1 + 2q2 + 4q3 6 = 2q1 + 10q2 + 8q3 1 = q1 + q2 + q3 Hệ này rút gọn xuống thành: 1 = 3q1 − q2 1 = q1 + q2 + q3 Từ đây có thể thấy rằng, khi q1 = 1/3 → q2 = 0, và q1 = 1/2 → q2 = 1/2. Cả q1, q2 đều không thể lớn hơn 1/2. Ràng buộc với q3 không xác định. Tập hợp các chiến lược tối ưu cho NC2 có dạng: {q = (q1, q2, q3, q4)|1 3 ≤ q1 ≤ 1 2, q2 = 3q1 − 1, q4 = 0}. 1.2.2 Trò chơi m × 2 Giả sử ta chuyển vị ma trận 2 × 4 vừa rồi thành trò chơi 4 × 2 có dạng: A =   10 2 2 10 4 8 1 12   Bây giờ ta viết lại dạng các chiến lược thuần ei, i = 1, . . . , 4: e1 = (10, 2), e2 = (2, 10), e3 = (4, 8), e4 = (1, 12). Thực ra, đây là cách xử lý để đưa đầu bài về dạng dễ giải quyết hơn, do với số cột n = 2, ta lại có tình
  • 20. 6 ⃝c 2011 - Vương Quân Hoàng huống NC2 có chiến lược với PPXS đơn giản, dạng tương tự khi trước q = (q, 1 − q).4 Tiếp theo, ta thiết lập hệ các lợi ích cho NC1, tương ứng với chiến lược q của NC2, nếu NC1 chơi chiến lược thuần ei, i = 1, . . . , 4.5 e1Aq = 10q + 2(1 − q) = 8q + 2 e2Aq = 2q + 10(1 − q) = 10 − 8q e3Aq = 4q + 8(1 − q) = 8 − 4q e4Aq = q + 12(1 − q) = 12 − 11q Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau: In[1]:= e1[q_]:=8*q+2; e2[q_]:=10-8*q; In[2]:= e3[q_]:=8-4*q; e4[q_]:=12-11*q; In[4]:= Plot[{e1[q], e2[q],e3[q],e4[q]},{q,0,1}, AxesLabel -> {"q","Player 1 Payoff"}, GridLines -> Automatic] Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phía trên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên (0, 12), ( 10 19 , 118 19 ), (1, 10). Trong các điểm có giá trị lớn nhất nằm trên đường bao đi qua 3 điểm này, điểm có trị số nhỏ nhất là ( 10 19 , 118 19 ), điểm giao nhau giữa đường 12 − 11q và 8q + 2. Đây cũng là điểm cho biết chiến lược giá trị phải trả minimax tối ưu cho NC2. 4Lưu ý: Trong bài toán A2n thì PPXS của chiến lược ký hiệu là p. 5NC1 nhận giá trị theo dòng của ma trận A.
  • 21. Lý Thuyết Trò Chơi - DHVP Research 7 Giá trị của trò chơi là 118 19 , và tương ứng với nó là chiến lược minimax tối ưu với NC2 là q∗ = ( 10 19 , 9 19 ). Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p = (p1, p2, p3, p4), tận dụng kết quả đã biết của q∗ và v(A) = 118 19 . Dựa trên đồ thị ở trên, p2 = p3 = 0, do hai đường này nằm dưới đường bao phía trên tạo bởi e1Aq và e4Aq.6 Như vậy, cần tìm một phép kết hợp giữa e1 và e4 sao cho chiến lược này tạo ra lợi ích không nhỏ hơn 118 19 với mọi giá trị q. Điều kiện này dẫn tới việc khai triển p theo hai cột của A như sau: 10p1 + 2 · 0 + 4 · 0 + p2 = 118 19 2p1 + 10 · 0 + 8 · 0 + 12p2 = 118 19 p1 + 0 + 0 + p4 = 1 Ta tìm được cặp nghiệm duy nhất, và là chiến lược maximin cho NC1 dưới đây7 In[17]:= Solve[{10 p1 + p4 == 118/19, 2*p1 + 12*p4 == 118/19}, {p1, p4}] Out[17]={{p1 - 11/19, p4 - 8/19}} Rõ ràng p1 + p4 = 1 cũng thỏa mãn nốt điều kiện thứ 3. Cuối cùng, ta kết luận chiến lược tối ưu maximin - và cũng là duy nhất - cho NC1 có dạng ( 11 19 , 0, 0, 8 19 ). 1.2.3 Tính trội tuyệt đối Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việc phân tích nghiệm của một TC được thuận lợi hơn, thông qua việc loại bỏ bớt các chiến lược thuần không thích hợp. Trước hết, ta xét khái niệm. 6Khi thay giá trị q = 10 19 vào hai phương trình 2 và 3, ta thu được các giá trị lợi ích 19 , 112 19 . Cả hai giá trị này đều nhỏ hơn v(A), do đó nếu p2; p3̸= 0 cho NC1 lần lượt là 110 thì chiến lược p không thỏa mãn tính chất maximin. 7Trong tài liệu này, chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm thời gian.
  • 22. 8 ⃝c 2011 - Vương Quân Hoàng Tính trội tuyệt đối. GọiAlà một trò chơi ma trận kích thướcm×n và i là một dòng (hàng) củaA. Một chiến lược thuần ei gọi là lép vế (strictly dominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1, . . . , pm) ∈ Δm với pi = 0 sao cho pAej eiAej , với mọi j = 1, . . . , n. Tương tự như vậy, gọi j là một cột củaA. Chiến lược thuần ej gọi là lép vế nếu tồn tại q = (q1, . . . , qn) ∈ Δn với qj = 0 sao cho: eiAq eiAej , với mọi i = 1, . . . ,m. Để làm rõ khái niệm này, chúng ta xét minh họa bằng ví dụ số như sau. Cho ma trận A3×3: A =   6 0 2 0 5 4 3 2 1  . Theo quy ước, NC1 chơi theo hàng. Giả sử PPXS tạo thành chiến lược hỗn hợp của NC1 là p = ( 7 12 , 5 12 , 0). Theo định nghĩa, ta thực hiện phép tính: p · A = ( 7 12 5 12 0 )   6 0 2 0 5 4 3 2 1  . Thực hiện phép nhân này trong môi trường Mathematica In[2]:= {{7/12, 5/12, 0}} . {{6, 0, 2}, {0, 5, 4}, {3, 2, 1}} Out[2]= {{7/2, 25/12, 17/6}} ta thu được kết quả p · A = (31 2 , 2 1 12 , 25 6 ). Rõ ràng, pA e3A bất kể PPXS q ra sao. e3 lép vế, và dòng 3 có thể loại khỏi trò chơi, ta thu được: B = ( 6 0 2 0 5 4 ) . 4 , 3 4 , 0). Tính B · q qua Mathematica, Bây giờ ta xét tiếp chiến lược q = ( 1 ta thu được: In[5]:= B={{6,0,2},{0,5,4}}; In[6]:= q={{1/4,3/4,0}}; In[7]:= B.Transpose[q] Out[7]= {{3/2},{15/4}}
  • 23. Lý Thuyết Trò Chơi - DHVP Research 9 So sánh ta thấy ngay rằng B · q = ( 3 2 31 2 ) ( 2 4 ) = B · e3 Từ đây suy ra, NC2 sẽ không sử dụng phương án chơi cột 3, và ma trận tiếp tục được rút gọn còn: C = ( 6 0 0 5 ) . Ở dạng ma trận rút gọn đơn giản này, việc giải bài toán trở nên thuận lợi và nhanh chóng. Bản thân trò chơi C không có điểm yên ngựa, do đó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin. Xét PPXS p = (p, 1 − q) với từng chiến lược thuần của NC2, ta dễ dàng thu được pAe1 = 6p và pAe2 = 5 − 5p, và giải ra được: In[24]:= Solve[6*p==5-5*p,p] Out[24]= {{p [Rule] 5/11}} Như vậy p = ( 5 11 , 6 11 ), tương ứng v(A) = 30 11 . Tương tự vậy, ta xét tiếp chiến lược cho NC2, thông qua xét q = (q, 1 − q), và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chất đối xứng qua trục chuyển vị: q = ( 5 11 , 6 11 ). Hiển nhiên giá trị trò chơi vẫn là v(A) = 30 11 . 1.3 Một số ví dụ và tính chất trò chơi ma trận Ví dụ 4. Cho trò chơi ma trận (3 × 4) như sau: A =   2 −1 0 2 2 0 0 3 0 0 −1 2  , Giải bài toán trò chơi ma trận A. Theo định nghĩa của điểm yên ngựa, ma trận A tồn tại hai điểm yên ngựa là a22, a23. Giá trị trò chơi v(A) = a22 = a23 = 0. Xét một cách đơn giản, do chắc chắn NC1 sẽ chơi hàng 2 - vì cả hai điểm yên ngựa đều nằm trên hàng thứ 2, do đó, PPXS thể hiện chiến lược maximin của
  • 24. 10 ⃝c 2011 - Vương Quân Hoàng NC1 là chiến lược thuần, và có dạng p = (0, 1, 0). Hiển nhiên, p có tính duy nhất. Còn xét NC2, ta có thể giả sử chiến lược minimax qua PPXS dạng q = (0, q, 1−q, 0). Triển khai ta có được so sánh 3 giá trị 1, 0, 1 và giá trị minimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1 lựa chọn phương án maximin. Như vậy q = (0, q, 1 − q, 0) là nghiệm cuối cùng, với mọi giá trị 0 ≤ q ≤ 1. Ví dụ 5. Giải ma trận A =   1 3 1 2 2 0 0 3 2  . Ví dụ 6. Giải ma trận A =   16 12 2 2 6 16 8 8 6 0 7 8   . Ví dụ 7. Giải ma trận A = ( 3 1 4 0 1 2 0 5 ) . Ví dụ 8. Giải ma trận A =   1 0 2 4 1 1 3 1 3  . Tính chất 9. Cho A là một trò chơi ma trận m × n. Hãy chỉ ra rằng bất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị, nghĩa là nếu (i, j) và (k, l) là hai điểm yên ngựa, thì aij = akl. Tính chất 10. Nếu A(4×4) là trò chơi trong đó (1, 1) và (4, 4) là các điểm yên ngựa. Chứng minh rằng, A có ít nhất 2 điểm yên ngựa khác nữa.
  • 25. Lý Thuyết Trò Chơi - DHVP Research 11 Ví dụ 11. Hãy tìm một ví dụ trò chơi ma trận kích thước (4 × 4) có chính xác 3 điểm yên ngựa.
  • 26. 12 ⃝c 2011 - Vương Quân Hoàng
  • 27. Lý Thuyết Trò Chơi - DHVP Research 13 VQG ghi chú:
  • 28. 14 ⃝c 2011 - Vương Quân Hoàng
  • 29. Lý Thuyết Trò Chơi - DHVP Research 15 VQG ghi chú:
  • 31. Chương 2 Trò Chơi 2-Người Hữu Hạn Chương thứ hai này đề cập tới trò chơi 2-người, trong đó mỗi NC lựa chọn phương án từ nhiều chiến lược thuần hoặc là “ngẫu nhiên hóa”1 các chiến lược này. Bài toán ta sẽ xét ở đây không yêu cầu trò chơi phải có tổng bằng 0. Do nới lỏng yêu cầu này, ta có thể xem xét một lớp nhiều trò chơi hơn, có tính chất sát thực hơn với các ứng dụng kinh tế xã hội. Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tên với giới nghiên cứu: “Nghịch lý người tù,” và “Xung đột giới.”2 Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫn dắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuần của các bài toán. Tính trội tuyệt đối đã giới thiệu khi trước cũng được đưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash. Hỗ trợ cho chương này là Chương 12, bổ sung thêm các ý tưởng được gọt giũa sắc bén và gia tăng thêm công cụ. 2.1 Cơ sở lý thuyết Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạn được trình bày qua 2 ma trận, thường được ghép vào làm một - ta sẽ gọi là ma trận cặp (bimatrix). 1Từ khái niệm randomize mà chúng ta sẽ làm rõ nội dung sau. 2Tương ứng với những thuật ngữ ngày nay không xa lạ với các giáo trình là “Prisoners’ dilemma” và “Battle of sexes.” 17
  • 32. 18 ⃝c 2011 - Vương Quân Hoàng Định nghĩa. Một trò chơi ma trận cặp (bimatrix) là một cặp ma trận có kích thước m × n ký hiệu (A,B). Cách hiểu trò chơi (A,B) như sau. Nếu như NC1 (theo quy ước là chơi theo hàng, hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j, thì NC1 nhận lợi ích aij , và NC2 nhận bij , là các phần tử tương ứng của A và B. Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp, tập hợp chiến lược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước. Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợp tác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply). Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau. Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi ích kỳ vọng của mình, thông qua hiểu biết hay phỏng đoán cá nhân về các chiến lược mà đối thủ có thể lựa chọn. Khái niệm phản ứng tối ưu. Chiến lược p của NC1 gọi là phản ứng tối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thước m × n - ký hiệu là (A,B) nếu pAq ≥ p′Aq với mọi p ∈ Δm. Tương tự như trên, q được gọi là phản ứng tối ưu với chiến lược p của NC1 nếu như pBq ≥ pBq′ với mọi q ∈ Δn. Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash, chiến lược của mỗi NC chính là phản hối tối ưu với người kia. Bây giờ chúng ta xét tới định nghĩa của cân bằng Nash. Cân bằng Nash. Một cặp chiến lược, ký hiệu p∗, q∗, được gọi là cân bằng Nash nếu như p∗ là phản hồi tối ưu của NC1 khi NC2 chơi chiến lược q∗, và q∗ là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiến lược p∗. Nếu p∗ và q∗ là các chiến lược thuần, thì cân bằng Nash cũng được gọi là cân bằng Nash thuần. Cân bằng Nash chúng ta vừa nêu là cho trò chơi đang xét: 2-người, hữu hạn dòng, cột. Về sau này, cân bằng Nash sẽ còn được mở rộng cho nhiều loại trò chơi khác nữa, nhiều người chơi, nhiều tập chiến lược và nhiều loại hàm lợi ích tương ứng. Giáo sư John Nash chứng minh rằng, với trò chơi đang xét của chúng ta, luôn tồn tại một cân bằng Nash. Nói rộng ra, bản thân ý niệm cân bằng Nash được phát triển không phải để tìm một điểm cân bằng Nash, mà ngược lại là vì có nhiều điểm cân bằng Nash, và cần giải thích ý nghĩa của chúng trong trò chơi. Bản
  • 33. Lý Thuyết Trò Chơi - DHVP Research 19 thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nash của một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logic của người giải trò chơi. Một lưu ý bên lề nữa là, bản thân định nghĩa về cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu người chơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không. Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trả lời. Đó là, ý nghĩa của một chiến lược hỗn hợp là gì. Liệu chiến lược hỗn hợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không? Ở đây, một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợp của một NC - chẳng hạn NC1 - biểu thị niềm tin, hoặc sự phỏng đoán, của NC kia - tức là NC2 - về cách mà NC1 sẽ chơi. Như vậy, chiến lược hỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trong một trò chơi. Đây là khái niệm do von Neumann và Morgenstern đưa ra. Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở các phần sau. 2.2 Tìm điểm cân bằng Nash Trước tiên, ta cần biết rằng, việc tìm tất cả các điểm cân bằng Nash của một trò chơi bimatrix bất kỳ là việc rất khó. Ở đây, trước mắt ta tạm thời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nash thuần của trò chơi bimatrix. Tiếp theo, chúng ta xem xét việc tìm cân bằng Nash cho các bimatrix kích thước 2 × 2, 2 × 3, 3 × 2 bằng cách sử dụng đồ thị. Với các ma trận kích thước lớn hơn nữa, việc giải bằng đồ thị rất khó khăn và hầu như không thể. 2.2.1 Cân bằng Nash thuần Để tìm cân bằng Nash trong trò chơi bimatrix, trước hết ta có thể xác định các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần của NC1. Rồi tiếp theo, xác định các phản hồi tối ưu của NC1 với từng chiến lược thuần của NC2. Các cặp chiến lược đồng thời là phản hối tối ưu của cả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi. Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu.
  • 34. 20 ⃝c 2011 - Vương Quân Hoàng   W X Y Z T 2, 2 4, 0 1, 1 3, 2 M 0, 3 1, 5 4, 4 3, 4 B 2, 0 2, 1 5, 1 1, 0   Trước tiên, ta xác định phản hồi tối ưu của NC2.   W X Y Z T 2, 2∗ 4, 0 1, 1 3, 2∗ M 0, 3 1, 5∗ 4, 4 3, 4 B 2, 0 2, 1∗ 5, 1∗ 1, 0   Tiếp theo, ta xác định phản hồi tối ưu của NC1.   W X Y Z T 2∗, 2∗ 4∗, 0 1, 1 3∗, 2∗ M 0, 3 1, 5∗ 4, 4 3∗, 4 B 2∗, 0 2, 1∗ 5∗, 1∗ 1, 0   3 điểm cân bằng Nash ta tìm được từ các chiến lược thuần là (T,W), (T,Z) và (B, Y ).3 Xét một cách chặt chẽ, ta cũng phải xét đến các phản ứng tối ưu có tính hỗn hợp đối với một chiến lược thuần của đối thủ để kết luận xem liệu chiến lược thuần này có khả năng xảy ra ở điểm cân bằng Nash hay không. Tuy vậy, có thể nhận thấy bất kỳ một phản ứng tối ưu hỗn hợp nào cũng là một tổ hợp các phản ứng tối ưu thuần, do đó không thể tạo ra lợi ích lớn hơn. Giả sử trong bài toán trên, NC2 lựa chọn chiến lược hỗn hợp (q, 0, 0, 1−q) để đáp ứng chiến lược thuần T của NC1. Lựa chọn này dẫn tới lợi ích của NC2 trong trường hợp này có giá trị 2q+0+0+2(1−q) = 2. Tuy vậy, chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơn trường hợp chiến lược thuần (1, 0, 0, 0 hay (0, 0, 0, 1). Bên cạnh đó, chúng ta cũng có thể chỉ ra rằng, tất cả các cặp chiến lược có dạng (T, (q, 0, 0, 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằng Nash của trò chơi bimatrix này. 3Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểm cân bằng Nash của trò chơi đang xét. Theo cách viết cặp chiến lược thuần: e1; e1, e1; e4, e3; e3. Theo cách viết dạng mở rộng ((1; 0; 0); (1; 0; 0; 0)), ((1; 0; 0); (0; 0; 1; 0)), ((0; 0; 1); (0; 0; 1; 0)).
  • 35. Lý Thuyết Trò Chơi - DHVP Research 21 Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giá trị lợi ích tối ưu Pareto. Ta biết rằng, một cặp lợi ích được gọi là tối ưu Pareto nếu như không còn cặp giá trị nào khác lớn hơn, hoặc ít nhất có một trong hai giá trị hơn, trong khi giá trị còn lại tối thiểu bằng. Cụ thể, bằng chứng dễ thấy là cặp 4, 4 có giá trị lớn hơn hẳn các cặp cân bằng Nash 2, 2, 3, 2. 2.2.2 Trò chơi bimatrix 2 × 2 Phần tiếp theo này đề cập cách sử dụng đồ thị để tìm nghiệm của trò chơi ma trận cặp (bimatrix) kích thước 2 × 2, với trò chơi cho dưới đây. (A,B) = ( L R T 2, 2 0, 1 B 1, 1 3, 3 ) Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi (A,B) này là 2, 2 và 3, 3. Để tìm tất cả cân bằng Nash cho trò chơi này, ta đi tìm các phản ứng tối ưu của cả hai NC. Xét tổng quát chiến lược hỗn hợp q, 1−q của NC2. Khi nào phản ứng tối ưu của NC1 là 1, 0 (tức là T)? Rõ ràng là chỉ khi lợi ích kỳ vọng thu được từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợp nào giữa T và B qua PPXS p, 1 − p. Như vậy, NC1 chọn T khi: 2q + 0(1 − q) q + 3(1 − q) Như vậy, chọn T khi q 3 4 . Tương tự, khi q 3 4 , thì B là phản ứng tối ưu.4 Còn trường hợp khi lợi ích chơi T và B bằng nhau: 2q + 0(1 − q) = q + 3(1 − q), chỉ xảy ra khi q = 3 4 . Trong trường hợp q = 3 4 , thì mọi chiến lược hỗn hợp dạng p = (p, 1−p) của NC1 đều là phản ứng tối ưu. Bây giờ, ta tóm tắt lại lô-gic vừa trình bày của các phản ứng tối ưu, của NC1 và NC2. Giả sử, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS (q, 1 − q) của NC2 là β1(q, 1 − q), thì 4Tức là đổi chiều dấu: 2q + 0(1 − q) q + 3(1 − q).
  • 36. 22 ⃝c 2011 - Vương Quân Hoàng β1(q, 1 − q) =   {(1, 0)} nếu 3 4 q ≤ 1 {(p, 1 − p)|0 p ≤ 1} nếu q = 3 4 {(0, 1)} nếu 0 q 3 4 (2.1) Theo cùng lô-gic, lại gọi tập các phản ứng tối ưu của NC2 đối với (p, 1 − p) là β2(p, 1 − p), thì ta cũng có: β2(p, 1 − p) =   {(1, 0)} nếu 2 3 p ≤ 1 {(q, 1 − q)|0 q ≤ 1} nếu p = 2 3 {(0, 1)} nếu 0 q 2 3 (2.2) Theo cách hiểu của trò chơi, các điểm cân bằng Nash là sự kết hợp chiến lược p∗, q∗ sao cho p∗ ∈ β1(q∗), và q∗ ∈ β2(p∗). Như vậy, các cân bằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm (2.1) và (2.2) - được biểu thị qua đồ thị (2.1). Hình 2.1: Sơ đồ β2 Nash-E Nash-E 1 Nash-E 0 2/3 q p 2/3 1 3 điểm cân bằng Nash của trò chơi (qua 3 chấm tròn là nơi giao cắt các đường β1, β2 ở hình trên) là: ((1, 0), (1, 0)), ((0, 1), (0, 1)) và (( 2 3 , 1 3 ), ( 3 4 , 1 4 )).
  • 37. Lý Thuyết Trò Chơi - DHVP Research 23 2.2.3 Tính trội tuyệt đối Về cơ bản, để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọn kích thước của trò chơi, thông qua loại bỏ các chiến lược lép vế. Khi loại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột, thì kích thước ma trận sẽ giảm dần, cho tới khi không còn tồn tại chiến lược thuần lép vế nào nữa. Lý thuyết đã chứng minh rõ rằng, khi làm theo cách loại trừ để giảm kích thước ma trận như vừa nêu, không có điểm cân bằng Nash nào vô tình bị loại bỏ, và cũng không có cân bằng Nash nào nảy sinh ra do giảm kích thước. Hơn nữa, thứ tự của việc loại bỏ các chiến lược lép vế cũng không quan trọng, cái nào trước, cái nào sau không ảnh hưởng tới kết quả cuối cùng. Về tính trội tuyệt đối, với trò chơi (A,B)m×n một chiến lược thuần ei tương ứng với hàng i gọi là lép vế, nếu như tồn tại một chiến lược hỗn hợp p = (p1, . . . , pi = 0, . . . , pm) sao cho: pAej eiAej với từng giá trị j = 1, . . . , n. Tương tự, chiến lược thuần ej theo cột j là lép vế nếu tồn tại một PPXS q = (q1, . . . , qi = 0, . . . , qn), sao cho eiBq eiBej với từng giá trị i = 1, . . . ,m. Tiếp theo, chúng ta cùng xem xét một ví dụ ứng dụng để minh họa. Rút gọn kính thước ma trận trò chơi bimatrix: Cho trò chơi ma trận bimatrix sau:   W X Y Z T 2, 2 2, 1 2, 2 0, 0 M 1, 0 4, 1 2, 4 1, 5 B 0, 4 3, 1 3, 0 3, 3   (2.3) Đầu tiên, ta nhận thấy nếu xét các chiến lược thuần theo dòng (NC1), hay theo cột (NC2), thì không có chiến lược thuần nào bị lép vế hoàn toàn so với một chiến lược thuần khác đang có. Bây giờ ra ‘dò thử’ chiến lược thuần X; điều này như ta đã biết nghĩa là q2 = 1. Hãy xem thử tồn tại một PPXS q nào đó có tính trội tuyệt đối so với X hay không. Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trận bimatrix (A,B) với bài toán (2.3). Như vậy, khi so với chiến lược X, trong PPXS q nào đó thích hợp thì rõ ràng q2 = 0. Lại giả sử tiếp trường hợp q4 = 0, khi này ta xét thử PPXS (q, 0, 1 − q, 0). Ta sẽ phải thiết lập các biểu thức eiBq rồi đặt bất đẳng thức với dấu lớn hơn khi so với từng phần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B.
  • 38. 24 ⃝c 2011 - Vương Quân Hoàng 2q + 1 · 0 + 2(1 − q) + 0 · 0 1 0q + 1 · 0 + 4(1 − q) + 5 · 0 1 4q + 1 · 0 + 0(1 − q) + 3 · 0 1 Rút gọn lại ta có được 2 1 3 4q 4q 1 Bất đẳng thức đầu tiên đương nhiên đúng. Điều kiện để 2 bất đẳng thức còn lại được thỏa mãn dễ thấy là 1 4 q 3 4 . Như vậy, X lép vế khi q trong khoảng giá trị vừa tính ra, và X có thể được loại khỏi trò chơi. Ta sẽ rút gọn trò chơi thành (2.4):   W Y Z T 2, 2 2, 2 0, 0 M 1, 0 2, 4 1, 5 B 0, 4 3, 0 3, 3   (2.4) Bây giờ, khi đã quan sát trò chơi rút gọn (2.4), ta thử tìm kiếm khả năng chiến lược thuần M (dòng 2) lép vế - nghĩa là p2 = 0 - trước một chiến lược hỗn hợp p = (p, 0, 1 − p) trong điều kiện p hợp lý nào đó.5 Bây giờ, ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiết lập các bất đẳng thức cho điều kiện của p phù hợp. Nếu tồn tại p như vậy, ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định. Do NC1 (tương ứng (A)) chơi theo hàng, nên cần so sánh với e2Aej với j lần lượt nhận các giá trị 1, 2, 3 chính là (1, 2, 1); đây chính là dòng M của (A). Sau đó, ta tính pAej và so sánh từng hàng lần lượt với các phần tử củaM nói trên, để thu được hệ bất đẳng thức:6 5DoM lép vế, nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gán bằng 0 trong p = (p; 0; 1 − p). 6Để thỏa mãn tính trội tuyệt đối, tất cả các bất đẳng thức xuất phát đều có vế trái lớn hơn vế phải.
  • 39. Lý Thuyết Trò Chơi - DHVP Research 25 p · 2 + 0 · 1 + (1 − p) · 0 1 p · 2 + 0 · 2 + (1 − p) · 3 2 p · 0 + 0 · 1 + (1 − p) · 3 1 Rút gọn hệ này, ta dễ dàng có được: 2p 1 3 − p 0 2 3p Bất đẳng thức thứ 2 của hệ này tầm thường. Từ 2 bất đẳng thức còn lại, ta thu được điều kiện cho p là: 1 2 p 2 3 . Điều này khẳng định việc loại bỏ M khỏi chiến lược thuần của NC1, và tiếp tục rút gọn (2.4) trở thành (2.5) ( W Y Z T 2, 2 2, 2 0, 0 B 0, 4 3, 0 3, 3 ) (2.5) Ngay lập tức, ở trò chơi mới (2.5) ta nhận thấy trong (B) xuất hiện W có tính trội tuyệt đối so với Z do đó, ta tiếp tục loại chiến lược Z của (2.5), và ta đã rút gọn về trò chơi () kích thước 2 × 2: ( W Y T 2, 2 2, 2 B 0, 4 3, 0 ) (2.6) Bây giờ ta chuyển qua giải trò chơi (2.6). Giả sử NC2 có PPXS tổng quát dạng (q, 1 − q), NC1 sẽ lựa chọn T khi: 2q + 2(1 − q) 0q + 3(1 − q) Nghĩa là q 1/3. Như vậy, khi q = 1/3 thì mọi chiến lược p = (p, 1 − p) đều mang lại cùng lợi ích, và NC1 không còn phải đắn đo. Ngược lại, thì lựa chọn B khi: 2q + 2(1 − q) 0q + 3(1 − q),
  • 40. 26 ⃝c 2011 - Vương Quân Hoàng nghĩa là q 1/3. Tóm tắt lại, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS (q, 1 − q) của NC2 là β1(q, 1 − q), thì β1(q, 1 − q) =   {(1, 0)} nếu 0 ≤ q 1 3 {(p, 1 − p)|0 ≤ p ≤ 1} nếu q = 1 3 {(0, 1)} nếu 1 3 q ≤ 1 (2.7) Bây giờ ta lại xét phản ứng tối ưu của NC2 với PPXS chiến lược thuần NC1 có dạng (p, 1 − p). Rõ ràng, chọnW khi: 2p + 4(1 − p) 2p + 0(1 − p), tức là p 1. Khi p = 1, mọi (q, 1 − q) đều là phản ứng tối ưu. Trường hợp p 1 không xảy ra, do đó không nằm trong tập phản ứng tối ưu của NC2. Tương tự, ta tóm tắt lại: β2(p, 1 − p) = { {(1, 0)} nếu 0 ≤ p 1 {(q, 1 − q)|0 ≤ q ≤ 1} nếu p = 1 (2.8) Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1, NC2 trong H.(2.2) dưới đây. Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìm thấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏa mãn các tính chất mong muốn. Như vậy, tập hợp các chiến lược hỗn hợp là tập các PPXS sau: {((1, 0), (q, 1 − q))| 1 3 ≤ q ≤ 1}. Từ đây, ta suy ra tập các cân bằng Nash ở dạng của trò chơi bimatrix ban đầu (nghĩa là khi chưa rút gọn) sẽ có dạng: {((1, 0, 0), (q, 0, 1 − q, 0))| 1 3 ≤ q ≤ 1}. 2.3 Một số ứng dụng và bài toán minh họa Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnh tranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trời và trong nhà. Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa. Nếu cả 2 công ty cùng sản xuất ghế ngoài trời, thì mỗi công ty hưởng lợi 2 tỷ. Nếu cả hai cùng sản xuất ghế trong nhà, thì lợi ích đem lại cho
  • 41. Lý Thuyết Trò Chơi - DHVP Research 27 Hình 2.2: Sơ đồ β2 Nash-E Nash-E 1 q 1/3 0 p 1 mỗi công ty là 1 tỷ. Nếu hai công ty lựa chọn loại ghế khác nhau, thì mỗi công ty thiệt hại 1 tỷ. Yêu cầu: Dựng trò chơi bimatrix cho ứng dụng này. Giải tập hợp toàn bộ các điểm cân bằng Nash của trò chơi. Ứng dụng 4: Trò chơi phúc lợi. Một chính phủ có kế hoạch hỗ trợ tài chính cho nông dân tăng việc làm và thu nhập. Giả sử nông dân chỉ tìm kiếm cơ hội tăng việc làm và thu nhập từ công việc nếu không có nguồn phúc lợi do chính phủ hỗ trợ. Nông dân cũng có thể thất bại trong việc cố gắng mở rộng cơ hội việc làm và thu nhập. Lợi ích tương ứng cho CP và ND là 3,2 nếu CP cấp phúc lợi và ND cố gắng tìm kiếm thêm cơ hội việc làm; là -1,1 nếu CP không hỗ trợ và ND vẫn nỗ lực tự tìm kiếm việc làm; và -1,3 nếu CP hỗ trợ và ND không nỗ lực; và 0,0 trong trường hợp CP không hỗ trợ và ND cũng không cố gắng vận động. Yêu cầu: Dựng mô hình trò chơi bimatrix. Xác định tập các điểm cân bằng Nash thể hiện chiến lược phản ứng tối ưu giữa CP và ND. Ứng dụng 5: Trò chơi tiền lương. Hai công ty đều có một vị trí tuyển dụng mới. Giả sử công ty i (i = 1, 2) đưa ra mức lương wi, trong đó 0 1 2w1 w2 2w1 và w1̸= w2.
  • 42. 28 ⃝c 2011 - Vương Quân Hoàng Giả sử có 2 công nhân, mỗi người có thể nộp đơn cho duy nhất chỉ một công ty. Hai công nhân đồng thời phải quyết định nộp đơn cho công ty 1 hay công ty 2. Nếu chỉ có một công nhân nộp đơn cho một công ty, người đó sẽ có việc làm; nếu cả hai cùng nộp đơn cho một công ty, công ty sẽ thuê một trong hai người một cách ngẫu nhiên (với xác suất 1/2) và người kia sẽ thất nghiệp (lợi ích bằng 0). Yêu cầu: Xây dựng trò chơi tuyển dụng này. Ứng dụng 6: Trò chơi quảng cáo. Hai công ty bán cùng loại sản phẩm. Mỗi phần trăm thị phần giành được đem lại lợi ích tài chính là 1. Không cần quảng cáo thì mỗi công ty chiếm thị phần là 50%. Chi phí quảng cáo là 10, và quảng cáo giúp tăng thị phần 20%, trong khi công ty kia thì mất đi tương ứng. Hai công ty quyết định việc tham gia quảng cáo đồng thời và độc lập với nhau. Tổng quy mô thị trường của sản phẩm này không đổi. Ứng dụng 7: Trò chơi phiếu bầu. Hai đảng tranh cử mỗi đảng có 3 phiếu bầu có thể sử dụng phân phối có 3 ứng viên. Một ủy ban được lập ra gồm có 3 người. Mỗi đảng muốn có càng nhiều ứng viên trong ủy ban càng tốt. Trong số 6 ứng viên, 3 ứng viên nào nhận được nhiều phiếu bầu nhất sẽ được lựa chọn vào ủy ban; trong trường hợp số phiếu bằng nhau, sẽ rút thăm những người có cùng số phiếu (xác suất phân phối đều). Bài tập 8: Loại bỏ chiến lược lép vế. Cho ma trận bimatrix sau ( W X Y Z T 6, 6 4, 4 1, 2 8, 5 B 4, 5 6, 6 2, 8 4, 4 ) (2.9) Tìm các chiến lược thuần của NC1 và NC2 bị lép vế so với một chiến lược thuần khác. Xác định các tổ hợp giữa hai chiến lược thuần W, Y của NC2 có tính trội tuyệt đối so với X. Tìm các điểm cân bằng của trò chơi này. Bài tập 9: Cân bằng Nash. Tìm các điểm cân bằng Nash của trò chơi bimatrix (2.10).
  • 43. Lý Thuyết Trò Chơi - DHVP Research 29   W X Y T 2, 0 1, 1 4, 2 M 3, 4 1, 2 2, 3 B 1, 3 0, 2 3, 0   (2.10) Bài tập 10: Trò chơi tham số. Trò chơi (2.11) có chứa tham số a ∈ R. Xác định các cân bằng Nash cho mọi giá trị có thể của tham số a. ( L R T 1, 1 a, 0 B 0, 0 2, 1 ) (2.11)
  • 44. 30 ⃝c 2011 - Vương Quân Hoàng
  • 45. Lý Thuyết Trò Chơi - DHVP Research 31 VQG ghi chú:
  • 46. 32 ⃝c 2011 - Vương Quân Hoàng
  • 47. Lý Thuyết Trò Chơi - DHVP Research 33 VQG ghi chú:
  • 49. Chương 3 Dạng Mở Rộng Hữu Hạn Trong phần này, ta xét loại bài toán được gọi là dạng mở rộng và một loạt các khái niệm liên quan như thời điểm quyết định, nút quyết định, bước chuyển động, perfection trò chơi con, quy nạp lùi, cân bằng Bayes hoàn hảo. 3.1 Bài toán dạng mở Trò chơi dạng mở được đặc tả bằng một cây trò chơi, chứa các nút và nhánh. Mỗi nút là một nút quyết định hoặc nút may rủi, hoặc là nút kết thúc (đưa ra giá trị lợi ích). Mỗi nhánh tương ứng với một hành động của NC hoặc là lựa chọn có tính may rủi (còn gọi là bước chuyển động vô thức - move of nature hoặc chance move). Nút trên cùng gọi là gốc xuất phát của cây trò chơi. Trong sơ đồ này, nút gốc là một nút quyết định của NC1, và là xuất phát điểm của trò chơi. Từ đây, NC1 sẽ lựa chọn trong 3 bước chuyển động A,B,C. NC2 nhận thức được 3 lựa chọn này của NC1. Sự kiện đầu tiên của NC2 trong sơ đồ là đường gạch đứt quảng nối giữa hai nút quyết định bên hai nhánh trái. Khi này, NC2 có 2 quyết định l, r. Cặp 2 nút được nối bằng gạch đứt nét này được gọi là tập thông tin của NC2. Với tập thông tin này, NC2 biết rằng tiến hành trò chơi sẽ dẫn tới một trong hai nút quyết định khi NC2 đến lượt, tuy nhiên lại không thể đoán biết là bước chơi trước của NC1 sẽ dẫn tới điểm nào. Nếu NC1 đi bước C, thì sẽ xuất hiện một bước may rủi, chia 2 nhánh U,D. Nếu rơi vào nhánh U, với xác suất 1/3 thì sẽ đến lượt NC2 quyết 35
  • 50. 36 ⃝c 2011 - Vương Quân Hoàng Hình 3.1: Sơ đồ trò chơi dạng mở NC1 C May rủi U 1/4 D 3/4 NC2 NC1 08 l r l r L R a b 88 00 84 A 41 72 B 63 40 NC2 định, ngược lại ở nhánh D, với xác suất 3/4 sẽ đến lượt NC1. Ta cũng lưu ý các ký hiệu nhánh L,R, a, b. Còn lại các nút ở hàng cuối là các nút kết thúc. Các cặp giá trị tại mỗi nút kết thúc cho biết lợi ích của NC1 ở hàng trên, và NC2 dòng dưới. Các nút kết thúc cũng gọi là tập thông tin, nhưng có tính chất tầm thường. Tập thông tin chứa (nối) ít nhất 2 nút quyết định gọi là tập thông tin không tầm thường. Những trò chơi chứa tập thông tin không tầm thường gọi là trò chơi với thông tin không hoàn hảo. Ngược lại là trò chơi hoàn hảo, chỉ chứa các tập thông tin tầm thường thu được qua các nút đơn nhất. 3.2 Dạng chiến lược Trong trò chơi dạng mở (3.1) đang xét, có hai khái niệm khác biệt cần lưu ý là hành động và chiến lược. Hành động là một bước chơi có thể xảy ra của một NC trước một tập thông tin. Trong trò chơi ví dụ ở sơ đồ cây phía trên, NC1 có các hành động A,B,C, a, b, và NC2 là l, r, L,R. Chiến lược - theo cách hiểu của LTTC - là một kế hoạch hoàn chỉnh để chơi toàn bộ trò chơi. Ví dụ về một chiến lược của NC trong sơ đồ trò chơi (3.1) là “Chuyển động đầu tiên là bước C, sau đó nếu bước may
  • 51. Lý Thuyết Trò Chơi - DHVP Research 37 rủi cho kết cục D thì thực thi a.” Điều đáng chú ý là khái niệm chiến lược còn chấp nhận cả kế hoạch hoàn chỉnh, nhưng không thể xảy ra trong sơ đồ trò chơi, ví dụ như, với NC1 có thể có chiến lược sau: “Chơi bước A, sau đó nếu kết cục may rủi là D thì chơi nước b.” Với lô-gic bình thường, kế hoạch chơi này trông rất kỳ quặc, vì nếu đã chơi bước A rồi, thì NC1 không còn cơ hội để chơi nước b nữa. Tuy vậy, LTTC vẫn chấp nhận đây là một phương án hoàn chỉnh các nước chơi để hoàn tất một trò chơi. Đối với NC2, tồn tại chiến lược chơi: “Chơi l nếu NC1 chơi A hoặc B, và chơi L nếu NC2 hành động C và bước may rủi cho kết cục U.” Rõ ràng, trong kế hoạch chơi trọn vẹn này, NC2 không thể biết NC1 có lựa chọn A hay B hay không, do đó phản ánh suy nghĩ này vào cách chơi của mình. Trường hợp này khác hẳn so với khi ta bỏ gạch nối ở nhánh bên trái của sơ đồ (3.1), và trò chơi có thông tin hoàn hảo, như trong sơ đồ (3.2). Hình 3.2: Sơ đồ cây - thông tin hoàn hảo NC1 C May rủi U 1/4 D 3/4 NC2 NC1 08 l r l r L R a b 88 00 84 A NC2 41 72 B NC2 63 40 Với trường hợp cho ở hình (3.2), NC2 biết chính xác mình cần đi bước nào sau bước A hoặc B của NC1. Cuối cùng, có thể viết lại khái niệm chiến lược chơi là một dãy các hành động, trong đó tại mỗi tập thông tin của mỗi người chơi, chỉ có
  • 52. 38 ⃝c 2011 - Vương Quân Hoàng duy nhất một bước đi (hành động) được thực hiện. Trong cả 2 lược đồ trên, thì chiến lược của NC1 đều có 2 hành động, do xuất hiện 2 tập thông tin, trong đó có 1 tập là tầm thường. NC1 có 3 hành động có thể thực hiện ở tập thông tin 1, và 2 ở nút tập thứ 2. Theo đó, tập chiến lược của NC1 có thể được ký hiệu là {Aa, Ab,Ba,Bb,Ca,Cb}. Tuy nhiên, với NC2 thì tập chiến lược khác biệt lớn giữa hai sơ đồ (3.1) và (3.2). Trước tiên, với sơ đồ H.(3.1), thông tin không hoàn hảo, NC2 có tập chiến lược {lL, lR, rL, rR}. Nhưng trong H.(3.2), tập chiến lược của NC2 có dạng {llL, llR, lrL, lrR, rlL, rlR, rrL, rrR}. Lý do quan trọng bậc nhất của việc xét tập chiến lược là vì qua đó, trò chơi có thể được rút gọn trò chơi đi một bước kiểu ma trận cặp. Một khi đã xác định được các tổ hợp chiến lược của người chơi trong trò chơi (trong các ví dụ đang xét là cặp chiến lược, có thể đi tới tính toán giá trị lợi ích theo hành trình của sơ đồ cây. Xét thử cặp chiến lược (Cb, rL) trong trò chơi ở lược đồ H.(3.1). Khi này, NC1 khai cuộc với hành động C, sau đó là bước may rủi; nếu U xuất hiện, NC2 đánh L, ngược lại nếu là D, thì NC2 đi nước b. Như vậy, với xác suất 1/4, cặp lợi ích sinh ra là (0, 0), và 3/4 là (0, 8). Lợi ích kỳ vọng cho NC1 là 0, và NC2 là 6. Theo cách làm này, có thể tính ra 6 × 4 cặp lợi ích cho trò chơi H.(3.1), và 6 × 8 cặp lợi ích cho H.(3.2). Các cặp lợi ích này được viết lại thành dạng một ma trận cặp (bimatrix) lợi ích (kỳ vọng) như sau. Tương ứng với H.(3.1), ta thu được:   lL lR rL rR Aa 4, 1 4, 1 7∗, 2∗ 7∗, 2∗ Ab 4, 1 4, 1 7∗, 2∗ 7∗, 2∗ Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 Ca 6, 6 8∗, 7∗ 6, 6 8∗, 7∗ Cb 0, 6 2, 7∗ 0, 6 2, 7∗   , (3.1)
  • 53. Lý Thuyết Trò Chơi - DHVP Research 39 và tương ứng H.(3.2), thì có:   llL llR lrL lrR rlL rlR rrL rrR Aa 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗ Ab 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗ Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0 Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0 Ca 6∗, 6 8∗, 7∗ 6∗, 6 8∗, 7∗ 6, 6 8∗, 7∗ 6, 6 8∗, 7∗ Cb 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗   (3.2) Trò chơi ma trận cặp như trên được gọi là dạng chiến lược của trò chơi dạng mở. Định nghĩa cân bằng Nash cho trò chơi dạng mở cũng đồng thời là cân bằng Nash của dạng chiến lược. Điều này đúng với các cân bằng Nash thuần, và nói chung cũng đúng với các cân bằng Nash trong chiến lược hỗn hợp. 3.3 Quy nạp lùi và hoàn chỉnh trò chơi con Xét trò chơi ở sơ đồ H.(3.2); trò chơi dạng mở với thông tin hoàn hảo. Có thể tiến hành phân tích trò chơi này dựa trên nguyên lý quy nạp lùi. Ta bắt đầu với các nút ngay trước nút kết thúc, và biến đổi chúng thành các nút kết thúc với các giá trị lợi ích được tính ra từ bước chơi tối ưu. Quy nạp lùi như trên giúp thu gọn trò chơi H.(3.2) trở thành dạng H.(3.3). Ở sơ đồ rút gọn ở H.(3.3), chiến lược của NC2 đã được xác định hoàn toàn là lựa chọn rlR. NC1 chọn a trong tập thông tin bên dưới. Tiếp theo, trong trò chơi rút gọn, NC1 chọn bước đi đem lại lợi ích tối đa. Do A mang lại lợi ích 7, và B mang lại 6, C có lợi ích kỳ vọng 8 ( 1 4 + 3 4 ) × 8, lựa chọn tối ưu của NC1 là C. Từ đó suy ra, ta có cặp chiến lược (Ca, rlR) với cặp lợi ích tương ứng (8, 7). Đây là một trong 10 điểm cân bằng Nash của trò chơi dạng chiến lược (3.2), có tên gọi điểm cân bằng quy nạp lùi. Các nhà toán học đã chứng minh rằng áp dụng nguyên lý quy nạp lùi luôn tìm ra một cân bằng Nash (thuần); có thể hình dung trực giác kết luận này, nhưng việc chứng minh điều này không đơn giản. Bên cạnh đó, ta nhận thấy trò chơi thông tin hoàn hảo có ít nhất một cân bằng Nash trong các chiến lược thuần, và điểm này có thể tìm ra bằng phương pháp quy nạp lùi.
  • 54. 40 ⃝c 2011 - Vương Quân Hoàng Hình 3.3: Sơ đồ cây rút gọn - thông tin hoàn hảo NC1 C May rủi U 1/4 D 3/4 88 84 A 72 B 63 Cũng cần phân biệt giữa điểm cân bằng quy nạp lùi - trong trò chơi đang xét là (Ca, rlR)) - và kết cục quy nạp lùi. Kết cục quy nạp lùi ám chỉ các bước triển khai chơi thực sự, hay nói một cách tương đương khác là một quỹ tích cân bằng, trong trường hợp này là (Ca,R). Ta quan sát thấy tồn tại nhiều điểm cân bằng Nash khác trong trò chơi tạo ra cùng kết cục hay quỹ tích, chẳng hạn như (Ca, llR), (Ca, lrR), và (Ca, rrR): chúng đều dẫn đến quỹ đạo (Ca,R), nhưng lại khác nhau ở phần bên trái của cây trò chơi, trong đó NC2 có ít nhất một quyết định dưới mức tối ưu. Như vậy, nguyên lý quy nạp lùi giúp đảm bảo rằng mọi người chơi luôn đi bước tối ưu, thậm chí ngay cả ở những phần của cây trò chơi không thực sự được chơi trên thực tế. Cách tổng quát để tiến hành quy nạp lùi là sử dụng ý tưởng về trò chơi con (subgame perfection)., với định nghĩa trò chơi con như sau: “Một trò chơi con là một phần bất kỳ của một cây trò chơi, khởi đầu ở một nút quyết định đơn của một NC hoặc là một nút may rủi, mà sau đó không bị kết nối với cây trò chơi qua một tập thông tin nào sau đó.” Trò chơi trong sơ đồ H.(3.2) có tới 6 trò chơi con khác nhau, bao gồm: (1) toàn bộ trò chơi; (2) trò chơi bắt đầu từ bước may rủi; (3,4,5,6) 4 trò chơi bắt đầu từ 4 nút ngay trước nút kết thúc. Định nghĩa của điểm cân bằng hoàn hảo của trò chơi con như sau: Đó là một kết hợp chiến lược dẫn đến cân bằng Nash trong tất cả các trò chơi con. Xét H.(3.2), để một kết hợp chiến lược trở thành cân bằng hoàn hảo của trò chơi con, sự kết hợp đó buộc phải sinh ra một điểm cân bằng Nash ở tất cả các trò chơi con. Do toàn bộ trò chơi cũng chính là trò chơi con, nên một điểm cân bằng như thế bắt buộc phải là cân
  • 55. Lý Thuyết Trò Chơi - DHVP Research 41 bằng Nash của toàn bộ trò chơi, và suy ra, cả 10 cân bằng Nash của sơ đồ đang xét đều là ứng viên cho điểm cân bằng hoàn hảo đó. Vì thế, một điểm cân bằng hoàn hảo của trò chơi con bắt buộc luôn phải là một cân bằng Nash. Cân bằng hoàn hảo đó cũng phải dẫn đến một điểm cân bằng trong cả 4 trò chơi con một người chơi trước nút kết thúc.1 Trong ví dụ này, nó có nghĩa là các bước đi r, l,R, và a. Suy ra rằng, NC lựa chọn tối ưu trong cả trò chơi con khởi đầu từ nút may rủi. Tổng kết lại, ta tìm (các) cân bằng Nash và điểm duy nhất thỏa mãn là (Ca, rlR). Do đó, điểm cân bằng hoàn hảo trò chơi con duy nhất của trò chơi này là (Ca, rlR), và đây cũng là điểm cân bằng quy nạp lùi. Trong trò chơi thông tin hoàn hảo, các điểm cân bằng quy nạp lùi và cân bằng hoàn hảo trò chơi trùng nhau. Tiếp theo, tìm hiểu trò chơi với thông tin không hoàn hảo trong sơ đồ H.(3.1). Trong trò chơi này, nguyên lý quy nạp lùi không áp dụng được cho nhánh bên trái của cây trò chơi, vì lý do NC2 không biết liệu NC1 sẽ đi bước A hay B trong khi NC2 phải lựa chọn một bước đi trong tập thông tin phía nhánh trái, và NC này không thể quyết định giữa l và r. Về trò chơi con, khi này tồn tại: (1) toàn bộ trò chơi; (2,3) 2 trò chơi con theo kết cục U và D; và (4) trò chơi con khởi đầu từ bước may rủi. Như vậy, ràng buộc của phép hoàn chỉnh trò chơi con là, NC1 đi bước a, NC2 đi R, và sự kết hợp chiến lược này là điểm cân bằng Nash của toàn bộ trò chơi. Trong số 6 điểm cân bằng Nash của trò chơi ma trận cặp (??), chỉ còn hai điểm cân bằng phù hợp là (Ca, lR) và (Ca, rR). Và đây là hai điểm cân bằng hoàn hảo trò chơi con của H.(3.1). Có thể thấy rằng, phép hoàn chỉnh trò chơi con có khả năng ứng dụng tổng quát hơn so với của nguyên lý quy nạp lùi thông qua trò chơi cho ở cây H.(3.4). Trò chơi này có 3 người chơi và phép quy nạp lùi không áp dụng được. Còn với phép hoàn chỉnh trò chơi con, ta lưu ý tới thực tế là trò chơi này chỉ có 2 trò chơi con duy nhất là (1) toàn bộ; và (2) trò chơi khởi đầu từ nút quyết định của NC2. Trò chơi (2) diễn ra giữa NC2 và NC3 có dạng chiến lược (3.3). 1Có thể coi các điểm cân bằng Nash cho trò chơi 1-NC là NC đó sẽ chọn bước đi có lợi tối ưu.
  • 56. 42 ⃝c 2011 - Vương Quân Hoàng Hình 3.4: Sơ đồ cây 3-NC NC1 NC2 L A l r R l r 331 000 000 113 B 200 NC3 ( l r L 3, 1 0, 0 R 0, 0 1, 3 ) . (3.3) Trò chơi dạng chiến lược (3.3) có 2 điểm cân bằng Nash thuần là (L, l) và (R, r). Như vậy, nếu chơi theo chiến lược cân bằng đầu tiên, thì NC1 chơi A, thu về lợi ích bằng 3, trong khi đánh B thu về 2. Nếu theo điểm cân bằng thứ hai trong trò chơi con, NC1 rõ ràng chơi B vì đánh nước A chỉ thu về lợi ích là 1. Do đó, hai cân bằng trò chơi con hoàn hảo là (A, L, l) và (B,R, r). Một cách khác là, ta có thể tính trước tiên các cân bằng Nash của toàn bộ trò chơi. Dạng chiến lược của trò chơi được thể hiện trong các ma trận lợi ích khi NC1 đánh A và B. 1 : A ( l r L 3∗, 3∗, 1∗ 0, 0, 0 R 0, 0, 0 1, 1∗, 3∗ ) 1 : B ( l r L 2, 0∗, 0∗ 2∗, 0∗, 0∗ R 2∗, 0∗, 0∗ 2∗, 0∗, 0∗ )
  • 57. Lý Thuyết Trò Chơi - DHVP Research 43 Trong các ma trận này, phản ứng tối ưu được đánh dấu sao. NC1 phải so sánh lợi ích từ cả hai ma trận để cân nhắc. Các cân bằng Nash thuần thu được là (A, L, l), (B, L, r), (B,R, l), và (B,R, r). Cân bằng hoàn hảo trò chơi con là cân bằng thực hiện được phối hợp chiến lược chơi (L, l) hoặc (R, r) dẫn ta tới kết luận về hai điểm cân bằng nói ở trên. 3.4 Cân bằng Bayes hoàn hảo Các khái niệm cân bằng Nash và cân bằng trò chơi con hoàn hảo còn được tiếp tục phát triển tinh tế hơn qua khái niệm cân bằng Bayes hoàn hảo. Xét một tập thông tin của một NC trong trò chơi dạng cây. Một niềm tin của NC đó chỉ đơn giản hiểu là một PPXS qua các nút của tập thông tin, hoặc trên các hành động đáp ứng trước tập thông tin đó. Nếu tập thông tin tầm thường (tức là chỉ là một nút đơn) thì niềm tin đó cũng tầm thường, tức là gán xác suất bằng 1 cho nút quyết định duy nhất đó. Một cân bằng Bayes hoàn hảo của một trò chơi dạng cây (mở rộng) là một sự kết hợp các chiến lược và một quy ước về niềm tin sao cho hai điều sau đây được thỏa mãn: 1) Niềm tin nhất quán với các chiến lược đang xét; và 2) Những NC lựa chọn một cách tối ưu với sự tồn tại của các niềm tin đã biết. Điều kiện thứ nhất được gọi là tính nhất quán Bayes về niềm tin, và điều kiện thứ hai là tính hợp lý tuần tự. Điều kiện đầu phát biểu rằng niềm tin cần thỏa mãn cập nhật thông tin dạng Bayes đối với các chiến lược bất kỳ khi nào có thể. Điều kiện sau yêu cầu NC cần hành động nhằm tối đa hóa lợi ích kỳ vọng dựa trên niềm tin của mình. Ta xét ví dụ minh họa (3.1). Trò chơi này có một tập thông tin không tầm thường. Giả sử niềm tin của NC2 trước tập thông tin này được cho bởi xác suất α cho nút bên trái và 1−α cho nút bên phải. Mọi tập thông tin khác đều tầm thường, vì vậy niềm tin sẽ gán xác suất 1 cho mỗi nút tương ứng. Áp dụng điều kiện (2) ngụ ý NC2 cần lựa chọn R và NC1 chọn a tại các tập thông tin tương ứng. Trước tập thông tin không tầm thường, NC2 cần lựa chọn hành vi tối đa hóa lợi ích kỳ vọng. Mức kỳ vọng từ lựa chọn l của NC2 là α · 1+(1α) · 3 = 32α và từ hành vi chọn r là α · 2+(1α) · 0 = 2α. Vì thế, chiến lược chọn l là tối ưu nếu như 32α ≥ 2α; điều này có nghĩa là khi α ≤ 3/4. Và, r cho kỳ vọng tối đa nếu α ≥ 3/4. Trong trò chơi đang xét, với NC1, lựa chọn C luôn tối ưu, với yếu tố
  • 58. 44 ⃝c 2011 - Vương Quân Hoàng kết cục R, a cho trước: C cho lợi ích 8 trong khi đó A,B chỉ mang lại tối đa là 7. Nhưng nếu NC1 không lựa chọn A hoặc B thì điều kiện (1) không đặt ra ràng buộc nào với niềm tin [α] của NC2. Một cách chặt chẽ thì, nếu NC1 chọn C thì tập thông tin không tầm thường của NC2 không có khả năng sử dụng, và vì thế xác suất [α] không được hiệu chỉnh Bayes, tức là, bằng việc tính xác suất có điều kiện khả năng chạm tới nút trái hay phải của tập thông tin NC2. Điều này có nghĩa là ta có thể chọn bất kỳ giá trị α nào mong muốn, nhưng tương ứng với giá trị α đó NC2 cần lựa chọn tối ưu. Từ đó suy ra, về cơ bản ta có 2 cân bằng Bayes hoàn hảo, đó là (Ca, lL) ứng với niềm tin α ≤ 3/4, và (Ca, rL) khi α ≥ 3/4. Ta lại lưu ý rằng đây chính là hai cân bằng trò chơi con hoàn hảo, chỉ có điều bây giờ được hỗ trợ bởi ý niệm về mức độ tin tưởng của NC2 vào tập thông tin không tầm thường của mình. Đồng thời, ta cũng nhận thấy một cân bằng Bayes hoàn hảo luôn đóng vai trò cân bằng trò chơi con hoàn hảo, và vì thế cũng là một cân bằng Nash. Thực ra, bằng cách gán các xác suất cho các nút của một tập thông tin, chúng ta cũng tạo điều kiện để áp dụng nguyên lý quy nạp lùi. Điều kiện của cân bằng Bayes có ảnh hưởng mạnh hơn phép hoàn chỉnh trò chơi con. Giả sử vẫn xét trò chơi này, ta thay cặp lợi ích (4, 1) sau A và l bằng cặp (4, 3). Kiểm tra nhanh ta có các cân bằng trò chơi con hoàn hảo vẫn là (Ca, lL), (Ca, rL). Đương nhiên NC2 tỉnh táo sẽ không bao giờ lựa chọn r tại tập thông tin không tầm thường vì l đem lại lợi ích lớn hơn, nhưng phép hoàn chỉnh trò chơi con lại không loại bỏ khả năng này. Tuy thế, rõ ràng không khả năng NC2 gán niềm tin để r là lựa chọn tối ưu. Với PPXS (α, 1 − α) đã giả sử, r đem lại lợi ích 2α, trong khi l đem lại 3, mà 0 ≤ α ≤ 1 Vậy thì, cân bằng Bayes hoàn hảo duy nhất có được là (Ca, lL), bất kể trị số niềm tin của NC2 trước tập thông tin không tầm thường ở mức nào. Một minh họa khác là trò chơi 3-NC trong sơ đồ (3.5). Có hai cách tìm các cân bằng Bayes hoàn hảo của sơ đồ chơi này. Ta có thể tìm các cân bằng trò chơi con hoàn hảo và các xác suất gán niềm tin tương ứng. Theo cách khác, ta có thể áp dụng quy nạp lùi. Nếu sử dụng quy nạp lùi, bắt đầu với NC3. Nếu NC3 lựa chọn l thì lợi ích (kỳ vọng) là α. Còn nếu NC3 chọn r, thì lợi ích là 33α. Suy ra, l là lựa chọn tối ưu nếu α ≥ 3/4, và r tối ưu nếu α ≤ 3/4. Bây giờ, giả sử NC3 chọn l. NC2 rõ ràng chọn L. Khi này, điều kiện (1) của cân bằng Bayes hoàn hảo dẫn đến kết cục α = 1: điều này có
  • 59. Lý Thuyết Trò Chơi - DHVP Research 45 Hình 3.5: Sơ đồ 3-NC cân bằng Bayes NC1 NC2 L A [α] l r R l r 331 000 000 113 B 200 [1 − α] NC3 nghĩa là NC3 trên thực tế phải tin rằng NC2 đã lựa chọn L. Rõ ràng, khi này 1 = α 3/4, nên l chính là hành vi tối ưu của NC3. Rốt cục, NC1 lựa chọn A, thu được lợi ích 3 (thay vì chơi B để đạt 2). Như vậy, chúng ta có một điểm cân bằng Bayes hoàn hảo (A, L, l) với niềm tin α = 1. Nếu NC3 chơi r, NC2 về logic sẽ chơi R, điều này dẫn đến α = 0, do đó NC3 chọn r trên thực tế. Lúc này, NC1 cần chơi B, và như vậy ta có được cân bằng Bayes hoàn hảo (B,R, r) với niềm tin α = 0.
  • 60. 46 ⃝c 2011 - Vương Quân Hoàng
  • 61. Lý Thuyết Trò Chơi - DHVP Research 47 VQG ghi chú:
  • 62. 48 ⃝c 2011 - Vương Quân Hoàng
  • 63. Lý Thuyết Trò Chơi - DHVP Research 49 VQG ghi chú:
  • 64. 50 ⃝c 2011 - Vương Quân Hoàng
  • 65. Lý Thuyết Trò Chơi - DHVP Research 51 VQG ghi chú:
  • 67. Chương 4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ Trong trò chơi với thông tin không đầy đủ, những NC có thể thiếu thông tin về hành động của NC khác. Mọi trò chơi 1-nước, chuyển động đồng thời đều thuộc nhóm thông tin không hoàn hảo. Cũng có khả năng NC của trò chơi loại này không có thông tin về một số tính chất của trò chơi hay đặc tính của NC. Chẳng hạn, một NC có thể không biết hết thông tin về các hành vi có thể của những NC khác, hoặc về lợi ích có thể đạt được của NC khác. Ở đây, ta xây dựng mô hình trò chơi thông tin không đầy đủ bằng cách giả định rằng mỗi NC thuộc một số nhóm đặc trưng khác nhau (type).. Đặc trưng của NC bao quát tất cả các thông tin liên quan (đặc biệt là hành động và lợi ích) về NC đó. Hơn nữa, cũng giả sử rằng mỗi NC biết rõ mình thuộc đặc trưng nào, và có một PPXS trên các đặc trưng của những NC khác. Thường thì các PPXS này được giả định có tính nhất quán, theo nghĩa rằng, các PPXS này được đúc kết từ một loại PPXS đã biết, có tính chung nhất, trên tất cả các tổ hợp đặc trưng của NC trong trò chơi. Ta vẫn chỉ xét trò chơi có số NC hữu hạn, số nhóm đặc trưng hữu hạn, và số chiến lược chơi hữu hạn. Các trò chơi này có thể là trò chơi tĩnh (đồng thời, 1-bước) hoặc động (dạng mở rộng/cây). Một cân bằng Nash trong bối cảnh này cũng còn được gọi là cân bằng Bayes. 53
  • 68. 54 ⃝c 2011 - Vương Quân Hoàng 4.1 Nhóm đặc trưng Ta xét một tập hợp người chơi, N = {1, 2, ..., n}. Với mỗi NC i ∈ N, tồn tại một tập hữu hạn các đặc trưng Ti mà NC đó có thể sở hữu. Nếu ta ký hiệu T = T1×T2×· · ·×Tn cho tập hợp T = {(t1, t2, . . . , tn)|t1 ∈ T1, t2 ∈ T2, . . . , tn ∈ Tn},1 thì một trò chơi thông tin không đầy đủ quy định một trò chơi với mọi tổ hợp có thể t = (t1, t2, . . . , tn) ∈ T. Ta giả định rằng mỗi NC i biết rõ đặc trưng ti của mình, và với đặc trưng ti đó sẽ gán các xác suất p(t1, . . . , ti−1, ti+1, . . . , tn|ti) cho tất cả các tổ hợp đặc trưng t1 ∈ T1, . . . , ti−1 ∈ Ti−1, ti+1 ∈ Ti+1, . . . , tn ∈ Tn của những NC khác Thông thường, các xác suất nói trên được tính ra từ một phân phối xác suất chung p trên T, trong đó p(t) là xác suất mà tổ hợp đặc trưng là t. Hơn nữa, giả định mỗi NC i, ngoài đặc trưng ti của mình, còn nhận thức rõ về PPXS p. Vì thế, nếu NC i có đặc trưng ti, thì NC này có thể tính được xác suất mà loại tổ hợp đặc trưng của những NC khác là véc-tơ (t1, . . . , ti−1, ti+1, . . . , tn). Xác suất này bằng xác suất có điều kiện p(t1, . . . , ti−1, ti+1, . . . , tn|ti) = Σp(t1, . . . , ti−1, ti, ti+1, . . . , tn) p(t′ 1, . . . , t′ i−1, ti, t′ i+1, . . . , t′ n) trong đó, tổng ở mẫu được tính ra từ tất cả các đặc trưng có thể của những NC khác, tức là trên mọi khả năng t′ 1 ∈ T1, . . . , t′ i−1 ∈ Ti−1, t′ i+1 ∈ Ti+1, . . . , t′ n ∈ Tn. Do đó, tổng ở mẫu này chính là xác suất để NC i có đặc trưng ti. Một NC trong trò chơi thông tin không đầy đủ có thể hành động phụ thuộc vào đặc trưng cá nhân của riêng mình, nhưng không phụ thuộc vào đặc trưng của những NC khác. Tuy nhiên, vì NC này biết được các xác suất của các đặc trưng của NC khác, nên có thể tính toán được lợi ích kỳ vọng của từng bước chơi. 4.2 Trò chơi tĩnh, thông tin không đầy đủ Ví dụ được đưa ra dưới đây giúp minh họa trò chơi tĩnh thông tin không đầy đủ, với những khái niệm chúng ta vừa cung cấp ở trên. 1Tức là tập hợp của tất cả các tổ hợp các đặc trưng có thể tồn tại trong trò chơi.
  • 69. Lý Thuyết Trò Chơi - DHVP Research 55 Xung đột sở thích giới tính: Tình huống xảy ra giữa một chàng trai và một cô gái, muốn hẹn gặp nhau, hoặc xem một trận bóng đá, hoặc dự một buổi diễn ba-lê. Hai người đều không nhớ về quyết định đi đâu trong lần hẹn. Họ ở khác chỗ nhau và phải tự quyết định đi đâu; dĩ nhiên giả sử không có phương tiện thông tin để liên lạc. Mục tiêu chính là phải gặp được nhau. Chàng trai thích bóng đá hơn, ngược lại cô gái thích ba-lê hơn.2 Trong bài toán này, NC1 không biết liệu NC2 (cô gái) muốn hò hẹn với anh ta hay không, nghĩa là không thể chắc chắn bản thân mình muốn lựa chọn Yes hay No. Mô hình được viết lại cho tính bất trắc chiến lược này như sau. Y : ( S B S 2, 1 0, 0 B 0, 0 1, 2 ) Y : ( S B S 2, 0 0, 2 B 0, 1 1, 0 ) (4.1) trong đó, S là đi xem đá bóng (viết tắt chữ Soccer) và B là ba-lê. Chàng trai là người chơi theo hàng (NC1) và cô gái theo cột (NC2). Tình huống cần hợp tác này liên quan trực tiếp tới sự tổ hợp các lựa chọn cá nhân, và khái niệm cân bằng Nash.3 NC1 gán xác suất bằng 1/2 cho mỗi trò chơi con Y,N. NC2 cũng biết thông tin này. Theo cách chúng ta định nghĩa ở trên về đặc trưng thì điều này có nghĩa là NC1 chỉ có 1 đặc trưng, biểu thị qua 1. Nhưng NC2 có 2 đặc trưng là Y và N. Hai tổ hợp đặc trưng của trò chơi là (1, y) và (1, n), đều có xác suất xuất hiện là 1/2. NC2 biết rõ đặc trưng của NC1 cũng như của bản thân, có nghĩa là biết chắc trò chơi nào đang diễn ra. NC1 thì phải gán xác suất cho từng đặc trưng của NC2, đều là 1/2. Sơ đồ dạng cây của tình huống xung đột nói trên được cung cấp trong H.(4.1), có thể giúp giải quyết việc tìm cân bằng Nash thuận lợi hơn. Sơ đồ cho biết trò chơi bắt đầu ở nút May-Rủi, và đi đến lựa chọn một trong hai ma trận cặp để chơi, với xác suất 1/2. Theo diễn đạt về đặc trưng NC, trò chơi này lựa đặc trưng của NC2. NC2 được thông tin, 2Peter, Hans (2008) Game theory: a multi-leveled approach. Springer Verlag, Heidelberg, Germany. 3Nash, John F. (1951) “Non-cooperative games.” Annals of Mathematics, 54:286–295.
  • 70. 56 ⃝c 2011 - Vương Quân Hoàng Hình 4.1: Xung đột sở thích giới tính, thông tin không đầy đủ May-Rủi NC2 Y 1/2 S S B B S B 21 00 00 12 NC2 N 1/2 B S B S B 20 01 02 10 NC1 nhưng NC1 thì không. NC2 có 4 chiến lược khác nhau, nhưng NC1 chỉ có 2. Từ sơ đồ dạng chiến lược của trò chơi, có thể quan sát thấy mọi cân bằng Nash đều có tính hoàn hảo trò chơi con, vì không có trò chơi con nào không tầm thường. Đồng thời, mọi cân bằng Nash đều hoàn hảo Bayes, tập thông tin không tầm thường duy nhất (của NC1) sẽ được tận dụng cho dù NC2 có đi phương án nào, như vậy niềm tin hoàn toàn được xác định qua chiến lược của NC2 nhờ bổ sung thông tin Bayes. Dạng chiến lược của trò chơi cho ở H.(4.2). Trong sơ đồ, chữ cái đầu tiên trong một chiến lược của NC2 cho biết NC2 chơi gì nếu Y xuất hiện ở bước May-Rủi. Tương tự, chữ cái thứ 2 tương ứng với trường hợp N. Phản ứng tối ưu được đánh dấu. ( SS SB BS BB S 2∗, 0.5 1∗, 1.5∗ 1∗, 0 0, 1 B 0, 0.5 0.5, 0 0.5, 1.5∗ 1∗, 1∗ ) (4.2) Từ dạng chiến lược, thấy rằng trò chơi có cân bằng Nash thuần duy nhất là (S, SB). Trong cân bằng này, NC1 chọn S, đặc trưng Y của NC2 chọn S và đặc trưng N của NC 2 chọn B. Điểm cân bằng này cũng còn gọi là cân bằng Bayes, tuy nhiên nó là
  • 71. Lý Thuyết Trò Chơi - DHVP Research 57 một cân bằng Nash của một dạng trò chơi sơ đồ cây theo một quy cách phù hợp. Cân bằng Nash thuần của một trò chơi dạng này có thể xác định mà không cần vẽ sơ đồ cây hay tính ra ma trận dạng chiến lược. Giả sử rằng, NC1 lựa chọn S tại điểm cân bằng. Khi này, phản ứng tối ưu của NC2 là chơi S nếu cô gái có đặc trưng Y , và lựa chọn B, nếu đặc trưng của cô ta là N. Lợi ích kỳ vọng của NC1 là 1; thế nên nếu NC2 lựa chọn B thì chỉ thu được lợi ích kỳ vọng 0,5. Do vậy, (S, SB) là cân bằng Nash. Mặt khác, nếu như NC1 chọn B, thì phản ứng tối ưu của NC2 chứa đặc trưng Y là B, còn đặc trưng N thì là S. Lợi ích của NC1 là 0,5, trong khi đó nếu chơi S thì lợi ích của NC2 là 1, trong tình huống này. Do đó, không có điểm cân bằng khi NC1 lựa chọn B. Trường hợp thông tin không đầy đủ từ cả hai phía Đây là một ví dụ của việc tiếp tục chỉnh sửa đầu bài của trò chơi xung đột lợi ích giới tính vừa đề cập ở trên. Trong trò chơi mới này, không NC nào biết chắc liệu rằng NC kia có muốn gặp mình không. Y : ( S B S 2, 1 0, 0 B 0, 0 1, 2 ) Y : ( S B S 2, 0 0, 2 B 0, 1 1, 0 ) (4.3) Y : ( S B S 2, 1 0, 0 B 0, 0 1, 2 ) Y : ( S B S 2, 0 0, 2 B 0, 1 1, 0 ) (4.4) Chúng ta có 4 trò chơi ma trận cặp trong dạng chiến lược cho bởi (4.3) và (4.4). Các trò chơi này tương ứng với 4 tổ hợp đặc trưng có thể của NC1 và NC2. Từ đây ta cũng có PPXS của 4 tổ hợp đặc trưng này trong bảng (4.1). Một phương án tìm các cân bằng Nash của trò chơi này là phác họa dạng sơ đồ cây và tính ra các dạng chiến lược tương ứng. Cách khác là kiểm tra một cách hệ thống 16 cặp chiến lược có thể.
  • 72. 58 ⃝c 2011 - Vương Quân Hoàng Bảng 4.1: PPXS theo đặc trưng của NC có 2 đặc trưng t Y1Y2 Y1N2 N1Y2 N1N2 p(t) 2/6 2/6 1/6 1/6 PPXS phụ thuộc theo loại có thể tính từ bảng (4.1), theo công thức Bayes xác suất toàn phần (). p(Y2|Y1) = p(Y1Y2) p(Y1Y2) + p(Y1N2) = 2/6 (2/6 + 2/6) = 1/2 Theo cách này, các xác suất có điều kiện (theo loại đặc trưng) khác được tính ra kết quả từ bài toán như sau: p(N2|Y1) = 1/2, p(Y2|N1) = 1/2, p(N2|N1) = 1/2, p(Y1|Y2) = 2/3, p(N1|Y2) = 1/3, p(Y1|N2) = 2/3, p(N1|N2) = 1/3. Giả sử NC1 chọn chiến lược SS, tức là chàng trai chọn S (chữ S đứng trước) nếu đặc trưng của anh ta là Y1 và cũng S (chữ đứng sau) ngay cả khi đặc trưng làN1. (Trong toàn bộ biện luận này, ký hiệu đầu của chiến lược lựa chọn tương ứng với đặc trưng Y và chữ đứng sau ứng với N). Khi đó, lợi ích kỳ vọng cho đặc trưng Y2 của NC2 nếu như cô ta chọn S là (2/3) · 1 + (1/3) · 1 = 1. Nếu NC2 chọn B thì kỳ vọng là (2/3) · 0 + (1/3) · 0 = 0. Từ đó suy ra, phản ứng tối ưu của đặc trưng Y2 là S. Tương tự, với N2 của NC2, chọn S cho lợi ích 0, và B đem lại 2. B là phản ứng tối ưu. Kết hợp lại, phản ứng tối ưu của NC2 đáp ứng lại chiến lược SS của NC1 là SB. Như thế chơi S đem lại cho đặc trưng Y1 của NC1 một mức kỳ vọng lợi ích là (1/2) · 2+(1/2) · 0 = 1. Chọn B đem lại (1/2) · 0+(1/2) · 1 = 1/2, cho nên S là phản ứng tối ưu cho đặc trưng Y1 của NC1. Tương tự, với đặc trưng N1 thì chọn S đem lại lợi ích (1/2) · 0+(1/2) · 2 = 1 trong khi đó chọn B đem lại 1/2. Vì thế, S vẫn là phản ứng tối ưu cả khi đặc trưng là N1. Suy ra rằng, phản ứng tối ưu của NC1 trước chiến lược chơi SB của cô gái là SS. Ta kết luận rằng, trong trường hợp này, (SS, SB) là cân bằng Nash. Tiếp theo, giả sử rằng NC1 chọn SB. Tính toán theo cách tương tự cho thấy NC2 có 2 phương án phản ứng tối ưu, là SB và BB. Nếu NC2 chọn SB, thì chiến lược tối ưu của NC1 là SS, theo cùng lô-gic đã lập
  • 73. Lý Thuyết Trò Chơi - DHVP Research 59 luận lúc trước, và không có phương án tối ưu SB. Điều này chứng tỏ đây không phải là cân bằng Nash. Còn phương án NC2 làBB, phản ứng tối ưu của NC1 là BS, chứ không phải SB, tổ hợp này cũng không tạo thành cân bằng Nash. Thứ ba, giả sử rằng, NC1 chọn chiến lược BS. Như vậy, NC2 có hai phản ứng tối ưu là BS và BB. Nếu NC2 chọn BS, phản ứng tối ưu của NC1 là SS và không phải BS, tổ hợp này không tạo thành cân bằng Nash. Trường hợp, NC2 chọn BB, chiến lược tối ưu của NC1 là BS, và lúc này tổ hợp chiến lược (BS,BB) chính là một cân bằng Nash. Cuối cùng ta lại giả sử rằng NC1 đi BB. NC2 phản ứng tối ưu qua BS, dẫn đến NC1 cần phản ứng lựa chọn tốt nhất SS và không phải BB. Suy ra, BB không phải bộ phận của cân bằng Nash ta mong muốn. Có thể kết luận rằng trò chơi đang xét có 2 cân bằng Nash thuần: (1) Cả hai loại đặc trưng của NC1 dẫn đến lựa chọn S, đặc trưng Y2 của NC2 cũng dẫn tới hành động S, nhưng đặc trưng N2 của NC2 lại hướng đến phương án B; và, (2) Loại đặc trưng Y1 của NC1 dẫn đến lựa chọn B, trong khi N1 là S. Trong khi đó, cả 2 đặc trưng của NC2 đều có lựa chọn B tối ưu. Các điểm cân bằng này còn được gọi là cân bằng Nash có tính chất Bayes. 4.3 Trò chơi tín hiệu Dạng mở rộng của trò chơi có thể giúp nghiên cứu loại trò chơi tĩnh, thông tin không đầy đủ, bằng cách bắt đầu trò chơi với nút May-Rủi, tại đó lựa chọn loại đặc trưng của NC. Xét tổng quát hơn, dạng mở rộng có thể mô hình hóa các trò chơi thông tin không đầy đủ, mà trong đó những NC chuyển động tuần tự. Một lớp trò chơi quan trọng này là lớp trò chơi phát tín hiệu. GS. Spence đã xây dựng mô hình trò chơi tín hiệu thị trường đặc trưng cho loại bài toán này.4 Trò chơi tín hiệu (hữu hạn) khởi đầu với bước May-Rủi dẫn đến lựa chọn đặc trưng của NC1. NC1 có thông tin về các loại đặc trưng của mình, nhưng NC2 thì không có thông tin về đặc trưng này. NC1 hành động trước, NC2 quan sát lựa chọn của NC1, rồi mới chuyển động, sau đó trò chơi kết thúc. Mô hình bài toán này được gọi là trò chơi tín hiệu bởi lẽ chuyển động của NC1 có thể là tín hiệu nhận biết loại đặc trưng, 4Spence, Michael A. (1973) “Job market signalling.” Quarterly Journal of Eco-nomics, 87: 355–374.