More Related Content
More from sias_economics (20)
10章
- 1. 第十章 博弈论初步
案例分析
案例一:“智猪博弈”
在博弈论经济学中,“智猪博弈”是一个著名纳什均衡例子;假设猪圈里有一头大猪,一
头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有 10 个
单位的猪食进槽,但是谁按按钮就会首先付出 2 个单位成本,若大猪先到槽边,大小猪吃
到食物的收益比是 9:1;同时到槽边,收益比是 7:3;小猪先到槽边,收益比是 6:4;
那么,在两头猪都有是有智慧的前提下,最终结果是小猪选择等待。
实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船” 或称为搭便车)的原
(
因很简单;在大猪选择行动的前提下,小猪也行动的话,小猪可得到 1 个单位的纯收益(吃
到 3 个单位的食品同时也耗费 2 个单位的成本,以下纯收益计算相同)
,而小猪等待的话,
小猪则可以获得 4 个单位的纯收益,等待优于行动;在大猪选择等待的前提下,小猪如果
行动的话,小猪的收入将不抵成本,纯收益为—1 单位,如果小猪也选择等待的话,那么小
猪的收益为零,成本也为零,总之,等待还是要优于行动。
小猪
行动 等待
大猪 行动 5,1 4,4
等待 9,-1 0,0
从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是 1,而小猪等待
的话,收益是 4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益
是-1,而小猪等待的话,收益是 0,所以小猪也选择等待。综合来看,无论大猪是选择行动还
是等待,小猪的选择都将是等待,即等待是小猪的占优策略。
在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些
时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所
不为才能有所为!
比如,在某种新产品刚上市,其性能和功用还不为人所熟识的情况下,如果进行新产品
生产的不仅仅是一家小企业,而且还有其他生产能力和销售能力更强的企业,那么,小企业
完全没有必要首先去投入大量广告做产品宣传,以达到和其他企业品牌竞争并取得优势地位
的目的。一个精明的经理人首先应该进行一项经致的核算:在品牌领先的预期收益和将品牌
竞争的费用以产品垢扩大再生产,而坐等大企业将市场开发成熟所能取得的收益之间,进行
比较以确认哪种方案更有利于企业。
高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经
理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,
从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小
- 2. 企业的经理人所熟识。
由智猪博弈故事得到的启示:
在这个例子中,对小猪而言,无论大猪是否踩动踏板,不去踩踏板总比踩踏板好。反观
大猪,明知小猪不会去踩踏板,但是去踩踏板总比不踩强,所以只好亲历亲为了。这个案例
令我们不得不思考——博弈与制度。
“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。在博弈中,每一方
都要想方设法攻击对方、保护自己,最终取得胜利;但同时,对方也是一个与你一样理性的
人,他会这么做吗?这时就需要更高明的智慧。博弈其实是一种斗智的竞争。作为一门科学,
博弈论就是研究不同主体之间相互影响行为的一种学问。或者准确地说,博弈论是研究决策
主体行为发生直接相互作用时的决策以及这种决策的均衡问题的学问,因此也有人把它称为
“对策论”
。
对于企业经营者来说,如何理解博弈论,如何运用博弈论原理指导企业有效管理,这是
值得思考的事情。在价格和产量决策、经济合作和经贸谈判、引进和开发新技术或新产品、
参与投标拍卖、处理劳资关系,以及在与政府的关系和合作等多方面,博弈论都是企业经营
者十分有效的决策工具,或者至少是比较科学的决策思路。
还有一个经典案例,是说当年英国政府将流放澳洲的犯人交给往来于澳洲之间的商船来
完成,由此经常会发生因商船主或水手虐待犯人,致使大批流放人员因此死在途中(葬身大
海)的事件发生。后来大英帝国对运送犯人的办法(制度)稍加改变,流放人员仍然由往来于澳
洲的商船来运送,只是运送犯人的费用要等到犯人送到澳洲后才由政府支付给商船。仅就这
样一点小小的“改变” 几乎再也没有犯人于中途死掉的事情发生。
,
关于这一问题,现任招商局掌门人秦晓先生在最近做客央视《对话》节目时,也谈了他
的一些看法。他认为:企业领导人应该去制定游戏规则,而不应该单纯地去做裁判。他觉得
制度应当比个人的权威和魅力更重要。小平同志讲过一句话,说一个好的制度可以约束坏人;
一个坏的制度呢可以使好人变坏。回顾历史,我们动不动就说获诺贝尔奖学金会怎么样,爱
迪生又发明了什么,但几乎少有人讲保险制度对社会进步的贡献有多大,专利制度对社会进
步的贡献有多大。
于是乎,又引出另一个新的问题——制度与文化。
在企业文化研究中,人们对“文化与制度”的认识经常陷入一种误区:或把二者对立起来,
或把二者混为一谈,分不清二者在企业管理中的地位与作用。有人把企业文化概括成三个层
次:物质文化、制度文化和精神文化。这种从广义角度界定的企业文化,无疑把制度包含在
内,即制度也是一种文化。但如果我们从狭义角度去研究企业文化,制度只是文化的一种载
体。制度与文化属于两个不同层次的管理和两种不同的管理方式。文化管理高于制度管理。
制度更多地强调外在的监督与控制,是企业倡导的“文化底限” 即要求员工必须做到的;文
,
化则更多地强调价值观、理想信念和道德力量,强调内在的自觉与自律,是“文化高境界”
。
- 5. 作比翼鸟,在地愿为连理枝嘛。如果都变了心,效果也不坏,你走你的阳关道,我过我的独
木桥嘛;如果一方变了心,另外找到了更好的情侣,一方却还傻乎乎的忠贞不二,那么,另
觅新欢的一方是最幸福的,比两人都不变心的结果还幸福,因为他找到了更好的情人,而被
抛弃的一方是最不幸的,因为她承担的压力及来自于对方的太幸福,也来自于自己的太不幸
福。如下图所示:
女孩
背叛 不背叛
男孩 背叛 5,5 10,0
不背叛 0,10 8,8
按照囚徒困境的分析结论,恋人最好是都防范对方一些,不奢望天荒地老,也不怕分道
扬镳,怕只怕对方另有所爱而自己却还执迷不悟。所以,恋人最天真的选择是天荒地老,最
理性的选择是分道扬镳,最糟糕的选择是被另有新欢的对方无情抛弃。既然天真的结局过于
不真实,最糟糕的结局又让一方过于心痛,那么唯一的出路就是要么不再付出爱,要么有所
保留的爱,千万别把爱当成生命来对待。
但是,现实中的恋人,大都希望天荒地老,没有谁愿意回头是岸,甚至被对方抛弃了也
不死心。为什么会这样呢?
因为纵爱的恋人与纵火的囚徒,其博弈状况有一个重大的不同。囚徒被警方抓住之后,
是隔离审查的,因此无法订立功守同盟,即便能够订立,谁能保证自己或对方永远不毁约呢?
恋人就不一样了,他们被爱情抓住以后,一般并不是隔离的,而是整天泡在一起。泡在
一起干什么呢?除了发誓,还是发誓!人生发誓最多的时期,大概就是恋爱期。发什么誓呢?
无非就是什么非你不娶啊非你不嫁啊的一类誓言罢了,目的只有一个,就是让对方相信自己
能够天荒地老而此情不渝。他们希望彼此忠诚,从而换来一个好的博弈结果。而且为了防止
对方变心,总要设法让对方相信,遇到我是你三生有幸,而我遇到你也是万世不悔。
可是,世间没有什么誓约是永恒的。所有爱情的悲剧,都从背弃誓约开始,而天下又似
乎没有没有誓约的爱情。
天各一方的恋人,更不容易恋爱成功,像被隔离审查的囚徒一样,除了违背誓约,他没
有更好的选择。
所以,要想在恋爱中成为赢家,你最好是不遵守爱的诺言,如此才能走出“囚徒困境”
。
这听起来相当悲哀。
可实际上,胜利是属于那些善意的、宽容的、强硬的、简单明了的恋人们。
什么是宽容而不尖刻地对待恋人呢?我们看一些例子就知道了,幸福的恋人可能并不是
忠贞不二的,当然也肯定不是见异思迁的,他们能够生活得愉快,关键是能够彼此宽容,既
宽容对方的缺点,甚至也宽容他偶尔的不忠贞。而尖刻地对待恋人的人,对恋人的偶尔不忠
贞总是不肯迁就的人,往往也都不会幸福。《倚天屠龙记》中的周芷若就是不肯宽容张无忌
- 6. 的逃婚之举,甚至要寻愁报复,最终只能遗憾终生了。
什么是强硬而不软弱地对待恋人呢?
其实就是在我永远爱你的善意的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙
还牙,以其人之道,还治其人之身。这其中,当然是有限度的。黄蓉能够赢得郭靖的爱,就
是因为她强硬而不软弱,对郭靖与华铮的亲热行为,从来都有极其强烈的敏感与斩钉截铁地
回报,当然,每次发脾气都是有限度的,而且她能宽容郭靖。而穆念慈对杨康是过于软弱的,
她没有掌握好强硬的原则,因而她的爱情生活注定是不幸的。
什么是简单明了而不是山环水绕地对待恋人呢?
实验证明,在博弈过程中,过分复杂的策略使得对手难于理解,无所适从,无法建立稳
定的合作关系。事实上,在一个非零和的环境里,“城府深严”并不能显现“不测之威” 所谓“兵
,
不厌诈”也并非有用的信条。相反,明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。
要让恋人明白你说的是什么,切忌让对方猜来猜去的,造成误会。因为不简单明了地对待恋
人最终导致误会而分手的爱情悲剧并不少啊。所以,爱情的手段还是简单一点好,让恋人一
看就明白,免去了很多猜谜的时间。
本来应该提防恋人才能在恋爱中获胜的简单博弈模型,因为有了不绝于耳的爱情誓言,
更因为有了对善意的、宽容的、强硬的、简单明了的原则的把握和利用,人世间才有了很多
幸福而美丽的爱情。
最高的博弈境界,应该是忘掉博弈,忘掉善意的、宽容的、强硬的、简单明了的等诸多
博弈原则,而进入浑然忘我的境界。
记得杨过在苦苦等待 16 年后,因为无法等来龙姑娘而纵身跳入寒潭,最后终于与小龙
女团聚之后,深有感触地说了一句话:“看来,人,还是钟情一些好!”
案例三:斗鸡博弈(存在两个纳什均衡)
斗鸡博弈的名称来自美国儿童之间的一种说法:如果说谁是小鸡就等于说谁是胆小鬼。
这样小鸡就代表了胆小。
斗鸡博弈的情况是这样的:
假设吉米和东尼这两个小孩被伙伴们鼓动得要做一场勇气的较量。两人分别从一条独立
桥的两端冲向对方,谁先胆怯退下让路,谁就是小鸡。这样,他们这场斗鸡博弈的对阵形势
是这样的:
东尼
如果两人中有一人退却,那么他会感
到自己在伙伴们的心目中威信扫地,设他
退 进
的得益为 0;相反,另一没有退却的人却
以胜利者自居,得益为 2。如果两人都退 退
吉米 1,1 0,2
却,哪怕两人内心都胆怯,但伙伴们却以
进
为是他们仍然虎视眈眈,互不相让,从而 2,0 -2,-2
- 7. 两人都不会很丢脸,得益均为 1;如果两个人都勇进,那么不是碰得头破血流,就是双双跌
入水中,此时得益均为-2。
经过分析,可见,此博弈中存在两个纳什均衡,即一个是吉米进东尼退;另一个是吉米
退东尼进。两个得益和都是 2,都是一胜一负。两个纳什均衡意味着有两个结果,那么实际
上会选择哪一个呢?这就要由别的因素来决定了。比如说,东尼特别怕水,那么它必然选择
退。
案例四:男女博弈:博弈论题:
“女生到了社会后,会遇到很多比在学校里更优秀的男生,而男生到了社会后,很难找到
比在学校里更优秀的女生了!”
校门内外,目标函数和信息结构(不对称)发生“革命” 首先,进行分析,要对相关概
。
念进行界定,这才是科学逻辑的起点。
优秀的男生(即智慧的、勇敢的男人,并且能够赚钱至少有能力养家糊口的男人)
优秀的女生(即善良、美丽的女人,并且是温柔体贴会做家务的女人)
校门内部:目标就是分数合格顺利毕业,这在中国哪个大学都是一个智商 90 以上的人
都做得到的,所以,女生要甄别优秀的男生(即智慧的、勇敢的男人,并且能够赚钱至少有
能力养家糊口的男人)实在找不到参照物,所以,毕业型目标函数导致校门内部的女生即使
拍拖也不知真伪。
所以,无能力、无斗志、无智慧的男生要赶快在校门内部将女生搞定,否则出了校门,
真正的战场(无论情场还是商场)上失败会接二连三。优秀的男生就不怕战斗,但是出了校
门,要找到同样优秀的女生却很难了。
校门外部:目标就是房子、车子和票子,就是“斗富” 女人在这样的浓厚商业气息的灯
,
红酒绿的环境里,会发现大学里谈的男生是那样的无知、无能和无助,所以,才有上海所谓
专家教授所说的 20 岁上海女人配对 40 岁上海男人的说法,尽管道德上败坏,但从经济上
看是可行的、超现实的,去年广东富翁们不是招聘老婆时,应聘者如云,这就是女人走出校
门后目标函数发生巨变的必然结果;尽管大款未必是好丈夫,但校门外的女人知道没有房子、
车子和票子,称心如意的生活过不下去,就只能干享清贫。同样地,这个时候的校门外的男
人发现:这整个社会的女人都变得如此势利,都几乎变成了母老虎,没有金山银山就满足不
了校门外的女人的无穷欲望,所以感叹优秀的女生已经成为遥远的记忆……
博弈的战略选择是:
男人无论优劣最好是在校门内找到优秀的女人,反正女生这个时候是信息劣势,是不明
真相的; 女人最好是出校门后在战场上发现优秀的男人(这时候信息才不会隐瞒,行为才
会变得透明,昔日的海誓山盟才会真正落地)再谈婚论嫁。
二者的时间错配怎么解决:这就要靠女生如何在校门内的选择了。
如果校门内的优秀女生没有这样的慧眼,那么就忍耐几年再说;如果有这样的慧眼,就
- 8. 要从众多男生中去寻找智慧的、勇敢的男人,并且能够赚钱至少有能力养家糊口的男人,这
样的男人必然会有一些不同于劣质男生的品质、特征和行为方式的,婚姻学中会有很多的这
样的抽样调查的,不过有一点是很普遍的,分数最高的、分数最低的男生在校门外往往都会
一事无成,而那些有毅力、穷追不舍(无论是拍拖还是作一件小事)的敢想敢做的男人往往
在校门外能够成长为优秀的男人,所以,优秀的男生是期货,就看你小女生能否看住了“看
涨”的期货。千万别看走了眼,这可是一辈子的大事!!
!
优秀的女生可要三思!
案例五:囚徒困境博弈
在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境” prisoners’
(
dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设
有两个小偷 A 和 B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间
内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,
交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人
各被判刑 8 年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表
明其有罪)再加刑 2 年,而坦白者有功被减刑 8 年,立即释放。如果两人都抵赖,则警方
因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱 1 年。下表给出
了这个博弈的支付矩阵。
囚徒困境博弈 [Prisoner's dilemma]
B 坦白 B 抵赖
A 坦白 –8, –8 0, –10
A 抵赖 –10, 0 –1, –1
我们来看看这个博弈可预测的均衡是什么。对 A 来说,尽管他不知道 B 作何选择,但
他知道无论 B 选择什么,他选择“坦白”总是最优的。显然,根据对称性,B 也会选择“坦白”
,
结果是两人都被判刑 8 年。但是,倘若他们都选择“抵赖” 每人只被判刑 1 年。在表 2.2 中
,
的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任
何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的
占优战略,而(坦白,坦白)是一个占优战略均衡。
要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书
上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,
外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人
间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的
术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,
常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的
- 9. 故事做例子,娓娓道来,并不乏味。
话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯
罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他
们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方
将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。
检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可
以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判
十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。
但是,如果你们两人都坦白交代,那么,你们都要被判 5 年刑。”斯卡尔菲丝和那库尔斯该怎
么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大
家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当•斯密的理论,
每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得
到很短的监禁——3 个月,但前提是同伙抵赖,显然要比自己抵赖要坐 10 年牢好。这种策
略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那
自己就得坐 10 年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人
同时坦白,至多也只判 5 年,总比被判 10 年好吧。所以,两人合理的选择是坦白,原本对
双方都有利的策略(抵赖)和结局(被判 1 年刑)就不会出现。
这样两人都选择坦白的策略以及因此被判 5 年的结局被称为“纳什均衡” 也叫非合作均
,
衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,
而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当
事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利
益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己
行为而导致的最终结局是一个“纳什均衡” 也是对所有人都不利的结局。他们两人都是在坦
,
白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想
时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当•斯
密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的
目的出发,而最终全社会达到利他的效果。
不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利
益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不
见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个
囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的
基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略” 但它必须
。
符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。
也就是中国人说的“己所不欲勿施于人” 但前提是人所不欲勿施于我。其次,
。 “纳什均衡”是一
- 10. 种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯•诺依
曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管
理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境” 这样的例子。如
价格战博弈、军奋竞赛博弈、污染博弈等等。一般的博弈问题由三个要素所构成:即局中人
(players)又称当事人、参与者、策略等等的集合,策略 (strategies)集合以及每一对局中人
所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一
局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
美国密西根大学一位叫做罗伯特•爱克斯罗德的人。爱克斯罗德是一个政治科学家,他组织
了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚
徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被
成双成对地融入不同的组合。分好组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人
都要在合作与背叛之间做出选择。关键问题在于,他们不只玩一遍这个游戏,而是一遍一遍
地玩上 200 次。这就是博弈论专家所谓的“重复的囚徒困境”
。
“重复的囚徒困境”更逼真地反映了具有经常而长期性的人际关系。而且,这种重复的游
戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一
个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立
了各自的历史档案,用以记录与对手的交往情况。同时,它们各自也通过多次的交手树立了
或好或差的声誉。虽然如此,对方的程序下一步将会如何举动却仍然极难确定。实际上,这
也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手
作何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗?它是否应该对对手的举
动回之以更为复杂的举措?如果是,那会是怎么样的举措呢?
事实上,竞赛的第一个回合交上来的 14 个程序中包含了各种复杂的策略。但使爱克斯
罗德和其他人深为吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报。我把它叫做
“以其人之道,还治其人之身”
。
“一报还一报”的策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治
其人之身的策略。也就是说,一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背
叛对方,从这个意义上来说它是“善意的” 它会在下一轮中对对手的前一次合作给予回报
。 (哪
怕以前这个对手曾经背叛过它)
,从这个意义上来说它是“宽容的” 但它会采取背叛的行动来
。
惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的” 而且,它的策略极为简单,对
。
手程序一望便知其用意何在,从这个意义来说它又是“简单明了的”
。
案例六:价格战博弈
现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波
炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会
- 11. “没事儿偷着乐” 在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡” 而且价格
。 ,
战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳
什均衡” 这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商
。
而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均
衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论
(vivalry game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价
格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最
大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价
格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假
定对手会按其最佳利益行动的基础上” 事实上,
。 完全竞争的均衡就是“纳什均衡”或“非合作博
弈均衡” 在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。
。
在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也
就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率
状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这
就是为什么 WTO 和各国政府要加强反垄断的意义所在。
案例七:污染博弈:
假如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,
宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企
业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业
从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成
本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不
见的手的有效的完全竞争机制”失败的例证。直到 20 世纪 90 年代中期,中国乡镇企业的盲
目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的
策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。
案例八:贸易战博弈论
这个问题对于刚刚加入 WTO 的中国而言尤为重要。任何一个国家在国际贸易中都面临
着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均
衡” 这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。X 国试图
,
对 Y 国进行进口贸易限制,比如提高关税,则 Y 国必然会进行反击,也提高关税,结果谁
也没有捞到好处。反之,如 X 和 Y 能达成合作性均衡,即从互惠互利的原则出发,双方都
减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。
博弈论--这是一个热得烫手的概念。它不仅仅存在于数学的运筹学中,也正在经济学中
占据越来越重要的地位(近几年诺贝尔经济学奖就频频授予博弈论研究者),但如果你认为
博弈论的应用领域仅限于此的话,那你就大错了。实际上,博弈论甚至在我们的工作和生活
- 12. 中无处不在!在工作中,你在和上司博弈,也在和下属博弈,你也同样会跟其他相关部门人
员博弈;而要开展业务,你更是在和你的客户以及竞争对手博弈。在生活中,博弈仍然无处
不在。博弈论代表着一种全新的分析方法和全新的思想。
诺贝尔经济学奖获得者包罗•萨缪尔逊如是说:要想在现代社会做个有价值的人,你就必
须对博弈论有个大致的了解。也可以这样说,要相赢得生意,不可不学博弈论;要想赢得生活,
同样不可不学博弈论。
弈中最优策略的产生
艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都
是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企
图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时
候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于
保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际
贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。
对策论以著名的囚犯困境来描述这个问题。
A 和 B 各表示一个人,他们的选择是完全无差异的。选择 C 代表合作,选择 D 代表不
合作。如果 AB 都选择 C 合作,则两人各得 3 分;如果一方选 C,一方选 D,则选 C 的得
零分,选 D 的得 5 分;如果 AB 都选 D,双方各得 1 分。
显然,对群体来说最好的结果是双方都选 C,各得 3 分,共得 6 分。如果一方选 C,
一方选 D,总体得 5 分。如果两人都选 D,总体得 2 分。
对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化
时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于 A 来说,当对方选 C,他选 D
得 5 分,选 C 只得 3 分;当对方选 D,他选 D 得 1 分,选 C 得零分。因此,无论对方选 C
或 D,对 A 来说,选 D 都得分最多。这是 A 单方面的优超策略。而当两个优超策略相遇,
即 A,B 都选 D 时,结果是各得 1 分。这个结果在矩阵中并非最优。困境就在于,每个人
采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理
性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。
如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策
略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策
者没有一次会合作。
如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成
默契时,对策者就能持续地各得 3 分,但如果持续地不合作的话,每个人就永远得 1 分。
这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率 W,
W 越大,表示未来的收益越重要。在多人对策持续进行下去,且 W 比较大,即未来充分重
- 13. 要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要
对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对
方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作
的人,也只能采取不合作的策略。
艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时
候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单
循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。
第一轮游戏有 14 个程序参加,再加上艾克斯罗德自己的一个随机程序(即以 50%的概
率选取合作或不合作),运转了 300 次。结果得分最高的程序是加拿大学者罗伯布写的“一报
还一报”(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对
方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。
艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即“善良的”
;
第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的” 第三,不能人家一
;
次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即“宽容性”
。
为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公
开发表。第二次征集到了 62 个程序,加上他自己的随机程序,又进行了一次竞赛。结果,
第一名的仍是“一报还一报” 艾氏总结这次游戏的结论是:
。 第一,
“一报还一报”仍是最优策略。
第二,前面提到的三个特点仍然有效,因为 63 人中的前 15 名里,只有第 8 名的哈灵顿程
序是“不善良的” 后 15 名中,只有 1 个总是合作的是“善良的” 可激怒性和宽容性也得到了
, 。
证明。此外,好的策略还必须具有的一个特点是“清晰性” 能让对方在三、五步对局内辨识
,
出来,太复杂的对策不见得好。“一报还一报”就有很好的清晰性,让对方很快发现规律,从
而不得不采取合作的态度。
合作的进行过程及规律
“一报还一报”的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群
体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合
作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,
艾氏用生态学的原理来分析合作的进化过程。
假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人
们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照
哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比
赛过程就是对策者相互学习的过程,“一报还一报”的策略好,有的人就愿意学。按这样的思
路,艾氏设计了一个实验,假设 63 个对策者中,谁在第一轮中的得分高,他在第二轮的群
体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,
由此可以看出群体是向什么方向进化的。
- 14. 实验结果很有趣。“一报还一报”原来在群体中占 1/63,经过 1000 代的进化,结构稳定
下来时,它占了 24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程
序,即原来前 15 名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当
发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对
方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报”之外的其
它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报”在
两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础
是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然
得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被
淘汰之后,这个好占别人便宜的成功者也要被淘汰。
那么,在一个极端自私者所组成的不合作者的群体中,“一报还一报”能否生存呢?艾氏
发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员
是“一报还一报”的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这
个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多
数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘
轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突
破了“囚犯困境”的研究困境。
在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,
对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会
有人跟他合作的。
那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约
以维持双方的合作。
(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的
时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能
力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就
一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局
不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态
度。第五、不要嫉妒人家的成功,“一报还一报”正是这样的典范。第六、不要首先背叛,以
免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要
耍小聪明,占人家便宜。
艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,
即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大
战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不
攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。
- 15. 第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这
一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,
预见性是有用的,学习也是有用的。
当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经
研究发现,以修正的“一报还一报” 即以一定的概率不报复对方的背叛,和“悔过的一报还一
,
报” 即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,
, “悔过的一报还
一报”效果越好,
“宽大的一报还一报”效果越差。
艾克斯罗德的贡献与局限性
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研
究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算
机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到
最高分。
(刘邦和项羽的战争)
艾氏所发现的“一报还一报"策略,从社会学的角度可以看作是一种“互惠式利他” 这种行
,
为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的
社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,
语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初
的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,
比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论” 或“资源悖论”
, 。
人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利
益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在
这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、
“人不犯我,我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的,因为“一报还
一报”在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德
报德,以直报怨”这样精彩的修正策略,所谓“直” 就是公正,以公正来回报对方的背叛,是
,
一种修正了的“一报还一报” 修正的是报复的程度,本来会让你损失 5 分,现在只让你损失
,
3 分,从而以一种公正审判来结束代代相续的报复,形成文明。
但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,
《合作
的进化》一书暗含着一个重要的假定, 个体之间的博弈是完全无差异的。
即, 现实的博弈中,
对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相
背叛时,可能不是各得 1 分,而是强者得 5 分,弱者得 0 分,这样,弱者的报复就毫无意
义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,
采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上