博弈论
概述
什么是博弈论?
博弈论高级学术著作《博弈圣经》 博弈论的定义博弈论的定义:Definition of the game theory:
我们把动物利用大自然移动的瘾魂,在决策人期待的空间里,形成相对均衡的语文学理论,称为博弈论。
(摘自《博弈圣经》中《人类未知的蓝色档案》一文)。
The theory of relative balance about the mobile addicts and soul of animals in the nature and in the expectation of decision makers is called the game theory. (quoted from the article “The Blue Files Unknown to Humankind” in Bible of Game Theory)
博弈论(Game Theory),有时也称为对策论,或者赛局理论,应用数学的一个分支, 目前在生物学,经济学,国际关系,计算机科学, 政治学,军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈(Game))间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。 表面上不同的相互作用可能表现出相似的激励结构(incentive structure),所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。 具有竞争或对抗性质的行为成为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。 生物学家使用博弈理论来理解和预测进化论的某些结果。例如,John Maynard Smith 和George R. Price 在1973年发表于Nature上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。还可以参见进化博弈理论(evolutionary game theory)和行为生态学(behavioral ecology)。 博弈论也应用于数学的其他分支,如概率,统计和线性规划等。
对博弈论的研究可以追溯到19世纪,甚至更早。对于博弈论的研究,开始于策墨洛(Zermelo,1913),波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928),后来由冯·诺伊曼和奥斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)(《博弈论与经济行为》)首次对其系统化和形式化(参照Myerson, 1991)。随后约翰·福布斯·纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。 直至《博弈圣经》的出现, 《博弈圣经》与原有博弈论书籍最大的不同就在于,独创了国正论、国正双赢理论和粒子行为论,书中博弈取胜的文化理论统一了人类的博弈占优行为。更重要的是,它让博弈理论终于可以在现实生活中具体操作,让普通大众通过研习,成为真正的博弈高手。因此, 《博弈圣经》中的博弈理论在政治、经济、文化、生活、娱乐等社会的各个领域具有可应用性,并且对于个人的工作、生活也有具体的指导意义。此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的的学科。
我们应用科学发展观的博弈哲学思想,阐明了博弈论、矛盾论、概率论的战术性质。
博弈论是二人对局,一个叫决策人,一个称对抗者。
矛盾论是两个同性质的二人对决。
概率论则是通过二人对局的个数之比得出。
博弈论、矛盾论、概率论各自都是两个相同性质的对决只能提供经验,只有对实体与性质的区分才能称为知识。西方文化大宗教理论都是极其渺小的个体性质的战术属性,决不能处理博弈实体里的战略。在任何博弈实体的系统里,在具体事件中,用矛盾论建立的二人博弈对局都是在悖论中自圆其说,都不能通达博弈实体的事实真相。博弈论、矛盾论、概率论这些文化大宗教理论已经不能解决未来博弈实体里的文明,到了极不正常的历史死亡阶段。因为这些抄来抄去的非物质文化概念,界定模糊,无法定性,无法区分,无法操作,无法验证,不能证明,又不能证伪。它让人没有自在,没有自我,没有哲学,更没有科学。科学不是为哪个阶级服务的,科学是大自然前进的规则,科学又像似监工,《博弈圣经》中说:“科学是专门批判他人的。”任何邪恶和迷信都会后退,科学的任务是如实地让人们认识自然本来的面貌。粒子行为论、国正论、国边常数1.992187是对政府和人民的提醒,也是让怀疑论者百口难辨。博弈基因取胜的理论会引发更多人对战略文化的思考。
从行为的时间序列性,博弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。通俗的理解:“囚徒困境”就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈
目前经济学家们现在所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论。)。
博弈论还又很多分类,比如:以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈;以表现形式也可以分为一般型(战略型)或者展开型,等等。
博弈论中的国正论国正论,国正双赢理论、粒子行为论,是博弈论的重要理论,出自著名经济学高级学术著作一书,为博弈论理论打下了坚实的基础。
国正论释义:它是一个实体性质的地域似的区间,具有复杂的结构,用情、理、法、力都不容易分割的一个不知大小的抽象体。从中我们可分出正确和期望得到的那一小部分,与反相对、与负相对,又可以判断事物的道理。世界上的万物、事件的结果,都是不平等的、非绝对对立的两块,大的那部分是国,小的那部分是正。
《博弈圣经》中的国正论
人的行为互相作用,互相影响,高熵赛棋─—就是研究判定人的行为,互相作用时的决策和结果之间的关系,是国是正,没有任何决策能独立于国正大小不同的两块之外,博弈结果的国正论显得更为重要而广泛。
世界上的任何事情,都可以看成是博弈,把世界看成是一个大的博弈场。发明家的粒子行为论、国正论、博弈的正理理论,正在启迪人们,并逐渐地感觉到那是博弈的大发明,并告诉所有的人,去除一切传统的博弈思想,改用新的博弈行为,对待每一个事情,找到一个最好的单方占优的博弈正理的决策立场,可以对未来一切的事物进行因特分配。
理解国正论的发明,再用国正论理解决策人和对抗者,解释现在和未来。用国正论解释不绝对对立的现象十分恰当,当人们涉及到过去,把它看成和现在或未来相关,实际这是混为一谈。整个过去、现在、未来失去了各自的位置,陷入了混沌无序之中,有时候人们把过去当成未来,有时又把现在和二者混起来。一个真切的感觉是它们实现真理的一致性,国正论就是实现它们真理的理论,先进行体验,辨别出或然性真理,再把未来博弈正理推导出来。我们说国正论是来自大自然,国正论必须被当成自然的教令加以接受,我们注意到,越是崇高神圣的东西越不太容易被接受。国正论的国,指的是包含了负的意思,决策人作出赞成的决定,是国(博弈的结果是负),决策人作出反对的决定也是国(博弈的结果也是负),国与正本身就是一个难以理解的分配结果的博弈的词汇,一个人决策,两个以上的人对抗,就有可能会出现双赢,就是大于两个以上的合作者才会出现双赢。
《博弈圣经》中《人类未知的蓝色档案》一文中写道:“谁能让现代的博弈行为接近野蛮,谁能让友善与凶残之间的距离大到令人不解,谁就在博弈中取胜。”
博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样,都是从复杂的现象中抽象出基本的元素,对这些元素构成的数学模型进行分析,而后逐步引入对其形势产影响的其他因素,从而分析其结果。
基于不同抽象水平,形成三种博弈表述方式,标准型、扩展型和特征函数型利用这三种表述形式,可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲,博弈论是研究理性的行动者相互作用的形式理论,而实际上正深入到经济学、政治学、社会学等等,被各门社会科学所应用。
国务院的战略版本《博弈圣经》中说:"一个民族博弈知识的落后,也会落后其他民族。无论是穷国和富国,还是穷人和富人,都会要求改善博弈的结果。""穷富的区别就在于分享博弈正理的多少。"科学发展观正在利用道德与博弈的版本作为战略;整合人才、知识、科技、创新的一切优势,推进着国家的富强,并向未来发出挑战
。一个国家的高端人群和各界精英如果掌握了更多的博弈知识,掌握了博弈方法论,就会表现出令人难以置信的经济成就。也许在某一时期,他们参与世界博弈的混战,世界经济也会为此颤抖。
我们用高熵赛棋认识粒子行为,就是认识人的行为,它和各单元之间的相互作用就是提示我们认识人和社会的关系,就不是部分之和那样简单。其实,它包含了无数个体单元性质的主题,它们相互嵌套在一起,是实体的概念。科学发展观就是这个博弈实体的概念,《博弈圣经》上说:“实体一元论在数目上的同一性,发生的因果次序不属于个人的部分本性,这种属性是实体的性质。”由此看出,人是代表了实体。如果认识科学发展观是用博弈实体的理论,就可以确定人性与物的对局是决策粒子二特性,也是大自然的平行法则。如果我们用科学发展观的定义,理解科学发展观和博弈实体相关联的许多事物并把它应用到社会中的具体事件上,用四种量具作出的区分,那才是完美的知识论。 由此,我们也看出了三笔糊涂账:
一,中国的孙子兵法:运筹帷幄,审时度势,权衡利弊,知己知彼,至今却没有形成标准化的尺度,也没严格的数据。如果我们用科学发展观的定义度量它们,它是一笔糊涂账。
二,现代人对社会的认识:什么是各部门之间加强沟通、协调与综合平衡,什么是精确思维和模糊思维的对立统一,什么是个人目标与组织目标综合思考,什么是定性定量相结合,什么是相互合作又相互竞争,什么是单极思维与综合思维。我们对每一句话进行追踪,发现它们抽象、空洞,没有具体内容。谁也不知道表述的一大半一小半是什么结构,没有实体,就没有性质,没办法定性就没办法区分,没办法量化就没办法计算。如果我们用科学发展观的定义度量它们,它又是一笔糊涂账。
三,近代科学家的理论:广义相对论和狭义相对论、牛顿的力学和绝对时空观、弯曲时空、坐标对应、平衡对称、四维时空、场属性等这些概念,如果我们用科学发展观的定义度量它们,它是科学家的一笔糊涂账。
无论他们用什么方法,都是在用不同的方式进行排列,也是在进行博弈的重组。几百年来,人类探索博弈取胜之道毫无进展,理论思维极度混乱。今日我们用科学发展观的定义再看博弈论、矛盾论、概率论,还有所谓的经济学名著,无论多么伟大的经济学天才,使用上述的这些理论,都不知道怎么占优,不知道怎么能赢。
既然他们在预测未来上毫无进展,那么在科学发展观的时代,就应该对高熵赛棋研究博弈单方占优的理论有所关注。即使总统竞选也是使用了高熵赛棋二人对局的博弈机制。以往谈囚徒困境和纳什均衡的人都是用一个模糊的概念搬来搬去,坐在办公室里凭空假想,从无知到无聊争论了半个多世纪。博弈论是赌徒理论,是真正赌徒的矛盾对决,用筹码表现输赢与均衡结果的语文学理论那才是真正有价值的经济学理论。看看《博弈圣经》,怎样区分决策人和对抗者的先后次序,为什么对它们进行了不同的称呼,满足了托马斯•谢林多年的困惑,实现了它们的单方占优。更为讽刺的是,一本本博弈论著作,古老的内容千篇一律,里面没有几句精彩的话,没有几个经典的词,更没有定理、定律、定义和法则。至今一个个博弈论专家、矛盾论专家、概率论专家和外行知道得一样多。从《博弈圣经》的出版,人们才知道博弈的二人对局中一个是决策人,一个是对抗者,《博弈圣经》在166节中写道:“那些身穿黑色礼服,年迈的绅士们,为博弈的进步捧走了人类最高的诺贝尔奖,这是人类博弈的最高水平,假如他们进入娱乐场,在百家乐的赌台上搏击,我想他也会像拳击运动员一样被击败在拳台上,这一定是一个事实,他必须接受这个事实,一定会被裁判渎秒。”
以往经济学家为了降低风险,建议投资多元化,“不要把鸡蛋放在一个篮子里”。这种分散投资的经济思想,实在是经济学家对博弈取胜的无奈。我们把科学发展观的理论特征和高熵赛棋的实际相结合,从实际操作的输赢结果中得出结论:一个资深的经济学家在高熵赛棋上的表现比一个智力不全的人还占弱势,这是无情的博弈事实。《博弈圣经》在453节有一段风趣的表述:“我们根本不能完全理解大自然,或许人们不如老鼠在寻找食物时能选择最近的路程,那是大自然的拓扑几何图像的捷径。”
西方死亡的博弈论非白即黑的矛盾论辩证法已经受到时间、空间和博弈实体特性的极大限制,而博弈论、矛盾论、概率论和西方经济学一样都不是完美的理论,已经不能指导博弈实体向更高文明的发展,更不能指导未来。科学发展观的博弈实体知识论、国正论哲学辩证法、矛盾论经验对决,它们共同的结构可以构筑未来科学、自然哲学博弈实体经济学。
我们应用科学发展观的博弈哲学思想,阐明了博弈论、矛盾论、概率论的战术性质。
博弈论是二人对局,一个叫决策人,一个称对抗者。
矛盾论是两个同性质的二人对决。
概率论则是通过二人对局的个数之比得出。
博弈论、矛盾论、概率论各自都是两个相同性质的对决只能提供经验,只有对实体与性质的区分才能称为知识。西方文化大宗教理论都是极其渺小的个体性质的战术属性,决不能处理博弈实体里的战略。在任何博弈实体的系统里,在具体事件中,用矛盾论建立的二人博弈对局都是在悖论中自圆其说,都不能通达博弈实体的事实真相。博弈论、矛盾论、概率论这些文化大宗教理论已经不能解决未来博弈实体里的文明,到了极不正常的历史死亡阶段。因为这些抄来抄去的非物质文化概念,界定模糊,无法定性,无法区分,无法操作,无法验证,不能证明,又不能证伪。它让人没有自在,没有自我,没有哲学,更没有科学。科学不是为哪个阶级服务的,科学是大自然前进的规则,科学又像似监工,《博弈圣经》中说:“科学是专门批判他人的。”任何邪恶和迷信都会后退,科学的任务是如实地让人们认识自然本来的面貌。粒子行为论、国正论、国边常数1.992187是对政府和人民的提醒,也是让怀疑论者百口难辨。博弈基因取胜的理论会引发更多人对战略文化的思考。
高熵赛棋这个单方占优的理论模型,把百家乐赌台当棋盘,把赛棋“红方、蓝方”转换成“庄、闲”,一旦特性移植的取胜理论被验证,那些无知又无聊的一维思想,那些忽悠人的博弈论、矛盾论、概率论将被彻底否决。
《货币的威力》一书中说:“哪里有生命,哪里就有事件的开端。哪里有矛盾,哪里就有死亡。哪里有非绝对对对立的国正论,哪里就有粒子行为的碰壁而终结,哪里就有新体制、新结构和新事物的创生。”
21世纪是科学发展观的时代,与此同时各种错误的观念都在转变。未来的专家不必用围棋、象棋和多米诺骨牌表示博弈对局,这些都不是博弈的实战模型。那些在媒体上拿着棋子在棋盘上比来比去做广告的人,没有一个人能讲出什么是战略,什么是战术,什么是决策人和对抗者,他们怎么能单方占优,怎么才能赢。更为滑稽的是,一个博弈论专家、矛盾论专家、概率论专家,竟没有创造一个词,也没发明一句经典的话,更不要说定理、定律、定义和法则,所以没有一个人敢公开说怎么赢。
未来的政治家、军事家不能仅仅喊几句博弈口号或知道一点散落在民间的博弈小常识和几个博弈词汇,也不是讲几个博弈的小故事。如果不知道高熵赛棋具有极其重要的军事战略文化价值,没有真正用高熵赛棋的二人对局对其进行深入地实战性研究,就不知道在二人对局中如何战胜对手,更不知道在未来的大博弈中取胜,对一个国家的各级CEO,那将是一个灾难性的未来。《博弈圣经》上说:“21世纪博弈的大事是精确地测量,科学家可以对未来100年的科学进行预测,没有一个人敢预测博弈的未来,可见难度非同一般。不经过测量的东西是粗糙的、杂乱的、不符合意愿的、难以控制的。”《博弈圣经》阐述的理论和高熵赛棋,这不是虚构的文学故事,也不是官员的形式空话,更不是大学里抄来的论文,这是公开于世的发现,它所有的理论都受到知识产权的法定保护。
成语:(1024连胜法则)成语:(1024连胜法则)
高熵赛棋是一个大发明,它是一个博弈的取胜模型,
总统候选人用它获得竞选宝座,科学家用它有所发现,傻子用它改变智力的结果
麻将店老板得知这一消息,就买了几套高熵赛棋放到店里,结果很少有人玩,该店就决定通过一次竞赛让人们了解高熵赛棋。当竞赛信息发出后,奇怪的是前来报名参赛的人有总统候选人、科学家、还有一些傻子。由于赛期和总统竞选日期冲突,候选人就不来了,科学家担心自己发现的成果会泄漏,科学家也不来了,最后有1024个傻子参加竞赛,他们使用末尾淘汰制,经过八轮淘汰之后,剩下四个傻子连续八次不败,让人无奈的是他们遵照了“1024连胜法则”,其中的一个傻子对麻将店老板说:“博弈不讲智力,只要参与就有机会。”
《博弈圣经》里《人类未知的蓝色档案》一文中说:“想赢得未来,不是数学家的映射方程,而是映射均衡。”在高熵赛棋上每一次发生的事件分别用红蓝粒子进行记录,可以看成是一个粒子行为的一次涨落,也是自己的智慧作出与大自然竞赛结果的记录。当同色粒子连续出现三次之后就另外加上一个粒子,通过这样一个粒子插值,有可能产生一个基本粒子单元,也就相当于结束了一个事件或一个阶段。这个虚拟的粒子插值组成了一个粒子大分子,这个插值相当于正常机体里的癌细胞,它的增值会使这个健康的大分子染上与它同样的性质,已经失去真实大分子的价值,根据国正论系统的辩证法原理,人们把这个虚拟癌化的大分子看成“国”,把它映射均衡的空间看成一个“正”的稳定区间,这是博弈取胜的空间,在事件发生之前一大半的信息可以被人掌握。
博弈论人的行为表现自然科学一切创新的文化,借用高熵赛棋这个二人博弈对局的模型认识粒子行为基因的映射均衡原理,它证明了自然界的一切事物不可约化的复杂性,科学家越来越多的努力在这里遭到了莫名奇妙的失败。我们从科学的定义里可以看出,任何一个人在博弈实体中发生的事件都是前所未有的,也不可预测。谁通过观察高熵赛棋上的粒子状态,谁用历史上自然显示出来的粒子规律和经验预测未来,谁将失败。创新的设计和预测没有固定的章法,也没有不变的模式。
经验是个人可复制的历史文明行为。
规律是领袖对未来秩序的文化思考。
博弈论(gametheory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。
纳什(JohnNash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。
所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略(strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。
“一报还一报”的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。艾克斯罗德(RobertAxelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。
假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,“一报还一报”的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。 实验结果很有趣。“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报”之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。 进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。 那么,在一个极端自私者所组成的不合作者的群体中,“一报还一报”能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是“一报还一报”的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了"囚犯困境"的研究困境。 在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。 艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。(刘邦和项羽的战争)
艾氏所发现的“一报还一报”策略,从社会学的角度可以看作是一种"互惠式利他",这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论”,或“资源悖论”。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、“人不犯我,我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的,因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德报德,以直报怨”这样精彩的修正策略,所谓“直”,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报”,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。
但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序还可以在此基础上进一步改进。
其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着"预期"行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。
最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的"一报还一报",规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。
著名的例子:“智猪博弈”Pigs’payoffs 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。
“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。
改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。
比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。
[1] 经济学高级学术著作《博弈圣经》曹·国正(新加坡) http://www.caoab.com
[2]Harold W. K.(editor), 1997, Classics in Game theory, Princeton, NJ:Princeton University Press ISBN 0691011931
[3]Myerson, R., 1991, Game Theory: Analysis of Conflict. Cambridge and London: Harvard University Press.