重复博弈金号角网

重复博弈

2020-08-15 15:10 浏览：899

定义

在重复博弈中，每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义：
定义1：可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。

特征

1、阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的策略可以选择，均衡结果可能与一次博弈大不相同。

重复博弈是指同样结构的博弈重复许多次。当博弈只进行一次时，每个参与人都只关心一次性的支付；如果博弈是重复多次的，参与人可能会为了长远利益而牺牲眼前的利益，从而选择不同的均衡策略。因此，重复博弈的次数会影响到博弈均衡的结果。
1.无限次重复博弈：下面用一个关于产品定价博弈的例子分析重复博弈。
产品定价博弈
厂商B
低价高价
厂商A低价
高价12，1220，4
4，2015，15

是两个厂商A和B定价的支付矩阵，从中可以看出：在一次性博弈中中，厂商A和厂商B都存在上策，上策均衡是双方都定低价。
从参与人行为看，由于博弈可以重复无数次，博弈双方为了长期利益有时间进行试探性出价。在第一次博弈时出高价以寻求竞争对手的合作，一旦对局人为了短期利益采取不合作行为，那么就会建立该对局人是不可信任的信念，在下一次的博弈中都采取不合作的低价行为，使对局人的长期利益受损。
可见，厂商B在第一次博弈中由于不合作策略得到的高收益会在以后博弈中因A的报复性策略而抵消，甚至在重复博弈若干次后出现损失。
假如厂商A开始制定的高价策略，从支付矩阵得到厂商B若也定高价，其每次博弈的支付分别为（15，15，15．．．）；若厂商B制定低价，则在第一次博弈中获得高收益，但是随后会由于厂商A的低价行为而使其受损，各次博弈的支付分别为（20，12，12．．．）。厂商A的这种策略被称为“以牙还牙”策略，这种策略是A在初始选择合作，如果B合作，那么A也会一直合作下去；若B在某一次博弈中选择不合作，那么A在以后博弈中都采取不合作策略。“以牙还牙”策略意味着任何一个参与人的一次性不合作将会引起永远的不合作。所有参与人为了长期利益，使得无限次重复的非合作博弈产生合作解。
2.有限次重复博弈：假定重复有限的N次，这意味着所有参与人都能预测到最后一次（第N次）的收益。在第N次博弈中，各参与人都知道对方的“以牙还牙”，但是他也知道如果在这次博弈中自己选择低价的上策，将使自己受益而其他参与人受损，且也不会留给对方报复的机会（博弈到第N次结束）。所有参与人都明白这一点，因此在最后一次博弈中将都采取低价策略，这与一次博弈的上策均衡结果相同。
在现实中，市场竞争者很难弄清重复博弈的结构。厂商很难预期自己在什么时候会结束经营，也不清楚与对手的竞争何时是第N次博弈。因此，只要竞争时期足够长，竞争的双方都预期未来还要进行很多次博弈，那么，竞争的结构就可能近似于无限次重复博弈，使得厂商在竞争中出现相互合作的局面。

序列博弈

在实践中，博弈者在选择行动时可能有先后顺序或某些对局者可能率先采取行动，这种博弈被称为序列博弈。
1.先行者优势：厂商生产甜味饼干的收益10要高于生产脆味饼干的收益8。假定两个厂商同时独立的做出生产决定，他们都愿意推出甜味饼干——结果是两家收益都受损
厂商2
脆甜
厂商1脆
甜—3，—38，10
10，8—3，—3
可见，在序列博弈中，先行者可能占据一定的有利地位，这就是先行者优势。厂商1为获得更大收益，会选择推出甜味饼干，使得厂商2只能选择收益较低却是最优的策略——推出脆味饼干。
2.博弈的扩展形式：常用博弈的扩展形式来分析序列博弈，它用决策树的形式表示可能的行动，并在各枝的结束处给出各行动的支付。

脆-3，-3
脆厂商2
厂商1（2）甜8，10
（1）脆10，8
甜厂商2
（3）甜3，-3

博弈的扩展形式的解一般用逆推法推导，由最后的收益逆向归纳，倒推到初始节点1处做出最后决策。

例子

以下我们用一个产品定价的例子讨论重复博弈，给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择：定高价或定低价。如果两个参与人都定低价，则每个参与人的收益均为20个单位；如果两人都定高价，则每人的收益均为30个单位；如果其中某一参与人定低价，而另一参与人定高价，则定低价的参与人有占有更多的市场份额获得40个单位的收益，定高价的参与人由于失去一部分市场份额而只获得10个单位的收益。显然，在这个一次性完全信息静态博弈中，两个参与人均有占优策略，占优策略均衡为A、B双方都定低价。
如果A、B之间的定价博弈是多次进行的，那么，问题就不是如此简单了。我们先来分析博弈重复次数为无限时的情况。
如果A、B双方都选择合作，都保持定高价，则双方在每个阶段的收益均为30个单位，记为(30，30，30，…)；如果A、B中有一方(如A)采取投机行为，在实际定价中选择不与对方合作，在第一阶段就通过选择定价策略使得选择高价策略的对手B受损，则受损的一方B一定会在第二阶段及其以后的定价中也选择低价策略，加以报复，这样一来，首先选择不合作的一方A在个阶段的收益为(40，20，20，…)，显然，其总收益远远小于合作、维持高价情况下的总收益。因为，首选选择不合作的一方A，只是在第一阶段获得了“额外”收益，但在以后个阶段的收益将因为对手B的报复性选择而减少，并且，重复若干此后，首先选择不合作的一方A将得不偿失。
在这里，B选择的策略称为“冷酷策略”(grimstrategies)。冷酷策略是指重复博弈中的任何参与人的一次性不合作将引起其他参与人的永远不合作，从而导致所有参与人的收益减少。因此，所有参与人具有维持合作的积极性。我们再来讨论博弈重复次数为有限时的情况。
重复次数有限博弈与重复次数无限博弈之间的惟一区别，是所有参与人都可以明确无误地了解重复的次数，即可以准确地预测到最后一个阶段博弈。而在最后阶段的博弈中，任何一个参与人选择不合作，不会导致其他参与人的报复。因此，所有参与人都会在最后阶段的博弈中选择自己的占优策略，那就是不合作。上例中，在最后阶段博弈中选择低价是所有参与人的占优策略。
既然所有参与人都会在最后阶段选择不合作，那么，在倒数第二阶段博弈中任何参与人也就没有必要担心由于自己选择不合作，导致其他参与人在最后阶段博弈中的报复。因此所有参与人在倒数第二阶段博弈中，也都会选择不合作。即在倒数第二阶段博弈中，所有参与人都会选择占优策略。
由此类推，可以得出以下结论：在阶段性博弈存在惟一的纳什均衡时，阶段博弈的纳什均衡解就是重复次数有限博弈的唯一子博弈精炼纳什均衡解。即重复次数有限博弈的每个阶段的均衡解都是一次性博弈的纳什均衡解。注意，上述推论成立的前提条件是阶段性博弈纳什均衡的惟一性。 ^[1]

重复博弈

推荐阅读