1
范里安《微观经济学:现代观点》
1.29.1 【学习精要】
【学习精要】

  知识点一 博弈的收益(支付)矩阵

  博弈论是研究决策主体的行为发生直接的相互作用时的决策以及这种决策的均衡问题。

  参与博弈的多个参与者的收益可以用一个矩阵或框图表示,这样的矩阵或框图就叫做收益矩阵。

  知识点二 纳什均衡

  纳什(Nash)均衡

  如果其他参与人不改变自己的策略,任何一个参与人都不会改变自己策略的均衡状态。即如果给定B的选择,A的选择是最优的,并且给定A的选择,B的选择也是最优的。

  纳什均衡与优超均衡的区别

  每一个优超策略均衡一定是纳什均衡,但并非每一个纳什均衡都是优超策略均衡。纳什均衡是有条件的优超策略均衡。

  一个博弈可能存在一个以上的纳什均衡,但是一个博弈也可能不存在纯策略纳什均衡。

  纳什定理

  即纳什均衡存在性定理,指如果一个博弈的参与人是有限的,并且每个参与人只有有限的策略,则该博弈至少存在一个纳什均衡。该定理没有指出是否唯一,一个博弈可能存在多个纳什均衡(这里所指的纳什均衡包括混合策略纳什均衡)。

  知识点三 混合策略

  纯策略:对于一个博弈,每个参与人只选择一种策略并始终坚持这个选择。

  混合策略:参与人使他们的策略选择随机化,即对每项选择都指定一个概率,并按照这些概率选择策略。

  混合策略纳什均衡就是这样一种均衡,在这种均衡下,给定其他参与人的策略选择概率,每个参与人都为自己确定了选择每一种策略的最优概率。混合策略均衡总是存在的。

  知识点四 囚犯的难题

  考虑下面的博弈,两个合伙犯罪的囚徒被逮捕,分别关在不同的地方进行单独审讯。每个囚徒都可以选择坦白或抵赖,如果有一方抵赖,另一方坦白,则抵赖方会受到更严厉的惩罚而坦白方却可以减轻惩罚。收益矩阵如下:

囚徒乙

坦白

抵赖

囚徒甲

坦白

-3,-3

0,-6

抵赖

-6,0

-1,-1

  很容易可以判断最后的纳什均衡是(坦白,坦白),即两个囚徒都选择坦白。但是从收益矩阵可看出(坦白,坦白)并不是一个最好的结果,而(抵赖,抵赖)则是最好的结果,但(抵赖,抵赖)最后却没有被实现,因为一旦一方选择抵赖,另一方的最优策略则是选择坦白。选择坦白是两个囚徒的占优策略。

  从中可以看出,纳什均衡并不一定导致帕累托效率的结果。

  囚徒困境应用非常广泛,在很多博弈中都有类似的现象。

  囚犯博弈的意义在于它可以解释寡头垄断厂商的行为,关键是赋予合作与背叛具体的经济含义。比如在双头垄断的情况下,合作可以解释为“保持索要一个高价”,背叛可解释为“降价以争夺对手的市场”。

  知识点五 重复博弈

  重复博弈是动态博弈的一种特殊情况,即在重复博弈中,同一个博弈被重复多次。影响其结果的主要因素是博弈重复的次数。

  囚犯难题的重复博弈

  (1)有限次重复博弈:假定每个局中人都知道博弈将重复一个固定的次数(比如重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一次性博弈。

  运用倒退归纳法。先从第5次开始,由于这是最后一次移动,将来不会再有,其结果是局中人双方都选择“背叛”策略。同理不断向后归纳,结果最后一次移动之前的所有移动中,合作并不能带来什么长期利益,没有什么优点,局中人唯有相信其他局中人将在最后一次移动中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。

  因此,在重复某一固定次数的囚犯难题重复博弈中,每一局博弈的均衡局势都是(背叛,背叛),而不是(合作,合作)。

  有限次的重复博弈不能解决囚徒困境中的背叛问题。

  (2)无限次重复博弈:当博弈的重复次数为无限时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚犯博弈中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。

  重复博弈中,局中人的收益是各阶段收益的贴现值之总和——贴现和(向0时刻贴现)。具体地说,设局中人在时刻t的收益(即第t局重复中的支付)为ut(t=1,2,3,…),他在重复博弈中的收益就是贴现和28-1,其中r为贴现率。只要贴现率不很高,囚犯难题每一局重复的均衡策略便都是(合作,合作),每个人在各个阶段都会看到合作的利益。

  采取针锋相对的策略——在每一局的博弈中,采取对手在上一局所选择的策略,能够解决无限重复的囚徒困境博弈实现有效率结果的极佳机制。

  即如果囚徒困境可以重复无数次,那么理性的选择就有可能导致帕累托有效的结果。

  知识点六 序贯博弈

  序贯博弈是指在博弈中,一个参与者先采取行动,先选择某一策略,博弈的另一方后采取行动,根据对手已经选择的策略再选择自己的最优策略,选择的双方是不同时的。

  前面的囚徒困境、重复博弈等都是同时决策,不是先后决策,即不是序贯博弈。

  对于序贯博弈,收益矩阵不再能准确地分析最后博弈的结果。因为收益矩阵掩盖了序贯博弈的不对称性。

  序贯博弈运用博弈的扩展形式——一种显示选择次序的表述博弈的方式来分析最后的均衡。

  具体的例子请读者仔细阅读教材,这里不再重复。

  在序贯博弈中,选择的次序是很重要的。在这些博弈中,找到一条能够事先承诺一条特定选择路径的方法通常是重要的。这也是知识点七所研究的内容:可信的威胁与不可信的威胁,即如何用威胁来选择一条事先承诺的选择路径。

  知识点七 进入制裁的博弈

  1.不可信的威胁

  不可信的威胁影响不了纳什均衡的实现,定价博弈的最终结局是甲乙双方都执行纳什均衡策略。至于谁先采取行动,则是无关要紧的,没有先行动者的优势可言。

  2.可信的威胁

  可信的威胁可以使局中人双方达成一种协议,从而改变博弈最终实现的均衡,使发出威胁者在博弈中获得优势。

赛车远程

小型车

大型车

小引擎

0,6

0,0

大引擎

1,1

8,3