博弈论

顾倩倩

目录

  • 1 课程概况
    • 1.1 课程主要内容
    • 1.2 课程目标
    • 1.3 教材及参考书目
    • 1.4 考核方式
  • 2 导论:何为博弈?
    • 2.1 课程导入
    • 2.2 从一个故事说起
    • 2.3 我国古人对博弈的阐释
    • 2.4 理论的诞生与发展
    • 2.5 博弈论的应用领域
    • 2.6 学习博弈论的收益
    • 2.7 小结
  • 3 走进博弈论
    • 3.1 博弈的术语
    • 3.2 博弈的表示方法
    • 3.3 博弈的基本分类
    • 3.4 课前任务
    • 3.5 博弈的基本假设
    • 3.6 共同知识假设
  • 4 纳什均衡
    • 4.1 纳什:天才还是疯子
    • 4.2 解放博弈论
    • 4.3 纳什均衡
    • 4.4 挑战亚当·斯密
    • 4.5 课后任务
  • 5 囚徒困境与完全信息静态博弈
    • 5.1 囚徒困境详解
    • 5.2 囚徒困境与制度建设
    • 5.3 如何走出囚徒困境?
    • 5.4 完全信息静态博弈
  • 6 囚徒困境的扩展应用
    • 6.1 大萧条与凯恩斯革命
    • 6.2 价格战
    • 6.3 独裁者与多数人的懦弱
    • 6.4 民主与多数人的暴政
    • 6.5 公共地悲剧
    • 6.6 旅行者困境
  • 7 智猪博弈与搭便车策略
    • 7.1 智猪博弈案例
    • 7.2 智猪博弈的扩展
    • 7.3 实例分析
    • 7.4 智猪博弈优化
  • 8 懦夫博弈与性别之战
    • 8.1 懦夫博弈
      • 8.1.1 基本模型
      • 8.1.2 实例分析
      • 8.1.3 公共物品的提供
    • 8.2 性别之战
      • 8.2.1 基本模型
      • 8.2.2 实例分析
      • 8.2.3 扩展分析
  • 9 枪手博弈:学会置身事外的智慧
    • 9.1 引入:后汉三国的局势
    • 9.2 枪手博弈
    • 9.3 置身事外的智慧
    • 9.4 进攻方向的选择
  • 10 万元陷阱与沉没成本
    • 10.1 万元陷阱
    • 10.2 沉没成本效应与路径依赖
  • 11 蜈蚣博弈:从终点出发的思维
    • 11.1 课前任务
    • 11.2 蜈蚣博弈及其悖论
    • 11.3 海盗分金案例
    • 11.4 人生的倒后推理
    • 11.5 选择决定人生
  • 12 最后通牒与讨价还价
    • 12.1 最后通牒
      • 12.1.1 最后通牒的含义
      • 12.1.2 独裁者博弈
    • 12.2 讨价还价博弈:把自己变成谈判高手
      • 12.2.1 案例引入
      • 12.2.2 基本模型
      • 12.2.3 讨价还价的博弈智慧
  • 13 酒吧博弈:混沌系统中的策略
    • 13.1 要不要去酒吧?
    • 13.2 非线性系统:一加一并不等于二
    • 13.3 混沌世界的临界点
    • 13.4 分阶段实现人生目标
    • 13.5 让开那座独木桥
  • 14 无处不在的博弈智慧
    • 14.1 选举投票与博弈
    • 14.2 海滩占位模型
如何走出囚徒困境?

思考:囚徒困境产生的原因


1.  缺少博弈知识?

2.  缺乏沟通/承诺?

3.  囚犯追求个人利益最大化导致的?

一、原因分析

  • 古人没有博弈知识,也能运筹帷幄

  • 即使有口头承诺,也不具有约束力

  • 博弈的规则——每个囚犯为追求自身利益的最大化,都会选择对自己最有利的策略

最终,两人都选择“坦白”,成为自愿坐牢的嫌疑人

囚徒困境为一次博弈

二、走出囚徒困境的途径

在耶鲁大学的博弈论公开课中,教授BenPolak指出:

解决囚徒困境的本质是一定要改变参与者的收益或支付,其具体提出了三种方法解决囚徒困境:

1. 订立具有强制力(惩罚机制)的契约、合同等

2. 不固定次数的重复博弈

3. 教育

(一)带剑的契约更有效

案例:

  • 班主任组织本班同学参加集体活动

  • 在一次集体活动中,班主任通知全班同学早上8:00到校门口集合,因几个同学拖拉,导致8:15才出发

  • 此后的集体活动,班主任通知7:45集合,结果拖拉的同学也在8:00赶到

  • 时间长了,同学们发现班主任的通知的集合时间故意提前,大家仍然按照真实的集合时间,从而导致几个同学在8:00后赶到;而那些7:45到达的同学都开始抱怨,进而不再守时


班主任:

目标:通知合适的集合时间,准时出发且避免同学为等待而有所抱怨

解决途径:应当制定怎样的策略来破解迟到困局?

分析:

多人的囚徒困境,存在着老师与学生、学生与学生之间的博弈v每个学生的最优策略是选择到达集合地点的时间,既不能太早,又不能太晚。

要破解这个困境,班主任有两个策略选择:

  • 一是只要过了集合时间,就不再等下去,让迟到的学生独自承担责任

  • 二是如果迟到的学生比较多,那么等到某个数量的学生到齐之后,就马上出发,而让迟到时间过长的学生承担责任

对迟到的同学进行惩罚,迟到的问题才能解决

每一个鼓励合作、运行良好的组织,通常都少不了一种惩罚违约(作弊)行为的机制。


然而,“带剑的契约“往往只是保证合作的第一步,想要成功达成合作,关键还在于惩罚机制所设置的惩罚制度是否具有合理性与可操作性美国普林斯顿大学的古尔教授曾用下面这则例子说明了威胁的可信度问题。

  • 两兄弟总是为玩具吵架,哥哥总是抢弟弟的玩具。不耐烦的父亲宣布:“好好去玩,不要吵我。不然的话,不管你们谁向我告状,我把你们两个都关起来。”被关起来与没有玩具相比,情况更加糟糕。

  • 后来,哥哥又把弟弟的玩具抢去了,弟弟没有办法,只好说:“快把玩具还给我,不然我要告诉爸爸了。

  • 哥哥想:你真的告诉爸爸,我是要倒霉的,可是你不告状只不过没玩具玩,告了状却要被关起来,告状会使你的境况变得更坏,所以你不会告状。因此,哥哥对弟弟的警告置之不理。

    因此,单靠制度无法完全走出困境,道德制衡同样重要

案例:

有五只猴子被关在一个笼子里,上面挂着一串香蕉。一旦猴子试图去拿香蕉,就会触发一个自动装置,向笼子喷水,所有的猴子都会被淋湿。经过几次尝试,猴子们发现无论谁试图去拿香蕉,大家都会被水淋湿。于是,它们达成了一个共识:不要去拿香蕉以避免被水喷到。后来,实验人员释放了一只猴子,并换入一只新猴子A。A看到香蕉后,马上想去拿,结果被其他四只猴子制止。这是因为其他四只猴子认为A会让他们被水淋湿。尽管猴子A尝试了几次,但始终无法拿到香蕉,因此它学会了不尝试去拿香蕉。接着,实验人员又释放了一只旧猴子,换入另一只新猴子B。猴子B看到香蕉后,也想去拿,结果同样被其他四只猴子制止。与猴子A不同的是,猴子B在尝试了几次后,遭受了其他猴子的暴力制止。这种强烈的反应让猴子B认识到,试图拿香蕉会导致其他猴子的攻击。随着时间推移,所有的旧猴子都被新猴子取代,尽管新猴子都不知道为什么不能拿香蕉,但它们都学会了不拿香蕉以避免被其他猴子攻击。

解析:在故事中,猴子们通过被水淋湿的经历,形成了一种规则:不要去拿香蕉以避免被水喷到。这种规则成为了猴子们的共识,也是他们遵循的纪律。猴子们通过互相制止新猴子去拿香蕉,形成了一种共同的行为模式。

我们应该重视纪律的建立,通过明确的规章制度和纪律来约束大家的行为。


西方伦理学把人类的道德分为4种:

  • 金律,是“作为者”的行为准则,其内容是“你要别人怎样对待你,你就怎样对待别人。”也就是孔子所说的“己欲立而立人,己欲达而达人”。

  • 银律,是“退让者”的行为准则,也就是孔子所说的“己所不欲,勿施于人”。

  • 铜律,是“报复者”的行为准则,其内容是:“别人怎样对待你,你就怎样对待别人。”(以牙还牙)

  • 铁律,是“进攻者”的行为准则,其内容是:“在别人进攻你之前,首先进攻别人。”


经济学家卡尔·萨根认为,铜律比其他三者更优越。

只有基于个人理性的道德,才能约束对方,迫使其进行合作。

(二)重复博弈


1、恋爱中的囚徒困境

    恋爱中的一对情侣,每个人都有变心和不变心两种选择:

  • 若双方都不变心,各自的幸福指数均为9;

  • 若双方都变心,各自的幸福指数均为8;

  • 若一方变心而另一方不变心,由于变心的一方找到了更好的情人,幸福指数为10,不变心的一方被抛弃,幸福指数为-10。

经过分析,恋人的最优选择是另觅新欢。即,男女双方的纳什均衡是(变心,变心)。


为什么会得出这样的结论呢?


生活中,恋爱成功的人并不少见,厮守一生的人也很多。那么,究竟是什么原因让“爱情的囚徒”选择信守誓言、长相厮守呢?


生活中的案例:

  • 旅游点假货横行

  • 陌生人为争座位而争吵

共同点:一次性博弈

说明:对未来的预期是影响参与者行为的重要因素,没有未来必然背叛




2、重复博弈的相关概念

定义:是指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”(stagegames)。如“囚徒困境”中的囚徒每次作案后判刑释放后又作案u重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。分为有限次重复博弈无限次重复博弈


特点:

1.前一阶段的博弈不改变后阶段的博弈结构2.所有参与人都能观测到博弈过去的历史3.参与人的总收益是所有阶段损益的贴现之和

  • 人们在对待与其有长期关系的人与对待那些以后不再交往的人(短期关系)可能会有非常不同的行为。如朋友和陌生人

  • 短期难以形成某种默契或合作关系,而长期可以通过报复、惩罚的威胁来相互约束各方的行动

  • 长期关系是无限次重复博弈

  • 短期关系是一次博弈或有限次重复博弈

3、有限次重复博弈

案例:

  • 一人去剃头,剃头匠给他剃得很草率。剃完后,这人付了双倍的价钱后离开

  • 一个多月后,这人又来剃头。剃头匠觉得此人出手阔绰,故多用一倍工夫。剃完后,这人便起身付钱,反而少给了很多

  • 剃头匠不乐意,想一想这位顾客是怎样解释的呢?

解析:在有限次重复博弈中,当临近终点时,参与者采取不合作策略的可能性增大即使参与人以前的所有策略均为合作策略,如果被告知下一次博弈是最后一次,那么肯定会采取不合作的策略

(三)道德教化

社会学基本定理

全迪斯(H.Gintis):如果一个社会是由自利主义者构成的,那么,长期而言,这个社会将消亡。而如果一个社会,通过“说服教育”以及其他说教机构的努力,长期保持一定比例的利他主义者,它就能够稳定的繁衍下去。




玩到最后,总收益800,如果每个人纯粹考虑自己的利益,游戏一开始就结束了。但是如果我们不光考虑自己的利益,如果我少赚20块,别人能多赚70,我也是开心的,如果大家都愿意为别人着想,游戏可以进行到最后,自己也实现了利益的增长。


(四)走出困境的其他方法

1.利用他人的囚徒困境

     货比三家(竞争者效应)

2.财产私有

     人民公社——分田到户