章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
投票悖论
投票悖论,也称为唐斯悖论,是对于一个理性的、自利的选民来说,投票的成本通常会超过预期的收益。因为与对不同可能结果的个人利益的任何现实估计相比,行使关键投票的机会微乎其微,所以投票的预期收益小于成本。
对悖论的回应包括这样的观点,即选民投票是为了表达他们对候选人的偏好,而不是影响选举结果,选民表现出某种程度的利他主义,或者该悖论忽略了与投票相关的附带利益,而不是由此产生的选举结果。结果。
奖学金历史
尼古拉斯·德·孔多塞(NicolasdeCondorcet)在1793年指出了这个问题,他说:“在有大量选民的单阶段选举中,每个选民的影响力非常小。因此,公民可能不会有足够的兴趣[to投票]”和“......我们知道,随着每个人[即选民]对选举的影响以及选民人数的增加,这种[选民在选举中的]兴趣必须减少。”
1821年,黑格尔在他的《法哲学要素》中提出了类似的观点:“至于普选,可以进一步指出,尤其是在大州,它不可避免地会导致选举的冷漠,因为投一票是没有意义的。在有众多选民的情况下意义重大。”
数学家查尔斯·L·道奇森(CharlesL.Dodgson),更为人所知的是刘易斯·卡罗尔(LewisCarroll),他于1876年发表了论文“一种对两个以上问题进行投票的方法”。
现代公共选择理论中的这个问题由AnthonyDowns在1957年进行了分析。
回应
另类的反应以各种方式修改了利己理性的假设。例如,杰弗裡·布伦南(GeoffreyBrennan)和洛伦·洛马斯基(LorenLomasky)建议选民从支持特定候选人中获得“表达性”好处——类似于为运动队加油——而不是投票希望获得他们喜欢的政治结果。这意味着选民的理性行为仅限于工具,而不是他们从投票中获得的内在价值。
另一个被称为投票利他主义理论的建议是,选民是理性的,但不是完全自私的。在这种观点下,选民有一定程度的利他主义,如果其他人受益,他们就会觉得受益。由于选举会影响许多其他人,因此在影响结果的可能性很小的情况下进行投票仍然是合理的。
一些人认为,这个悖论似乎忽略了与投票相关的附带利益,除了影响投票结果。例如,政治家、他们的助手、专家和选民密切关注选举胜负的大小,因为它们表明了对候选人的支持力度,并且往往被视为一种比单纯的民意调查更准确的衡量标准(必须依赖于不完美的抽样)。已经提出的另一个论点是,研究投票给谁或什麽可能会增加选民的政治知识和社区意识,这两者都可能有助于普遍的公民责任感,儘管在这种情况下,投票行为本身会有所贡献这没什麽。
帕隆多悖论
Parrondo悖论,博弈论中的一个悖论,被描述为:失败策略的组合变成了获胜策略。它以其创造者胡安·帕隆多(JuanParrondo)的名字命名,他在1996年发现了这个悖论。更解释性的描述是:
存在一对游戏,每对游戏的输赢概率都高于获胜的概率,因此可以通过交替进行游戏来构建获胜策略。
Parrondo在分析布朗棘轮时设计了这个悖论,这是一个关于机器的思想实验,据称可以从物理学家理查德费曼推广的随机热运动中提取能量。然而,经过严格分析,这个悖论就消失了。\在帕隆多悖论发表之前,生物学中探索了由失败策略的各种组合组成的获胜策略。
说明性示例
锯齿示例
考虑一个例子,其中有两个点A和B具有相同的高度,如图1所示。在第一种情况下,我们有一个连接它们的平面轮廓。在这裡,如果我们在中间留下一些以随机方式来回移动的圆形弹珠,它们将随机滚动,但以相同的概率向两端滚动。现在考虑第二种情况,我们在它们之间有一个锯齿状区域。在这裡,弹珠也会以相同的概率向两端滚动(如果有向一个方向移动的趋势,这种形状的环中的弹珠会自发地提取热能进行旋转,这违反了热力学第二定律)。现在,如果我们将整个轮廓向右倾斜,如图2所示,很明显这两种情况都会偏向B。
现在考虑我们交替使用两个配置文件同时明智地选择从一个配置文件交替到另一个配置文件之间的时间的游戏。
当我们在E点的第一个轮廓上留下一些弹珠时,它们会分佈在平面上,显示出向B点的优先运动。但是,如果我们在一些弹珠越过点C时应用第二个轮廓,但没有一个弹珠越过点D,我们最终将让大多数弹珠回到E点(我们最初从那裡开始),但有些也在山谷中对A点有足够的时间让弹珠滚到山谷。然后我们再次应用第一个配置文件并重複这些步骤(点C、D和E现在移动了一步以参考最接近的最终谷一个)。如果在第一个弹子穿过点D之前没有弹子穿过点C,我们必须在第一个弹子穿过点D之前不久应用第二个配置文件,以重新开始。
很容易得出,最终我们将在A点有弹珠,但在B点没有弹珠。因此,如果我们将A点的弹珠定义为赢,B点的弹珠定义为输,我们显然是通过交替(在正确选择的时间)玩两场失败的游戏来赢的。
抛硬币的例子
Parrondo悖论的第二个例子来自赌博领域。考虑玩两个游戏,游戏A和游戏B,规则如下。为方便起见,定义Ct成为我们在时间t的资本,就在我们玩游戏之前。
赢得一场比赛为我们赢得1美元,输掉一场比赛需要我们交出1美元。它遵循C吨+1=Ct+1如果我们在第t步获胜并且Ct+1=Ct-1如果我们在步骤t输了。
在游戏A中,我们以获胜的概率抛硬币,Coin1P1=(1/2)-ε.如果ε>0,从长远来看,这显然是一场失败的比赛。
在游戏B中,我们首先确定我们的资本是否是某个整数的倍数M.如果是,我们抛一个有偏见的硬币,硬币2,有获胜的概率P2=(1/10)-ε.如果不是,我们以获胜的概率投掷另一个有偏见的硬币,Coin3P3=(3/4)-ε.模数的作用M提供如棘轮齿中的周期性。
很明显,通过玩游戏A,从长远来看,我们几乎肯定会输。Harmer和Abbott通过模拟表明,如果M=3和ε=0.005,游戏B也几乎肯定是一场失败的游戏。事实上,游戏B是一条马尔可夫链,对其状态转移矩阵(同样M=3)的分析表明,使用硬币2的稳态概率为0.3836,使用硬币3的稳态概率为0.6164。由于硬币2被选中的概率接近40%,它对游戏B的收益产生了不成比例的影响,并导致它成为一场失败的游戏。
然而,当这两场输球以某种交替的顺序进行时——例如,两场A的比赛,然后是两场B的比赛(AABBAABB...),矛盾的是,这两场比赛的组合是一场胜利的比赛。并非所有A和B的交替序列都会导致游戏获胜。例如,A的一局接着B的一局(ABABAB...)是输局,而A的一局接着B的两局(ABBABB...)是赢局。这个掷硬币的例子已经成为Parrondo悖论的典型例证——两场比赛,在单独进行时都输了,在以特定的交替顺序进行时变成了获胜的比赛。
解决悖论
已经使用许多複杂的方法解释了明显的悖论,包括马尔可夫链、闪光棘轮、模拟退火、和信息论。一种解释明显悖论的方法如下:
虽然游戏B在概率分佈下是一场失败的游戏,结果为Ct模数M单独播放时(Ct模数M是馀数Ct被除以M),在其他分佈下它可能是一场胜利游戏,因为至少有一个状态是它的期望是正的。
由于游戏B的结果分配取决于玩家的资本,因此两个游戏不能独立。如果是这样,以任何顺序播放它们也会失败。
的作用M现在成为焦点。它仅用于诱导游戏A和B之间的依赖,因此玩家更有可能进入游戏B具有积极期望的状态,从而使其能够克服游戏A的损失。有了这种理解,悖论就会自行解决:单个游戏仅在与玩複合游戏时实际遇到的分佈不同的分佈下才会输。总而言之,帕隆多悖论是一个例子,说明依赖如何对在天真的独立假设下进行的概率计算造成严重破坏。可以在Philips和Feldman中找到对这一点的更详细说明以及几个相关示例。
一个简化的例子
对于悖论如何以及为什麽起作用的更简单示例,再次考虑两个游戏GameA和GameB,这一次具有以下规则:
在游戏A中,您每次玩游戏都会损失1美元。
在游戏B中,您计算您还剩下多少钱—如果是偶数,您赢3美元,否则输5美元。
假设您从口袋裡的100美元开始。如果您开始专门玩游戏A,您显然会在100轮中输掉所有的钱。同样,如果您决定只玩游戏B,您也将在100轮中输掉所有钱。
但是,考虑交替玩游戏,从游戏B开始,然后是A,然后是B,依此类推(BABABA...)。应该很容易看出,每两场比赛您将稳定地赚取2美元。
因此,即使单独玩每局游戏都是输家,但由于游戏B的结果受游戏A的影响,游戏进行的顺序会影响游戏B赚钱的频率,结果不同从任何一个游戏都是自己玩的情况来看。
应用
Parrondo悖论在博弈论中被广泛使用,它在工程、人口动态、金融风险等方面的应用是活跃的研究领域。Parrondo的游戏几乎没有实际用途,例如用于投资股票市场,因为最初的游戏需要至少一个互动游戏的收益取决于玩家的资本。然而,游戏不必局限于它们的原始形式,并且继续努力推广这种现象。波动性抽水和两个信封问题的相似之处已被指出。简单的金融教科书证券收益模型已被用于证明具有负中位长期收益的个人投资可以很容易地组合成具有正中位长期收益的多元化投资组合。类似地,一个经常用于说明最佳投注规则的模型已被用于证明在多个游戏之间拆分投注可以将负中位数长期回报转变为正回报。在进化生物学中,细菌随机相位变化和不太准确的传感器的进化已经根据悖论进行了建模和解释。在生态学中,某些生物在游牧和殖民行为之间的周期**替被认为是悖论的表现。由于悖论和一些关于其可行性的有趣讨论,在多细胞存活建模中出现了一个有趣的应用。Parrondo悖论的应用也可以在可靠性理论中找到。
姓名
在关于帕隆多悖论的早期文献中,考虑到帕隆多效应可以用数学术语来理解,“悖论”这个词是否是一个恰当的描述存在争议。可以用凸线性组合在数学上解释“矛盾”效应。
但是,该主题的主要研究员DerekAbbott就在这种情况下使用“悖论”一词提供了以下答案:
帕隆多悖论真的是“悖论”吗?数学家有时会问这个问题,而物理学家通常不担心这些事情。首先要指出的是,“帕隆多悖论”只是一个名称,就像“布雷斯悖论”或“辛普森悖论”一样。”其次,与大多数这些命名悖论的情况一样,它们都是非常明显的悖论。人们在这些情况下放弃了“明显”这个词,因为它是一个拗口的,无论如何都是显而易见的。所以没有人声称这些是悖论在严格意义上。从广义上讲,悖论只是一种违反直觉的东西。Parrondo的游戏当然是违反直觉的——至少在你对它们进行了几个月的深入研究之前。事实上,我们仍然不断发现新的令人惊讶的事物来取悦我们,当我们研究这些游戏时。我曾有一位数学家抱怨说游戏对他来说总是显而易见的,因此我们不应该使用“悖论”这个词。他要么是个天才,要么一开始就没有真正理解它。在无论哪种情况,都不值得与这样的人争论。
准备悖论
准备悖论是这样一种命题,即如果一个社会或个人有效地採取行动来减轻潜在的灾难,例如流行病、自然灾害或其他灾难,从而减少造成的伤害,那麽避免的危险将被认为没有那麽严重,因为实际造成的有限损害。悖论是错误地认为没有必要仔细准备,因为伤害很小,儘管实际上伤害的限制是由于准备。因此,一些认知偏差可能会阻碍对未来风险的适当准备。
背景
至少自1949年以来,“准备悖论”一词偶尔在不同的情况下使用,通常在军事和金融系统中。这个词在提到Covid-19大流行和全球政府的整体反应时重新受到关注。
另一个值得注意的术语是罗兰贝格在2017年对航空航天和国防行业高管的引用:近三分之二的受访者表示,他们已为地缘政治变化做好充分准备,对此他们无能为力,但在某些领域却毫无准备。例如技术和创新的变化,他们应该更有能力应对这些变化。相比之下,其他调查发现董事会和金融专业人士越来越关注地缘政治风险。伯杰总结说,整个行业迫切需要更多更好的商业战略,以弥补准备方面的差距。
认知偏差
具有更快生命历史和更短寿命的生物受到混乱或敌对环境的不成比例的影响。这些类型的生物天生对环境灾难或紧急情况有更大的恐惧。然而,生命史较慢的生物体,例如人类,在处理这些类型的事件时可能没有那麽紧迫。相反,他们有更多的时间和能力为此类紧急情况做准备。
认知偏差在准备工作缺乏紧迫性方面发挥了重要作用,阻碍了预防灾难的努力。其中包括过度乐观,即低估了灾难的程度,以及许多灾难没有达到临界点,直到採取行动为时已晚。在过度乐观和常态偏见中,人们认为灾难会发生在其他地方,即使它们确实发生在当地,也只会影响到他们的邻居。
备灾的另一个障碍是灾难之间的间隔。当灾难之间的时间很长时,准备的紧迫性就会降低。这是因为记得上次灾难的人较少,这减少了它对团体的情感影响。当採取某种措施来预防灾难时,这种影响会增强,从而进一步减少对原始危险和后果的记忆。
财务问题也可能导致准备悖论。人们倾向于高估已知的短期成本,以及低估未知的长期回报。为灾难做准备在短期内代价高昂,而其长期价值无法确定,如果选择不做准备,可能会导致灾难性后果。
例子
堤坝是与河流平行的结构,旨在防止洪水氾滥。他们所提供的长期安全可能导致人们误认为受他们保护的区域是“无洪水的”,从而导致洪氾区的土地开发不安全。因此,当洪水发生或堤坝决口时,该灾难的影响将大于未建造堤坝的情况。
为大流行做准备是准备悖论的一个特别明显的例子。由于充分的准备意味着不会发生大规模死亡或明显后果,因此没有证据表明有必要为大流行做好准备。
历史视角也可能导致准备悖论。从2000年问题之后的历史学家的角度来看,所採取的预防措施被描述为“过度反应”,而不是成功地为即将到来的问题做准备。对于灾害管理专业人士来说,这是一个双赢的例子。
预防悖论
预防悖论描述了一种看似矛盾的情况,即大多数疾病病例来自该疾病的低风险或中等风险人群,而只有少数病例来自高风险人群(同一种疾病)。这是因为处于高风险中的人数很少。流行病学家GeoffreyRose于1981年首次正式描述了预防悖论。
特别是在2020年的COVID-19大流行期间,“预防悖论”一词也被用来描述人们质疑防止大流行蔓延的步骤的明显悖论,因为预言的蔓延并没有发生。然而,这反而是一个自欺欺人的预言或准备悖论的例子。
假设案例研究
例如,罗斯描述了唐氏综合症的案例,其中母亲的年龄是一个危险因素。然而,大多数唐氏综合症病例都是由年轻、低风险的母亲所生(至少在大多数女性生育年龄较小的人群中是这样)。这种情况是自相矛盾的,因为将高危人群等同于构成疾病负担的大部分是常见且合乎逻辑的。
另一个例子可以在减少人群中的整体酒精问题方面看到。虽然不太严重,但大多数酒精问题在依赖饮酒者中并未发现。与试图减少少数依赖饮酒者的问题相比,通过在更大的“风险”饮酒者群体中小幅减少酒精滥用而获得更大的社会收益,而这些群体的问题并不严重。
囚徒困境
标准囚徒困境收益矩阵
一个/乙B保持沉默B背叛
A保持沉默-1/-1-3/0
一个背叛0/-3-2/-2
囚徒困境是博弈论中分析的博弈的一个标准例子,它说明了为什麽两个完全理性的代理人可能不合作,即使这样做似乎符合他们的最大利益。它最初是由MerrillFlood和MelvinDresher于1950年在RAND工作时设计的。AlbertW.Tucker将游戏形式化为监禁奖励并将其命名为“囚徒困境”,WilliamPoundstone在他的1993年出版的《囚徒困境》:
犯罪团伙的两名成员被捕入狱。每个囚犯都被单独监禁,无法与对方交谈或交换信息。警方承认,他们没有足够的证据来判定这对夫妇的主要罪名。他们计划以较轻的罪名判处两人一年监禁。同时,警察为每个囚犯提供浮士德式的交易。
可能的结果是:
如果A和B各自背叛对方,他们每个人都将被判入狱两年
如果A背叛B而B保持沉默,A将被释放,B将被判处三年徒刑
如果A保持沉默,但B背叛A,A将服刑三年,B将被释放
如果A和B都保持沉默,他们都将被判入狱一年(以较轻的罪名)。
这意味着除了被判入狱外,任何一名囚犯都没有机会奖励或惩罚他们的伴侣。这也暗示了每个囚犯自己的决定不会影响他们未来的声誉。因为背叛一个伙伴比与他们合作提供更大的回报,所有纯粹理性的自利囚犯都会背叛对方,这意味着两个纯粹理性的囚犯唯一可能的结果是他们背叛对方,即使相互合作会产生一个更大的回报。
在这种情况下,“背叛”是双方玩家的优势策略,这意味着它是玩家在所有情况下的最佳反应,并且符合确定性原则。囚徒困境也说明了集体理性下做出的决定不一定与个人理性下做出的决定相同,这种冲突也可以在一种叫做“公地悲剧”的情况下看到。这个案例表明公共物品总是容易被过度使用。
实际上,儘管“理性”自利行为的简单模型预测到了什麽,但这种对合作行为的系统性偏见还是会发生。这种对合作的偏见自兰德公司首次进行测试以来就已为人所知。所涉秘书相互信任,并为实现最佳共同成果而共同努力。囚徒困境成为广泛实验研究的焦点。这些实验研究通常採用以下三种形式之一:单人游戏、迭代游戏和与编程玩家的迭代游戏,每种形式都有不同的目的。作为对这些实验的总结,他们的结果证明了伊曼纽尔康德提出的绝对命令的合理性,该命令指出,理性的代理人应该“以你希望别人行动的方式行动”。这个理论对于这样一种情况至关重要,因为不同的参与者各自为自己的最大利益而行动,并且必须考虑其他人的行动以形成自己的选择。它强调了此类游戏中玩家之间的相互联繫,因此强调了一个策略必须考虑其他人的反应才能成功,包括他们的反应能力、他们的模彷倾向等。
游戏的扩展“迭代”版本也存在。在这个版本中,经典游戏在同一个囚犯之间反復进行,他们不断有机会因之前的决定而惩罚另一个人。如果玩家知道游戏的次数,那麽通过反向归纳,两个经典理性的玩家将反复背叛对方,原因与单发变体相同。在无限或未知长度的游戏中,没有固定的最优策略,并且已经举行了囚徒困境锦标赛来竞争和测试这种情况下的算法。
囚徒困境的迭代版本是研究人员特别感兴趣的。由于其迭代性质,先前的研究人员观察到玩家合作的频率可能会根据每次迭代的结果而改变。具体来说,如果对方多次不合作,玩家可能不太愿意合作,这会让人失望。相反,随着时间的推移,合作可能会增加,这主要是由于玩家之间已经建立了“默契”。然而,关于迭代版实验的另一个有趣的方面是,即使迭代次数对双方都公开,玩家之间的这种默契总是能成功建立。
囚徒困境博弈可以用作许多涉及合作行为的现实世界情况的模型。在随意使用时,“囚徒困境”标籤可能适用于与经典或迭代游戏的形式标准不严格匹配的情况:例如,两个实体可以从合作中获得重要利益或因合作失败而遭受损失的情况,但发现协调他们的活动很困难或代价高昂——不一定是不可能的。
囚徒困境的策略
两名囚犯被隔离在单独的房间内,无法相互交流。正常游戏如下图:
犯人甲/犯人乙犯人B保持沉默(配合)犯人B背叛(缺陷)
犯人A保持沉默(配合)每个服务1年犯人A:3年/犯人B:自由
犯人A背叛(缺陷)犯人A:获释/犯人B:3年每个服务2年
假设两个囚犯都了解游戏的性质,彼此没有忠诚度,并且在游戏之外没有机会得到报应或奖励。无论对方决定什麽,每个囚犯都会通过背叛对方(“叛逃”)获得更高的奖励。推理涉及分析双方玩家的最佳反应:B要么合作,要么背叛。如果B合作,A应该叛逃,因为自由比服务1年好。如果B背叛,A也应该背叛,因为服务2年优于服务3年。所以无论哪种方式,A都应该背叛,因为无论B的策略如何,背叛都是A的最佳反应。平行推理将表明B应该背叛。
因为无论其他玩家的选择如何,背叛总是比合作带来更好的回报,因此对于A和B来说,这都是严格佔优的策略。相互背叛是博弈中唯一的强纳什均衡(即每个玩家可以从中获得的唯一结果)只能通过单方面改变策略做得更糟)。那麽,困境在于,相互合作比相互背叛产生更好的结果,但这不是理性的结果,因为从自利的角度来看,合作的选择是不合理的。因此,囚徒困境是纳什均衡不是帕累託有效的博弈。
广义形式
传统囚徒困境的结构可以从其最初的囚徒环境中概括出来。假设两个玩家用红色和蓝色表示,每个玩家选择“合作”(保持沉默)或“背叛”(背叛)。
如果两个玩家合作,他们都将获得合作奖励R。如果两个玩家都背叛,他们都得到惩罚收益P。如果蓝方在红方合作时背叛,则蓝方获得诱惑收益T,而红方获得“吸盘”收益S。类似地,如果蓝方合作而红方背叛,则蓝方获得吸盘的收益S,而红方获得诱惑收益T。
这可以用正常形式表示:
典型PD收益矩阵
蓝色的/红色的合作缺陷
合作R/RS/T
缺陷T/SP/P
并且要成为强意义上的囚徒困境博弈,收益必须满足以下条件:
T>R>P>S
收益关係R>P意味着相互合作优于相互背叛,而收益关係T>R和P>S暗示背叛是双方的主要策略。
特例:捐赠游戏
“捐赠游戏”是囚徒困境的一种形式,其中合作对应于以个人成本c为其他参与者提供利益b,且b>c。背叛意味着什麽都不提供。因此,收益矩阵是
蓝色的/红色的合作缺陷
合作b-c/b-c-c/b
缺陷b/-c0/0
注意2R>T+S(IE2(b-C)>b-C)这使捐赠游戏成为迭代游戏(见下一节)。
捐赠游戏可以应用于市场。假设X种橘子,Y种苹果。苹果对橙子种植者X的边际效用是b,它高于橙子的边际效用(c),因为X有剩馀的橙子而没有苹果。同样,对于苹果种植者Y,橙子的边际效用是b,而苹果的边际效用是c。如果X和Y约定交换一个苹果和一个橙子,并且每个人都完成了交易,那麽每个人都会收到b-c的收益。如果一个人“背叛”并且没有按承诺交付,背叛者将获得b的回报,而合作者将失去丙。如果两者都背叛,那麽任何一方都不会获得或失去任何东西。
反复囚徒困境
如果两个玩家连续玩了不止一次囚徒困境,并且他们记住了对手之前的动作并相应地改变了策略,则该博弈称为迭代囚徒困境。
除了上面的一般形式,迭代版本还要求2R>T+S,防止交替合作和背叛给予比相互合作更大的回报。
反复囚徒困境博弈是一些人类合作和信任理论的基础。假设游戏可以对需要信任的两个人之间的交易进行建模,群体中的合作行为可以通过多人、迭代的游戏版本来建模。因此,多年来,它吸引了许多学者。1975年,格罗夫曼和普尔估计,专门讨论它的学术文章数量超过2,000篇。反复的囚徒困境也被称为“和平战游戏”。
如果游戏进行了N次并且双方都知道这一点,那麽优势策略是在所有回合中都背叛。唯一可能的纳什均衡是总是背叛。证明是归纳的:一个人最好在最后一回合背叛,因为对手以后没有机会反击。因此,双方都会在最后一回合背叛。因此,玩家也可以在倒数第二个回合背叛,因为无论做什麽,对手都会在最后一回合背叛,依此类推。如果游戏长度未知但具有已知上限,则同样适用。
与标准囚徒困境不同,在迭代囚徒困境中,背叛策略是违反直觉的,并且无法预测人类玩家的行为。然而,在标准经济理论中,这是唯一正确的答案。N固定的迭代囚徒困境中的超理性策略是合作对抗一个超理性的对手,在N大的限制下,策略的实验结果与超理性版本一致,而不是博弈论的理性版本。
为了使博弈论理性玩家之间出现合作,玩家必须不知道总轮数N。在这种情况下,“总是背叛”可能不再是严格的佔优策略,而是纳什均衡。在罗伯特·奥曼(RobertAumann)在1959年的一篇论文中展示的结果中,理性的玩家在无限长的博弈中反复互动可以维持合作的结果。
根据美国经济评论2019年的一项实验研究,该研究测试了现实生活中的受试者在完美监控下迭代囚犯困境的策略,大多数选择的策略总是叛逃、针锋相对和严峻的触发。受试者选择哪种策略取决于游戏的参数。
迭代囚徒困境的策略
RobertAxelrod在他的着作《合作的演变》(1984)中激发了对迭代囚徒困境(IPD)的兴趣。在其中,他报告了他组织的一场关于N步囚徒困境(N固定)的锦标赛,参与者必须一次又一次地选择他们的共同策略,并记住他们以前的遭遇。Axelrod邀请世界各地的学术同事设计计算机策略以参加IPD锦标赛。输入的程序在算法複杂性、初始敌意、宽恕能力等方面差异很大。
Axelrod发现,当这些遭遇在很长一段时间内与许多玩家重複时,每个玩家都有不同的策略,从长远来看,贪婪的策略往往会做得很差,而更利他的策略会做得更好,这纯粹是出于自身利益的判断。他用这个来展示利他行为从最初纯粹自私的机制演变为自然选择的可能机制。
获胜的确定性策略是针锋相对的,AnatolRapoport开发并进入了锦标赛。它是所有参赛程序中最简单的,只包含四行BASIC,并赢得了比赛。策略只是在游戏的第一次迭代上进行合作;在那之后,玩家会做他或她的对手在前一步所做的事情。视情况而定,稍微好一点的策略可以是“以牙还牙,宽恕”。当对手背叛时,在下一步行动中,玩家有时会以很小的概率(大约1-5%)合作。这允许偶尔从陷入背叛的循环中恢復过来。确切的概率取决于对手的阵容。
通过分析得分最高的策略,Axelrod指出了策略成功所必需的几个条件。
好的
最重要的条件是策略必须是“好的”,也就是说,它不会在对手之前背叛(这有时被称为“乐观”算法)。几乎所有得分最高的策略都很好。纯粹自私的策略不会“欺骗”对手,首先是出于纯粹的自利原因。
报復
然而,阿克塞尔罗德认为,成功的战略绝不能是盲目的乐观主义者。它有时必须进行报復。不报復策略的一个例子是始终合作。这是一个非常糟糕的选择,因为“讨厌”的策略会无情地利用这些玩家。
宽恕
成功的策略也必须是宽容的。儘管玩家会进行报復,但如果对手不继续背叛,他们将再次退回合作。这可以阻止长时间的报復和反报復,从而最大限度地提高分数。
不嫉妒
最后一种品质是不嫉妒,即不努力得分超过对手。
一次性PD博弈的最优(点数最大化)策略就是背叛;如上所述,无论对手的构成如何,这都是正确的。然而,在迭代PD博弈中,最优策略取决于可能对手的策略,以及他们对背叛和合作的反应。例如,考虑一个人群,每个人每次都会背叛,除了一个人遵循针锋相对的策略。由于第一回合的损失,那个人处于轻微的劣势。在这样的人群中,该个体的最佳策略是每次都叛逃。在一个有一定比例的总是背叛者而其馀的是针锋相对的玩家的群体中,个人的最佳策略取决于百分比和游戏的长度。
在称为巴甫洛夫的策略中,赢-留,输-切换,面对合作失败,玩家在下一回合切换策略。在某些情况下,巴甫洛夫通过给予使用类似策略的合作者优惠待遇来击败所有其他策略。
推导最优策略通常通过两种方式完成:
贝叶斯纳什均衡:如果可以确定相反策略的统计分佈(例如50%以牙还牙,50%始终合作),则可以通过分析得出最佳反策略。
已经对种群进行了蒙特卡罗模拟,其中得分低的个体死亡,而得分高的个体繁殖(用于寻找最佳策略的遗传算法)。最终种群中算法的混合通常取决于初始种群中的混合。突变(繁殖过程中的随机变异)的引入减少了对初始种群的依赖;对此类系统的经验实验往往会产生针锋相对的玩家(例如参见Chess1988),但没有分析证据表明这种情况总是会发生。
虽然以牙还牙被认为是最稳健的基本策略,但来自英国南安普顿大学的一个团队在20週年的迭代囚徒困境竞赛中引入了新策略,证明比以牙还牙更成功。该策略依靠程序之间的勾结来实现单个程序的最高分数。该大学向比赛提交了60个程序,这些程序旨在通过一开始的五到十个动作来识别彼此。一旦做出这种识别,一个程序将始终合作,而另一个程序将始终背叛,从而确保背叛者获得最大分数。如果该程序意识到它正在与非南安普顿球员比赛,它将不断叛逃,以尽量减少竞争程序的分数。结果,2004年囚徒困境锦标赛的结果显示,南安普顿大学的策略排在前三名,儘管其胜负比GRIM策略少得多。(在PD锦标赛中,游戏的目的不是“赢得”比赛——这很容易通过频繁的背叛来实现)。这一策略最终在比赛中佔据了前三名,以及一些排名垫底的位置。
南安普顿策略利用了这样一个事实,即在这个特定的比赛中允许多次参赛,并且一支球队的表现是由得分最高的球员来衡量的(这意味着使用自我牺牲的球员是一种最小化的形式).在一个只能控制一个玩家的比赛中,以牙还牙无疑是更好的策略。由于这一新规则,与Axelrod的开创性锦标赛相比,该竞赛在分析单智能体策略时也没有多少理论意义。然而,它为分析如何在多智能体框架中实现协作策略提供了基础,尤其是在存在噪声的情况下。事实上,早在这场新规则锦标赛开始之前,道金斯就在他的着作《自私的基因》中,指出如果允许多个条目,则此类策略有可能获胜,但他表示,如果提交了这些策略,Axelrod很可能不会允许它们。它还依赖于规避关于囚徒困境的规则,因为两名球员之间不允许交流,南安普顿的节目可以说是通过他们预先编程的“十步舞”来识别彼此的。这只会强化沟通在改变游戏平衡方面的价值。
即使没有软件策略之间的隐含勾结(由南安普顿队利用),针锋相对并不总是任何特定锦标赛的绝对赢家;更准确地说,它在一系列锦标赛中的长期成绩优于其竞争对手。(在任何一种情况下,给定的策略都可以比针锋相对地更好地适应竞争,但针锋相对更稳健)。这同样适用于带有宽恕变体的针锋相对的策略,以及其他最佳策略:在任何一天,他们可能不会“赢”对抗特定的反策略组合。另一种说法是使用达尔文式ESS模拟。在这样的模拟中,以牙还牙几乎总是占主导地位,儘管讨厌的策略会在人群中进出策略。理查德·道金斯(RichardDawkins)表明,在这裡,策略的静态组合不会形成稳定的平衡,系统总是会在界限之间振盪。
随机迭代囚徒困境
在随机迭代囚徒困境博弈中,策略由“合作概率”指定。在玩家X和玩家Y的相遇中,X的策略由一组与Y合作的概率P指定。P是他们先前遭遇的结果或其某个子集的函数。如果P只是他们最近n次遭遇的函数,则称为“memory-n”策略。然后由四个合作概率指定memory-1策略:P={PCC,PCd,PdC,Pdd},在哪裡PAb是X在当前遭遇中合作的概率,假设之前的遭遇是由(ab)表徵的。例如,如果之前的遭遇是X合作而Y背叛的遭遇,那麽PCd是X在当前遭遇中合作的概率。如果每个概率为1或0,则该策略称为确定性策略。确定性策略的一个例子是针锋相对的策略,写为P={1,0,1,0},其中X的反应与Y在之前的遭遇中所做的一样。另一种是赢-留,输-切换策略,写成P={1,0,0,1},其中X如果是“胜利”(即cc或dc),则响应与之前的遭遇相同,但如果失败(即cd或dd)则改变策略。已经表明,对于任何memory-n策略,都有一个相应的memory-1策略给出相同的统计结果,因此只需要考虑memory-1策略。
如果我们将P定义为上述X的4元素策略向量,并且Q={QCC,QCd,QdC,Qdd}作为Y的4元素策略向量,可以为X定义一个转移矩阵M,其第ij个条目是X和Y之间特定相遇的结果为j的概率的概率,假设之前的遭遇是i,其中i和j是四个结果指数之一:cc、cd、dc或dd。例如,从X'角度来看,当前遭遇的结果的概率是cd假设上一次遭遇是cd等于MCd,Cd=PCd(1-QdC).(Q的指数来自Y的观点:X的cd结果是Y的dc结果。)根据这些定义,迭代囚徒困境符合随机过程,M是随机矩阵,允许所有要应用的随机过程理论。
随机理论的一个结果是矩阵M存在一个平稳向量v,使得v⋅M=v.不失一般性,可以指定v是归一化的,因此它的四个分量之和是统一的。第ij个条目Mn将给出X和Y之间相遇的结果为j的概率,假设前面n步的相遇是i。在n接近无穷大的极限中,M将收敛到一个具有固定值的矩阵,给出与i无关的产生j的长期相遇概率。换句话说,行M∞将是相同的,给出了迭代囚徒困境的长期均衡结果概率,而无需明确评估大量相互作用。可以看出,v是一个平稳向量Mn特别是M∞,使得每一行M∞将等于v。因此,平稳向量指定X的平衡结果概率。定义SX={R,S,T,P}和小号是的={R,T,S,P}作为{cc,cd,dc,dd}结果的短期收益向量(从X的角度来看),X和Y的均衡收益现在可以指定为sX=v⋅SX和sY=v⋅SY,允许比较两种策略P和Q的长期收益。
零决定因素策略
2012年,WilliamH.Press和FreemanDyson为随机迭代囚徒困境发表了一类新的策略,称为“零行列式”(ZD)策略。X和Y之间相遇的长期收益可以表示为矩阵的行列式,该矩阵是两种策略和短期收益向量的函数:sX=D(P,Q,SX)和s是的=D(P,Q,SY),不涉及平稳向量v。由于行列式函数s是的=D(P,Q,F)在f中是线性的,因此αsX+βs是的+γ=D(P,Q,αSX+βSY+γü)(其中U={1,1,1,1})。任何策略D(P,Q,αSX+βSY+γü)=0根据定义是ZD策略,长期收益服从关係αsX+βsY+γ=0.
以牙还牙是一种ZD策略,在不比其他玩家获得优势的意义上是“公平的”。然而,ZD空间也包含策略,在有两个玩家的情况下,可以允许一个玩家单方面设置另一个玩家的分数,或者迫使一个进化玩家获得比他自己低一些百分比的收益。被勒索的玩家可能会背叛,但会因获得较低的回报而伤害自己。因此,勒索解决方案将迭代的囚徒困境变成了一种最后通牒游戏。具体来说,X能够选择一个策略D(P,Q,βSy+γü)=0,单方面设置sy特定值范围内的特定值,独立于Y的策略,为X提供“勒索”玩家Y的机会(反之亦然)。(事实证明,如果X试图设置sX对于一个特定的值,可能性的范围要小得多,只有完全合作或完全背叛。)
IPD的扩展是进化随机IPD,其中允许特定策略的相对丰度发生变化,更成功的策略相对增加。这个过程可以通过让不太成功的玩家模彷更成功的策略来完成,或者通过从游戏中淘汰不太成功的玩家,同时增加更成功的玩家来完成。已经表明,不公平的ZD策略在进化上是不稳定的。关键的直觉是,进化上稳定的策略不仅必须能够入侵另一个种群(敲诈性ZD策略可以做到),而且还必须在对抗同类型的其他玩家时表现良好(敲诈性ZD玩家做得很差,因为他们减少了彼此的剩馀)。
理论和模拟证实,超过临界种群规模,ZD勒索在进化竞争中与更多合作策略的竞争中失败,因此,当种群变大时,种群的平均收益会增加。此外,在某些情况下,敲诈者甚至可以通过帮助打破统一的叛逃者与赢-留、输-转换代理人之间的对峙来促进合作。
虽然敲诈性ZD策略在大量人群中不稳定,但另一个称为“慷慨”策略的ZD类别既稳定又稳健。事实上,当人口不是太少时,这些策略可以取代任何其他ZD策略,甚至在针对迭代囚徒困境的各种通用策略(包括赢-留、输-转换)中表现良好。亚历山大·斯图尔特(AlexanderStewart)和约书亚·普洛特金(JoshuaPlotkin)在2013年专门为捐赠游戏证明了这一点。慷慨的策略将与其他合作玩家合作,面对背叛,慷慨的玩家比对手失去更多的效用。慷慨策略是ZD策略和所谓的“好”策略的交集,由Akin(2013)定义是那些参与者对过去的相互合作和未来的合作做出反应,并且如果他至少收到合作的预期收益,则平均分配预期收益。在好的策略中,慷慨(ZD)子集在种群不太小的情况下表现良好。如果人口非常少,叛逃策略往往占主导地位。
连续迭代囚徒困境
大多数关于迭代囚徒困境的工作都集中在离散情况上,在这种情况下,参与者要么合作,要么背叛,因为这个模型分析起来相对简单。然而,一些研究人员已经研究了连续迭代囚徒困境的模型,其中玩家能够对其他玩家做出可变的贡献。勒和博伊德发现,在这种情况下,合作比离散迭代囚徒困境更难发展。这个结果的基本直觉是直截了当的:在连续囚徒困境中,如果一个群体开始时处于非合作均衡状态,那麽只比非合作者稍微合作的玩家从分类中获得的收益很少。彼此。相比之下,在离散的囚徒困境中,相对于非合作者,针锋相对的合作者从非合作均衡中的相互组合中获得了巨大的回报。由于自然可以说为可变合作提供了更多的机会,而不是合作或背叛的严格二分法,持续的囚徒困境可能有助于解释为什麽现实生活中以牙还牙的合作例子在自然界中极为罕见(例如Hammerstein)儘管针锋相对的理论模型似乎很稳健。
稳定策略的出现
玩家似乎无法协调相互合作,因此经常陷入低级但稳定的叛逃策略。通过这种方式,迭代轮次促进了稳定策略的演变。迭代的回合通常会产生新颖的策略,这对複杂的社会互动有影响。一种这样的策略是赢-留-输。这种策略胜过简单的以牙还牙的策略——也就是说,如果你能逃脱欺骗,重複这种行为。但是,如果您被抓住,请切换。
这种以牙还牙策略的唯一问题是它们容易受到信号错误的影响。当一个人为了报復而作弊而另一个人将其解释为作弊时,就会出现问题。因此,第二个人现在作弊,然后它开始了连锁反应中作弊的跷跷板模式。
即使没有重複的博弈,强烈的开明自利也能带来稳定有效的结果。
现实生活中的例子
囚徒设置似乎是人为的,但实际上在人类互动以及自然界的互动中存在许多具有相同收益矩阵的示例。因此,囚徒困境对经济学、政治学和社会学等社会科学以及行为学和进化生物学等生物科学都很感兴趣。许多自然过程已被抽象为模型,在这些模型中,生物参与了无休止的囚徒困境游戏。PD的这种广泛适用性使游戏具有重要意义。
环境研究
在环境研究中,PD在全球气候变化等危机中很明显。有人认为,所有国家都将从稳定的气候中受益,但任何一个国家通常都不愿遏制CO2排放。如果所有国家的行为都发生变化,任何一个国家从维持当前行为中获得的直接利益被认为大于该国家所声称的最终利益,因此解释了2007年有关气候变化的僵局。
气候变化政治与囚徒困境之间的一个重要区别是不确定性。汙染改变气候的程度和速度尚不清楚。因此,政府面临的困境不同于囚徒困境,因为合作的回报是未知的。这种差异表明,与真正的反复囚徒困境相比,国家之间的合作要少得多,因此避免可能的气候灾难的概率远小于使用真正反复囚徒困境的情况的博弈论分析所建议的概率。
Osang和Nandy(2003)提供了一个理论解释和证据,证明了符合迈克尔波特假设的监管驱动的双赢局面,其中政府对竞争公司的监管是实质性的。
动物
许多动物的合作行为可以理解为囚徒困境的一个例子。动物通常会建立长期的伙伴关係,这可以更具体地建模为迭代的囚徒困境。例如,孔雀鱼成群结队地合作检查捕食者,人们认为它们会惩罚不合作的检查员。
吸血蝙蝠是参与互惠食物交换的社会动物。应用囚徒困境的回报可以帮助解释这种行为:
合作/合作:“奖励:我在倒霉的夜晚採血,这使我免于挨饿。我必须在幸运的夜晚献血,这不会花费我太多。”
缺陷/合作:“诱惑:你在我可怜的夜晚救了我的命。但随后我得到了额外的好处,那就是不必支付在我晚安时餵你的微不足道的费用。”
合作/缺陷:“吸盘的回报:我为在晚安时挽救你的生命付出了代价。但在我糟糕的夜晚,你不餵我,我冒着饿死的风险。”
缺陷/缺陷:“惩罚:我不必为在我的晚安中餵饱你而支付微不足道的费用。但我真的冒着在我可怜的夜晚挨饿的风险。”
心理学
在成瘾研究/行为经济学中,GeorgeAinslie指出成瘾可以被视为成瘾者现在和未来自我之间的跨期PD问题。在这种情况下,背叛意味着復发,而且很容易看出,无论是现在还是未来,不叛变是迄今为止最好的结果。一个人今天弃权,但在未来復发的情况是最坏的结果——在某种意义上,今天弃权所涉及的纪律和自我牺牲已经“浪费”了,因为未来的複发意味着上瘾者马上回到他们开始的地方,并将必须重新开始(这非常令人沮丧,并且使重新开始更加困难)。今天和明天的複发是一个稍微“更好”的结果,因为虽然上瘾者仍然上瘾,但他们还没有努力试图停止。最后一种情况,即一个人今天从事上瘾行为,同时放弃“明天”,任何与上瘾作斗争的人都会熟悉。
约翰·戈特曼(JohnGottman)在“信任的科学”中描述的研究中将良好的关係定义为合作伙伴知道不进入(D,D)细胞或至少不会动态地陷入循环的那些关係。在认知神经科学中,与处理不同轮次相关的快速大脑信号可能预示着下一轮的选择。相互合作的结果需要大脑活动的变化来预测一个人在下一次机会时会以多快的速度进行实物合作;这种活动可能与基本的稳态和激励过程有关,可能会增加进入游戏(C,C)细胞的捷径的可能性。
经济学
囚徒困境被称为社会心理学的大肠杆菌,被广泛用于研究寡头垄断竞争和集体行动以产生集体利益等各种课题。
广告有时被引用为囚徒困境的真实例子。当香烟广告在美国是合法的,竞争的捲烟製造商必须决定在广告上花多少钱。A公司广告的有效性部分取决于B公司进行的广告。同样,B公司从广告中获得的利润也受到A公司进行的广告的影响。如果A公司和B公司都选择在给定期间做广告期间,则每个公司的广告抵消了对方的广告,收入保持不变,费用因广告成本而增加。两家公司都将受益于广告的减少。但是,如果B公司选择不做广告,那麽A公司可以从广告中受益匪浅。然而,一家公司的最佳广告数量取决于另一家公司的广告投放量。由于最佳策略取决于另一家公司的选择,因此不存在佔优策略,这与囚徒困境略有不同。然而,结果是相似的,如果两家公司的广告比均衡时少,情况会更好。有时,合作行为确实会出现在商业环境中。例如,捲菸製造商支持制定禁止捲菸广告的法律,并理解这将降低整个行业的成本并增加利润。这种分析可能与许多其他涉及广告的商业情况相关。
如果没有可执行的协议,卡特尔的成员也会陷入(多人)囚徒困境。“合作”通常意味着将价格保持在预先商定的最低水平。“背叛”是指低于这个最低水平进行销售,立即从其他卡特尔成员那里夺走业务(和利润)。反垄断当局希望潜在的卡特尔成员相互背叛,确保为消费者提供尽可能低的价格。
运动
运动中的兴奋剂被引用为囚徒困境的一个例子。
两名参赛运动员可以选择使用非法和/或危险药物来提高他们的表现。如果两个运动员都没有服用药物,那麽两者都不会获得优势。如果只有一个人这样做,那麽该运动员比他们的竞争对手获得了显着的优势,减少了服用该药物的法律和/或医疗危险。然而,如果两名运动员都服用了这种药物,那麽好处就会被抵消,只剩下危险,这会使他们俩都处于比没有使用兴奋剂的情况更糟的境地。
在1998MLB赛季结束后与小肯格里菲的谈话中,巴里邦兹表达了他对其他球员使用类固醇的失望。邦兹说:“去年我度过了一个糟糕的赛季,没有人在乎。没有人。儘管我一直在抱怨麦格威尔和坎塞科以及所有服用类固醇的公牛,但我已经厌倦了与之抗争。我今年35岁了一年。我还有三四个好赛季,我想得到报酬。我只是要开始使用一些硬核的东西,希望它不会伤害我的身体。然后我会离开游戏并完成它。”邦兹发现自己陷入了在棒球比赛中使用兴奋剂的囚徒困境,他觉得他必须使用类固醇,这样他的竞争对手就不会比他有如此显着的优势,这让他处于一个公平的竞争环境中,儘管每个人的情况都比他差如果根本没有人使用类固醇。
国际政治
在国际政治理论中,囚徒困境经常被用来证明战略现实主义的连贯性,它认为在国际关係中,所有国家(无论其内部政策或所宣称的意识形态如何)都会在国际无政府状态下以理性的自身利益行事.一个典型的例子是像冷战这样的军备竞赛和类似的冲突。在冷战期间,北约和华约的对立联盟双方都可以选择武装或解除武装。从双方的角度来看,在他们的对手继续武装的同时解除武装会导致军事劣势和可能的全军复没。相反,在对手解除武装的情况下武装会导致优势。如果双方都选择武装,双方都无力攻击对方,但双方都承担了开发和维持核武库的高昂成本。如果双方都选择解除武装,战争就可以避免,也不会付出任何代价。
虽然“最好”的总体结果是双方都解除武装,但双方的理性路线是武装,这确实是发生的事情。双方在未来三十年的消耗战中将大量资源投入军事研究和军备,直到苏联无法承受经济成本。同样的逻辑可以应用于任何类似的情况,无论是主权国家之间的经济或技术竞争。
多人困境
许多现实生活中的困境涉及多个玩家。虽然是隐喻,但哈丁的公地悲剧可以被视为PD的多玩家概括的一个例子:每个村民都为个人利益或克製做出选择。一致(甚至频繁)背叛的集体回报是非常低的回报(代表“公地”的破坏)。大多数人可能会遇到的一个公共困境是在合租的房子裡洗碗。通过不洗碗,个人可以通过节省时间来获得收益,但如果每个居民都採用这种行为,那麽集体成本对任何人来说都不是乾淨的盘子。
公地并不总是被利用:威廉庞德斯通在一本关于囚徒困境的书中描述了新西兰的一种情况,即报刊箱没有上锁。人们可以不付钱就拿一张纸(背叛),但很少有人这样做,觉得如果他们不付钱,其他人也不会,从而破坏了系统。2009年诺贝尔经济学奖获得者埃莉诺·奥斯特罗姆的后续研究,假设公地悲剧被过度简化,负面结果受外部影响。在不增加压力的情况下,团体为了互惠互利而相互交流和管理公地,执行社会规范以保护资源并为团体实现最大利益,这是实现PD最佳案例结果的一个例子。
相关游戏
闭包交换
DouglasHofstadter曾经提出,当以简单博弈或权衡的形式来说明时,人们通常会发现诸如PD问题之类的问题更容易理解。他使用的几个例子之一是“封闭袋交换”:
两个人见面并交换封闭的袋子,知道其中一个包含钱,另一个包含购买。任何一名玩家都可以选择通过将他或她同意的东西放入他或她的包中来履行交易,或者他或她可以通过交出一个空包来背叛。
是敌是友?
是敌是友?是一个游戏节目,于2002年至2003年在游戏节目网络上播出在美国。这是在真人身上测试的囚徒困境游戏的一个例子,但在一个人为的环境中。游戏节目中,三对人进行比赛。当一对被淘汰时,他们会玩类似于囚徒困境的游戏,以确定如何分配奖金。如果他们都合作(朋友),他们将分享50-50的奖金。如果一个人合作而另一个人背叛(敌人),背叛者将获得所有奖金,而合作者将一无所获。如果双方都背叛,双方都一无所有。请注意,奖励矩阵与上面给出的标准矩阵略有不同,因为“两个缺陷”和“合作而对手缺陷”情况的奖励是相同的。与标准囚犯的严格均衡相比,这使得“两个缺陷”案例成为弱均衡的困境。如果参赛者知道他们的对手要投“Foe”,那麽他们自己的选择不会影响自己的赢利。在特定意义上,FriendorFoe在囚徒困境和吃鸡游戏之间有一个奖励模型。
奖励矩阵是
对1/对2“朋友”(合作)“敌人”(缺陷)
“朋友”(合作)1/10/2
“敌人”(缺陷)2/00/0
英国电视节目TrustMe,Shafted,TheBankJob和GoldenBalls,美国游戏节目TakeItAll,以及真人秀节目BachelorPad和Love中的获胜夫妇也使用了这个收益矩阵。岛。游戏数据来自一组经济学家对金球进行了分析,他们发现对于在现实世界中看似重要但在游戏环境中相对较低的金额,合作“高得惊人”。
迭代的雪堆
洛桑大学和爱丁堡大学的研究人员提出,“迭代雪堆游戏”可能更能反映现实世界的社会情况。虽然这个模型实际上是一个吃鸡游戏,但这裡将对其进行描述。在这个模型中,通过背叛被剥削的风险较低,个人总是从合作选择中获益。雪堆游戏想像两个司机被困在汽车的相对两侧雪堆的相对两侧,每个人都可以选择铲雪以清理道路,或者留在他们的车裡。玩家的最高回报来自让对手自己清除所有积雪,但对手仍然名义上因他们的工作而获得奖励。
这可能更好地反映现实世界的情景,研究人员举了两位科学家合作撰写报告的例子,如果对方更加努力,他们都会受益。“但是当你的合作者不做任何工作时,你自己做所有工作可能会更好。你最终还是会完成一个完整的项目。”
雪堆支出示例(A,B)
一个/乙合作缺陷
合作200,200100,300
缺陷300,1000,0
示例PD支出(A,B)
一个/乙合作缺陷
合作200,200-100,300
缺陷300,-1000,0
协调游戏
在协调游戏中,玩家必须协调他们的策略以获得良好的结果。一个例子是两辆汽车在暴风雪中突然相遇;每个人都必须选择是向左还是向右转弯。如果两者都向左或向右转弯,则汽车不会发生碰撞。当地的左右交通惯例有助于协调他们的行动。
对称协调游戏包括猎鹿和巴赫或斯特拉文斯基。
不对称囚徒困境
更一般的游戏集是不对称的。和囚徒困境一样,最好的结果是合作,有背叛的动机。然而,与对称囚徒困境不同的是,一个玩家比另一个玩家失去更多和/或获得更多。一些此类游戏被描述为囚徒困境,其中一名囚犯有不在场证明,因此称为“不在场证明游戏”。
在实验中,玩家在重複博弈中获得不均等的收益可能会寻求利润最大化,但前提是双方均获得相同的收益;这可能会导致一个稳定的均衡策略,其中处于不利地位的玩家在每X场比赛中都会背叛,而另一方总是合作。这种行为可能取决于实验中围绕公平的社会规范。
守护者的困境
面临困境的不仅是囚犯。监护人也面临着只有没有吸引力的选择可供选择的情况。一个代理人必须缓和自己合伙人之间的紧张关係的例子很容易找到:可以想到两个同事为了职业发展而争吵,这给他们公司的董事总经理带来了麻烦;两名官员竞相提拔,这给他们的局局长造成了紧张;或者在育儿中,当两个兄弟姐妹争夺注意力和焦虑时,这会导致他们的父母。如果监护人的行为满足了一方,另一方就会感到暴露和疏远。
SpyrosKatsoulas博士从国际关係的角度介绍了监护人困境的概念。守护者的困境被定义为两个国家儘管拥有一个更强大的共同盟友,但仍彼此敌对。默认情况下,两难选择是一种选择不令人满意的情况。守护者的困境在于,强大的国家既不能置身于盟友之间的危机之中,又不能在不影响脆弱平衡的情况下积极介入。如果监护人弃权,情况可能会失控;如果监护人参与其中,任何对一方的倾斜都可能被视为另一方的胜利或机会之窗。扩展格伦·斯奈德对联盟安全困境的概念,守护者与两个较小伙伴之间互动的结果被描述为放弃、圈套和底气。
软件
已经创建了几个软件包来运行囚徒困境模拟和锦标赛,其中一些具有可用的源代码。
由RobertAxelrod举办的第二场锦标赛的源代码(由Axelrod和许多Fortran贡献者编写)可在线获取
监狱,一个用Java编写的库,最后一次更新是在1998年
Axelrod-Python,用Python编写
Evoplex,一个基于代理的快速建模程序,由MarcosCardinot于2018年发布
在小说中
HannuRajaniemi将他的量子窃贼三部曲的开场场景设置在“困境监狱”中。该系列的主题被描述为“二元宇宙的不足”,最终的对手是一个叫做全叛逃者的角色。Rajaniemi作为一名处理这个主题的艺术家特别有趣,因为他是一名剑桥培训的数学家并拥有博士学位。在数学物理学中——物质和信息的可互换性是本书的一大特色,它们发生在“后奇点”的未来。该系列的第一本书于2010年出版,两部续集《分形王子》和《因果天使》分别于2012年和2014年出版。
以(迭代的)囚徒困境为蓝本的游戏是2012年电子游戏零逃脱:美德的最后奖励的核心焦点,也是其2016年续集零逃脱:零时间困境的一小部分。
在TrentonLeeStewart的TheMysteriousBenedictSocietyandthePrisoner'sDilemma中,主要角色开始玩一个版本的游戏并完全逃离“监狱”。后来他们成为真正的囚犯并再次逃脱。
在冒险区:苦难游戏次弧的平衡中,玩家角色在两个巫妖领域期间两次面临囚徒困境,一次合作,一次叛逃。
在作者JamesSACoreyTiamat的《愤怒》的第8部小说中,WinstonDuarte向他14岁的女儿Teresa解释了囚徒困境,以训练她的战略思维。
囚徒困境的一个极端版本出现在2008年的电影《黑闇骑士》中,其中小丑操纵了两艘渡轮,一艘载有囚犯,另一艘载有平民,使两组都拥有引爆彼此渡轮上的炸弹的手段。最终,双方决定不採取行动。
孔多塞悖论
社会选择理论中的孔多塞悖论(也称为投票悖论或投票悖论)是孔多塞侯爵在18世纪后期注意到的一种情况,在这种情况下,集体偏好可以循环的,即使个别选民的偏好不是循环的。这是自相矛盾的,因为这意味着多数人的意愿可能会相互冲突:假设多数人更喜欢候选人A胜过B,B胜过C,但C胜过A。当这种情况发生时,这是因为多数人的冲突每个人都由不同的个人群体组成。
因此,期望所有个人偏好的及物性应该导致社会偏好的及物性是组合谬误的一个例子。
这个悖论是由LewisCarroll和EdwardJ.Nanson独立发现的,但直到1940年代被DuncanBlack推广后,才认识到它的重要性。
例子
假设我们有三个候选人A、B和C,并且有三个选民的偏好如下(每个选民的候选人从左到右按偏好降序排列):
选民第一偏好第二偏好第三偏好
选民1ABC
选民2BCA
选民3CAB
如果C被选为获胜者,则可以说B应该获胜,因为有两个选民(1和2)更喜欢B而不是C,只有一个选民(3)更喜欢C而不是B。但是,根据相同的论点,A是比B好,C比A好,每次相差2比1。因此,社会的偏好表现出循环:A优于B,B优于C,C优于A。
基数评级
请注意,在图形示例中,选民和候选人不是对称的,但排名投票系统将他们的偏好“扁平化”成一个对称的循环。基数投票系统提供比排名更多的信息,从而可以找到获胜者。例如,在得分投票下,选票可能是:
ABC
1630
2061
3506
全部的:1197
候选人A得分最高,并且是获胜者,因为A是最接近所有选民的。然而,大多数选民有动机给A0和C10,允许C击败他们更喜欢的A,此时,大多数选民将有动机给C0和B10,使B获胜,等等(但在这个特定的例子中,动机很弱,因为那些更喜欢C而不是A的人只比A得分C1分;在排名孔多塞方法中,他们很可能会简单地对A进行同样排名和C,因为他们的偏好有多弱,在这种情况下,孔多塞循环一开始就不会形成,而A将成为孔多塞的赢家)。因此,儘管循环不会出现在任何给定的选票中,但它可以通过具有基本评级的战略选民的迭代选举出现。
悖论的必要条件
假设x是更喜欢A而不是B的选民比例,而y是更喜欢B而不是C的选民比例。已经证明更喜欢A而不是C的选民比例z总是至少(x+y–1)。由于悖论(大多数人更喜欢C而不是A)要求z<1/2,因此悖论的必要条件是
X+Y-1≤z<12因此X+Y<32.
悖论的可能性
可以通过从实际选举数据中推断或使用选民行为的数学模型来估计悖论的概率,儘管结果很大程度上取决于所使用的模型。特别是,AndranikTangian证明了孔多塞悖论的概率在大社会中可以忽略不计。
公正的文化模式
对于选民偏好在候选人之间均匀分佈的特殊情况,我们可以计算出现悖论的概率。(这是“不偏不倚的文化”模型,众所周知是不切实际的,因此,在实践中,孔多塞悖论的可能性或多或少可能比这种计算。)
为了n选民提供三个候选人A、B、C的偏好列表,我们写Xn(分别。是n,Zn)随机变量等于将A放在B前面(分别是B在C前面,C在A前面)的选民人数。寻求的概率是pn=2P(Xn>n/2,Yn>n/2,Zn>n/2)(我们加倍,因为还有对称情况A>C>B>A)。我们证明,对于奇数n,pn=3qn-1/2在哪裡qn=P(Xn>n/2,Yn>n/2)这使得我们只需要知道联合分佈Xn和是n.
如果我们把pn,i,j=P(Xn=,Yn=j),我们展示了可以通过递归计算此分佈的关係:pn+1,i,j=16pn,i,j+13pn,i-1,j+13pn,i,j-1+16pn,i-1,j-1.
然后得到以下结果:
n3101201301401501601
pn5.556%8.690%8.732%8.746%8.753%8.757%8.760%
这个序列似乎趋向于一个有限的极限。
使用中心极限定理,我们证明了qn倾向于q=14P(|T|>24),在哪裡T是一个遵循柯西分佈的变量,它给出q=12π∫2/4+∞d吨1+吨2=反正切222π=阿尔科斯132π(OEIS中引用的常量)。
因此遇到孔多塞悖论的渐近概率为3阿尔科斯132π-12=反正弦69π这给出了8.77%的值。
已经计算了超过三个候选者的一些结果并进行了模拟。具有25名选民的公正文化模型的模拟可能性随着候选人人数的增加而增加:
345710
8.4%16.6%24.2%35.7%47.5%
相关模型的孔多塞循环的可能性接近于大选民的这些值:
公正匿名文化(IAC):6.25%
统一文化(UC):6.25%
最大培养条件(MC):9.17%
所有这些模型都是不切实际的,并且被研究以确定循环可能性的上限。
组一致性模型
当以更现实的选民偏好建模时,孔多塞悖论在候选人人数少而选民人数多的选举中变得非常罕见。
空间模型
一项对三名候选人选举的研究分析了12种不同的选民行为模型,发现投票的空间模型对现实世界的排名选票选举数据最为准确。分析这个空间模型,他们发现随着选民人数的增加,一个週期的可能性降低到零,100名选民的可能性为5%,1000名选民的可能性为0.5%,10,000名选民的可能性为0.06%。
另一个空间模型发现,在201名选民和5名候选人的所有模拟中,无论是二维还是四维,维度之间有或没有相关性,以及有两种不同的候选人分散,可能性为2%或更低。
实证研究
已经进行了许多尝试来寻找悖论的经验例子。孔多塞悖论的实证识别预设了关于决策者对所有备选方案的偏好的广泛数据——这些数据很少可用。
对37项独立研究的总结,涵盖了265次大大小小的现实世界选举,发现了25个孔多塞悖论的实例,总可能性为9.4%(这可能是一个很高的估计,因为悖论的案例比没有的案例更有可能被报导)。
对从选举改革协会的84次真实世界排名投票选举中提取的883次三候选人选举的分析发现,孔多塞週期的可能性为0.7%。这些派生的选举有350至1,957名选民。对1970-2004年美国全国选举研究温度计规模调查的数据进行了类似分析,发现孔多塞週期的可能性为0.4%。这些派生的选举有759至2,521名“选民”。
虽然悖论的例子似乎偶尔出现在小环境(例如议会)中,但在较大的群体(例如选民)中发现的例子很少,儘管已经确定了一些例子。
影响
当使用孔多塞方法确定选举时,週期性社会偏好的投票悖论意味着选举没有孔多塞获胜者:没有候选人可以在一对一的选举中赢得与其他候选人的竞争。仍然会有一个最小的候选人组,称为史密斯集,这样组中的每个候选人都可以在与组外的每个候选人的一对一选举中获胜。Condorcet方法的几种变体在确定获胜者时如何解决这种模棱两可的方法有所不同。当没有孔多塞获胜者时,总是从史密斯集中选出某人的孔多塞方法被称为史密斯有效.请注意,仅使用排名,对于前面给出的琐碎示例没有公平和确定性的解决方案,因为每个候选人都处于完全对称的情况。
存在投票悖论的情况会导致投票机制违反无关备选方案的独立性公理——投票机制对获胜者的选择可能会受到失败候选人是否可以被投票的影响。
两阶段投票过程
在实际情况中可能存在的投票悖论的一个重要含义是,在一个两阶段的投票过程中,最终的获胜者可能取决于两个阶段的结构方式。例如,假设A对B在公开初选中赢得一党领导权的获胜者将在大选中面对第二党的领导人C。在前面的例子中,A将在第一党的提名中击败B,然后在大选中输给C。但是,如果B在第二党而不是第一党中,B将在该党的提名中击败C,然后在大选中输给A。因此,两个阶段的结构决定了A还是C是最终的赢家。
同样,立法机构中一系列投票的结构可以由安排投票的人操纵,以确保获得首选结果。
意志力悖论
意志力悖论是这样一种观点,即人们可以通过不那麽直接地专注于做事情来做得更好,这意味着直接运用意志可能并不总是实现目标的最有力方式。
研究表明,人际交流(自言自语)和保持质疑的心态更有可能带来改变。
这种现象与MarshaLinehan对辩证行为疗法和激进接受的描述类似。为了摆脱“过度任性”的心态(可以等同于“自我暴乱”),转向激进接受,Linehan提倡转变思想并允许意愿发生,类似于问“我会吗?”。意愿导致激进的接受,这反过来又会导致更永久的变化。
实验数据
一项实验比较了两组人做字谜的表现。一组考虑了他们即将完成的字谜任务;另一个考虑他们是否会执行字谜。第二组的表现比那些确信他们会研究字谜的人表现得更好。同一位研究员IbrahimSenay(伊利诺伊大学厄巴纳分校)同样发现,反複写“我会吗?”这个问题。比写传统的肯定句“我愿意”更有力。
意志力和成瘾
MichaelJ.Taleff写道:“我们领域(心理学)中的意志力是一个悖论”。受成瘾影响的患者被告知,任性不如自愿有效。