「个人最佳选择并非团体最佳选择。」
定义与起源
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
在一个理想世界里,每个人都能为了集体利益做出理性选择,避免损人不利己的局面。但现实往往是残酷的,无论是企业的价格战、国家的军备竞赛,还是环境污染、网络舆论对立,许多问题的本质,都是“囚徒困境”。
这个理论模型是1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”,由此成为博弈论中的经典模型。其描述的场景如下:
两名嫌犯被捕,警方没有确凿证据,只能让他们分别接受审讯,并提供以下选择:
-
如果两人都保持沉默(合作),各判1年;
-
如果一人坦白(背叛)而对方沉默,坦白者无罪释放,沉默者判10年;
-
如果两人都坦白(互相背叛),各判5年。
和博弈论的其他例证一样,囚徒困境的前提假定是每个参与者(即“囚徒”)都是利己的,也就是说都寻求最大自身利益,而不关心另一参与者的利益。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。试设想困境中两名理性囚徒会如何作出选择:
-
若对方沉默、背叛会让我获释,所以会选择背叛。
-
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
所以,从个体角度来看,无论对方如何选择,坦白(背叛)都是占优策略,即最优的个人选择。但如果双方都背叛,结果却是最差的(5年)。
因此就形成了一个悖论:理性选择导致非理想结果,集体利益受损。这不仅仅是个理论模型游戏,也是现实世界中社会困境的缩影。
囚徒困境的广泛应用
囚徒困境并不仅仅是理论模型,它广泛存在于人类社会和自然界的各类博弈场景中。无论是社会科学中的经济学、政治学、社会学,还是自然科学中的动物行为学、进化生物学,囚徒困境都能为分析复杂的利益冲突提供框架。这种博弈的普遍性,恰恰说明了其深刻的现实意义。
⚪ 政治学:军备竞赛的悖论
在政治学中,两国之间的军备竞赛是囚徒困境的经典案例。
比如冷战时期,美苏军备竞赛不断升级,各自投入大量资源研发核武器。当时双方各有两种选择:增加军备(背叛)或达成裁军协议(合作)。
由于无法确信对方会遵守协议,两国往往倾向于选择增加军备以确保自身安全。于是这种“理性”行为却导致了“非理性”的结果——军备竞赛加剧了经济负担,甚至可能引发更大的不稳定。
这就是典型的非零和博弈:即便双方都加大投入,整体安全状况并未改善,反而形成了一种“恐怖平衡”。
⚪ 经济学:关税战的恶性循环
在国际贸易中,关税战是囚徒困境的另一个典型体现。两国在关税政策上的选择可以分为:
1. 提高关税以保护本国商品(背叛);
2. 达成关税协定,降低关税以促进商品流通(合作)。
当一国因短期利益背弃协定独自提高关税时,另一国通常会采取对等措施,最终引发关税战。两国商品失去对方市场,经济受损,陷入共同背叛的恶性循环。但通过后续的重复博弈,双方往往能意识到合作的长期利益更大,最终又重新达成协议。
⚪ 商业:无休止的价格战
2024年,全球新能源汽车市场进入价格战白热化阶段。特斯拉和比亚迪,这两家新能源巨头,正陷入典型的囚徒困境。
■ 背景:
-
比亚迪率先降价,以扩大市场份额;
-
特斯拉不得不跟进,否则可能失去竞争力;
-
结果是整个行业利润大幅缩水,甚至影响供应链稳定。
■ 博弈分析:
-
如果两家企业都保持价格稳定(合作),它们可以维持较高利润,避免市场恶性竞争。
-
如果一方降价(背叛),它能短期内抢占市场份额,而对手若不跟进就会被挤压。
-
但如果双方都降价(互相背叛),利润空间被压缩,行业进入“内卷”模式,形成“双输局面”。
在竞争压力下,双方都选择了短期最优的占优策略(降价),但从长期来看,这种非零和博弈损害了整个行业的健康发展。
⚪ 环境保护VS企业利润
在人类工业发展的过程中,企业的生产不可避免地会对环境产生影响,但治理污染往往意味着更高的成本。如果所有企业都愿意投入环保措施(合作),整个社会都会受益。但在个人利益与集体利益的权衡下,每家企业都有动力偷懒(背叛),让别人承担环保成本,而自己降低支出。
而结果是什么?
-
所有企业都偷懒,污染加剧,社会整体受损。
-
这就是典型的“强负外部性”问题,即个体的行为对社会造成了负面影响。
⚪ 自行车赛的博弈策略
囚徒困境不仅存在于宏观事件中,在我们身边也有很多体现。以自行车赛事为例,选手们在比赛策略中展现了类似的博弈逻辑。
在环法自行车赛中,选手们通常以大队伍(Peloton)形式前进,以节省体力并避免落后。但最前方的选手需要承担更多风阻,因此选择前方位置是最差的策略。
比赛过程中,往往会出现以下动态:
-
初始阶段,所有选手都不愿向前(共同背叛),导致整体速度缓慢;
-
随后,部分选手骑到前方并轮流分担风阻(共同合作),整体速度提升;
-
若某选手试图一直保持前方位置(背叛),其他选手会利用其冲流节省体力,最终超越(共同背叛)。
最终,合作的选手往往因体力消耗过大而被背叛的选手超越,这种动态博弈也是囚徒困境的生动体现。
如何破解囚徒困境
囚徒困境的破解逻辑在于理解个体选择与集体利益之间的微妙平衡。罗伯特·阿克塞尔罗德在其著作《合作的进化》中,通过“重复囚徒困境”(IPD)实验揭示了合作的可能性。
在这个博弈实验中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序在这些反面有巨大的差异:算法的复杂性、最初的对抗、宽恕的能力等等。
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他主义”策略更多地被采用,这就是前文提到的,通过自然选择和重复博弈,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
而且通过分析实验中的高分策略,阿克塞尔罗德发现成功策略的共同特质可归纳为以下四个必要条件:
1. 友善
成功的策略从不主动背叛,而是以合作为初始选择。这种“友善”并非出于道德,而是基于理性计算:主动背叛会引发对方的报复,最终损害自身利益。友善为合作提供了可能性,是打破困境的第一步。
2. 报复
友善并不意味着盲目信任。当对手选择背叛时,必须以报复作为回应,否则会被“下流策略”反复利用。报复是一种理性的自我保护机制,它向对手传递明确信号:背叛将付出代价。这种威慑是维系合作的必要条件。
3. 宽恕
报复虽能保护自身,但若陷入“背叛-报复”的循环,合作将永远无法重建。宽恕意味着在对手停止背叛后,策略会重新选择合作。这种动态调整避免了无休止的对抗,为合作创造了新的机会。
4. 不嫉妒
成功的策略从不追求超越对手的收益,而是专注于最大化自身长期利益。这种“不嫉妒”特质避免了不必要的竞争,使双方能够在合作中实现共赢。
这四个条件共同构成了破解囚徒困境的核心框架:友善奠定合作基础,报复防止被剥削,宽恕修复关系,不嫉妒确保合作的可持续性。
阿克塞尔罗德的研究表明,合作并不是乌托邦式的理想,而是基于理性的选择。当个体策略满足这四个条件时,短期的理性选择与长期的集体利益便能够达成和解。
囚徒困境不仅仅是一个数学模型,而是现实社会的真实写照。
短期个人的最优选择,往往导致长期的集体灾难。破解的关键不在于消灭竞争,而在于如何在博弈中找到合作的契机。
困境无法消失,但选择可以改变结局。
原文链接:https://mp.weixin.qq.com/s/L728Pxmk_dEcgbX8iKrJoA
编辑 | 人格与社会课题组黄传斌