完全信息动态博弈之Rubinstein议价模型
Rubinstein议价模型
Rubinstein(1982)议价模型是博弈论中的经典框架,用于分析两个玩家在资源分配上的动态谈判过程。其核心在于通过轮流报价和时间折现因子(δ)捕捉谈判中的耐心与时间成本。模型分为无限轮和有限轮两种形式,分别适用于无明确截止期限和有时间限制的现实场景,如劳资谈判、国际贸易协议、企业并购等。无限轮模型强调耐心(高折现因子)带来的议价优势,而有限轮模型更贴近现实,突出最后通牒效应和先手优势。
模型设定
求所有子博弈的纳什均衡。
- 目标:两个参与者 P1 与 P2 分割总价值 1。
- 时序与轮次:从 t = 0 开始。若无外部终止,谈判可以无限进行;在每一轮恰有一位玩家提出一个分割方案。通常约定:P1 于偶数轮提出;P2 于奇数轮提出。
- 策略空间:在自己出价时,提议一个数 xt ∈ [0, 1],代表给予出价者(约定为 P1 时给予 P1 的份额;若 P2 出价则提议给予 P1 份额为 yt)。被提议者可选择接受或拒绝。接受则游戏终止并按提案分配;拒绝则进入下一轮。
- 折现因子与效用函数:P1 的折现因子为 δ1 ∈ (0, 1),P2 的折现因子为 δ2 ∈ (0, 1)。如果在轮 t 达成协议并 P1 获得 xt,则 P1 的效用函数为 δ1txt,而 P2 的效用函数为 δ2t(1 − xt)。
- 信息:完全信息(双方知道对方的折现因子与合理行为)。

无限轮模型的子博弈精炼纳什均衡
由于模型在每一轮的结构完全相同(除时间折现外),均衡具有周期性的自相似性质,令:
- x*:当轮到 P1 出价时,P1 在均衡中获得的份额;
- y*:当轮到 P2 出价时,P1 在均衡中获得的份额。
假设在某个时点轮到 P1 出价。若 P1 提议 x(给予自身 x),被提者 P2 会比较接受与拒绝的收益:
- 接受:P2 得到 1 − x(即时收益);
- 拒绝:谈判进入下一轮,轮到 P2 出价。在均衡中,P2 在下一轮出价时能确保 P1 获得 y*,因此 P2 自己获得 1 − y*,折现到当前为 δ2(1 − y*)。
为使 P2 接受,P2 需要 1 − x ≥ δ2(1 − y*) 所以 P1 要想使对方刚好接受,会提出 x = 1 − δ2(1 − y*)
对称地,当轮到 P2 出价时,若其提出给予 P1 的份额为 y,则 P1 接受条件为 y ≥ δ1x* 于是 P2 会提出 y = δ1x*
结合两个方程: $$ \begin{aligned} x^* &= 1 - \delta_2(1 - y^*) \\ y^* &= \delta_1 x^* \end{aligned} $$
代入得到: x* = 1 − δ2(1 − δ1x*) 整理: x* = 1 − δ2 + δ1δ2x* 解得: $$ x^* = \frac{1 - \delta_2}{1 - \delta_1\delta_2} $$ 进而: $$ y^* = \delta_1 x^* = \frac{\delta_1(1 - \delta_2)}{1 - \delta_1\delta_2} $$
模型启示
- 若 δ1 > δ2(P1 更耐心),则 x* 更大,先手 P1 获得较多份额;
- 当 δ1 = δ2 = δ 时,$x^* = \frac{1}{1+\delta}$;
- 若一方极不耐心(其折现因子接近 0),其在均衡中几乎得不到份额。
有限轮模型的子博弈精炼纳什均衡
考虑一个 T 轮讨价还价博弈,轮次编号 t = 0, 1, 2, …, T − 1:
- 出价顺序:P1 在偶数轮出价,P2 在奇数轮出价
- 折现因子:δ1(P1),δ2(P2)
- 边界条件:如果在最后一轮仍未达成协议,双方收益为 0
定义:
- xt:在轮次 t(P1 出价时)P1 提出的自己获得的份额
- yt:在轮次 t(P2 出价时)P2 提出的 P1 获得的份额
- V1(t):在轮次 t 轮到 P1 出价时,P1 的均衡份额
- V2(t):在轮次 t 轮到 P2 出价时,P1 的均衡份额
逆向归纳通用推导
步骤 1:最后一轮 (t = T − 1) 分析
情况 A:T − 1 为偶数(P1 出价) $$ \begin{aligned} &P_1 \text{ 出价 } x_{T-1} = 1 \\ &P_2 \text{ 接受条件: } 1 - x_{T-1} \geq 0 \\ &\Rightarrow V_1(T-1) = 1, \quad P_2 \text{ 获得 } 0 \end{aligned} $$
情况 B:T − 1 为奇数(P2 出价) $$ \begin{aligned} &P_2 \text{ 出价 } y_{T-1} = 0 \\ &P_1 \text{ 接受条件: } y_{T-1} \geq 0 \\ &\Rightarrow V_2(T-1) = 0, \quad P_2 \text{ 获得 } 1 \end{aligned} $$
步骤 2:一般轮次递推关系
当 P1 出价时(t 为偶数): $$ \begin{aligned} &P_2 \text{ 接受条件: } 1 - x_t \geq \delta_2 \times (1 - V_2(t+1)) \\ &P_1 \text{ 最优出价: } x_t = 1 - \delta_2(1 - V_2(t+1)) \\ &\Rightarrow V_1(t) = 1 - \delta_2(1 - V_2(t+1)) \end{aligned} $$
当 P2 出价时(t 为奇数): $$ \begin{aligned} &P_1 \text{ 接受条件: } y_t \geq \delta_1 V_1(t+1) \\ &P_2 \text{ 最优出价: } y_t = \delta_1 V_1(t+1) \\ &\Rightarrow V_2(t) = \delta_1 V_1(t+1) \end{aligned} $$
具体轮数推导示例
T = 1
- t = 0:P1 出价
- V1(0) = 1(P1 获得全部)
T = 2
t = 1(最后一轮,P2 出价): V2(1) = 0
t = 0(P1 出价): $$ \begin{aligned} V_1(0) &= 1 - \delta_2(1 - V_2(1)) \\ &= 1 - \delta_2(1 - 0) \\ &= 1 - \delta_2 \end{aligned} $$
T = 3
t = 2(最后一轮,P1 出价): V1(2) = 1
t = 1(P2 出价): $$ \begin{aligned} V_2(1) &= \delta_1 V_1(2) \\ &= \delta_1 \times 1 \\ &= \delta_1 \end{aligned} $$
t = 0(P1 出价): $$ \begin{aligned} V_1(0) &= 1 - \delta_2(1 - V_2(1)) \\ &= 1 - \delta_2(1 - \delta_1) \\ &= 1 - \delta_2 + \delta_1\delta_2 \end{aligned} $$
T = 4
t = 3(最后一轮,P2 出价): V2(3) = 0
t = 2(P1 出价): $$ \begin{aligned} V_1(2) &= 1 - \delta_2(1 - V_2(3)) \\ &= 1 - \delta_2(1 - 0) \\ &= 1 - \delta_2 \end{aligned} $$
t = 1(P2 出价): $$ \begin{aligned} V_2(1) &= \delta_1 V_1(2) \\ &= \delta_1(1 - \delta_2) \end{aligned} $$
t = 0(P1 出价): $$ \begin{aligned} V_1(0) &= 1 - \delta_2(1 - V_2(1)) \\ &= 1 - \delta_2(1 - \delta_1(1 - \delta_2)) \\ &= 1 - \delta_2 + \delta_1\delta_2 - \delta_1\delta_2^2 \end{aligned} $$
一般 T 轮闭式解模式
通过观察上述推导,可以发现模式:
当 T 为奇数时(最后一轮 P1 出价): V1(0) = 1 − δ2 + δ1δ2 − δ1δ22 + δ12δ22 − ⋯
当 T 为偶数时(最后一轮 P2 出价): V1(0) = 1 − δ2 + δ1δ2 − δ1δ22 + ⋯
通项公式: $$ V_1(0) = \sum_{k=0}^{m} (-1)^k \delta_1^{\lfloor k/2 \rfloor} \delta_2^{\lfloor (k+1)/2 \rfloor} $$ 其中 m 取决于总轮数 T。
当 T → ∞ 时,有限轮解收敛到无限轮解: $$ \lim_{T \to \infty} V_1(0) = \frac{1 - \delta_2}{1 - \delta_1\delta_2} $$
模型启示
- 先手优势:奇数轮博弈给予先出价者优势
- 耐心价值:δ1, δ2 越大,后手者谈判力越强
- 轮次效应:总轮数奇偶性影响最终分配
- 折现累积:每个额外轮次引入新的折现因子乘积项
总结与心得
RS议价模型的精髓在于将“时间就是金钱”这一理念转化为可计算的数学模型。其核心参数“贴现因子(δ)”在现实中常可被量化为谈判各方对时间成本的财务衡量。
例如,在劳资谈判中,δ_资方可能与企业停产的日均利润损失、供应链中断的罚金等具体财务数据挂钩;而δ工会则可能与工会罢工基金的消耗速率、会员家庭储蓄的承受能力相关。在国际贸易中,发展中国家的“低δ”可能具体体现为其外汇储备的消耗压力、或下一财年预算案通过所需的“政治窗口期”。成功的博弈策略,如罢工或组建联盟,其有效性往往取决于它们是否能实质性地改变对方对时间成本的财务或政治预期,而不仅仅是主观的“耐心”。
该模型在数字平台经济中的应用更为系统和直接。平台算法作为“先手出价者”,其规则设计内嵌了贴现逻辑。例如,电商平台的“限时优惠”和“24小时定价”机制,本质上是为商户设定了一个极高的贴现压力(低δ),迫使他们在“立即接受现有条款”与“承担流量损失的风险”之间做出抉择。更进一步,基于Rubinstein规则的“自动谈判代理”被用于程序化广告竞价或搜索关键词拍卖等场景,以毫秒级的速度与海量商户进行多轮出价博弈,从而在微观层面上实现平台收益的自动化最大化。