笔者小时候幻想过如下问题:假设士兵 Alice
在一块空旷的草地上被敌方狙击手 Bob
瞄准,要如何让自己尽可能活命。专业人士告诉我们,如果 Bob 训练有素,Alice
的存活概率是 0。
当然,我们直觉上会认为,通过随机地跑 S
线(不断转向)躲开狙击手的枪线,无疑更有可能迷惑其判断使其空枪。因此,我们不妨假设
Bob 是一名吃晃的狙击手,来探讨 Alice
应该采取怎样的策略提高自身的存活概率。
游戏规则
我们把问题抽象为如下游戏:Alice 在 坐标的整数点上运动,初始位置为 。在每个整数时刻 ,Alice
可以选择向左或右移动一个身位(对应于逃跑过程中的转向),即 ;Bob 则可以在任何整数时刻
,决定瞄准 轴上的任何一个位置 开枪。Alice
的位置在任何时刻都是被 Bob 知晓的(因为他有瞄准镜),但 Alice 并不知道
Bob 会在哪一时刻开枪。
那么,如何定义 Bob 的「吃晃」呢?我们假设 Bob
的反应很慢,从决定开枪到真正扣下扳机,需要 个时间步;或者也可以理解为,子弹要经过
个时间步才能飞行到目标。无论采用哪种理解方式,总而言之,游戏遵循「Bob
成功击中 Alice 并获胜,当且仅当 」。很显然,Bob
无论何时开枪,都只有三个合理的瞄准位置,让他有机会命中,分别是 。
为了让 Alice 有一丝存活的概率,我们假设 Bob
只有一发子弹。草地是无限大且没有掩体的,即该游戏的进行时间是无限的。这个游戏我们记为
。粗略地讲,我们希望求出,在双方的最优策略下,Alice
的存活概率是多少;稍后我们将给出这个问题的严格叙述。
为了便于分析,我们也定义该游戏的有限时间版本:我们定义 与上述游戏唯一的区别是,我们限制
Bob 必须在第
个时刻及之前开枪,即进一步要求 。我们将通过分析 时 的性质来获得 的性质。
对于任意 Alice 的逃跑策略 ,Bob 都可以选择瞄准三个位置中
Alice
到达的概率最大的那个,以最大化其收益(即命中的概率),显然这个值不小于
。因此,Alice
应该让这三个概率相等,即使得 一个满足要求的策略是 ,请读者验证,无论此时 是什么, 的值都等于
。类似地,请读者进一步验证,
也满足类似的性质,从而
是纳什均衡,博弈的价值为 。
类似地,可以证明 。我们指出,。
也许一些敏锐的读者会感到惊讶:不管 Bob 在哪一时刻开枪,Alice
都可以选择让自己
个时刻后处在三个位置的概率相等,从而让中弹的概率(即游戏的价值)至多是
;按照这个思路,对于任意 价值不应该恒等于 吗?问题的关键在于,Alice
并不知道 Bob
开枪的时刻。为了实现上述策略,她必须保证自己在每一时刻的概率都均摊,通过研究
的性质,就可以发现这是做不到的。当然,如果 Alice 确切地知道 Bob
何时开枪,那么确实有 了。
无限时间
至此,完整问题的严格叙述已经呼之欲出了。我们想要解决的问题:
在双方的最优策略下,Alice 的存活概率是多少?
事实上就是求:
因此,我们要研究
作为一个数列的性质。首先,它显然是单调不降的,这是因为对于狙击手 Bob
而言,在 中,他总可以采取
中的策略,这样他至少可以保证 的结果,因此至少有 。特别地,。
另一方面,对于任意 ,如前文所说,我们可以也构造一个
Alice 的策略 ,保证任何情况下
不大于某个常数,从而证明一个
的上界。我们尝试构造如下一类策略,它包含一个参数 :
那么,
的递推是什么呢?这依赖于 Alice
第二步的策略,所以我们记其策略中,「第一步向左时,第二步也向左」的概率为
,「第一步向右时,第二步向左」的概率为
。这样,用 三个参数,我们就可以描述 Alice
在两步之内的任何一种策略了。两步之后,她可以所处的位置和概率分别为 如果 Bob 在 时刻开枪,那么对 Alice
来说,最坏情况下 Bob
会瞄准这三个位置中概率最大的那一个(三个选项);当然,只要 ,Bob 也可以不在
时刻开枪(第四个选项),这种情况下他只能在之后的
个时刻内开枪,因此他能获得的最大收益是 于是,对
Alice 的最坏情况下,Bob 会选择四种选项中 payoff
最大者,因此有递推:边界为 直接计算可得,,,且在剩余区间内它是线性函数。