随机博弈

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA 随机博弈Template:Lang-en),或称随机-{zh-cn:赛局; zh-hk:賽局; zh-tw:博弈;}-随机對局,在博弈论中是一类由一个或多个参与者所进行的、具有状态概率转移动态博弈,由劳埃德·夏普利(Lloyd Shapley)於20世纪50年代初期提出。[1]

定义

这类博弈由一系列阶段组成。在博弈中每一阶段的起始,博弈处於某种特定状态。每一参与者选择某种行动,然後会获得取决於当前状态和所选择行动的收益。之後,博弈发展到下一阶段,处於一个新的随机状态,这一随机状态的分布取决於先前状态和各位参与者选择的行动。在新状态中重复上述过程,然後博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和,或是各阶段收益平均值的下极限来计算。

数学描述

随机博弈的组成部分有:有限参与者集I ;状态空间M (可以是有限集,也可以是可测空间(M,𝒜));对於每一参与者iI,存在行动集Si(可以是有限集,也可以是可测空间(Si,𝒮i));PM×SM 的转移概率,其中S=×iISi是行动组合,P(Am,s)是下一状态处於A 中的概率,而A 给定了当前状态m 和当前行动组合s ;从M×SRI的收益函数g,其中g 的第i 个坐标gi是参与者i 的收益,而gi 是状态m 和行动组合s 的函数。

博弈以某个初始状态m1 开始。在阶段t 中,参与者最先观测到mt ,同时选择行动stiSi,然後观测到行动组合st=(sti)i,然後以概率P(mt,st)自然选择mt+1 。一次随机博弈m1,s1,,mt,st,定义了一个收益流g1,g2,,其中gt=g(mt,st)

例子

下面给出随机博弈的一个例子:

当前有任意个装着球的桶,每个桶中球的数目也是任意的,两位参与者轮流从中取出球,且需要遵守如下规则:

  1. 每一步应至少取出一只球,且只能从某一桶中取走部分或全部球;
  2. 谁取到最后一只球,谁就获胜。

重要结论

贴现因子λ0<λ1)的贴现博弈Γλ 中,参与者i 的收益是λt=1(1λ)t1gtin 阶段博弈中,参与者i 的收益是g¯ni:=1nt=1ngti

若存在有限多个状态和行动的二人零和博弈Γn(各自是Γλ)的值为vn(m1)(各自是vλ(m1)),则vn(m1)n 趋於无穷时收敛到一个极限,且vλ(m1)λ趋於0时收敛到相同的极限。这一结论已被杜鲁门·彪利(Truman Bewley)和艾朗·克尔伯格(Elon Kohlberg)於1976年证明。[2]

非贴现博弈Γ中,参与者i 的收益是各阶段收益平均值的极限。在定义二人零和博弈Γ的值与非零和博弈Γ的均衡收益之前需要注意一些事情:若对於每一ε>0都有正整数N 、参与者1的策略σε和参与者2的策略τε,二人零和随机博弈Γ的一致值(uniform value)v存在,这样对於每一στ和每一nN,博弈中由σετ定义的概率的g¯ni期望至少为vε,由στε定义的概率的g¯ni期望至多为v+ε让·弗朗索瓦·梅顿斯(Jean Francois Mertens)和亚伯拉罕·奈曼(Abraham Neyman)於1981年证明二人零和随机博弈具有一致值。[3]

若参与者数量有限且行动集和状态集有限,则有限阶段随机博弈总有纳什均衡,对於总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒(Nicolas Vieille)已经证明当总收益是各阶段收益平均值的下极限时,所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过,当参与者多於2名时,随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。[4]

应用

随机博弈在经济学演化生物学计算机网络中都有应用。[5]事实上,随机博弈是重复博弈这类每一阶段都处於相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。[2]菲拉尔和乌瑞兹所著的书籍更为基础,书中提供了马尔可夫决策过程(MDP)和二人随机博弈理论的严密的统一处理方法。[6]他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。

参考文献

註釋

Template:Reflist

一般參考

Template:- Template:博弈论