分散式部分可观察马尔可夫决策过程

来自testwiki
跳转到导航 跳转到搜索

Template:Expand language 分散式部分可观察马尔可夫决策过程Template:Lang-enDec-POMDP[1][2]是一种多智慧体协调决策模型。这是一种概率模型,对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。

该模型是马尔可夫决策过程部分可觀察馬可夫決策過程的泛化,适用于分布式多智慧体的情形。[3]

定义

正式定义

Dec-POMDP是一个7元组,其中:

  • S是状态的集合,
  • Ai是智慧体i的行动集合,其中A=×iAi是联合行动的集合,
  • T是是状态间条件转移概率的集合,T(s,a,s)=P(ss,a)
  • R:S×A是回报函数,
  • Ωi是智慧体i的观察集合,其中Ω=×iΩi是联合观察的集合,
  • O是一组条件观察概率,O(s,a,o)=P(os,a)
  • γ[0,1]是折现因子

参考文献

Template:Reflist