分散式部分可观察马尔可夫决策过程

来自testwiki
imported>InternetArchiveBot2022年8月17日 (三) 20:07的版本 (补救2个来源,并将0个来源标记为失效。) #IABot (v2.0.9)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

Template:Expand language 分散式部分可观察马尔可夫决策过程Template:Lang-enDec-POMDP[1][2]是一种多智慧体协调决策模型。这是一种概率模型,对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。

该模型是马尔可夫决策过程部分可觀察馬可夫決策過程的泛化,适用于分布式多智慧体的情形。[3]

定义

正式定义

Dec-POMDP是一个7元组,其中:

  • S是状态的集合,
  • Ai是智慧体i的行动集合,其中A=×iAi是联合行动的集合,
  • T是是状态间条件转移概率的集合,T(s,a,s)=P(ss,a)
  • R:S×A是回报函数,
  • Ωi是智慧体i的观察集合,其中Ω=×iΩi是联合观察的集合,
  • O是一组条件观察概率,O(s,a,o)=P(os,a)
  • γ[0,1]是折现因子

参考文献

Template:Reflist