分散式部分可观察马尔可夫决策过程
Template:Expand language 分散式部分可观察马尔可夫决策过程(Template:Lang-en,Dec-POMDP)[1][2]是一种多智慧体协调决策模型。这是一种概率模型,对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。
该模型是马尔可夫决策过程和部分可觀察馬可夫決策過程的泛化,适用于分布式多智慧体的情形。[3]
定义
正式定义
Dec-POMDP是一个7元组,其中:
- 是状态的集合,
- 是智慧体i的行动集合,其中是联合行动的集合,
- 是是状态间条件转移概率的集合,,
- 是回报函数,
- 是智慧体i的观察集合,其中是联合观察的集合,
- 是一组条件观察概率,
- 是折现因子