分散式部分可观察马尔可夫决策过程

来自testwiki

跳转到导航跳转到搜索

Template:Expand language 分散式部分可观察马尔可夫决策过程（Template:Lang-en，Dec-POMDP）^[1]^[2]是一种多智慧体协调决策模型。这是一种概率模型，对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。

该模型是马尔可夫决策过程和部分可觀察馬可夫決策過程的泛化，适用于分布式多智慧体的情形。^[3]

定义

正式定义

Dec-POMDP是一个7元组，其中：

$S$ 是状态的集合，
$A_{i}$ 是智慧体i的行动集合，其中 $A = \times_{i} A_{i}$ 是联合行动的集合，
$T$ 是是状态间条件转移概率的集合， $T (s, a, s^{'}) = P (s^{'} ∣ s, a)$ ，
$R : S \times A \to ℝ$ 是回报函数，
$Ω_{i}$ 是智慧体i的观察集合，其中 $Ω = \times_{i} Ω_{i}$ 是联合观察的集合，
$O$ 是一组条件观察概率， $O (s^{'}, a, o) = P (o ∣ s^{'}, a)$
$γ \in [0, 1]$ 是折现因子

参考文献

Template:Reflist

检索自“https://zh.wiki.beta.math.wmflabs.org/w/index.php?title=分散式部分可观察马尔可夫决策过程&oldid=12720”

分类：

马尔可夫过程