查看“︁哈密顿-雅可比-贝尔曼方程”︁的源代码
←
哈密顿-雅可比-贝尔曼方程
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''哈密顿-雅可比-贝尔曼方程'''('''Hamilton-Jacobi-Bellman equation''',簡稱'''HJB方程''')是一個[[偏微分方程]],是[[最佳控制]]的中心。HJB方程式的解是針對特定[[動態系統]]及相關成本函數下,可以有最小成本的[[控制 (最佳控制理論)|控制]]實值函數。 若只在某一個區域求解,HJB方程是一個必要條件,若是在整個狀態空間下求解,HJB方程是[[充分必要條件]]。其解是針對開迴路的系統,但也允許針對閉迴路系統求解。HJB方程也可以擴展到[[隨機]]系統。 一些經典的[[變分學|變分]]問題,例如[[最速降線問題]],可以用此方法求解。 HJB方程的基礎是以1950年代由[[理查德·貝爾曼]]及其同仁提出的[[動態規劃]]<ref>R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.</ref>。對應的離散系統方程式一般稱為[[貝爾曼方程]]。在連續時間的結果可以視為由[[卡爾·雅可比]]及[[威廉·哈密頓]]提出,[[經典力學]]中[[哈密顿-雅可比方程]]的延伸。 ==最佳控制的問題== 考慮在時間<math>[0,T]</math>內,以下確定系統最佳控制的問題: :<math>V(x(0), 0) = \min_u \left\{ \int_0^T C[x(t),u(t)]\,dt + D[x(T)] \right\}</math> 其中''C''[ ]為純量成本函數,''D''[ ]為計算其最終狀態時效力時或經濟值的函數,''x''(''t'')為系統狀態向量,''x''(0)假設已知,及''u''(''t'')是想要求得的控制向量,在 0 ≤ ''t'' ≤ ''T''。 此系統也需滿足下式: :<math> \dot{x}(t)=F[x(t),u(t)] \, </math> 其中''F''[ ]可以根據狀態向量決定向量後續的變化。 ==偏微分方程== 針對上述簡單的系統,哈密顿-雅可比-贝尔曼微分方程如下: :<math> \frac{\partial{V}(x,t)}{\partial t} + \min_u \left\{ \frac{\partial V(x,t)}{\partial x} \cdot F(x, u) + C(x,u) \right\} = 0 </math> 需符合以下條件 :<math> V(x,T) = D(x),\, </math> 其中<math>a \cdot b</math>為向量a和b的[[內積]],而<math>\nabla</math>為[[梯度]]運算子。(注意:<math>\nabla V(x, t)</math> 表示 <math>V(x, t)</math> 对 <math>x</math> 求导,非对 <math>t</math> 求导!) 上述PDE中的未知向量<math>V(x, t)</math>是貝爾曼[[間接效用函數]],表示從時間<math>t</math>,狀態<math>x</math>開始控制系統,以最佳方式控制系統一直到時間<math>T</math>的成本。 ==推導HJB方程== HJB方程可以用以下的方式推導:假設<math>V(x(t), t)</math>是最佳的成本函數,則根據理查·貝爾曼的[[貝爾曼方程]],從時間''t''到''t'' + ''dt'',可得: :<math> V(x(t), t) = \min_u \left\{\int_t^{t + dt} C(x(t), u(t)) \, dt + V(x(t+dt), t+dt) \right\}. </math> 注意最後一項的[[泰勒展開式]]如下: :<math> V(x(t+dt), t+dt) = V(x(t), t) + \dot{V}(x(t), t) \, dt + \nabla V(x(t), t) \cdot \dot{x}(t) \, dt + o(dt),</math> 其中o(''dt'')是泰勒展開式中的高階項,若在等式兩側刪除''V''(''x''(''t''), ''t''),除以''dt'',並取''dt''趨近為零的極限,可得上述定義的HJB方程。 ==求解方程== HJB方程一般會用{{link-en|逆向归纳法|Backward induction}}求解,也就是從<math>t = T</math>往前求解到<math>t = 0</math>。 若對整個狀態空間求解,HJB方程是最佳解的[[充份必要條件]]<ref>Dimitri P Bertsekas. Dynamic programming and optimal control. Athena Scientific, 2005.</ref>。若可以求解<math>V</math>,就可以找到達到最小成本的控制<math>u</math>。 一般而言,HJB方程不會有一個傳統[[光滑函数]]的解。為了這些情形發展了許多廣義解的表示方式,包括[[皮埃爾-路易·利翁]]及{{link-en|迈克尔·克兰德尔|Michael Crandall}}的[[粘性解]],Andrei Izmailovich Subbotin的[[極小化極大演算法]]等。 ==延伸到隨機問題== 上述的作法主要是應用贝尔曼的最优化原理,以及在時間上由最終時間倒推求解,針對[[隨機控制]]問題也可以用類似的作法求最佳解。考慮以下的問題 :<math> \min \left\{ \int_0^T C(t,X_t,u_t)\,dt + D(X_T) \right\}</math> 此時<math>(X_t)_{t \in [0,T]}\,\!</math>為隨機過程,而<math>(u_t)_{t \in [0,T]}\,\!</math>為控制變數。首先使用[[貝爾曼方程]],再用[[伊藤引理]]將<math>V(X_t,t)</math>展開,可以得到以下的隨機HJB方程。 :<math> \min_u \left\{ \mathcal{A} V(x,t) + C(t,x,u) \right\} = 0, </math> 其中<math>\mathcal{A}</math>為隨機微分運算子,以下是最終時間的限制條件。 :<math> V(x,T) = D(x)\,\!. </math> 注意此時已沒有隨機性了。此例中後者的<math>V\,\!</math>不一定是原來方程式的解,它只是可能解之一,需要再作驗證。此技巧常用在財務數學中,決定在市場中的最佳投資策略(例如像{{link-en|默顿的投资组合问题|Merton's portfolio problem}})。 ===在LQG控制的應用=== 下例是一個有線性隨機動態特性的系統,有二次式的成本。若系統動態為 :<math> dx_t = (a x_t + b u_t) dt + \sigma dw_t, </math> 而成本以以下的速度累積<math>C(x_t,u_t) = r(t) u_t^2/2 + q(t) x_t^2/2</math>,則HJB方程為 :<math> -\frac{\partial V(x,t)}{\partial t} = \frac{1}{2}q(t) x^2 + \frac{\partial V(x,t)}{\partial x} a x - \frac{b^2}{2 r(t)} \left(\frac{\partial V(x,t)}{\partial x}\right)^2 + \frac{\sigma^2}{2} \frac{\partial^2 V(x,t)}{\partial x^2}. </math> 假設價值函數是二次式,可以將一般的[[Riccati方程]]用在價值函數的[[海森矩阵]]中,即為[[線性二次高斯控制]](LQG控制)。 ==相關條目== * [[貝爾曼方程]],離散的哈密顿-雅可比-贝尔曼方程。 * [[Pontryagin最小值定理]],是將哈密顿量最小值,是最佳化必要但不充份的條件,和哈密顿-雅可比-贝尔曼方程相比的好處是只要考慮滿足條件的單一軌跡。 ==參考資料== {{reflist}} ==延伸閱讀== * {{cite book | author = Dimitri P. Bertsekas | year = 2005 | title = Dynamic programming and optimal control | publisher = Athena Scientific | isbn = }} [[分類:偏微分方程]] [[分類:動態規劃]]
该页面使用的模板:
Template:Cite book
(
查看源代码
)
Template:Link-en
(
查看源代码
)
Template:Reflist
(
查看源代码
)
返回
哈密顿-雅可比-贝尔曼方程
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息