LQG控制:修订间差异

来自testwiki
跳转到导航 跳转到搜索
无编辑摘要
 
(没有差异)

2023年9月15日 (五) 22:35的最新版本

Template:NoteTA LQG控制(linear–quadratic–Gaussian control)的全名是線性二次高斯控制,是控制理论中的基礎最优控制問題之一。此問題和存在加性高斯白噪声線性系統有關。此問題是要找到最佳的輸出回授律,可以讓二次費用函數的期望值最小化。其輸出量測假設受到高斯噪声的影響,其初值也是高斯隨機向量。

在「使用線性控制律」的最佳控制假設下,可以用completion-of-squares論述進行推導[1]。此控制律即為LQG控制器,就是卡尔曼滤波(線性二次狀態估測器,LQE)和LQR控制器的結合。分離原理指出狀態估測器和狀態回授可以獨立設計。LQG控制可以應用在线性时不变系统及线性時變系統,產生容易計算以及實現的線性動態回授控制器。LQG控制器本身是一個類似其受控系統的動態系統,兩者有相同的維度。

根據分離原理,在一些範圍較寬可能是非線性的控制器中,LQG控制器仍然是最佳的。也就是說「使用非線性控制架構不一定可以改善費用泛函的期望值」。這個版本的分離原理是Template:Le(separation principle of stochastic control)提到就算過程及輸出雜訊源可能是非高斯,只要其系統動態是線性的,其最佳控制仍可以分離為最佳狀態估測器(不再是卡尔曼滤波器)及LQR控制器[2][3]。LQR控制器也有用來控制擾動的非線性系統[4]

問題和解的數學描述

連續時間

考慮連續時間的線性動態系統

𝐱˙(t)=A(t)𝐱(t)+B(t)𝐮(t)+𝐯(t),
𝐲(t)=C(t)𝐱(t)+𝐰(t),

其中𝐱是系統狀態變數的向量,𝐮是控制輸入向量,𝐲是輸出量測值的向量,可用在回授上。系統受到加成性的高斯系統雜訊𝐯(t)及加成性的高斯量測雜訊𝐰(t)所影響。給定一系統,其目標是找到一控制輸入𝐮(t),此控制輸入在每個時間t下,和以往的量測量𝐲(t),0t<t有線性關係,而且此控制輸入可以讓以下的費用函數有最小值:

J=𝔼[𝐱T(T)F𝐱(T)+0T𝐱T(t)Q(t)𝐱(t)+𝐮T(t)R(t)𝐮(t)dt],
F0,Q(t)0,R(t)>0,

其中𝔼期望值。最終時間(horizon)T可能是有限值或是無限值。若最終時間為無限,則費用函數的第一項𝐱T(T)F𝐱(T)可以忽略,和問題無關。而為了要讓費用函數為有限值,會定義費用函數為J/T

求解上述LQG問題的LQG控制器可以用以下方程表示:

𝐱^˙(t)=A(t)𝐱^(t)+B(t)𝐮(t)+L(t)(𝐲(t)C(t)𝐱^(t)),𝐱^(0)=𝔼[𝐱(0)],
𝐮(t)=K(t)𝐱^(t).

矩陣L(t)稱為卡尔曼增益(Kalman gain),和第一個方程卡尔曼滤波有關。在時間t,濾波器會根據過去量測及輸入來產生狀態𝐱(t)的估測值𝐱^(t)。卡尔曼增益L(t)是根據A(t),C(t)、二個和白色高斯雜訊有關密度矩陣𝐯(t)𝐰(t)及最後的𝔼[𝐱(0)𝐱T(0)]來計算。這五個矩陣會透過以下的矩陣Riccati微分方程來決定卡尔曼增益:

P˙(t)=A(t)P(t)+P(t)AT(t)P(t)CT(t)W1(t)C(t)P(t)+V(t),
P(0)=𝔼[𝐱(0)𝐱T(0)].

假設其解P(t),0tT,則卡尔曼增益等於

L(t)=P(t)CT(t)W1(t).

矩陣K(t)稱為回授增益(feedback gain)矩陣,是由A(t),B(t),Q(t),R(t)F矩陣,透過以下的矩陣Riccati微分方程來決定

S˙(t)=AT(t)S(t)+S(t)A(t)S(t)B(t)R1(t)BT(t)S(t)+Q(t),
S(T)=F.

假設其解S(t),0tT,回授增益等於

K(t)=R1(t)BT(t)S(t).

觀察上述二個矩陣Riccati微分方程,第一個沿時間從前往後算,而第二個是沿時間從後往前算,這稱為「對偶性」。第一個矩陣Riccati微分方程解了線性平方估測問題(LQE),第二個矩陣Riccati微分方程解了LQR控制器問題。這二個問題是對偶的,合起來就解了線性平方高斯控制問題(LQG),因此LQG問題分成了LQE問題以及LQR問題,且可以獨立求解,因此LQG問題是「可分離的」。

A(t),B(t),C(t),Q(t),R(t)和雜訊密度矩陣V(t), W(t)不隨時間變化t,且T趨於無限大時,LQG控制器會變成非時變動態系統。此時上述二個矩陣Riccati微分方程會變成代數Riccati方程

離散時間

離散時間的LQG控制問題和連續時間下的問題相近,因此以下只關注其數學式。

離散時間的線性系統方程為

𝐱i+1=Ai𝐱i+Bi𝐮i+𝐯i,
𝐲i=Ci𝐱i+𝐰i.

其中i是離散時間,𝐯i,𝐰i是離散時間高斯白雜訊過程,其共變異數矩陣為Vi,Wi

要最小化的二次費用函數為

J=𝔼[𝐱NTF𝐱N+i=0N1(𝐱iTQi𝐱i+𝐮iTRi𝐮i)],
F0,Qi0,Ri>0.

離散時間的LQG控制器為

𝐱^i+1=Ai𝐱^i+Bi𝐮i+Li+1(𝐲i+1Ci+1{Ai𝐱^i+Biui}),𝐱^0=𝔼[𝐱0],
𝐮i=Ki𝐱^i.

卡尔曼增益等於

Li=PiCiT(CiPiCiT+Wi)1,

其中Pi是由以下依時間往前進的矩陣Riccati差分方程所決定:

Pi+1=Ai(PiPiCiT(CiPiCiT+Wi)1CiPi)AiT+Vi,P0=𝔼(𝐱0𝐱^0)(𝐱0𝐱^0)T.

回授增益矩陣為

Ki=(BiTSi+1Bi+Ri)1BiTSi+1Ai

\ 其中Si是由以下時間從後往前算的矩陣Riccati差分方程所決定:

Si=AiT(Si+1Si+1Bi(BiTSi+1Bi+Ri)1BiTSi+1)Ai+Qi,SN=F.

若問題中所有的矩陣都是非時變的,且時間長度N趨近無窮大,則離散時間的LQG控制器就是非時變的。此時矩陣Riccati差分方程可以用離散時間的代數Riccati方程取代。可以決定非時變的離散線性二次估測器,以及非時變的離散LQR控制器。為了讓費用是有限值,會用J/N來代替J

降階LQG問題

在傳統LQG設定中,當系統維度很大時,實現LQG控制器會有困難。降階LQG問題(reduced-order LQG problem)也稱為固定階數LQG問題(fixed-order LQG problem)先設定了LQG控制的狀態數。因為分離原理已不適用,此問題會更不容易求解,而且其解也不唯一。即使如此,降階LQG問題已有不少的數值演算法[5][6][7][8]可以求解相關的最佳投影方程(optimal projection equations)[9][10],其中建構了局部最佳化的降階LQG問題的充份及必要條件[5]

LQG控制的強健性

LQG最佳化本身不確保有良好的強健性[11],需要在設計好LQG控制後,另外確認閉迴路系統的強健穩定性。為了提昇系統的強健性,可能會將一些系統參數由確定值改假設是隨機值。相關的控制問題會更加複雜,會得到一個類似的最佳控制器,只有控制器參數不同[6]

相關條目

參考資料

Template:Reflist

延伸閱讀