對偶性 (最佳化)

来自testwiki
跳转到导航 跳转到搜索

最优化理論中的對偶(duality)或對偶性原則(duality principle)是指最佳化問題可以用兩種觀點來看待的理論,兩種觀點分別是「原始問題」(primal problem)及「對偶問題」(dual problem)。對偶問題的解提供了原始問題(假設是最小化問題)的下限[1],不過一般而言,原始問題和對偶問題的最佳解不相同。兩個最佳解的差距為對偶間隙。若是凸優化問題,對偶間隙也稱為是卡鲁什-库恩-塔克条件

對偶問題

一般而言「對偶問題」是指「拉格朗日對偶問題」(Lagrangian dual problem),不過也有其他的對偶問題,例如Template:LeTemplate:Le。拉格朗日對偶問題是指在最小化問題上加上拉格朗日乘数,也就是在目標函數上加上對應限制條件的非負拉格朗日乘数,再求解可將原目標函數最小的原始變數值。此解會得到以拉格朗日乘数的函數表示的原始變數,稱為是「對偶變數」(dual variables),因此,新的問題就是要衍生對偶變數的限制下(包括非負的限制條件),找到可以使目標函數最大化的對偶變數。

一般而言,給定二個Template:Le分隔Template:Le (X,X*)(Y,Y*),以及函數f:X{+},可以定義原始問題為找到x^使得f(x^)=infxXf(x). 換句話說,若x^存在,f(x^)是函數f最小极值(minimum),也可以得到函數的最大下界(infimum)。

若有限制條件,可以整合到函數f中,方式是令f=f+Iconstraints,其中Iconstraints是在X上的適當函數,在限制條件上有最小值0,可以證明infxXf~(x)=infx constrainedf(x)。後者的條件很明顯,但不一定很方便可以符合示性函数(也就是說,滿足限制條件的xIconstraints(x)=0,在其他情形,Iconstraints(x)=)。因此可以將f~延伸為擾動函數F:X×Y{+}使得F(x,0)=f~(x)[2]

對偶間隙就是不等式

supy*Y*F*(0,y*)infxXF(x,0),

左側和右側的差。

其中F*是二個變數的凸共轭,而sup上确界[2][3][4]

線性規劃

Template:Main 线性规划問題是指损失函数約束都是線性關係最优化問題。原始問題中,目標函數是n個變數的線性組合,問題有m個約束,每一個都有上限,上限由n個變數的線性組合表示。其目的是要在滿足限制條件的情形下,最大化目標函數的值。其解是由n個值表示的向量,可以讓目標函數有最大值。

在對偶問題中,目標函數是m個值的線性組合,這些是原始問題中m個限制條件的上下限。有n個對偶限制條件,每一個的下限都是由m個對偶變數的線性組合所表示。

原始問題和對偶問題的關係

針對線性的最佳化問題,在原始問題中每一個符合限制條件的次佳點,都有一個方向(或方向的子空间),可以往目標函數增加的方向移動。若往這類的方向移動,稱為除去Template:Le和一個或多個限制之間的鬆弛量(slack)。候選解中不可行的值即為超過一個或多個限制的值。

在對偶問題中,會將對偶向量和限制條件相乘,這些限制條件會決定原始問題中限制條件的位置。在對偶問題中變動對偶向量類似在原始問題中調整上限。要找到最小的上限。也就是說,要將對偶向量最小化,以移除限制的候選位置和實際最佳解之間的鬆弛量(slack)。對偶向量中的不可行值是指哪些太低的值。這會讓候選解的一個或多個限制條件落在排除實際最佳解的位置。

线性规划中探討對偶性的方程式中,會對上述直覺有型式化的敘述。

非線性規劃

非线性规划中的限制條件不一定是線性的,不過許多线性规划的原則還是適用。

為了確保可以簡單的識別非线性规划中的全域最大值,問題一般會要求函數要是凸函數,而且有緊緻的lower level sets。

由此可以看出卡鲁什-库恩-塔克条件的重要性。卡鲁什-库恩-塔克条件可以提供非線性規劃問題中識別局部最佳值的必要條件。也有一些額外的必要條件(約束規範,constraint qualifications)可以用來判斷可能有「最佳解」(是局部最佳解,但不一定是全域最佳解)的方式。

強拉格朗日原則:拉格朗日對偶Template:Anchor

考慮以下形式的非線性規劃:

minimize f0(x)subject to fi(x)0, i{1,,m}hi(x)=0, i{1,,p}

其定義域𝒟n有非空的內部。其拉格朗日函數Λ:n×m×p定義為

Λ(x,λ,ν)=f0(x)+i=1mλifi(x)+i=1pνihi(x).

向量λν是有關此問題的「對偶變數」(dual variables)或拉格朗日乘數向量(Lagrange multiplier vectors)。拉格朗日對偶函數(Lagrange dual function)g:m×p定義如下

g(λ,ν)=infx𝒟Λ(x,λ,ν)=infx𝒟(f0(x)+i=1mλifi(x)+i=1pνihi(x)).

對偶函數g是凹函數,就算初始問題不是凸也會如此,因為是仿射函數的點狀最大下界。對偶函數提供初始問題最佳值p*的下界:針對任意λ0及任意ν,可以得到g(λ,ν)p*

若滿足約束規範(例如Template:Le),且原問題是凸,則可以得到Template:Led*=maxλ0,νg(λ,ν)=inff0=p*

凸問題

針對有不等式限制的凸最小化問題

minimizexf(x)subjecttogi(x)0,i=1,,m

拉格朗日對偶問題為

maximizeuinfx(f(x)+j=1mujgj(x))subjecttoui0,i=1,,m

其中目標函數是拉格朗日對偶函數。假設函數f and g1,,gm 連續可微,最大下界出現在梯度等於零的位置。問題

maximizex,uf(x)+j=1mujgj(x)subjecttof(x)+j=1mujgj(x)=0ui0,i=1,,m

稱為Wolfe對偶問題。此問題用計算的方式處理可能會很困難,因為目標函數在聯合變數(u,x)上不是凹。而且,一般而言,等式的限制條件f(x)+j=1mujgj(x)也是非線性的,因此Wolfe對偶問題一般而言會不會是凸最佳化問題。不論如何,Template:Le會成立[5]

歷史

依照喬治·伯納德·丹齊格所述,在丹齊格提出了線性規劃問題後,约翰·冯·诺伊曼就提出了線性規劃的對偶性定理的猜想。冯·诺伊曼注意到他使用了來自其博弈论中的資訊,並且猜想兩人零和的矩陣博弈和線性規劃等效。嚴謹的證明最早是由阿尔伯特·塔克和其團隊發表(丹齊格在Nering和塔克1993年著作中的前言)

相關條目

腳註

Template:Reflist

參考資料

書籍

論文