沃瑟斯坦度量

来自testwiki
跳转到导航 跳转到搜索

沃瑟斯坦度量Template:Lang-en)又称为沃瑟斯坦距离Template:Lang)、坎托罗维奇–鲁宾施泰因度量Template:Lang),在数学中是指某一给定度量空间M概率分布之间的距离函数,其名称源于俄裔美国数学家Template:Le

直观而言,可以将每个概率分布都看作M上堆积的单位数量的土堆,则沃瑟斯坦度量便是指将一个土堆变成另一土堆的最小代价,可定义为需要移动的土壤量乘以需要移动的平均距离。这一问题于1781年由法国数学家加斯帕尔·蒙日首次正式提出。基于上述土堆类比,该度量在计算机科学中也被称为推土机距离

“沃瑟斯坦距离”这一名称是苏联数学家Template:Le于1970年提出的,他在沃瑟斯坦关于描述大型自动机系统的马尔可夫过程的工作中了解到了这一概念。[1]不过早在1939年,另一位苏联数学家列昂尼德·坎托罗维奇就在研究货物的最优运输问题时最早定义了该度量。[2]因此一些学者认为使用“坎托罗维奇度量”或“坎托罗维奇距离”来称呼此度量更为恰当。

定义

对于一个度量空间(M,d),假设M上每个博雷尔概率测度都是拉东测度(即该度量空间为拉东空间)。对有限p1Pp(M)表示M上所有有p的概率测度μ的集合,即M中存在x0满足

Md(x,x0)pdμ(x)<.

于是,Pp(M)中两个概率测度μν之间的p沃瑟斯坦距离可定义为

Wp(μ,ν):=(infγΓ(μ,ν)M×Md(x,y)pdγ(x,y))1/p,

其中Γ(μ,ν)表示M×M上所有测度的集合,即μν的所有Template:Le组成的集合。

此外,沃瑟斯坦度量也可等效地定义为

Wp(μ,ν)=(inf𝐄[d(X,Y)p])1/p,

其中𝐄[Z]表示随机变量Z期望值下确界则由随机变量XY的所有联合分布确定,它们分别对应边缘分布μν

与最优运输问题的联系

x轴与y轴上分别绘有两个一维分布μν,中间是两者一种可能的联合分布(不唯一),而这一联合分布即定义了μν之间的一个运输方案。

理解上述定义的一种方法是将其与最优运输问题联系起来。对于空间X上的某一质量分布μ(x),我们希望以某种方式运输其质量,使其转化同一个空间中的另一分布ν(x),即将“土堆”μ转换为“土堆”ν。两者的总质量必须相同,因而可以不失一般性地假设μν是总质量为1的概率分布。此外还需假设代价函数

c(x,y)[0,),

表示从点x运输质量到点y的代价。一个从μν的运输方案可以用函数γ(x,y)来描述,该函数表明从x移动到y的质量。一个运输方案γ(x,y)必须满足以下性质

γ(x,y)dy=μ(x),γ(x,y)dx=ν(y),

前者表示从某一点x移到其他所有点的土堆总质量必须等于最初该点x上的土堆质量,后者则表示从所有点移到某一点y的土堆总质量必须等于最终该点y上的土堆质量。

这一性质相当于要求γ是边缘分布μν对应的联合概率分布。于是可得到运输方案γ的总代价

c(x,y)γ(x,y)dxdy=c(x,y)dγ(x,y).

方案γ并不是唯一的,所有可能的运输方案中代价最低的方案即为最优运输方案。最优运输方案的代价为

C=infγΓ(μ,ν)c(x,y)dγ(x,y).

如果两点之间移动的代价等于两点之间的距离,那么最小代价则与W1距离等价。

参见

参考文献

Template:Reflist

Template:Authority control