戴尔指数

来自testwiki
跳转到导航 跳转到搜索

戴尔指数Template:Lang-en)又稱為泰爾指數[1],是一个衡量经济不平等[2]的统计量。它也曾經用來衡量其他社會不平等現象,如種族隔離[3][4][5]

戴尔指数主要是利用資訊理論中的資訊熵的概念導出的。戴尔指数等於資訊冗餘,也就是資料最大可能資訊熵減去觀測到的資訊熵,它是Template:Le的特例,可以被視為冗餘度、單樣性、不平等、非隨機性和可壓縮性的度量。[5]

戴尔指数最早由荷兰鹿特丹伊拉斯姆斯大學计量经济学Template:LeTemplate:Lang)所提出。[5]

数学公式

假設一個人口為N的群體,其收入分別為xi (i = 1,...,N),則它的戴爾指數T定義為[6]

TT=Tα=1=1Ni=1Nxiμln(xiμ)

而戴爾指數L則定義為

TL=Tα=0=1Ni=1Nln(μxi)

其中xi为第i个人的收入,μ为平均收入,N为人口数量。加总符号中的第一项可以理解为个人在总收入中所占的比例,第二项为该个人相对于均值的收入。

如果收入分布是個離散分布函數 fk (k = 0,...,W),其中fk是收入為k的人口比例,而W = 代表總收入,可以得知 k=0Wfk=1 。 它的戴爾指數T定義為:

TT=k=0Wfkkμln(kμ)

這裡的μ一樣是收入平均

μ=k=0Wkfk

其中應注意到收入k是一個整數,k=1代表最小收入增量(比如新台幣1元)。

如果收入分布是個連續分布函數f(k),k取值0到無窮,其中f(kdk 是收入為kk + dk的人口數量,那戴爾指數T定義為:

TT=0f(k)kμln(kμ)dk

其中平均μ為:

μ=0kf(k)dk

一些常見連續概率分佈的戴尔指數如下表所示:

收入分布函數 PDF(x) (x ≥ 0) 戴尔指数(納特
狄拉克δ函數 δ(xx0),x0>0 0
連續型均勻分布 {1baaxb0otherwise ln(2a(a+b)e)+b2b2a2ln(b/a)
指數分布 λexλ,x>0 1 γ
對數常態分布 1σ2πe((ln(x)μ)2)/σ2 σ22
帕累托分布 {αkαxα+1xk0x<k ln(11/α)+1α1    (α>1)
卡方分布 2k/2ex/2xk/21Γ(k/2) ln(2/k)+ ψ(0)(1+k/2)
伽瑪分布 ex/θxk1θkΓ(k) ψ(0)(1+k)ln(k)
韋伯分布 kλ(xλ)k1e(x/λ)k 1k ψ(0)(1+1/k)ln(Γ(1+1/k))

Template:Clear

如果每一个人都有相同的收入,即等于均值,则指数为零。如果某个个人拥有所有的收入,则指数为lnNTT 除以lnN 可以將方程歸一化到0到1的範圍,但這樣違反Template:Le: T[xx]T[x]並不符合衡量不平等的標準。

信息論推導

戴尔指数导自克勞德·夏農信息熵,他的一般數學形式為:

S=ki=1N(pilog1pi)=ki=1N(pilogpi)

其中 pi是從人群裡找到i的機率。k玻爾茲曼常數。在信息論中,當信息以二進制數字給出時,k=1並且對數基底為2。在物理學和戴爾指數的計算中,選擇自然對數作為對數基底。當pi替換成人均收入xi時,需要除以總收入達到歸一化Nx。那可以導出,觀察到的信息熵為:

STheil=i=1N(xiNxlnNxxi)

T为戴尔指数,S夏農熵,则有

T=ln(N)S

其中,ln(N)是理論最大熵。香濃根据事件发生概率导出的其熵测度。它可以用戴尔系数解释为自某个特定个人处随机取得一块钱的概率。并与其第一项,即总收入中个人所占份额相同。

符號 信息論 戴爾指數 TT
N 字符數 人口數
i 某個特定字符 某個特定人
xi 第i個字符 character 第i個人的收入
Nx 總字符數 總收入
TT 未被使用的資訊空間 未使用潛在價格機制

可分解性

戴尔指数的一个优点是它是某个子群体中不平等的加权和[1]。例如,美国国内的不平等就是每个州的不平等的加权和,由该州收入相对于国家总收入的比值来加权。

如果人口被划分为m个子群体,sk 为群体k 的收入比例,Tk为该子群体的戴尔指数,而 xk 为子群体 k的平均收入,则戴尔指数为

T=k=1mskTTk+k=1msklnxkx

因此,我们可以说某个特定群体给总体“贡献了”一定数量的不平等。

另外一个被广泛使用的不平等度量为基尼系数,该系数对于很多人来说由于基于劳伦茨曲线而非常直观。但是它却没有戴尔指数容易分解。

參考文獻

Template:Reflist

外部連結