本福特定律

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA

在数学中,本福特定律Template:Lang-en)描述了真实数字数据集中首位数字的频率分布。一堆從實際生活得出的數據中,以1為首位數字的數的出現機率約為總數的三成,接近直覺得出之期望值1/9的3倍。推廣來說,越大的數,以它為首幾位的數出現的機率就越低。它可用於檢查各種數據是否有造假。Template:Cn

數學

本福特定律說明在b進位制中,以n起頭的數出現的機率為:

P(n)=logb(n+1)logb(n)=logb(n+1n),

其中n=1,2,...,b1.

本福特定律不但適用於個位數字,連多位的數也可用。

十進制首位數字的出現機率(%,小數點後一個位):

Template:Nobold Template:Tmath Template:Tmath 的相對大小
1 Template:Bartable
2 Template:Bartable
3 Template:Bartable
4 Template:Bartable
5 Template:Bartable
6 Template:Bartable
7 Template:Bartable
8 Template:Bartable
9 Template:Bartable

不完整的解釋

一組平均增長的數據開始時,增長得較慢,由最初的數字a增長到另一個數字a+1起首的數的時間,必然比a+1起首的數增長到a+2,需要更多時間,所以出現率就更高了。

從數數目來說,順序從1開始數,1,2,3,...,9,從這點終結的話,所有數起首的機會似乎相同,但9之後的兩位數10至19,以1起首的數又大大拋離了其他數了。而下一堆9起首的數出現之前,必然會經過一堆以2,3,4,...,8起首的數。如果這樣數法有個終結點,以1起首的數的出現率一般都比9大。

另一种解释如下. 当数据跨越多个数量级时,更自然的做法是画在对数坐标中,如果这些数据在对数坐标下的分布是均匀的,那么本福特定律自然成立。即使在对数坐标下的概率密度函数不是常数,只要其变化足够缓慢,且数据跨越了多个数量级,本福特定律也会近似成立,如下图所示.

BenfordBroad

這個定律的嚴格證明,可以參見Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。

應用

1972年,Hal Varian提出這個定律來用作檢查支持某些公共計劃的經濟數據有否欺瞞之處。1992年,Mark J. Nigrini便在其博士論文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它檢查是否有偽帳。

推而廣之,它能用於在會計學、金融甚至選舉中出現的數據。比如本福德定律曾被用作2009 年伊朗选举舞弊的潜在证据 。[1]

若所用的數據有指定數值範圍;或不是以機率分布出現的數據,如常態分佈的數據;這個定律則不準確。

歷史

1881年,天文學家西蒙·紐康發現對數表包含以1起首的數那首幾頁較其他頁破爛。

1938年,物理學家Template:Link-en再次發現這個現象,還通過了檢查許多數據來證實這點。

2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。[2]

参见

参考文献

Template:Reflist

參考

Template:概率分布