簡單線性迴歸

在統計學中，簡單線性迴歸是指僅具有單一的自變數的線性迴歸^[1]^[2]^[3]^[4]^[5]，其中「簡單」係單一自變數之意。此迴歸可用於估計有限的截距與斜率以推論應變數在特定自變數為條件下的均值。

普通最小二乘法是常見用於尋求簡單線性迴歸式的方法，目的是得到能使殘差平方和最小的迴歸式。其它方法，諸如Template:En-link（使殘差絕對值的總和最小）、泰爾－森估算（所有樣本點兩兩配對的斜率中位數做為整體斜率）等，亦可應用於簡單線性迴歸的命題。Template:En-link（考慮自變數與應變數同時為誤差來源）的功能雖然與上述方法相似但不屬於簡單線性迴歸的範疇，因其不區分自變數與應變數且可能得到多個迴歸式。

以最小平方法處理簡單線性迴歸，則求得的斜率Template:Mvar等於自變數Template:Mvar與應變數Template:Mvar的皮爾森積動差相關係數與二者的標準偏差比值的乘積，

\hat{β} = r_{x, y} \frac{s_{y}}{s_{x}}

而再考慮截距Template:Mvar則保證使迴歸線通過自變數與應變數的均值 Template:Math。

計算迴歸式

以下皆以普通最小二乘法求解簡單線性迴歸式。考慮以下的數學模型函數

y = α + β x

，

是一條斜率為Template:Mvar且y軸截距為Template:Mvar的直線。通常實際上自變數與應變數並非如此完美的關係而存在未知的誤差 Template:Mvar，即

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n

，

以表示第 $i$ 對資料中自變數與應變數的關係。此模型稱為簡單線性模型。

計算迴歸式的目標是根據資料計算估計值 $\hat{α}$ 與 $\hat{β}$ 以「最佳地」估計參數Template:Mvar與Template:Mvar。由於採用最小平方法進行計算，「最佳」係指能使殘差平方和 ${\hat{ε}}_{i} = y_{i} - α - β x_{i}$ 最小的參數估計值為目標。換句話說，我們尋求能使Template:Mvar函數值最小的解，

Q (α, β) = \sum_{i = 1}^{n} {\hat{ε}}_{i}^{2} = \sum_{i = 1}^{n} (y_{i} - α - β x_{i})^{2}

。

此解為 $\hat{α}$ 與 $\hat{β}$ ^[6]，

\begin{matrix} \hat{α} & = \bar{y} - (\hat{β} \bar{x}), \\ \hat{β} & = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} \\ = \frac{s_{x, y}}{s_{x}^{2}} \\ = r_{x y} \frac{s_{y}}{s_{x}} \end{matrix}

其中 Template:Unordered list

將 $\hat{α}$ 與 $\hat{β}$ 帶入

\hat{y} = \hat{α} + \hat{β} x

可得

\frac{\hat{y} - \bar{y}}{s_{y}} = r_{x y} \frac{x - \bar{x}}{s_{x}}

。

此式呈現了Template:Math為預先將自變數與應變數預先標準化後的迴歸斜率。由於Template:Math界於Template:Math與Template:Math之間，左式的絕對值勢必不大於右式，體現了Template:En-link的現象。

以 $\overline{x y}$ 表示對應的Template:Mvar與Template:Mvar的乘積和，

\overline{x y} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}

，

可使Template:Math簡化成

r_{x y} = \frac{\overline{x y} - \bar{x} \bar{y}}{\sqrt{(\overline{x^{2}} - {\bar{x}}^{2}) (\overline{y^{2}} - {\bar{y}}^{2})}}

。

簡單線性迴歸的判定係數即為二變數間皮爾森積動差相關係數的平方：

R^{2} = r_{x y}^{2}

。

迴歸係數（斜率）的意義

將 $\hat{β}$ 的估計式分子乘以 $\frac{(x_{i} - \bar{x})}{(x_{i} - \bar{x})}$ ，可改寫為

$\hat{β} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} = \frac{\sum_{i = 1}^{n} ((x_{i} - \bar{x})^{2} \times \frac{(y_{i} - \bar{y})}{(x_{i} - \bar{x})})}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}$ 。

可以看出，迴歸式的斜率為 $\frac{(y_{i} - \bar{y})}{(x_{i} - \bar{x})}$ 以 $(x_{i} - \bar{x})^{2}$ 為權數的加權平均。因此， $(x_{i} - \bar{x})^{2}$ 越大的資料對斜率 $\hat{β}$ 的影響力越大。

截距的意義

$\hat{α}$ 可經由下列式子估算： $\hat{α} = \bar{y} - \hat{β} \bar{x}$ 。由於 $\hat{β} = \tan (θ) = d y / d x \to d y = d x \times \hat{β}$ ，其中 $θ$ 即為與橫軸正值的夾角，可以得到 $\hat{α} = \bar{y} - d x \times \hat{β} = \bar{y} - d y$ 。

參考文獻

Template:Reflist

Template:-

Template:统计学

↑ Template:Cite book
↑ Template:Cite web
↑ Template:Cite book
↑ Template:Cite journal
↑ Template:Cite journal
↑ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1] Template:Cite book

[:0-2] Template:Cite web

[3] Template:Cite book

[4] Template:Cite journal

[5] Template:Cite journal

[6] Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1]

[2]

[3]

[4]

[5]

[6]

簡單線性迴歸

目录

計算迴歸式

迴歸係數（斜率）的意義

截距的意義

參考文獻

导航菜单

簡單線性迴歸

計算迴歸式

迴歸係數（斜率）的意義

截距的意義

參考文獻

导航菜单

搜索