经验风险最小化

经验风险最小化 （ERM）是统计学习理论里的一项原则，该原则下有一系列学习算法，经验风险最小化用于为这些算法的性能提供理论上的界。核心思想是，人們无法确切知道算法在实际中的运行情况（真正的“风险”），是因为不知道算法将在其上运行的数据的真实分布，但借助经验风险最小化，可以在一组已知的训练数据（“经验”风险）上衡量其性能。

背景

以下情况是许多有监督学习问题的一般设置。存在两个空间，输入空间 $X$ 和输出空间 $Y$ ，目标是学习（拟合）一个函数 $h : X \to Y$ （通常称为假设），这个函数在给定 $x \in X$ ，输出一个对象 $y \in Y$ 。为此可以使用一个包含 $n$ 个例子的训练集 $(x_{1}, y_{1}), \dots, (x_{n}, y_{n})$ ，其中 $x_{i} \in X$ 是输入， $y_{i} \in Y$ 是希望从 $h (x_{i})$ 中得到的相应输出。

更正式地说，可假设 $X$ 和 $Y$ 服从联合概率分布 $P (x, y)$ ，并且训练集包括 $n$ 个实例 $(x_{1}, y_{1}), \dots, (x_{n}, y_{n})$ IID地从 $P (x, y)$ 抽取。请注意，联合概率分布的假设可以对预测中的不确定性进行建模（例如，来自数据中的噪声），因为 $y$ 不是关于 $x$ 的确定性函数，而是在固定 $x$ 时具有条件分布 $P (y | x)$ 的随机变量。

还可假定给定非负实值损失函数 $L (\hat{y}, y)$ 来衡量预测 $\hat{y}$ 与真实结果 $y$ 的差异。则假设 $h (x)$ 的风险定义为损失函数的期望值：

R (h) = 𝐄 [L (h (x), y)] = \int L (h (x), y) d P (x, y) .

理论上常用的损失函数是0-1损失函数： $L (\hat{y}, y) = {\begin{matrix} 1 & If \hat{y} \neq y \\ 0 & If \hat{y} = y \end{matrix}$ 。

学习算法的最终目标是在固定函数类 $ℋ$ 中找到风险 $R (h)$ 最小的假设 $h^{*}$ ：

h^{*} = \arg \min_{h \in ℋ} R (h) .