信源编码定理

Template:About Template:NoteTA 在信息论中，香农的信源编码定理（或无噪声编码定理）确立了数据压缩的限度，以及香农熵的操作意义。

信源编码定理表明（在极限情况下，随着独立同分布随机变量数据流的长度趋于无穷）不可能把数据压缩得码率（每个符号的比特的平均数）比信源的香农熵还小，又不丢失信息。但是有可能使码率任意接近香农熵，且损失的概率极小。

码符号的信源编码定理把码字的最小可能期望长度看作输入字（看作随机变量）的熵和目标编码表的大小的一个函数，给出了此函数的上界和下界。

陈述

信源编码是从信息源的符号（序列）到码符号集（通常是bit）的映射，使得信源符号可以从二进制位元（无损信源编码）或有一些失真（有损信源编码）中准确恢复。这是在数据压缩的概念。

在信息论中，信源编码定理^[1]非正式地陈述^[2]^[3]为：

Template:Mvar 个熵均为 Template:Math 的独立同分布的随机变量在 Template:Math 时，可以很小的信息损失风险压缩成多于 Template:Math bit；但相反地，若压缩到少于 Template:Math bit，则信息几乎一定会丢失。

令 Template:Math 表示两个有限编码表，并令 Template:Math 和 Template:Math （分别）表示来自那些编码表的所有有限字的集合。

设 Template:Mvar 为从 Template:Math 取值的随机变量，令 Template:Math 为从 Template:Math 到 Template:Math 的唯一可译码，其中 Template:Math。令 Template:Mvar 表示字长 Template:Math 给出的随机变量。

如果 Template:Math 是对 Template:Mvar 拥有最小期望字长的最佳码，那么(Shannon 1948)：

\frac{H (X)}{\log_{2} a} \leq 𝔼 S < \frac{H (X)}{\log_{2} a} + 1

对于 Template:Math 令 Template:Math 表示每个可能的 Template:Math 的字长。定义 $q_{i} = a^{- s_{i}} / C$ ，其中 Template:Mvar 会使得 Template:Math。于是

\begin{matrix} H (X) & = - \sum_{i = 1}^{n} p_{i} \log_{2} p_{i} \\ \leq - \sum_{i = 1}^{n} p_{i} \log_{2} q_{i} \\ = - \sum_{i = 1}^{n} p_{i} \log_{2} a^{- s_{i}} + \sum_{i = 1}^{n} p_{i} \log_{2} C \\ = - \sum_{i = 1}^{n} p_{i} \log_{2} a^{- s_{i}} + \log_{2} C \\ \leq - \sum_{i = 1}^{n} - s_{i} p_{i} \log_{2} a \\ \leq 𝔼 S \log_{2} a \end{matrix}

其中第二行由吉布斯不等式推出，而第五行由克拉夫特不等式推出：

C = \sum_{i = 1}^{n} a^{- s_{i}} \leq 1

对第二个不等式我们可以令

s_{i} = ⌈ - \log_{a} p_{i} ⌉

于是

- \log_{a} p_{i} \leq s_{i} < - \log_{a} p_{i} + 1

因此

a^{- s_{i}} \leq p_{i}

并且

\sum a^{- s_{i}} \leq \sum p_{i} = 1

因此由克拉夫特不等式，存在一种有这些字长的无前缀编码。因此最小的 Template:Mvar 满足

\begin{matrix} 𝔼 S & = \sum p_{i} s_{i} \\ < \sum p_{i} (- \log_{a} p_{i} + 1) \\ = \sum - p_{i} \frac{\log_{2} p_{i}}{\log_{2} a} + 1 \\ = \frac{H (X)}{\log_{2} a} + 1 \end{matrix}