矩阵指数

矩阵指数（matrix exponential）是方块矩阵的一种矩阵函数，与指数函数类似。矩阵指数给出了矩阵李代数与对应的李群之间的关系。

设X为n×n的实数或复数矩阵。X的指数，用e^X或exp(X)来表示，是由以下幂级数所给出的n×n矩阵：

e^{X} = \sum_{k = 0}^{\infty} \frac{1}{k!} X^{k}

以上的级数总是收敛的，因此X的指数是定义良好的。注意，如果X是1×1的矩阵，则X的矩阵指数就是由X的元素的指数所组成的1×1矩阵。

性质

基本性质

设X和Y为n×n的复数矩阵，并设a和b为任意的复数。我们把n×n的单位矩阵记为I，把零矩阵记为0。

我们可以从指数级数的定义直接得到矩阵指数的如下性质^[1]：

Template:Math
exp(X^T) = (exp X)^T，其中X^T表示X的转置。从中可以推出，如果X是对称矩阵，则e^X也是对称矩阵；如果X是斜对称矩阵，则e^X是正交矩阵。

exp(X*) = (exp X)*，其中X*表示X的共轭转置。可以推出，如果X是埃尔米特矩阵，则e^X也是埃尔米特矩阵；如果X是斜埃尔米特矩阵，则e^X是酉矩阵。

如果Template:Math是可逆矩阵，那么 Template:Math

接下来是一个关键性质：

如果 $X Y = Y X$ 那么 $e^{X} e^{Y} = e^{X + Y}$

由此导出的推论有：

线性微分方程

矩阵指数的一个重要性，是它可以用来解微分方程。从(1)可知，以下微分方程

\frac{d}{d t} y (t) = A y (t), y (0) = y_{0}

其中A是矩阵，具有解

y (t) = e^{A t} y_{0}

矩阵指数也可以用来解非齐次方程：

\frac{d}{d t} y (t) = A y (t) + z (t), y (0) = y_{0}

参见以下的例子。

当A不是常数时，以下形式的微分方程没有闭式解：

\frac{d}{d t} y (t) = A (t) y (t), y (0) = y_{0}

但马格努斯级数可以给出无穷级数形式的解。

矩阵指数的行列式

根据雅可比公式，对任意复矩阵，下列迹等式成立：^[2]

$\det (e^{A}) = e^{tr (A)}$

除了提供一种额外的计算工具，这个等式还表明矩阵指数总是可逆矩阵。这点可以如下证明：因为上述等式的右边恒不等于0，所以左边Template:Math，从而Template:Math必可逆。

指数相加

我们知道，对于任何实数（标量）x和y，指数函数都满足公式e^{x + y} = e^xe^y。类似的等式对于可交换矩阵也成立：如果矩阵X和Y是可交换的（即XY = YX），则：

e^{X + Y} = e^{X} e^{Y}

但是，如果它们不是可交换的，则以上的等式不一定成立。

这个命题反过来不成立：e^X+Y=e^Xe^Y并不一定就意味着X和Y是可交换的。但是，如果X和Y只含有代数数，而且它们的大小至少为2×2，则反过来也成立^[3]。

X和Y不可交换的情况可以用以下方法计算：

李乘积公式

即使 $X$ 和 $Y$ 不可交换， $e^{X + Y}$ 可以用李乘积公式来计算^[4]

e^{X + Y} = \lim_{n \to \infty} (e^{X / n} e^{Y / n})^{n}

贝克尔-坎贝尔-豪斯多夫公式

从另一个方向讲，如果 $X$ 和 $Y$ 是元素足够小（但不一定可交换）的矩阵，我们有：

e^{X} e^{Y} = e^{Z}

其中 $Z$ 可以通过 $X$ 和 $Y$ 的交换子的级数（贝克尔-坎贝尔-豪斯多夫公式）来计算：^[5]

Z = X + Y + \frac{1}{2} [X, Y] + \frac{1}{12} [X, [X, Y]] + \dots

其中余项均为与 $X$ 和 $Y$ 相关的迭代交换子。

指数映射

注意矩阵的指数总是非奇异方阵。e^X的逆矩阵由e^−X给出。这与复数的指数总是非零的事实类似。这样，矩阵指数就给出了一个映射：

\exp : M_{n} (ℂ) \to GL (n, ℂ)

这是从所有n×n矩阵的空间到一般线性群（所有非奇异方阵所组成的群）的映射。实际上，这个映射是满射，就是说每一个非奇异方阵都可以写成某个矩阵的指数。矩阵对数就是这个映射的逆映射。

对于任何两个矩阵X和Y，我们有：

‖ e^{X + Y} - e^{X} ‖ \leq ‖ Y ‖ e^{‖ X ‖} e^{‖ Y ‖}

其中|| · ||表示任意的矩阵范数。从中可以推出，指数映射在M_n(C)的紧子集内是连续和利普希茨连续的。

以下的映射

t \mapsto e^{t X}, t \in ℝ

定义了一般线性群中的一条光滑曲线，当t = 0时穿过单位元。实际上，这给出了一般线性群的一个单参数子群，这是由于：

e^{t X} e^{s X} = e^{(t + s) X}

这条曲线在点t的导数（或切向量）由以下等式给出：

\frac{d}{d t} e^{t X} = X e^{t X} (1)

t = 0时的导数就是矩阵X，所以我们可以说，X是这个单参数子群的推广。

更加一般地：

\frac{d}{d t} e^{X (t)} = \int_{0}^{1} e^{(1 - α) X (t)} \frac{d X (t)}{d t} e^{α X (t)} d α

矩阵指数的计算

找到可靠而准确的方法来计算矩阵指数是很困难的，这仍然是目前数学和数值分析领域的一个重要研究课题。Matlab、GNU Octave和SciPy都使用帕德近似。^[6]^[7]^[8] 在本节中，我们讨论了原则上适用于任何矩阵的方法，并且可以对小矩阵进行显式处理。^[9] 随后的章节描述了适合对大矩阵进行数值评估的方法。

可对角化矩阵

如果矩阵是对角的：

A = [\begin{matrix} a_{1} & 0 & \dots & 0 \\ 0 & a_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & a_{n} \end{matrix}]

则把主对角线上的所有元素取指数，就是原矩阵的指数：

e^{A} = [\begin{matrix} e^{a_{1}} & 0 & \dots & 0 \\ 0 & e^{a_{2}} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & e^{a_{n}} \end{matrix}]

这也允许了我们计算可对角化矩阵的指数。如果 $A = U D U^{- 1}$ ，且D是对角矩阵，则 $e^{A} = U e^{D} U^{- 1}$ 。用西尔维斯特公式，也可以得到相同的结果。

幂零矩阵

如果对于某个整数q，有N^q = 0，则矩阵N称为幂零矩阵。在这种情况下，矩阵指数e^N可以直接从级数展开式来计算，这是因为级数在有限个项后就终止了：

e^{N} = I + N + \frac{1}{2} N^{2} + \frac{1}{6} N^{3} + \dots + \frac{1}{(q - 1)!} N^{q - 1}

推广

当矩阵X的最小多项式可以分解为一次多项式的积时，它就可以表示为以下的和：

X = A + N

其中：

A是可对角化矩阵；
N是幂零矩阵；
A与N是可交换的（也就是说， AN = NA）。

这称为Dunford分解。

这就是说，我们可以通过化为前两种情况，来计算X的指数：

e^{X} = e^{A + N} = e^{A} e^{N}

注意为了让最后一步成立， A和N必须是可交换的。

另外一个密切相关的方法，是利用X的若尔当标准型。假设X = PJP⁻¹，其中J是X的若尔当标准型。那么：

e^{X} = P e^{J} P^{- 1}

另外，由于

J = J_{a_{1}} (λ_{1}) \oplus J_{a_{2}} (λ_{2}) \oplus \dots \oplus J_{a_{n}} (λ_{n})

\begin{matrix} e^{J} & = \exp (J_{a_{1}} (λ_{1}) \oplus J_{a_{2}} (λ_{2}) \oplus \dots \oplus J_{a_{n}} (λ_{n})) \\ = \exp (J_{a_{1}} (λ_{1})) \oplus \exp (J_{a_{2}} (λ_{2})) \oplus \dots \oplus \exp (J_{a_{k}} (λ_{k})) \end{matrix}

因此，我们只需要知道怎样计算若尔当块的矩阵指数。但是，每一个若尔当块都具有形式

J_{a} (λ) = λ I + N

其中N是幂零矩阵。则这个区块的矩阵指数由下式给出：

e^{λ I + N} = e^{λ} e^{N}

计算

假设我们想要计算以下矩阵的指数。

B = [\begin{matrix} 21 & 17 & 6 \\ - 5 & - 1 & - 6 \\ 4 & 4 & 16 \end{matrix}]

它的若尔当型为：

J = P^{- 1} B P = [\begin{matrix} 4 & 0 & 0 \\ 0 & 16 & 1 \\ 0 & 0 & 16 \end{matrix}]

其中矩阵P由下式给出：

P = [\begin{matrix} - \frac{1}{4} & 2 & \frac{5}{4} \\ \frac{1}{4} & - 2 & - \frac{1}{4} \\ 0 & 4 & 0 \end{matrix}]

我们首先来计算exp(J)。我们有：

J = J_{1} (4) \oplus J_{2} (16)

1×1矩阵的指数仅仅是该矩阵的元素的指数，因此exp(J₁(4)) = [e⁴]。 $J_{2} (16)$ 的指数可以用以上提到的公式exp(λ $I$ +N) = e^λ exp(N)来算出：

\exp ([\begin{matrix} 16 & 1 \\ 0 & 16 \end{matrix}]) = e^{16} \exp ([\begin{matrix} 0 & 1 \\ 0 & 0 \end{matrix}]) = e^{16} ([\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] + [\begin{matrix} 0 & 1 \\ 0 & 0 \end{matrix}] + \frac{1}{2!} [\begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix}] + \dots) = [\begin{matrix} e^{16} & e^{16} \\ 0 & e^{16} \end{matrix}]

因此，原矩阵B的指数为：

\exp (B) = P \exp (J) P^{- 1} = P [\begin{matrix} e^{4} & 0 & 0 \\ 0 & e^{16} & e^{16} \\ 0 & 0 & e^{16} \end{matrix}] P^{- 1} = \frac{1}{4} [\begin{matrix} 13 e^{16} - e^{4} & 13 e^{16} - 5 e^{4} & 2 e^{16} - 2 e^{4} \\ - 9 e^{16} + e^{4} & - 9 e^{16} + 5 e^{4} & - 2 e^{16} + 2 e^{4} \\ 16 e^{16} & 16 e^{16} & 4 e^{16} \end{matrix}]

应用

线性微分方程

矩阵指数在解线性微分方程时十分有用。前面曾提到，以下形式的微分方程

𝐲^{'} = C 𝐲

具有解e^Cty(0)。如果我们考虑以下向量

𝐲 (t) = [\begin{matrix} y_{1} (t) \\ ⋮ \\ y_{n} (t) \end{matrix}]

我们就可以把线性微分方程表示为：

𝐲^{'} (t) = A 𝐲 (t) + 𝐛 (t)

如果我们作一个猜想，把两边乘以一个积分因子 e^−At，便得到：

e^{- A t} 𝐲^{'} - e^{- A t} A 𝐲 = e^{- A t} 𝐛

\frac{d}{d t} (e^{- A t} 𝐲) = e^{- A t} 𝐛

如果我们可以计算e^At，那么就得到了微分方程的解。

例子（齐次）

假设我们有以下的微分方程组：

\begin{matrix} x^{'} & = & 2 x & - y & + z \\ y^{'} & = & 3 y & - 1 z \\ z^{'} & = & 2 x & + y & + 3 z \end{matrix}

非齐次的情况──参数变换

对于非齐次的情况，我们可以用积分因子的方法（类似于参数变换的方法）。我们找到形为y_p(t) = exp(tA)z(t)一个特解：

{𝐲_{p}}^{'} = (e^{t A})^{'} 𝐳 (t) + e^{t A} 𝐳^{'} (t)

= A e^{t A} 𝐳 (t) + e^{t A} 𝐳^{'} (t)

= A 𝐲_{p} (t) + e^{t A} 𝐳^{'} (t)

为了让y_p为方程的解，必须有：

e^{t A} 𝐳^{'} (t) = 𝐛 (t)

𝐳^{'} (t) = (e^{t A})^{- 1} 𝐛 (t)

𝐳 (t) = \int_{0}^{t} e^{- u A} 𝐛 (u) d u + 𝐜

因此，

\begin{matrix} 𝐲_{p} & = e^{t A} \int_{0}^{t} e^{- u A} 𝐛 (u) d u + e^{t A} 𝐜 \\ = \int_{0}^{t} e^{(t - u) A} 𝐛 (u) d u + e^{t A} 𝐜 \end{matrix}

其中c由问题的初始条件决定。

例子（非齐次）

假设我们有以下的微分方程组：

\begin{matrix} x^{'} & = & 2 x & - y & + z & + e^{2 t} \\ y^{'} & = & 3 y & - 1 z \\ z^{'} & = & 2 x & + y & + 3 z & + e^{2 t} \end{matrix}

那么我们有

M = [\begin{matrix} 2 & - 1 & 1 \\ 0 & 3 & - 1 \\ 2 & 1 & 3 \end{matrix}]

以及

𝐛 = e^{2 t} [\begin{matrix} 1 \\ 0 \\ 1 \end{matrix}]

用前面的方法，我们可以得出齐次微分方程的解。由于齐次方程的通解与非齐次方程的特解的和就是非齐次方程的通解，因此我们只需要找到一个特解（用参数变换法）。

我们有：

𝐲_{p} = e^{t} \int_{0}^{t} e^{(- u) M} [\begin{matrix} e^{2 u} \\ 0 \\ e^{2 u} \end{matrix}] d u + e^{t M} 𝐜

𝐲_{p} = e^{t} \int_{0}^{t} [\begin{matrix} 2 e^{u} - 2 u e^{2 u} & - 2 u e^{2 u} & 0 \\ - 2 e^{u} + 2 (u + 1) e^{2 u} & 2 (u + 1) e^{2 u} & 0 \\ 2 u e^{2 u} & 2 u e^{2 u} & 2 e^{u} \end{matrix}] [\begin{matrix} e^{2 u} \\ 0 \\ e^{2 u} \end{matrix}] d u + e^{t M} 𝐜

𝐲_{p} = e^{t} \int_{0}^{t} [\begin{matrix} e^{2 u} (2 e^{u} - 2 u e^{2 u}) \\ e^{2 u} (- 2 e^{u} + 2 (1 + u) e^{2 u}) \\ 2 e^{3 u} + 2 u e^{4 u} \end{matrix}] + e^{t M} 𝐜

𝐲_{p} = e^{t} [\begin{matrix} - \frac{1}{24} e^{3 t} (3 e^{t} (4 t - 1) - 16) \\ \frac{1}{24} e^{3 t} (3 e^{t} (4 t + 4) - 16) \\ \frac{1}{24} e^{3 t} (3 e^{t} (4 t - 1) - 16) \end{matrix}] + [\begin{matrix} 2 e^{t} - 2 t e^{2 t} & - 2 t e^{2 t} & 0 \\ - 2 e^{t} + 2 (t + 1) e^{2 t} & 2 (t + 1) e^{2 t} & 0 \\ 2 t e^{2 t} & 2 t e^{2 t} & 2 e^{t} \end{matrix}] [\begin{matrix} c_{1} \\ c_{2} \\ c_{3} \end{matrix}]

进一步简化，就可以得到原方程的特解。

註釋

Template:Reflist

参考文献

Template:Refbegin

Template:Refend

参閱

Template:Div col

Template:Div col end

外部链接

[1] Template:Harvnb Proposition 2.3

[2] Template:Harvnb Theorem 2.12

[3] Template:Harv

[4] Template:Harvnb Theorem 2.11

[5] Template:Harvnb Chapter 5

[6] Template:Cite web

[7] Template:Cite web

[8] Template:Cite web

[9] 见Template:Harvnb。2.2节

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

矩阵指数

目录

性质

基本性质

线性微分方程

矩阵指数的行列式

指数相加

李乘积公式

贝克尔-坎贝尔-豪斯多夫公式

指数映射

矩阵指数的计算

可对角化矩阵

幂零矩阵

推广

计算

应用

线性微分方程

例子（齐次）

非齐次的情况──参数变换

例子（非齐次）

註釋

参考文献

参閱

外部链接

导航菜单

矩阵指数

性质

基本性质

线性微分方程

矩阵指数的行列式

指数相加

李乘积公式

贝克尔-坎贝尔-豪斯多夫公式

指数映射

矩阵指数的计算

可对角化矩阵

幂零矩阵

推广

计算

应用

线性微分方程

例子（齐次）

非齐次的情况──参数变换

例子（非齐次）

註釋

参考文献

参閱

外部链接

导航菜单

搜索