神经微分方程

神经微分方程（Template:Lang-en）是机器学习中的一种微分方程，其方程右侧项由人工神经网络的权重 $θ$ 参数化。^[1]神经常微分方程（Template:Lang，简称Template:Lang）是最常见的神经微分方程，可写作如下形式：

\frac{d 𝐡 (t)}{d t} = f_{θ} (𝐡 (t), t) .

在经典的神经网络中，各层是按自然数排序的。而在神经ODE中，各层形成一个由正实数排序的连续体。具体来说，函数 $h : ℝ_{\geq 0} \to ℝ$ 将每个正序号t映射为一个实数值，表示神经网络在该层的状态。

神经ODE可以理解为连续时间控制系统，其数据插值能力可以用可控制性来解释。^[2]

与残差神经网络的关联

神经ODE可以被视为一种具有连续层而非离散层的残差神经网络。^[1]将单位时间步长的欧拉方法应用于神经ODE，会得到残差神经网络的前向传播公式：

𝐡_{ℓ + 1} = f_{θ} (𝐡_{ℓ}, ℓ) + 𝐡_{ℓ},

其中 $ℓ$ 表示该残差神经网络的第 $ℓ$ 层。在残差神经网络中，前向传播是通过逐层应用一系列变换来实现的，而神经ODE的前向传播则是由求解微分方程来完成的。具体而言，给定神经ODE的输入 $𝐡_{in}$ ，对应的输出 $𝐡_{out}$ 可以通过求解以下初值问题得到：

\frac{d 𝐡 (t)}{d t} = f_{θ} (𝐡 (t), t), 𝐡 (0) = 𝐡_{in},

而 $t = T$ 时的解 $𝐡 (T)$ 即为输出 $𝐡_{out}$ 。

在已知某些物理信息的情况下，可以将神经ODE与已有的第一性原理模型相结合，构建一个被称为通用微分方程（Template:Lang，简称Template:Lang）的物理信息神经网络模型。^[3]^[4]^[5]^[6]例如，洛特卡-沃尔泰拉模型的UDE版本可写成以下形式：^[7]

\begin{matrix} \frac{d x}{d t} & = α x - β x y + f_{θ} (x (t), y (t)), \\ \frac{d y}{d t} & = - γ y + δ x y + g_{θ} (x (t), y (t)), \end{matrix}

其中 $f_{θ}$ 和 $g_{θ}$ 是神经网络参数化的修正项。