科学机器学习中的物理信息神经网络：现状与展望 | 极客日志

PythonAI算法

科学机器学习中的物理信息神经网络：现状与展望

物理信息神经网络（PINN）通过嵌入偏微分方程约束神经网络，实现数据与物理规律的融合求解。全面综述了 PINN 的理论基础、网络架构、损失函数设计及优化方法，涵盖常微分方程、偏微分方程及随机方程的应用场景。文章对比了 DeepXDE、Modulus 等主流工具，分析了收敛性与泛化误差等理论挑战，并探讨了其在流体力学、量子力学及工业领域的实际潜力与未来发展方向。

RedisGeek发布于 2026/4/9更新于 2026/7/2135 浏览

科学机器学习中的物理信息神经网络：现状与展望

摘要

物理信息神经网络（Physics-Informed Neural Networks，PINNs）是一类将模型方程（如偏微分方程，PDE）直接嵌入神经网络结构中的神经网络（NN）。目前，PINNs 已被广泛用于求解偏微分方程、分数阶方程、积分 - 微分方程以及随机偏微分方程。这一新兴方法作为一种多任务学习框架出现，在该框架中，神经网络不仅需要拟合观测数据，还需最小化 PDE 残差。本文对物理信息神经网络相关文献进行了全面综述：研究的主要目标是阐明这类网络的特征、优势与局限性。同时，本文还涵盖了更广义的基于配点法（collocation-based）的物理约束神经网络研究，包括从最初的基础 PINN（vanilla PINN）演化出的多种变体，如物理约束神经网络（Physics-Constrained Neural Networks，PCNN）、变分型 hp-VPINN 和守恒型 PINN（Conservative PINN，CPINN）等。研究表明，现有工作主要集中在通过不同的激活函数、梯度优化算法、神经网络结构和损失函数设计来改进 PINN 模型。尽管 PINN 已在许多应用场景中展现出相较于传统数值方法（如有限元法 FEM）更高的可行性与灵活性，但仍存在大量理论问题尚未得到解决。因此，未来仍有相当大的发展与完善空间。

关键词 物理信息神经网络（PINN） · 科学机器学习（Scientific Machine Learning） · 深度神经网络（Deep Neural Networks） · 非线性方程 · 数值方法 · 偏微分方程（PDE） · 不确定性

1 引言

深度神经网络（Deep Neural Networks, DNN）已在计算机视觉、自然语言处理和博弈论等任务中取得了巨大成功。深度学习（Deep Learning, DL）彻底改变了分类、模式识别与回归任务在各类应用领域中的实现方式。近年来，深度神经网络正逐渐被用于解决经典的应用数学问题，例如利用机器学习与人工智能方法求解偏微分方程（Partial Differential Equations, PDEs）。由于存在显著的非线性特征、对流占优（convection-dominated）行为或激波（shock）现象，某些偏微分方程使用传统数值方法求解极其困难。而深度学习因神经网络具有的通用逼近性（universal approximation）与高表达能力（great expressivity），正迅速成为科学计算的新范式。近期研究表明，深度学习可作为一种构建元模型（meta-model）的有前景方法，用于对动态系统进行快速预测。特别是，神经网络已被证明能有效表征复杂系统中的非线性输入–输出关系。然而，处理这类高维复杂系统仍不可避免地受到维度灾难（curse of dimensionality）的影响，这一概念最早由 Bellman 在最优控制问题的研究中提出 [15]。尽管如此，基于机器学习的算法仍被认为在求解偏微分方程方面具有巨大潜力 [19]。Blechschmidt 与 Ernst [19] 指出，随着深度学习在方法、理论与算法层面的持续发展，基于机器学习的 PDE 求解方法将在未来几年继续成为重要研究方向。早期的研究工作已尝试使用简单的神经网络模型（如具有少量隐藏层的多层感知机 MLP）求解微分方程 [89]。而现代方法则利用神经网络优化框架与自动微分技术。例如，Berg 与 Nyström [16] 提出了一种用于求解 PDE 的统一深度神经网络方法。此外，研究者还设想深度神经网络（DNN）可用于构建基于神经网络的可解释混合地球系统模型（interpretable hybrid Earth system model），以应用于地球与气候科学研究 [68]。目前，在将物理先验知识与深度学习结合的研究领域中，尚无统一的术语。常见的表述包括'物理约束（physics-informed）'、'物理驱动（physics-based）'、'物理引导（physics-guided）'或'理论引导（theory-guided）'等。Kim 等 [80] 对此进行了系统分类，并提出了'知情深度学习（informed deep learning）'的总体框架，用于综述动力系统方向的研究。他们的分类体系包含三个层次：（i）采用了何种深度神经网络结构；（ii）物理知识如何被表示；（iii）物理信息如何被融合。受此启发，本文将重点探讨 2017 年提出的物理信息神经网络（Physics-Informed Neural Networks, PINNs）框架，并说明其神经网络特征、物理信息的输入方式以及其在文献中所解决的典型物理问题。

1.1 什么是 PINNs

物理信息神经网络（Physics–Informed Neural Networks, PINNs）是一种用于求解涉及偏微分方程（PDE）问题的科学机器学习方法。PINN 通过训练神经网络来最小化损失函数以逼近 PDE 的解；损失函数中包含反映初始条件、边界条件（定义在时空区域边界上）的项，以及定义域中选取点（称为配点，collocation point）上的 PDE 残差项。 PINN 是一种深度学习网络：对于积分域内任意输入点，经过训练的神经网络即可输出该点处微分方程解的估计值。PINN 的主要创新在于其引入了一个残差网络（residual network），直接编码支配方程的物理规律。PINN 的训练思想可被视为一种无监督学习策略，因为它不依赖于标签数据（如仿真或实验结果），而是通过最小化方程残差自动学习解。 PINN 算法本质上是一种无网格（mesh-free）方法，它通过将'直接求解方程'转化为'最小化损失函数'来获得 PDE 解。该方法通过将数学模型嵌入网络结构中，并在损失函数中引入方程残差作为惩罚项，从而约束可接受解的空间。PINN 不仅依赖数据拟合状态变量（data-driven），更重要的是结合了控制方程（physics-informed），即在学习过程中主动利用物理规律信息。 '基于物理的学习机'思想最早可追溯至 Owhadi [125] 的研究，该研究表明将系统性结构化的先验知识引入学习过程是可行且高效的。Raissi 等 [141,142] 曾利用高斯过程回归（Gaussian Process Regression）构建线性算子泛函的表示，从而在多种物理问题中准确推断解并提供不确定性估计，该研究后来在 [140,145] 中进一步扩展。 PINN 于 2017 年首次提出，作为一种新型数据驱动的 PDE 求解器，其思想在两篇论文中首次出现 [143,144]，并于 2019 年被合并整理发表 [146]。Raissi 等 [146] 在文中展示了 PINN 求解非线性 PDE（如 Schrödinger 方程、Burgers 方程、Allen–Cahn 方程）的应用。他们提出的 PINN 框架可同时处理正向问题（forward problems）——求解给定方程的解，以及反问题（inverse problems）——根据观测数据反演模型参数。事实上，将先验知识融入机器学习算法的思想并非首次出现。早在 1994 年，Dissanayake 和 Phan-Thien [39] 已尝试利用简单神经网络逼近 PDE 的解，这可视为最早的 PINN 雏形之一。该研究继承了 1980 年代末'神经网络通用逼近理论'成果 [65]，并在 1990 年代提出多种用于 PDE 近似的神经网络方法，如约束神经网络（Constrained Neural Networks）[89,135] 或 [93]。Dissanayake 与 Phan-Thien [39] 的方法中，神经网络输出单一标量值，对应输入点处的 PDE 解。该网络具有两层隐藏层，每层包含 3、5 或 10 个节点，损失函数在域的内部与边界通过配点法近似 L² 误差，并采用准牛顿法优化、有限差分计算梯度。 Lagaris 等 [89] 将微分方程解表示为常数项与包含可调参数的未知项之和，通过神经网络确定最优参数；但其方法仅适用于规则边界。随后 Lagaris 等 [90] 将方法扩展到不规则边界问题。随着 2000 年代计算能力提升，具有更多参数与更深层结构的模型成为主流 [127]。此后，研究者引入了基于径向基函数（RBF）的深度模型 [87]。到 2010 年代末，得益于硬件性能、训练策略以及开源工具（如 TensorFlow [55]）的发展，神经网络求解 PDE 的研究迅速兴起。这些工具中提供的自动微分（Automatic Differentiation）技术 [129]，极大地简化了 PINN 的实现。之后，Kondor 与 Trivedi [83] 以及 Mallat [102] 的研究进一步推动了 Raissi 等 [146] 的 PINN 框架发展，提出了离散时间步进方案（discrete time-stepping scheme），充分利用神经网络的预测能力 [82]。这一框架可直接嵌入任何微分方程问题，大大降低了使用门槛，使许多研究者能快速将其应用于自身问题 [105]。 PINN 的成功可从 Raissi 等 [146] 被引用的指数增长趋势（图 1）中看出。然而，PINN 并非唯一的基于神经网络的 PDE 求解框架。近年来还提出了多种方法。例如：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

关于近似误差，由于其依赖于 NN 架构，相关数学基础结果通常在专门讨论此主题的论文中深入探讨 [24,43]。然而，第一个严格与 PINN 相关的论证见于 Shin 等 [158]。关于近似误差 $E_A$ 的主要理论结果之一见于 De Ryck 等 [37]。他们证明，对于一个具有 tanh 激活函数且仅有两层隐藏层的神经网络 $\hat{u}\theta$，可以在 Sobolev 空间中对函数 u 进行近似，满足边界约束： $$ | \hat{u}{\theta_N} - u |{W^{k,\infty}} \le C \ln(cN)^k N^{s-k}, $$ 其中 N 是训练点数量，c,C>0 为与 N 无关的已知常数，$u \in W^{s,\infty}([0,1]^d)$。注意，NN 的宽度为 Nd，$\theta$ 同时依赖于训练点数量 N 和问题维度 d。针对 PINN 的泛化误差，已有一些特定 PDE 类型的正式结果。Shin 等 [157] 给出了线性二阶椭圆型和抛物型 PDE 的收敛性估计；Shin 等 [158] 将结果扩展到所有线性问题，包括双曲型方程。Mishra 和 Molinaro [113] 提出 PINN 在 PDE 前向问题的抽象框架，通过训练误差（经验风险）和训练点数量来估计泛化误差，这一框架也适用于逆问题 [111]。 De Ryck 等 [38] 特别研究了 Navier–Stokes 方程，证明较小的训练误差意味着较小的泛化误差： $$ R[\hat{u}\theta] = | u - \hat{u}\theta |{L^2} \le \left( C \hat{R}[u_\theta] + O(N^{-1/d}) \right)^{1/2}. $$ 该估计受制于维数灾难（CoD）：即要将误差降低一个固定因子，训练点数量和 NN 尺寸需要指数级增长。最近工作 [18] 对不可压缩 Navier–Stokes 方程提出了显式误差估计和稳定性分析。De Ryck 和 Mishra [36] 证明，对于 Kolmogorov 型 PDE（如热方程或 Black–Scholes 方程），几乎总是有： $$ R[\hat{u}\theta] \le \left( C \hat{R}[u\theta] + O(N^{-1/2}) \right)^{1/2}, $$ 且不依赖问题维度 d。Mishra 和 Molinaro [112] 研究了辐射传输方程，该方程具有高维性（辐射强度为 7 个变量的函数，而常见物理问题通常为 3 维）。他们证明泛化误差同样可由训练误差和训练点数量界定，其维度依赖为对数因子： $$ R[\hat{u}\theta] \le \left( C \hat{R}[u\theta]^2 + c \frac{(\ln N)^{2d}}{N} \right)^{1/2}. $$ 因此，PINN 在此问题上不受维数灾难影响，训练误差只依赖训练点数量，而不依赖问题维度。

在 Kharazmi 等 [76,78] 中，稳态问题被表示为： $$ F_s(u(x); q) = f(x), \quad x \in \Omega, \quad B(u(x)) = 0, \quad x \in \partial \Omega $$ 定义在 $\Omega \subset \mathbb{R}^d$ 的区域上，维度为 d，边界为 $\partial \Omega$。$F_s$ 通常包含带参数 q 的微分算子或积分 - 微分算子，f(x) 表示某些外部作用项。特别地，椭圆型方程可表示为： $$ F_s(u(x); \sigma, \mu) = -\text{div}(\mu \nabla u) + \sigma u $$ Tartakovsky 等 [170] 考虑了线性扩散方程： $$ F_s(u(x); \sigma) = \nabla \cdot (K(x) \nabla u(x)) = 0 $$ 以及非线性扩散方程： $$ F_s(u(x); \sigma) = \nabla \cdot [K(u) \nabla u(x)] = 0 $$ 其中 K 是未知的扩散系数。该方程描述了均质多孔介质中的非饱和流，其中 u 是水压，K(u) 是多孔介质的导流率。由于 K(u) 难以直接测量，Tartakovsky 等 [170] 假设仅有有限数量的 u 测量值。结果显示，PINN 方法优于最先进的最大后验概率方法，并且仅利用毛细压力数据即可估计非饱和流的压导关系。 Kharazmi 等 [76] 提出的变分物理信息神经网络（VPINN）是最早的基于 PINN 的新方法之一，其优势在于通过分部积分降低微分算子的阶数。作者使用 VPINN 求解稳态 Burgers 方程和二维 Poisson 方程，也用于求解 Schrödinger Hamiltonians，即椭圆型反应扩散算子 [54]。 Haghighat 等 [56] 使用 PINN 框架的非局域方法求解二维准静态线弹性与弹塑性力学问题。他们定义了弹塑性损失函数，前馈神经网络输入为位移，输出为应变张量和应力张量分量。局部化变形和解的强梯度使边值问题难以求解，作者采用 Peridynamic Differential Operator (PDDO) 与 PINN 结合，证明该框架可以通过全局函数捕捉应力和应变集中。 Dwivedi 和 Srinivasan [41] 使用 PIELM（PINN 与极限学习机 ELM 结合）处理 Berg 和 Nyström [16] 提出的 1D-2D 线性平流/扩散稳态问题。PIELM 仅考虑线性微分算子。 Ramabathiran 和 Ramachandran [148] 研究线性椭圆 PDE，如规则与不规则区域的 Poisson 方程解，并提出部分可解释的稀疏神经网络架构（SPINN），通过重新解释 PDE 解的无网格表示实现。Laplace–Beltrami 方程在复杂几何或高维表面上求解，讨论样本大小、PINN 结构与精度的关系 [46]。 PINN 也被用于求解 Eikonal 方程（双曲型问题）： $$ |\nabla u(x)|^2 = \frac{1}{v^2(x)}, \quad \forall x \in \Omega $$ 其中 v 为速度，u 为未知激活时间。Eikonal 方程描述波传播，例如地震波行程时间 [162,175] 或心脏激活电波 [53,151]。通过 EikoNet 求解 3D Eikonal 方程，Smith 等 [162] 在异质 3D 结构中得到行程时间场，但该模型仅适用于单一固定速度，速度改变需要重新训练网络。EikoNet 可预测从源点到接收点所需时间，应用广泛，如地震检测。PINN 在准确性测试中优于一阶快速扫描解法 [175]，尤其在各向异性模型中。另一方法使用合成与患者数据学习心肌纤维方向，通过各向异性 Eikonal 方程建模 [53]，损失函数中加入导电向量的全变差正则化。忽略各向异性时，Sahli Costabal 等 [151] 使用随机先验函数结合 PINN 进行数据不确定性量化，并创建自适应采样策略生成激活图。 Chen 等 [30] 研究弱非均匀二维介质下横向磁极化激励的 Helmholtz 方程： $$ \nabla^2 E_z(x,y) + \varepsilon_r(x,y) k_0^2 E_z = 0 $$ 而 Fang 和 Zhan [45] 求解高频 Helmholtz 方程（频域 Maxwell 方程）。

对于复合材料，Amini Niaki 等 [6] 研究热传导方程： $$ \frac{\partial T}{\partial t} = a \frac{\partial^2 T}{\partial x^2} + b \frac{d \alpha}{dt} $$ 其中 a,b 为参数，$\alpha \in (0,1)$ 表示固化度，其导数描述内部热生成。作者提出由两个不相连子网络组成的 PINN，并采用顺序训练算法自动调整损失函数权重，从而提高预测精度。根据物理观察，温度网络最后一层使用 Softplus 激活函数（平滑 ReLU），固化度网络最后一层使用 Sigmoid 激活函数，隐藏层使用双曲正切函数（平滑且导数非零）。实验表明，PINN 可准确预测复合材料中心的最高温度（放热）。 Cai 等 [22] 研究更复杂的自由边界问题——Stefan 问题，包括直接 Stefan 问题（确定相变区域温度分布）和逆 Stefan 问题（自由边界条件）。他们使用 PINN 表示未知界面（DNN）和两个相态输出的 FCNN，生成三个残差：两相 $u_\theta^{(1)}, u_\theta^{(2)}$ 和界面 $s_\beta$。参数 $\theta$ 和 $\beta$ 通过均方误差最小化： $$ L_F(\theta) = L_r^{(1)}(\theta) + L_r^{(2)}(\theta), \quad L_r^{(k)}(\theta) = \frac{1}{N_c} \sum_{i=1}^{N_c} \left| \frac{\partial u_\theta^{(k)}}{\partial t}(x_i, t_i) - \omega_k \frac{\partial^2 u_\theta^{(k)}}{\partial x^2}(x_i, t_i) \right|^2, \quad k=1,2 $$ 随机选取的网格点为 ${(x_i, t_i)}{i=1}^{N_c}$，$\omega_1, \omega_2$ 为训练参数。边界与初始条件损失为： $$ L_B(\theta) = L{sb1c}(\theta, \beta) + L_{sb2c}(\theta, \beta) + L_{sN_c}(\theta, \beta) + L_{s0}(\beta) $$ 数据误差为： $$ L_\text{data}(\theta) = \frac{1}{N_d} \sum_{i=1}^{N_d} | u_\theta(x_i^\text{data}, t_i^\text{data}) - u_i^* |^2 $$ Cai 等 [22] 发现基本 PINN 模型在逆问题中难以正确识别未知热扩散系数，原因是训练过程中存在局部最小值。因此他们采用动态权重技术 [179]，显著降低相对预测误差，证明损失函数中权重选择对 PINN 性能至关重要。 Wang 和 Perdikaris [178] 总结，PINN 在近似复杂函数（如 Stefan 问题）上表现灵活，尽管缺乏充分的理论分析（如近似误差或数值稳定性）。

一般情况下，Navier–Stokes 方程表示为： $$ F_x(u(x); \nu, p) = -\text{div}[\nu(\nabla u + \nabla u^T)] + (u \cdot \nabla) u + \nabla p - f $$ 其中 u 为流体速度，p 为压力，$\nu$ 为黏度 [136]。动力学方程与质量守恒方程耦合： $$ \text{div}(u) = 0 $$ Burgers 方程是 Navier–Stokes 方程的特殊情况。Arthurs 和 King [10] 通过快速参数扫描展示了 PINN 如何用于确定管道收缩程度。PINN 使用有限元数据训练，以估计参数域内的压力和速度场，并提出主动学习算法（ALA）结合域/网格生成器和传统 PDE 求解器预测广泛参数空间内的 PDE 解。 PINN 还应用于漂移简化 Braginskii 模型，通过有限电子压力数据学习湍流场 [106]。作者使用全局漂移 - 膨胀 (GDB) 有限差分算法模拟合成等离子体，解双流体漂移简化 Braginskii 方程，并观察到仅通过二维观测即可推断三维湍流场，用于难以监测的波动或等离子体诊断不可用情况。Xiao 等 [186] 回顾现有湍流数据库并通过系统改变流动条件提出基准数据集。Zhu 等 [199] 在三维金属增材制造 (AM) 过程中预测温度及熔池流体动力学，模型由 Navier–Stokes 方程（动量与质量守恒）及能量守恒方程描述。Dirichlet 边界条件采用'硬'方式，即专门的神经网络部分严格满足，而考虑表面张力的 Neumann 边界条件以传统方式加入损失函数。损失权重根据损失函数各组成部分比例选择 [199]。 Cheng 和 Zhang [31] 使用 Res–PINN（PINN 与 ResNet 块结合）求解流体动力学，以提高神经网络稳定性，并在 Burgers 方程和 Navier–Stokes 方程上验证模型，涉及腔体流和圆柱绕流问题。观察到一个现象：预测压力与实际压力的幅值存在差异，但压力分布基本一致。 Sun 等 [168] 构建物理约束、无数据的全连接神经网络（FC–NN）用于不可压缩流的参数化 Navier–Stokes 求解，DNN 仅通过减少控制方程残差训练，无需 CFD 模拟数据。边界条件通过 DNN 硬编码实现，其中 Neumann 边界条件以软方式纳入损失函数，而初始条件和 Dirichlet 边界条件以硬方式编码。三例流动与心血管应用相关，用于评估方法性能。Navier–Stokes 方程表示为： $$ F(u, p) = 0 := \begin{cases} \nabla \cdot u = 0, & x, t \in \Omega, \gamma \in \mathbb{R}^d \ \frac{\partial u}{\partial t} + (u \cdot \nabla) u + \frac{1}{\rho} \nabla p - \nu \nabla^2 u + b f = 0, & x, t \in \Omega, \gamma \in \mathbb{R}^d \end{cases} $$ 初始条件与边界条件为： $$ I(x, p, u, \gamma) = 0, \quad x \in \Omega, t=0, \gamma \in \mathbb{R}^d $$ $$ B(t, x, p, u, \gamma) = 0, \quad x, t \in \partial \Omega \times [0, T], \gamma \in \mathbb{R}^d $$ 其中 I 和 B 为确定初始和边界条件的微分算子。最后，NSFnets [73] 开发了两种 Navier–Stokes 方程表示方法：速度 - 压力（VP）形式和涡量 - 速度（VV）形式。

双曲守恒律被用于简化血流动力学中的 Navier–Stokes 方程 [81]。Abreu 和 Florindo [1] 也研究了双曲偏微分方程：特别地，他们研究了无粘非线性 Burgers 方程以及一维 Buckley–Leverett 双相问题。他们试图处理如下类型的问题： $$ \frac{\partial u}{\partial t} + \frac{\partial H(u)}{\partial x} = 0, \quad x \in \mathbb{R},\ t>0,\ u(x,0) = u_0(x) $$ 其结果与拉格朗日–欧拉（Lagrangian–Eulerian）方法和 Lax–Friedrichs 格式进行比较。Patel 等 [130] 提出了一种 PINN，用于发现热力学一致的方程，从而保证冲击流体动力学逆问题的双曲性。 Euler 方程是双曲守恒律，可能允许不连续解，例如冲击波和接触波。一维 Euler 系统表示为 [71]： $$ \frac{\partial U}{\partial t} + \nabla \cdot f(U) = 0, \quad x \in \Omega \subset \mathbb{R}^2 $$ 其中 $$ U = \begin{bmatrix} \rho \ \rho u \ \rho E \end{bmatrix}, \quad f = \begin{bmatrix} \rho u \ p + \rho u^2 \ pu + \rho u E \end{bmatrix} $$ $\rho$ 为密度，p 为压力，u 为速度，E 为总能量。这些方程描述多种高速流动，包括跨音速、超音速和高超音速流。Mao 等 [103] 可以精确捕捉一维 Euler 方程的不连续流动解，这对于现有数值技术是一个挑战。Mao 等 [103] 指出，在高梯度区域适当聚类训练数据点可提高该区域的解精度，并减少误差向整个域传播。这提示在高梯度解区域使用独立的局部强大网络，从而形成多个局部 PINN 的集合，每个子域遵循已知先验解知识。如 Jagtap 等 [71] 所示，cPINN 将域划分为多个小子域，每个子域可使用不同架构的多个神经网络（称为子 PINN 网络）求解同一 PDE。Mao 等 [103] 还解决了一维 Euler 方程和二维斜冲击波问题，他们通过少量随机分布在不连续处的点就能捕捉解。上述工作利用密度梯度和压力 p(x,t) 数据，以及守恒律推断逆问题中的所有状态（密度、速度和压力场），无需任何初始/边界条件。他们受到 Schlieren 实验摄影技术的启发，并强调训练点位置对训练过程的重要性。结合数据与 Euler 方程的特征形式，其结果优于保守形式的结果。

在数据驱动的 PDE 求解中，不确定性的来源多样。训练数据质量对解的准确性影响显著。为处理含噪声数据的正向和逆向非线性 PDE 问题，Yang 等 [190] 提出贝叶斯 PINN（B-PINN）。在该框架中，贝叶斯神经网络作为先验，后验可通过 Hamiltonian Monte Carlo（HMC）或变分推断（VI）方法估计。B-PINN [190] 利用物理原理和稀疏噪声观测进行预测，并量化噪声数据带来的 aleatoric 不确定性。 Yang 等 [190] 在以下正向问题上测试网络：一维 Poisson 方程、一维多孔介质流动（带边界层）、一维非线性 Poisson 方程以及二维 Allen–Cahn 方程；在逆问题上，处理一维非线性源项扩散 - 反应系统及二维非线性扩散 - 反应系统。他们还将 B-PINN 用于高维扩散 - 反应系统，从一组噪声数据中推断三个污染源位置。 Yang 等 [189] 考虑求解椭圆型随机微分方程（SDE），需对三个随机过程近似：解 $u(x; \gamma)$、强迫项 $f(x; \gamma)$ 和扩散系数 $k(x; \gamma)$。特别地，研究时间独立 SDE： $$ F_x[u(x; \gamma); k(x; \gamma)] = f(x; \gamma), \quad B_x[u(x; \gamma)] = b(x; \gamma) $$ 其中 $k(x; \gamma)$ 和 $f(x; \gamma)$ 为独立随机过程，k 严格正值。他们还研究了散布传感器测量有限时的情况，展示问题如何从正向逐渐转变为混合问题，最终为逆问题。实现方式为：假设 $f(x; \gamma)$ 有足够传感器测量，然后逐渐减少 $k(x; \gamma)$ 测量，同时增加 $u(x; \gamma)$ 测量，当只有 k 测量而无 u 测量时为正向问题；当只有 u 测量而无 k 测量时为逆问题。类似结果在 [195] 中也被观察到，利用稀疏传感器的随机数据和 PINN 学习解的任意多项式混沌（aPC）展开的模态函数。此外，[196] 提出两种 PINN 解决时变随机偏微分方程（SPDE），基于谱动态正交（DO）和双正交（BO）随机过程表示方法，并在线性随机对流问题、随机 Burgers 方程和非线性反应 - 扩散方程上进行测试。为了表征细胞 - 药物相互作用的形态变化（morphodynamics），Cavanagh 等 [27] 使用核密度估计（KDE）将形态空间嵌入（morphspace embeddings）转换为概率密度函数（PDFs）。然后，他们使用基于 Waddington 型势阱的扩散发展顶 - 下（top-down）Fokker–Planck 模型，通过 PINN 学习这些势阱，将 PDF 拟合到 Fokker–Planck 方程。该架构为每个实验条件设计了一个神经网络，用于学习 PDF、扩散系数以及势阱。所有参数均通过序列蒙特卡罗近似贝叶斯计算（aBc-SMC）方法拟合：在该方法中，aBc 从先验分布中选择参数并运行模拟；如果模拟结果与数据在一定相似度范围内匹配，则保存该参数。由此形成后验分布，即存储参数的密度 [27]。

本小节讨论一个一维非线性 Schrödinger（NLS）问题的实际例子，如图 3 所示。该非线性问题与 Raissi [139]、Raissi 等 [143] 中提出的问题相同，用于展示 PINN 处理周期边界条件和复值解的能力。初始状态为 $$ \psi(x,0) = 2,\text{sech}(x) $$ 假设周期边界条件 Eq. (10)，得到初始边值问题，定义域为 $$ [-5,5] \times (0,T], \quad T = \pi/2 $$ 其形式为： $$ \begin{cases} i \psi_t + 0.5 \psi_{xx} + |\psi|^2 \psi = 0, & (x,t) \in [-5,5]\times(0,T] \ \psi(0,x) = 2,\text{sech}(x), & x \in [-5,5] \ \psi(t,-5) = \psi(t,5), & t \in (0,T] \ \psi_x(t,-5) = \psi_x(t,5), & t \in (0,T] \end{cases} $$ 为了评估 PINN 的精度，Raissi 等 [143] 使用传统谱方法模拟 Schrödinger 方程生成高分辨率数据集，积分至最终时间 $T=\pi/2$，采用 MATLAB 开源 Chebfun 软件 [40]。PINN 在子集测量点上训练，包括初始数据、边界数据以及域内配点（collocation points）。初始时间数据 $t=0$ 为 $$ {x_i^0, \psi_i^0}{i=1}^{N_0} $$ 边界配点为 $$ {t_i^b}{i=1}^{N_b} $$ 方程残差配点为 $$ {t_i^c, x_i^c}{i=1}^{N_c} $$ 在 Raissi 等 [143] 中，从高分辨率数据集中随机采样 $N_0 = 50$ 个初始数据点，以及 $N_b = 50$ 个边界点以强制周期边界，域内随机采样 $N_c = 20,000$ 个配点。神经网络架构有两个输入，分别为时间 t 和空间位置 x；输出长度为 2，而非 1，用于预测解的实部和虚部。网络训练目标是最小化初始和边界条件损失 $L_B$，以及在配点上满足 Schrödinger 方程残差 $L_F$。由于目标是 PDE 的替代模型，不使用额外数据，即 $L\text{data} = 0$。损失函数为： $$ L_B = \frac{1}{N_0}\sum_{i=1}^{N_0} |\psi(0,x_i^0) - \psi_i^0|^2 + \frac{1}{N_b}\sum_{i=1}^{N_b} \left( |\psi(t_i^b,-5) - \psi(t_i^b,5)|^2 + |\psi_x(t_i^b,-5) - \psi_x(t_i^b,5)|^2 \right) $$ $$ L_F = \frac{1}{N_c} \sum_{i=1}^{N_c} |F(t_i^c, x_i^c)|^2 $$ 所有随机采样点通过 Latin Hypercube Sampling 技术 [164] 生成。在训练中，先使用 Adam 优化器（学习率 $10^{-3}$），再用 LBFGS 进行微调。通过不同设置和架构分析均方误差（MSE）与平均绝对误差（MAE），如表 2 所示。PyTorch 实现参考 Stiller 等 [167]，基准解来自 Raissi 等 [143] 的 GitHub。原始配置为 5 层 DNN，每层 100 个神经元，激活函数为 tanh，用于表示未知函数 $\psi$ 的实部和虚部。我们同时分析其他网络架构和训练点数量。在三个时间截面上预测解与精确解比较见图 3、4。不同配置显示类似模式，仅误差量级不同。图 4 展示最佳配置，MSE 平均值约为 $5.17 \cdot 10^{-4}$。图中先展示预测的时空解模 $|\psi(x,t)|$ 与基准解比较，并绘制每点误差。该 PINN 在 $(x,t)=(0,\pi/4)$ 附近的中心高度预测存在困难，同时在 $t \in (\pi/4,\pi/2)$ 对应 $t \in (0,\pi/4)$ 对称值的映射上存在偏差。表 2 展示了改变边界和初始值数据时训练损失、相对 L2、MAE 和 MSE 的变化，并分析随时间推进误差增长情况。

Mathews 等 [106] 观察到仅通过二维数据就有可能推断三维湍流场。为了从合成等离子体的部分观测中推断未观测到的场动力学，他们使用 PINN 模拟漂移约化 Braginskii 模型，同时训练神经网络完成监督学习任务，并保持非线性偏微分方程（PDE）的约束。这种范式适用于磁化碰撞等离子体的准中性研究，并为利用人工智能构建等离子体诊断提供了方法。这一方法有潜力改善湍流约化模型在实验和模拟中的直接测试，以前用标准解析方法难以实现。因此，这种用于诊断湍流场的深度学习方法可以轻松迁移，能够在磁约束聚变实验中系统应用。Mathews 等 [106] 提出的方法可适用于磁化碰撞等离子体在推进引擎和天体物理环境中的跨学科研究（计算和实验）的多种情境。 Xiao 等 [186] 检查现有湍流数据库，并通过系统性改变流动条件提出基准数据集。在高速空气动力学流动背景下，Mao 等 [103] 研究了由 PINN 近似的 Euler 方程解，包括正问题和逆问题，涵盖一维和二维问题。对于逆问题，他们分析了两类传统方法难以处理的问题：第一类问题，通过密度梯度数据确定密度、速度和压力；第二类问题，通过提供密度、速度和压力数据确定二维斜波状态方程中的参数值。在训练区域之外进行时间投影是 vanilla PINN 难以解决的问题，Kim 等 [79] 对此进行了研究和测试。作者表明，vanilla PINN 在多种 Burgers 方程基准问题上的外推任务表现不佳，并提出了一种具有不同训练方法的新型神经网络。 PINN 方法还用于解决一维 Buckley–Leverett 两相流问题，该问题在石油工程中具有非凸流函数和一个拐点，使问题较为复杂 [1]。结果与 Lagrangian–Eulerian 和 Lax–Friedrichs 方法得到的结果进行比较。Almajid 和 Abu-Al-Saud [4] 也研究了 Buckley–Leverett 问题，将 PINN 与不含物理损失的 ANN 进行比较：当仅提供早期饱和度分布数据时，ANN 无法预测解。

神经网络架构决定了 NN 逼近函数的能力，其逼近误差称为逼近误差（approximation error），如第 2.4 节所述。如何迭代改进逼近器，由损失函数定义方式以及积分或求和的采样点数量决定，其偏差质量被称为泛化误差（generalization error）。最后，损失最小化的迭代质量取决于优化过程，其误差称为优化误差（optimization error）。这些因素提出了 PINN 未来研究的多个问题，其中最关键的是：PINN 是否能收敛到 PDE 的正确解？要实现稳定性，逼近误差必须趋于零，这受网络拓扑结构影响。目前相关研究结果极为有限。例如，Mo 等 [115] 通过改变隐藏层数和每层神经元数计算不同神经架构的相对误差；Blechschmidt 和 Ernst [19] 统计了不同网络拓扑（层数、神经元数、激活函数）下十次训练成功（即训练损失低于阈值）的次数。Mishra 和 Molinaro [111] 提供了误差估计，并指出 PINN 逼近 PDE 的可能方法。研究表明，初始隐藏层可能负责编码低频成分（低频信号表示所需点较少），后续隐藏层则负责高频成分 [105]。这一发现可视为频率原则（F-principle）[198] 的延伸：DNN 在训练时从低频到高频拟合目标函数，体现了 DNN 的低频偏置，并解释了 DNN 在随机数据集上泛化能力较差的原因。对于 PINN，大尺度特征应先出现，小尺度特征可能需要多轮训练。初始化和损失函数对 DNN 学习，特别是对泛化误差的影响，需要进一步研究。许多理论结果基于随机独立分布点的数值积分来估计损失。部分 PINN 方法提出在时空域特定区域选择配点 [118]，这一策略也值得研究。此外，动态损失加权（dynamic loss weighting）在 PINN 中是一条有前景的研究方向 [120]。优化任务对提升 NN 性能至关重要，PINN 亦如此。然而，物理约束的引入意味着 PINN 方法需要额外的优化理论、数值分析及动力系统理论基础。根据文献 [179, 181]，关键问题在于理解 PDE 刚性与梯度下降等算法对 PINN 的影响。另一个有趣的研究方向是 PINN 为何不受维度诅咒影响。文献表明 PINN 可轻松扩展，且计算成本不会随问题维度指数增长 [112]；这种特性普遍存在于神经网络架构，但缺乏正式解释 [36]。Bauer 和 Kohler [13] 最近证明，基于 FNN 的最小二乘估计可避免非参数回归中的维度诅咒；Zubov 等 [202] 展示了 PINN 结合积分方法求解高维问题的能力。在 PINN 中，学习过程生成一个预测函数 $u_\theta$，最小化经验风险（损失）。机器学习理论将预测误差分为偏差误差（bias error）和方差误差（variance error）。偏差–方差权衡（bias-variance trade-off）似乎与近年神经网络经验结果相矛盾：训练网络精确拟合（插值）数据时仍能在测试集上获得接近最优的结果。Belkin 等 [14] 展示了'双下降风险曲线'（double-descent risk curve）的存在，并给出其形成机制。在深度学习理论框架下，PINN 的行为尚需研究，可能引发更多理论问题。特别是可进一步研究 PINN 优化的假设空间 H，根据其求解的 PDE 类型，将物理约束纳入考虑。总体而言，PINN 可能无法逼近解，并非由于 NN 架构表达能力不足，而是因软 PDE 约束优化问题 [86]。

另一个研究方向是探索增加 FFNN 宽度或深度对 PINN 性能的影响。已有 DNN 研究对扩展宽度与深度的收益存在不同观点，这可能引出问题：是否存在最小深度/宽度以下的网络无法理解物理规律 [173]。PINN 的可互操作性（interoperability）也是未来研究重点 [149]。激活函数方面，需要更深入理解。Jagtap 等 [70] 表明，可调节的可扩展激活函数能优化收敛速率和解的正确性。未来研究可探索微分方程求解的替代或混合微分方法。为加速训练，Chiu 等 [33] 提出用数值微分与自动微分定义损失函数，形成 can-PINN（coupled-automatic-numerical differentiation PINN），比传统 PINN 更高效、更精确，因为普通自动微分 PINN 在高精度下需要大量配点。虽然 PINN 的训练点可在空间和时间上分布，具有高度灵活性，但训练点位置会影响结果质量。PINN 的一个缺点是边界条件必须在训练阶段确定，若边界条件变化需重新训练 [183]。在损失方面，NN 总会优先最小化加权方程中最大的损失项，因此所有损失项应处于同一数量级；对某一部分的加权可能影响其他部分。目前尚无客观方法确定损失函数权重，也缺乏机制保证方程在训练前能达到预定精度，这些问题仍需研究 [119]。优化任务方面，研究相对不足，目前主要使用标准方法如 Adam 和 BFGS 算法 [184]。Adam 算法可生成可用动力系统理论分析的梯度下降动态。为减少梯度流动刚性，需要研究极限神经切线核（neural tangent kernel）。尽管机器学习领域在优化问题上已有大量工作，但 PINN 优化技术仍有提升空间 [169]。L-BFGS-B 是 PINN 中最常用的 BFGS 算法，也是关键技术 [105]。学习率对 PINN 训练行为的影响尚未充分研究。梯度归一化（gradient normalization）是另一重要研究方向 [120]，可动态分配不同约束权重，消除全局损失函数中某一项主导的情况。误差估计也是研究重点。少数示例包括 Hillebrecht 和 Unger [62]，他们使用 ODE 构建 PINN 预测误差上界，并提出为物理约束部分引入额外加权参数，以平衡初值和 ODE 残差的误差贡献。然而，该研究仅提供了玩具示例，对误差估计下界的可能性分析以及 PDE 扩展仍需进一步探讨。

PINN 以及 SciML（科学机器学习）整体上在将机器学习应用于关键科学和技术问题方面具有巨大潜力。然而，许多问题仍未解决，尤其是在将神经网络作为传统数值方法（如有限差分法或有限体积法）替代方案时。Krishnapriyan 等 [86] 分析了扩散和对流两个基本 PDE 问题，发现当对流或黏性系数较高时，PINN 可能无法学习物理问题的规律。他们指出，随着系数增大，PINN 的损失函数空间（loss landscape）变得越来越复杂。这部分源于优化问题，因为 PINN 使用的是软约束。然而，当将问题视为序列到序列（sequence-to-sequence）学习任务而不是一次性求解整个时空域时，可以获得更低的误差。若要将 PINN 用于更复杂的问题，必须解决这些挑战，在科学问题与机器学习方法之间建立深入联系。此外，将 PINN 应用于不同领域可能产生意想不到的用途。例如，PINN 已被用于 Poisson 方程的线性求解器 [105]，显示出 PINN 可作为高性能求解器（如 PETSc 求解器）一样快速且精确的线性求解工具。Lu 等 [100] 认为 PINN 相比传统数值方法（如有限元法 FEM）具有一些优势：FEM 对函数做线性逼近，而 PINN 对函数及其导数做非线性逼近，因此 PINN 适合广泛工程应用。然而，主要缺点是训练神经网络可能耗时显著长于传统方法。另一方面，PINN 可在与标准数值方法不同的范式下使用：采用在线 - 离线（online-offline）方式，一个 PINN 可用于实时快速评估动力学，提高预测能力。从二维扩展到三维给 PINN 带来新障碍：训练复杂度增加，需要更强的网络表示能力、更大的批量大小（可能受 GPU 内存限制），以及更长的收敛训练时间 [119]。另一任务是将 PINN 集成到传统科学程序和库（如 Fortran 或 C/C++ 编写）中，或将 PINN 求解器融入现有高性能计算（HPC）应用 [105]。PINN 也可在现代 HPC 集群上实现，如使用 Horovod [156]。此外，开发 PINN 需要解决的数学模型时，用户应注意对问题进行预归一化，同时可使用软件包（如 SymPy）以符号形式书写 PDE。 PINN 在从初始条件或边界条件向未见区域或未来时刻传播信息时存在困难 [41, 73]。Wang 等 [180] 提出了一种 PINN 损失函数的重新表述，可在训练过程中显式考虑物理因果性。他们认为，PINN 的训练算法应设计为遵循系统演化的内在规律进行信息传播。新实现显示了显著的精度提升，并能评估 PINN 模型收敛性，使 PINN 可用于混沌 Lorenz 系统、Kuramoto–Sivashinsky 方程的混沌域，以及湍流条件下的 Navier–Stokes 方程。然而，在混合/逆问题中仍需进一步研究，其中观测数据应视为信息源点，PDE 残差应在这些点上最小化后再向外传播信息。另一方法是使用集成一致性（ensemble agreement）作为引入新点的准则 [58]：在观测或初始数据附近，所有集成员收敛到同一解，而远离观测或长时间间隔处可能被驱向不同错误解。 PINN 对日常生活也可能产生重要影响。例如，Yucesan 和 Viana [194] 利用 PINN 预测润滑脂维护；在工业 4.0 范式下，可辅助工程师模拟材料和结构，或通过嵌入弹性静力训练的 PINN 实时分析建筑结构 [57, 110]。PINN 在解决高频或多尺度 PDE 问题时仍存在困难 [47, 179, 181]。另外，PINN 可用于研究自治动力系统中某一平衡点的吸引域 [152]。但在安全关键场景中使用 PINN，仍需关注其稳定性及理论基础。许多应用领域仍需大量工作，例如文化遗产、医疗保健、流体力学、粒子物理以及广义相对论建模。对于刚性问题，需开发专门的 PINN 方法，同时可将 PINN 用于数字孪生应用，如实时控制、网络安全和设备健康监测 [119]。目前，PINN 在多尺度应用中的研究仍较少，尤其是气候建模 [68]，尽管在多尺度气泡动力学等应用中已显示出潜力 [95, 96]。

本文综述可被视为对过去四年创新过程的深入研究，而非简单的 PINN 领域研究调查。Raissi 的早期研究 [143,144] 开发了 PINN 框架，重点在于实现 PINN 求解已知物理模型。这些创新性工作推动了 PINN 方法的发展，并进一步验证了其原始概念。大部分研究尝试通过修改激活函数、梯度优化、神经网络结构或损失函数结构对 PINN 进行个性化。 PINN 原始理念的扩展包括：在物理损失函数中使用模型的最少信息，而非典型 PDE；或在 NN 结构中直接嵌入初始/边界条件的有效性。仅少数研究关注自动微分的替代方案 [44] 或收敛问题 [179,181]。还有一部分研究尝试提出全面框架，涵盖多种物理问题或多物理系统 [21]。最初 PINN 文献的创新之处在于，通过神经网络逼近未知函数，实现带物理约束的优化 [39]，并将其扩展到数据 - 方程混合驱动的方法。此前已有研究尝试用核方法 [126] 或 PDE 约束优化方法 [63] 逼近未知函数，但 PINN 的核心在于物理信息驱动，无论来自数据点还是 PDE。数据点可在域内任意位置提供，但通常仅为初始或边界数据；PDE 强制点（collocation points）是 NN 必须遵循物理方程的地方。本文回顾了 PINN 文献，从 Raissi 等 [143,144] 的开创性工作到在神经网络中引入物理先验的研究。综述涉及基于配点法（collocation）的 PINN 方法，包括变分 PINN（VPINN）、软约束形式（损失包括初始和边界条件）及硬约束形式（边界条件编码于 NN 结构）。本文分析了 PINN 流程，包括神经网络构建、基于物理模型的损失函数构建及反馈机制；总结了 PINN 应用的 PDE 示例，并提供了实际应用及可用软件包的见解。结论是，PINN 仍有大量改进空间，尤其是在未解决的理论问题上；在优化训练和扩展到多方程求解方面也存在发展潜力。

科学机器学习中的物理信息神经网络：现状与展望

摘要

1 引言

1.1 什么是 PINNs

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2 本综述的内容

2 PINN 的组成模块

2.1 神经网络架构

2.1.1 前馈神经网络

FFNN 架构

多重 FFNN

浅层网络

激活函数

2.1.2 卷积神经网络（Convolutional Neural Networks）

CNN 架构（CNN Architectures）

卷积自编码网络（Convolutional Encoder–Decoder Network）

2.1.3 循环神经网络（Recurrent Neural Networks）

RNN 架构（RNN Architectures）

LSTM 架构（LSTM Architectures）

2.1.4 其他用于 PINN 的架构（Other Architectures for PINN）

贝叶斯神经网络（Bayesian Neural Network）

GAN 架构

多重 PINN

物理规律注入

基于学习的方法进行模型估计

关于损失函数的观察

软约束与硬约束

优化方法

PINN 的学习理论

2.4.1 收敛性

2.4.2 统计学习误差分析

2.4.3 PINN 的误差分析结果

3 PINN 处理的微分问题

3.1 常微分方程

3.2 偏微分方程

3.2.1 稳态 PDE

3.2.2 非稳态 PDE

3.2.2.1 对流–扩散–反应问题

扩散问题

对流问题

3.2.2.2 流动问题

Navier–Stokes 方程

双曲型方程

3.2.2.3 量子问题

3.3 其他问题

3.3.1 分数阶微分方程

3.3.2 不确定性估计

3.4 使用 PINN 求解微分问题

4 PINNs：数据、应用与软件

4.1 数据

4.2 应用

流动问题

光学与电磁应用

分子动力学与材料相关应用

地球科学与弹性静力学问题

工业应用

4.3 软件

DeepXDE

NeuroDiffEq

Modulus

SciANN

PyDENs

NeuralPDE.jl

ADCME

Nangs

TensorDiffEq

IDRLnet

Elvet

其他软件包

5 PINN 的未来挑战与方向

5.1 克服 PINN 的理论难题

5.2 改进 PINN 的实现方面

5.3 PINN 在 SciML 框架中的应用

5.4 PINN 在 AI 框架中的应用

6 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具