引言
微积分常被称为科学的语言,而微分则是这门语言的灵魂。从一维导数到流形上的切映射,微分的本质始终是一个线性映射。我们不再把微分仅仅看作一个计算工具,而是将其视为理解非线性函数局部行为的几何钥匙。
本文将围绕这一核心观点,梳理导数、微分、雅可比矩阵、方向导数、梯度、链式法则、Hessian 矩阵以及切映射等概念,揭示它们背后统一的数学结构。更重要的是,我们会用 Python 代码将这些抽象概念可视化,让你直观地看到微分是如何将非线性函数'拉直'的。
所有示例代码均基于 Python 3 + NumPy + Matplotlib,你可以直接复制运行,观察图形随参数的变化。
一维导数的重新解读——从'数'到'线性映射'
传统定义的局限
对于一元函数 $f: \mathbb{R} \to \mathbb{R}$,教科书通常这样定义导数: $$ f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$ 这个极限定义确实直观地告诉我们:导数就是瞬时变化率。但在高阶数学和机器学习中,这种视角容易让人误以为导数仅仅是一个标量数值,忽略了它作为变换算子的本质。
微分的最佳定义:线性近似
真正统一且强大的定义是:存在一个线性映射 $df_x: \mathbb{R} \to \mathbb{R}$,使得 $$ f(x+h) = f(x) + df_x(h) + o(h) $$ 其中 $o(h)$ 表示比 $h$ 更高阶的无穷小量。在这个框架下,导数 $f'(x)$ 实际上就是这个线性映射在基向量上的作用结果。当我们说'微分是线性化'时,意思就是用一个线性函数去逼近原函数在局部的行为。
这种视角的转换非常关键。在多维空间或复杂系统中,我们无法单纯依赖'斜率',必须依靠线性映射来描述变化。接下来的内容中,我们将看到这种思想如何自然地推广到高维情形,并解释为什么梯度、雅可比矩阵等概念本质上都是同一回事的不同表现形式。


