深入理解次模函数（Submodular Function）在机器学习中的应用 | 极客日志

编程语言AI算法

深入理解次模函数（Submodular Function）在机器学习中的应用

综述由AI生成次模函数（Submodular Function）是离散优化中的核心概念，其本质特征是边际收益递减。在机器学习中，许多问题如特征选择、数据集压缩、主动学习和文本摘要都涉及从集合中挑选最优子集，这类问题通常属于 NP-hard 的离散优化。次模函数提供了类似连续优化中凸函数的结构特性，使得使用贪心算法能获得 (1-1/e) 的近似最优保证。通过理解次模性，可以有效解决高维组合空间下的选择问题，提升模型效率与性能。

时间旅人发布于 2026/4/9更新于 2026/5/2315 浏览

背景：为什么需要次模函数？

很多机器学习问题本质上其实是离散优化问题。决策变量往往是一个集合，而不是连续变量。

比如特征选择（Feature Selection），我们需要从原始特征中筛选出最相关的子集；或者数据集采样（Dataset Subset Selection），从大规模数据中选取代表性样本。这些问题的组合数量是指数级的。

面对指数级空间，我们需要一种结构，使得优化过程依然高效。

这就是 Submodular Function（次模函数） 登场的原因。它在离散优化中的地位，类似于凸函数（convex function）在连续优化中的地位。

核心定义：边际收益递减

论文给出的正式定义针对集合函数 $f: 2^V \rightarrow R$。对于任意两个集合 $A, B$，满足以下不等式：

$f(A)+f(B) \ge f(A\cup B)+f(A\cap B)$

这被称为 Submodular Inequality（次模不等式）。

但更直观的理解来自其核心性质：Diminishing Returns（边际收益递减）。

数学表达为：

$f(A \cup {e}) - f(A) \ge f(B \cup {e}) - f(B)$

当 $A \subseteq B$ 时，这意味着同一个元素 $e$ 加入小集合的价值，大于或等于加入大集合的价值。

可视化解释

想象一个价值曲线，横轴是集合大小 $|S|$，纵轴是价值 $f(S)$。

文章配图

曲线特点是一开始增长很快，后面越来越平缓。具体来看：

集合大小变化	f(S) 变化	增长量
0 → 1	0 → 1	+1
1 → 2	1 → 1.41	+0.41
2 → 3	1.41 → 1.73	+0.32
...	...	越来越小

这正是边际收益递减的体现。再看另一张图，直接展示了每增加一个元素带来的新增价值：

文章配图

深入理解次模函数（Submodular Function）在机器学习中的应用

背景：为什么需要次模函数？

核心定义：边际收益递减

可视化解释

更多推荐文章

相关免费在线工具

直观理解：从朋友到物品

'朋友的价值'

物品关系：替代与互补

经典案例：信息熵

常见形式与应用场景

1. Cardinality 上的凹函数

2. Feature-based Function

3. Facility Location（设施选址）

4. Set Cover（集合覆盖）

核心价值：优化的理论保证

实际落地：机器学习中的典型应用

结语

更多推荐文章

相关免费在线工具

深入理解次模函数（Submodular Function）在机器学习中的应用

背景：为什么需要次模函数？

核心定义：边际收益递减

可视化解释

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

直观理解：从朋友到物品

'朋友的价值'

物品关系：替代与互补

经典案例：信息熵

常见形式与应用场景

1. Cardinality 上的凹函数

2. Feature-based Function

3. Facility Location（设施选址）

4. Set Cover（集合覆盖）

核心价值：优化的理论保证

实际落地：机器学习中的典型应用

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具