BSSR 论文解读：将单纯形约束转化为球面漫步的优化方法

传统方法在构建数据之间的'关系网（相似性图）'时，算得慢且容易受噪声干扰。这篇文章提出了一种叫 BSSR 的新方法，它结合了'深度学习（找复杂规律）'和'稀疏表示（抗干扰）'，并且巧妙地用'球面漫步'的方式解决了一个超级难算的数学约束问题。

具体来说，作者解决了两个痛点：

线性局限： 以前的方法只能找数据间的直线关系，本文加入神经网络找复杂的非线性关系。
算得太慢（单纯形优化难）： 为了保证结果靠谱，需要加一个'所有权重加起来等于 1 且不为负'的限制（这叫单纯形约束），但这非常难算。作者通过一个'魔法替换（Hadamard 参数化）'，把走迷宫一样的问题，变成了在光滑球面上散步的问题。

目标： 假设你手里有一个苹果（目标数据点），你想用篮子里的橘子、香蕉、梨（其他数据点）来'拼凑'出这个苹果，而且用的水果种类越少越好。

公式 (1):

$\min_{s_i \ge 0} \sum_{i=1}^{m} (||X_{-i}s_i - x_i||_2^2 + \lambda||s_i||_1)$

$\lambda||s_i||_1$ : 正则化项（控制稀疏度）。强制 $s_i$ 里面有很多 0，也就是只用少部分关键数据来拼凑。

$\lambda$ 是调节拼凑质量和所用水果数量之间平衡的旋钮。

$||X_{-i}s_i - x_i||_2^2$ : 重建误差。拼凑出来的假苹果，和真苹果到底有多像。越小越好。

$s_i$ : 稀疏表示系数。也就是每个其他水果所占的权重，比如 0.8 个橘子 + 0 个香蕉 + 0.2 个梨。因为不能有负数的水果，所以有 $s_i \ge 0$ 的约束。

$X_{-i}$ : 除了 $x_i$ 之外的所有其他数据点（橘子、香蕉等组成的矩阵）。

$x_i$ : 当前正在研究的数据点（那个苹果）。

更多推荐文章