【论文阅读12】Circle Loss:一统 Softmax 与 Triplet,从“线性”到“圆形”的优化视角

论文题目:《Circle Loss: A Unified Perspective of Pair Similarity Optimization》

目录

前言:两大门派的恩怨

派系一:基于分类的学习 (Classification-based)

派系二:基于度量的学习 (Metric Learning / Pairwise Learning)

为什么要提这个?(Circle Loss 的动机)

1. 万物归一 —— 统一视角 ()

1.1 统一 Loss 公式

1.2 计算量的“降维打击”

2. 证明 Softmax 和 Triplet 都是“特例”

2.1 退化为 Softmax ()

2.2 退化为 Triplet ()

3. 发现缺陷 —— 拒绝“死板”的优化

3.1 什么是“不够灵活”?

3.2 引入动态权重 ()

3.3 Circle Loss 最终形态

4. 几何解释 —— 为什么叫“Circle”?

4.1 决策边界的演变

4.2 圆形的意义

5. 梯度验证 —— 数学上的实锤


前言:两大门派的恩怨

派系一:基于分类的学习 (Classification-based)

  • 代表:Softmax, SphereFace, CosFace, ArcFace。
  • 原文描述:“优化样本和权重向量之间的相似性” (optimize the similarity between samples and weight vectors)。
  • 通俗解释(找老师)

公式特征

$x \cdot W$

训练目标:学生(样本

$x$

)必须尽可能靠近自己的班主任( 

$W_{y_i}$

 ),远离别人的班主任。

逻辑:模型预先设立了 10,000 个“教室”(类别),每个教室有一个“班主任”( 

$W$

 )。

权重

$W$

:被看作是类中心(Class Center)或者代理(Proxy)

派系二:基于度量的学习 (Metric Learning / Pairwise Learning)

  • 代表:Triplet Loss, Contrastive Loss。
  • 原文描述:“优化样本之间的相似性” (optimize the similarity between samples)。
  • 通俗解释(找朋友)
    • 逻辑:模型从数据堆里随便抓两个人。
    • 训练目标:如果这两个人是同一个人(Positive Pair),就拉近他们;如果是不同人(Negative Pair),就推开他们。

公式特征

$x_1 \cdot x_2$

没有

$W$

:这里没有固定的“教室”和“班主任”。

为什么要提这个?(Circle Loss 的动机)

在 Circle Loss 之前,大家觉得这是两套完全不同的逻辑:

  • 用 Softmax (ArcFace) 的人觉得 Triplet Loss 收敛太慢,采样太麻烦(组合爆炸)。
  • 用 Triplet Loss 的人觉得 Softmax 只能处理闭集(Closed-set),不灵活。

Circle Loss 的伟大之处在于它说了一句:

“别吵了,其实你们俩在数学本质上是一回事!”

Circle Loss 认为:

Triplet:其实就是把另一个样本

$x_j$

  当作临时的“中心”。

Softmax/ArcFace:其实就是把

$W$

当作一种特殊的“样本”(只有一个样本的类)。

它们的目标都是:最大化类内相似度 ( 

$s_p$

 ),最小化类间相似度 ( 

$s_n$

 )。


1. 万物归一 —— 统一视角 (

$L_{uni}$

)

        Circle Loss 的第一步贡献,是建立了一个统一的 Loss 框架。作者敏锐地发现,无论是分类还是配对,本质目标都是:最大化正样本分数

$s_p$

,最小化负样本分数

$s_n$

1.1 统一 Loss 公式

作者首先推导出了一个通用公式

$L_{uni}$

(Unified Loss):

$L_{uni} = \log \left[ 1 + \sum_{i=1}^K \sum_{j=1}^L \exp(\gamma(s_n^j - s_p^i + m)) \right]$
$m$

:间隔(Margin)。

$\gamma$

:缩放因子(Scale Factor)。

$s_n^j$

:第

$j$

个负样本对的相似度。

$s_p^i$

:第

$i$

个正样本对的相似度。

这个公式的直观含义很简单:要在

$Loss$

最小化过程中,迫使

$(s_n - s_p)$

越小越好。

1.2 计算量的“降维打击”

上面的公式有一个双重求和

$\sum \sum$

,这意味着要计算所有正负样本的配对,计算量是

$O(K \times L)$

利用指数运算法则

$e^{a-b} = e^a \cdot e^{-b}$

,作者做了一个精彩的数学变换:

$L_{uni} = \log \left[ 1 + \underbrace{\sum_{j=1}^L \exp(\gamma(s_n^j + m))}_{\text{}} \cdot \underbrace{\sum_{i=1}^K \exp(\gamma(-s_p^i))}_{\text{}} \right]$

                                   负样本集合                 正样本集合

这一步变换至关重要。它将复杂的 “成对比较” 解耦成了独立的  “正样本组”  和  “负样本组” 计算。这解释了为什么 Circle Loss 能够像 Softmax 一样高效训练,而不需要像 Triplet Loss 那样进行繁重的样本挖掘。


2. 证明 Softmax 和 Triplet 都是“特例”

为了证明

$L_{uni}$

是真正的大一统,我们看看它是如何退化成我们熟悉的 Loss 的。

2.1 退化为 Softmax (

$L_{am}$

)

如果我们设定只有一个正样本(

$K=1$

,即当前样本

$x$

和它的类中心

$W$

),忽略常数 1,公式就变成了:

$L_{am} = - \log \frac{\exp(\gamma(s_p - m))}{\exp(\gamma(s_p - m)) + \sum_{j=1}^{N-1} \exp(\gamma s_n^j)}$

解读: 这正是我们熟悉的 CosFace / AM-Softmax

这意味着:分类 Loss 只是 Circle Loss 在

$K=1$

时的特例。

2.2 退化为 Triplet (

$L_{tri}$

)

如果我们把

$\gamma$

设为无穷大(

$\gamma \to +\infty$

),根据 LogSumExp 的极限性质,公式变成了:

$L_{tri} = \lim_{\gamma \to +\infty} \frac{1}{\gamma} L_{uni} = \max [ s_n^j - s_p^i ]_+$

解读: 这正是 Triplet Loss 的核心逻辑(Hard Mining)!

这意味着:Triplet Loss 只是 Circle Loss 在

$\gamma$

趋于无穷大时的极限情况。


3. 发现缺陷 —— 拒绝“死板”的优化

既然统一了江湖,为什么还需要 Circle Loss?

因为作者发现,之前的 CosFace/ArcFace 存在一个致命的“不够灵活”的问题。

3.1 什么是“不够灵活”?

$L_{uni}$

中,我们是在优化

$(s_n - s_p)$

。当我们对它求导时,梯度是常数(或者说是 1)。

这意味着什么?

  • 困难样本(分错了):模型用 1 的力度去推它。
  • 简单样本(分对了):模型依然用 1 的力度去推它。

这就好比老师辅导学生,对考 30 分的学生和考 99 分的学生布置一样的作业。这显然浪费了算力,且效率低下。

3.2 引入动态权重 (

$L_{circle}$

)

为了让模型懂得“因材施教”,作者引入了动态权重

$\alpha$

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n^j s_n^j) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p^i s_p^i) \right]$

其中,权重

$\alpha$

的定义是“自我配速”(Self-paced):

$\alpha_p^i = [O_p - s_p^i]_+, \quad \alpha_n^j = [s_n^j - O_n]_+$
  • 机制详解

如果样本简单(

$s_p$

接近目标

$O_p$

),

$\alpha_p$

 变小

$\rightarrow$

几乎不练。

如果样本很难(

$s_p$

远小于目标

$O_p$

),

$\alpha_p$

变大

$\rightarrow$

加权猛练!

3.3 Circle Loss 最终形态

将动态权重

$\alpha$

和 Margin 结合,我们就得到了最终公式:

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n (s_n - \Delta_n)) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p (s_p - \Delta_p)) \right]$

4. 几何解释 —— 为什么叫“Circle”?

这是论文最精彩的几何视角。

4.1 决策边界的演变

Circle Loss: 由于引入了与

$s$

相关的权重 

$\alpha$

,优化项变成了关于

$s$

的二次项 (

$s^2$

)。其决策边界方程演变为:

Softmax/CosFace: 优化目标是

$s_p - s_n = m$

。在坐标系中,这是一条直线

$(s_n - \frac{O_n + \Delta_n}{2})^2 + (s_p - \frac{O_p + \Delta_p}{2})^2 = C$

在特定参数下,它简化为:

$(s_n - 0)^2 + (s_p - 1)^2 = 2m^2$

4.2 圆形的意义

直线变成圆弧,不仅仅是好看。

这意味着模型在优化

$s_p$

$s_n$

时,不再是僵硬的 1:1 兑换,而是根据它们各自离“完美状态”

$(0, 1)$

的距离来动态调整梯度方向。这就赋予了 Loss 更大的灵活性。


5. 梯度验证 —— 数学上的实锤

最后,为了证明“动态权重”真的有效,作者直接给出了梯度公式:

$\frac{\partial L}{\partial s_n} \propto \alpha_n = (s_n - O_n)$
$\frac{\partial L}{\partial s_p} \propto \alpha_p = (O_p - s_p)$

一句话总结:梯度的强弱,正比于样本的难度。

这彻底解决了传统 Loss 在简单样本上浪费梯度的问题,让模型能够全神贯注地攻克那些“死活分不开”的 Hard Cases。

Read more

基于FPGA的时间数字转换器(TDC)抖动(jitter)测试系统

项目概述 本项目实现了一个完整的FPGA系统,用于通过SPI接口控制和读取AS6501 TDC芯片。系统包括SPI主控模块、控制模块、测试序列器、Block RAM结果存储、UART批量传输模块和Python数据分析工具,支持完整的测试与分析流程: 上电命令→配置寄存器写入/回读验证→Init命令启动测量→中断驱动的连续测量(默认10000次)→结果存入Block RAM→按键触发UART批量传输到上位机→Python解析数据并计算Jitter 核心特性 * 批量测量模式: 连续采集MAX_MEASUREMENTS次(默认10000)后自动停止 * Block RAM存储: 48位×10000条测量数据,使用Vivado Block RAM推断 * UART批量传输: BTN[1]按键触发,115200 baud,8字节数据包格式 * 电平触发中断: 支持AS6501中断始终为低电平的模式(直接再次读取) * Python Jitter分析: 解析UART数据→计算时钟周期/TIE→生成6子图分析报告

AI+低代码:撕开医药行业数字化转型的“伪痛点”,重构技术落地逻辑

AI+低代码:撕开医药行业数字化转型的“伪痛点”,重构技术落地逻辑

在AI大模型全面渗透产业的今天,医药行业的数字化转型始终陷入“两难困境”:        一边是政策倒逼(集采、MAHDS、DRG/DIP付费改革)与市场竞争双重压力,亟需通过技术重构研发、生产、流通、诊疗全链路效率;一边是传统开发模式的“枷锁”——需求迭代慢、技术门槛高、业务与IT脱节,多数数字化项目要么沦为“面子工程”,要么因成本失控半路夭折。        而低代码的崛起,并非简单的“开发工具升级”,而是与AI深度融合后,成为破解医药行业数字化僵局的“最优解”。但行业内普遍存在的“低代码=简易拖拽”“AI赋能=噱头”等认知偏差,正在让医药企业的转型之路越走越偏。 一、认知破局:医药行业数字化的“真痛点”与“伪解决方案”        谈及医药行业数字化,多数从业者的第一反应是“缺系统”“缺技术人员”,但这并非核心痛点——真正的痛点,是“需求与技术的错配”“效率与合规的失衡”“成本与价值的背离”

【ZYNQ必学】PS-PL架构完全解析:从零理解ARM+FPGA融合设计(附实战案例)

【ZYNQ必学】PS-PL架构完全解析:从零理解ARM+FPGA融合设计(附实战案例) 📚 目录导航 文章目录 * 【ZYNQ必学】PS-PL架构完全解析:从零理解ARM+FPGA融合设计(附实战案例) * 📚 目录导航 * 概述 * 一、PS-PL架构基础概念 * 1.1 什么是PS和PL * 1.1.1 PS(处理系统)定义 * 1.1.2 PL(可编程逻辑)定义 * 1.1.3 PS vs PL对比 * 1.2 ZYNQ基本结构 * 1.2.1 ZYNQ-7000系列架构 * 1.2.2 ZYNQ-7000的整体架构 * 1.3

SAM3实战:无人机航拍图像分割应用

SAM3实战:无人机航拍图像分割应用 1. 技术背景与应用场景 随着无人机在农业监测、城市规划、灾害评估等领域的广泛应用,对航拍图像进行高效、精准的语义分割成为关键需求。传统方法依赖大量标注数据和特定类别训练,难以应对复杂多变的空中视角场景。SAM3(Segment Anything Model 3) 的出现为“万物可分”提供了全新可能。 SAM3 是一种提示词引导的通用图像分割模型,能够在无需重新训练的前提下,通过自然语言描述实现任意物体的掩码提取。这一特性特别适用于无人机航拍场景——例如,在一片农田中快速识别受损作物区域,或从密集建筑群中分离出特定屋顶结构。 本文将围绕基于 SAM3 构建的文本引导万物分割镜像系统,深入解析其在无人机航拍图像处理中的实际应用流程、关键技术优势及优化策略,并提供完整的 Web 交互部署方案。 2. 系统架构与核心能力 2.1 模型基础:SAM3 的工作逻辑 SAM3 延续了 Segment Anything 系列的核心思想,采用“提示-分割”范式(