Active Event Alignment for Monocular Distance Estimation 论文研读

事件相机深度估计领域提出了一种行为驱动的主动对齐方法。该研究模仿生物视觉系统的凝视稳定机制，通过计算补偿相机平移所需的旋转角速度来推断物体相对距离。方法包含全局速度方向估计与局部速度值估算两步，结合贝叶斯滤波器处理时序数据。实验基于 EVIMO2 数据集，验证了其在不同光照条件下的有效性。相比传统帧相机，此方案无需绝对相机姿态，有效降低了计算负荷并提升了动态场景下的深度感知能力。

技术博主发布于 2026/4/10更新于 2026/6/2019 浏览

Active Event Alignment for Monocular Distance Estimation 论文研读

引言

本文提出了一种行为驱动（Behavior Driven, BD）的方法，用于从事件相机数据中估计物体距离。该方法的灵感来源于人眼等生物系统如何根据物距稳定视野：远处的物体需要较小的补偿旋转来保持聚焦，而附近的物体则需要更大的调整来维持对齐。这种自适应策略利用自然稳定行为有效地估计相对距离。

核心在于引入旋转调整来平衡相机运动。通过主动事件对齐实现深度估计，当使用旋转对位移进行补偿时，成像明显更加稳定。该方法测定产生最佳事件对齐效果的旋转速度，并通过它推测不同区域的距离。具体包含两步：

首先估计旋转速度的方向和幅值（magnitude）；
然后比较物体和参考区域间的补偿旋转。

该方法仅需相机的相对运动而不是绝对的相机姿态。

基于区域级像素对齐的距离估计

3.1 事件对齐

事件对齐描述的是找到将世界的同名点映射到传感器相同像素的变换 $\mathcal{T}$。定义事件集合 $O = [o_1, o_2, ..., o_N]$，每一个元素 $o_i=(o_i^x,o_i^t,o_i^p)$ 遵循传统定义。因此事件对齐被构造为针对旋转相机运动参数 $\omega, v$ 的优化问题。

论文采用了 Gu 等人提出的方法，将特定像素位置的对齐事件流建模为泊松点过程，使用最大似然估计注册了初始为非对齐状态的事件。我们寻找观测事件 $O$ 的变换 $\mathcal{T}$，使其在模型下尽可能可能。

这里，$k_x$ 表示来自位置 $x$ 的像素数目，并通过负二项式分布 $NB(·)$ 描述。我们将事件集定义为一定时间间隔内的所有事件，这种调整与传统泊松点分布的定义一致，可以更好地捕捉事件动态。

3.1.1 逐目标的事件对齐

尽管估计的旋转速度与显示中相机的运动无关，但这种旋转包含了不同图像区域的相对距离信息。旋转速度 $\omega$ 的估计通过区域级别事件对齐实现。

这种优化利用了这样一个概念，即对于刚性相机运动和前平行平面场景区域，相机平移可以通过相机旋转很好地近似。将变换 $\mathcal{T}$ 限制为仅旋转的运动，可以大大减少要估计的参数量。论文提出了一种分两步执行对象对齐的策略：

确定一个全局速度方向，该方向对场景中存在的所有对象进行对齐；
确定对齐特定对象事件的速度大小。

该策略确定了整个大图像区域的全局速度方向，同时评估了特定、潜在较小区域的速度大小，从而保持了稳健的旋转估计。

3.1.2 全局速度方向估计

根据透视几何的物理原理，在纯详相机平移运动中，局部的运动方向与场景深度无关。对于平面场景，运动方向可以通过旋转相机很好地估计。处理未知深度的一种选择是通过最大似然估计和 $\omega$ 来估计像素级深度值，但这会导致带估计参数的剧烈上涨。

相反，我们采用了一种部分贝叶斯方法，在速度为 $m$ 的情况下最大化 $k_x$ 的边际似然。角速度以极坐标形式 $\omega=(m, \phi)$ 表示。因此，方向 $\phi$ 可以通过沿着位置大小 $m$ 积分得到，然后通过最大化对齐事件的概率来实现速度方向 $\phi$ 的估计。

对图像平面的所有像素位置应用最大化。之后，通过处理每个物体的速度值来处理深度系的不连续性。

3.1.3 速度值的估计

当给出了速度方向的估计值后 $\hat{\phi}$，物体的速度值可以通过相似的方式进行估计。与速度方向不同，速度值的估计是对目标区域内的所有像素应用的。

序列对齐有两个好处：

速度方向的估计带来了额外的透视约束；
极大地降低了需要估计的参数量。

3.2 相对深度估计

估计的旋转速度抵消了相机的平移运动，将图像稳定在一个特定的区域 $S$ 中。如果物体是远距离的，稳定器仅需要很小的抵消旋转。相反，如果物体比较近，实现准确的对齐就需要更大的抵消旋转。

为此，做出如下假设：物体全都是平面，在 z 轴（深度轴）方向没有位移。按对象对齐会导致局部流量为零。更具体地说，旋转流 $v_r$ 补偿了导致零局部流的平移流 $v_t$。

这一概念使行为驱动的方法能够从事件相机数据中估计相对距离。通过关联两个旋转流矢量，可以推断出两个对象之间的相对距离 $d$：

$$ d \propto \frac{1}{|v_r - v_r^{ref}|} $$

其中 $v_r$ 是估计所得的旋转光流向量的伪逆，$v_r^{ref}$ 是参考物体估计得到的旋转光流向量。参考物体是指在场景内占据的最大区域。假设使平移流对对象的位置不变。因此，通过抵消平移流，可以简化划分。

Active Event Alignment for Monocular Distance Estimation 论文研读

Active Event Alignment for Monocular Distance Estimation 论文研读