OpenCV 通用内部函数：C++ 代码矢量化实战指南 | 极客日志

C++算法

OpenCV 通用内部函数：C++ 代码矢量化实战指南

OpenCV 通用内部函数（Universal Intrinsics）的使用方法，旨在通过 SIMD 技术提升 C++ 代码运行速度。内容涵盖理论概念、寄存器结构、加载存储操作、算术与逻辑运算、归约与掩码操作，并通过一维及二维卷积的标量与矢量实现对比演示了性能优化效果。文章详细展示了如何定义可变与恒定大小寄存器、执行元素级运算以及处理边界情况，同时提供了关于数据对齐、编译器优化及跨平台兼容性的最佳实践建议。

二进制发布于 2025/2/7更新于 2026/7/2438 浏览

OpenCV 通用内部函数：C++ 代码矢量化实战指南

目标

本教程的目标是提供使用功能矢量化 C++ 代码以提高运行速度的指南。我们将简要介绍 SIMD 内部函数以及如何使用宽寄存器，然后介绍使用宽寄存器的基本操作。

理论

在本节中，我们将简要介绍一些概念，以帮助更好地理解该功能。

内部函数

内部函数是由编译器单独处理的函数。这些函数通常经过优化，以最有效的方式执行，因此运行速度比正常实现更快。但是，由于这些函数依赖于编译器，因此很难编写可移植的应用程序。

SIMD 简介

SIMD 代表 单指令，多数据（Single Instruction, Multiple Data）。SIMD 内部函数允许处理器对计算进行矢量化。数据存储在所谓的寄存器中。寄存器可以是 128 位、256 位或 512 位宽。每个寄存器存储相同数据类型的多个值。寄存器的大小和每个值的大小决定了总共存储的值的数量。

根据 CPU 支持的指令集，您可以使用不同的寄存器。

通用内部函数

OpenCV 的通用内部函数提供了对 SIMD 矢量化方法的抽象，并允许用户使用内部函数，而无需编写特定于系统的代码。

OpenCV Universal Intrinsics 支持以下指令集：

支持各种类型的 128 位寄存器，适用于各种架构，包括 x86（SSE/SSE2/SSE4.2）、ARM（NEON）、PowerPC（VSX）、MIPS（MSA）。
x86（AVX2）支持 256 位寄存器。
x86（AVX512）支持 512 位寄存器。

现在，我们将介绍可用的结构和功能：

寄存器结构
加载和存储
数学运算
减少和遮罩

寄存器结构

通用内部函数集将每个寄存器实现为基于特定 SIMD 寄存器的结构。所有类型都包含枚举，该枚举给出类型可以容纳的值的确切数量。这样就无需在实现过程中对值的数量进行硬编码 nlanes。

注意：每个寄存器结构都在命名空间 cv 下。

有两种类型的寄存器：

可变大小的寄存器

这些结构没有固定的大小，它们的确切位长度是在编译过程中根据可用的 SIMD 功能推断出来的。因此，枚举的值是在编译时确定的。

每个结构都遵循以下约定：

v_[type of value][size of each value in bits]

例如，v_uint8 保存 8 位无符号整数，v_float32 保存 32 位浮点值。然后我们声明一个寄存器，就像我们在 C++ 中声明任何对象一样。

根据可用的 SIMD 指令集，特定寄存器将保存不同数量的值。例如：如果您的计算机支持最大 256 位寄存器：

v_uint8 将保存 32 个 8 位无符号整数。
v_float64 将容纳 4 个 64 位浮点数（双精度）。

cv::v_uint8 a;                            // a is a register supporting uint8(char) data
int n = a.nlanes();                       // n holds 32

可用的数据类型和大小：

类型	大小（以位为单位）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

v_[type of value][size of each value in bits]x[number of values]

cv::v_int32x4 reg1;                       // holds 4 32-bit signed integers.

cv::v_float64x8 reg2;                     // reg2.nlanes() = 8

float ptr[32] = {1, 2, 3, ..., 32};       // ptr is a pointer to a contiguous memory block of 32 floats

// Variable Sized Registers
cv::v_float32 reg1(ptr);                 // reg1 stores first x values according to the maximum register size available.
cv::v_float32 reg2(ptr + x);             // reg stores the next x values

// Constant Sized Registers
cv::v_float32x4 reg1(ptr);               // reg1 stores the first 4 floats (1, 2, 3, 4)
cv::v_float32x4 reg2(ptr + 4);           // reg2 stores the next 4 floats (5, 6, 7, 8)

// Or we can explicitly write down the values.
cv::v_float32x4(1, 2, 3, 4);

float ptr[32] = {1, 2, 3, ..., 32};
cv::v_float32 reg_var;
reg_var = cv::v_load(ptr);               // loads values from ptr[0] upto ptr[reg_var.nlanes() - 1]

cv::v_float32x4 reg_128;
reg_128 = cv::v_load(ptr);               // loads values from ptr[0] upto ptr[3]

cv::v_float32x8 reg_256;
reg_256 = cv::v_load(ptr);               // loads values from ptr[0] upto ptr[7]

cv::v_float32x16 reg_512;
reg_512 = cv::v_load(ptr);               // loads values from ptr[0] upto ptr[15]

float ptr[4];
cv::v_store(ptr, reg);                   // store the first 128 bits(interpreted as 4x32-bit floats) of reg into ptr.

cv::v_float32 a, b;                      // {a1, ..., an}, {b1, ..., bn}
cv::v_float32 c;
c = a + b                                // {a1 + b1, ..., an + bn}
c = a * b;                               // {a1 * b1, ..., an * bn}

cv::v_int32 as;                          // {a1, ..., an}
cv::v_int32 al = as << 2;                // {a1 << 2, ..., an << 2}
cv::v_int32 bl = as >> 2;                // {a1 >> 2, ..., an >> 2}

cv::v_int32 a, b;
cv::v_int32 a_and_b = a & b;             // {a1 & b1, ..., an & bn}

// let us consider the following code is run in a 128-bit register
cv::v_uint8 a;                           // a = {0, 1, 2, ..., 15}
cv::v_uint8 b;                           // b = {15, 14, 13, ..., 0}

cv::v_uint8 c = a < b;

/*
    let us look at the first 4 values in binary
    a = |00000000|00000001|00000010|00000011|
    b = |00001111|00001110|00001101|00001100|
    c = |11111111|11111111|11111111|11111111|

    If we store the values of c and print them as integers, we will get 255 for true values and 0 for false values.
*/

// In a computer supporting 256-bit registers
cv::v_int32 a;                           // a = {1, 2, 3, 4, 5, 6, 7, 8}
cv::v_int32 b;                           // b = {8, 7, 6, 5, 4, 3, 2, 1}

cv::v_int32 c = (a < b);                 // c = {-1, -1, -1, -1, 0, 0, 0, 0}

/*
    The true values are 0xffffffff, which in signed 32-bit integer representation is equal to -1.
*/

cv::v_int32 a;                           // {a1, ..., an}
cv::v_int32 b;                           // {b1, ..., bn}

cv::v_int32 mn = cv::v_min(a, b);        // {min(a1, b1), ..., min(an, bn)}
cv::v_int32 mx = cv::v_max(a, b);        // {max(a1, b1), ..., max(an, bn)}

cv::v_int32 a;                           // a = {a1, ..., a4}
int mn = cv::v_reduce_min(a);            // mn = min(a1, ..., an)
int sum = cv::v_reduce_sum(a);           // sum = a1 + ... + an

cv::v_uint8 a;                           // {a1, .., an}
cv::v_uint8 b;                           // {b1, ..., bn}

cv::v_int32x4 mask;                      // {0xff, 0, 0, 0xff, ..., 0xff, 0}

cv::v_uint8 Res = cv::v_select(mask, a, b); // {a1, b2, b3, a4, ..., an-1, bn}

/*
    "Res" will contain the value from "a" if mask is true (all bits set to 1),
    and value from "b" if mask is false (all bits set to 0)

    We can use comparison operators to generate mask and v_select to obtain results based on conditionals.
    It is common to set all values of b to 0. Thus, v_select will give values of "a" or 0 based on the mask.
*/

void conv1d(const Mat& src, Mat& dst, const Mat& kernel)
{
    int len = src.cols;
    dst = Mat(1, len, CV_32F);
    
    int sz = kernel.cols / 2;
    copyMakeBorder(src, src, 0, 0, sz, sz, BORDER_REPLICATE);
    
    for (int i = 0; i < len; i++)
    {
        double value = 0;
        for (int k = -sz; k <= sz; k++)
            value += src.ptr<float>(0)[i + k + sz] * kernel.ptr<float>(0)[k + sz];
        
        dst.ptr<float>(0)[i] = (float)value;
    }
}

void conv1dsimd(const Mat& src, const Mat& kernel, float* ans, int row = 0, int rowk = 0, int len = -1)
{
    if (len == -1)
        len = src.cols;
    
    Mat src_32, kernel_32;
    const float alpha = 1.0f;
    src.convertTo(src_32, CV_32F, alpha);
    
    int ksize = kernel.cols, sz = kernel.cols / 2;
    copyMakeBorder(src_32, src_32, 0, 0, sz, sz, BORDER_REPLICATE);
    
    int step = cv::Traits<cv::v_float32x4>::vlanes();
    float* sptr = src_32.ptr(row), *kptr = kernel.ptr(rowk);
    
    for (int k = 0; k < ksize; k++)
    {
        cv::v_float32 kernel_wide = cv::v_setall_f32(kptr[k]);
        int i;
        for (i = 0; i + step < len; i += step)
        {
            cv::v_float32 window = cv::v_load(sptr + i + k);
            cv::v_float32 sum = cv::v_add(cv::v_load(ans + i), cv::mul(kernel_wide, window));
            cv::v_store(ans + i, sum);
        }
        
        for (; i < len; i++)
        {
            *(ans + i) += sptr[i + k] * kptr[k];
        }
    }
}

For example:
kernel: {k1, k2, k3}
src:           ...|a1|a2|a3|a4|...

iter1:
for each idx i in (0, len), 'step' idx at a time
    kernel_wide:          |k1|k1|k1|k1|
    window:               |a0|a1|a2|a3|
    ans:                  ...| 0| 0| 0| 0|...
    sum = ans + window * kernel_wide
        = |a0 * k1|a1 * k1|a2 * k1|a3 * k1|

iter2:
    kernel_wide:          |k2|k2|k2|k2|
    window:               |a1|a2|a3|a4|
    ans:                  ...|a0 * k1|a1 * k1|a2 * k1|a3 * k1|...
    sum = ans + window * kernel_wide
        = |a0 * k1 + a1 * k2|a1 * k1 + a2 * k2|a2 * k1 + a3 * k2|a3 * k1 + a4 * k2|

iter3:
    kernel_wide:          |k3|k3|k3|k3|
    window:               |a2|a3|a4|a5|
    ans:                  ...|a0 * k1 + a1 * k2|a1 * k1 + a2 * k2|a2 * k1 + a3 * k2|a3 * k1 + a4 * k2|...
    sum = sum + window * kernel_wide
        = |a0*k1 + a1*k2 + a2*k3|a1*k1 + a2*k2 + a3*k3|a2*k1 + a3*k2 + a4*k3|a3*k1 + a4*k2 + a5*k3|

void convolute_simd(const Mat& src, Mat& dst, const Mat& kernel)
{
    int rows = src.rows, cols = src.cols;
    int ksize = kernel.rows, sz = ksize / 2;
    
    dst = Mat(rows, cols, CV_8U);
    
    copyMakeBorder(src, src, sz, sz, 0, 0, BORDER_REPLICATE);
    
    int step = cv::Traits<cv::v_float32x4>::vlanes();
    
    for (int i = 0; i < rows; i++)
    {
        for (int k = 0; k < ksize; k++)
        {
            float ans[N] = {0};
            conv1dsimd(src, kernel, ans, i + k, k, cols);
            
            int j;
            for (j = 0; j + step < cols; j += step)
            {
                cv::v_float32 sum = cv::v_add(cv::v_load(&dst.ptr<float>(i)[j]), cv::v_load(&ans[j]));
                cv::v_store(&dst.ptr<float>(i)[j], sum);
            }
            
            for (; j < cols; j++)
                dst.ptr<float>(i)[j] += ans[j];
        }
    }
    
    const float alpha = 1.0f;
    dst.convertTo(dst, CV_8U, alpha);
}

OpenCV 通用内部函数：C++ 代码矢量化实战指南

OpenCV 通用内部函数：C++ 代码矢量化实战指南

目标

理论

内部函数

SIMD 简介

通用内部函数

寄存器结构

可变大小的寄存器

更多推荐文章

相关免费在线工具

恒定大小的寄存器

加载和存储操作

加载

存储

二进制和一元运算符

算术

按位逻辑和移位

比较运算符

最小值/最大值运算

减少和遮罩

Reduce 操作

掩码操作

示范

矢量化卷积

一维卷积：标量

一维卷积：矢量

2-D Convolution

结果

注意事项与最佳实践

更多推荐文章

相关免费在线工具

OpenCV 通用内部函数：C++ 代码矢量化实战指南

OpenCV 通用内部函数：C++ 代码矢量化实战指南

目标

理论

内部函数

SIMD 简介

通用内部函数

寄存器结构

可变大小的寄存器

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

恒定大小的寄存器

加载和存储操作

加载

存储

二进制和一元运算符

算术

按位逻辑和移位

比较运算符

最小值/最大值运算

减少和遮罩

Reduce 操作

掩码操作

示范

矢量化卷积

一维卷积：标量

一维卷积：矢量

2-D Convolution

结果

注意事项与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具