跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
CAI算法

C 语言实现 AI 推理:量化、算子融合与内存映射实战

边缘 AI 部署常面临资源受限困境,C 语言因无运行时依赖及内存可控成为首选。三大核心优化技术:量化将浮点转为定点以压缩体积并提升计算速度;算子融合合并连续操作减少中间张量开销;内存映射实现零拷贝加载降低 RAM 占用。通过 C 语言实战代码,展示如何搭建高能效轻量级推理引擎,适用于单片机等嵌入式场景。

dehua dong发布于 2026/4/7更新于 2026/5/2220 浏览
C 语言实现 AI 推理:量化、算子融合与内存映射实战

量化、算子融合、内存映射:C 语言实现 AI 推理的'三板斧'

做嵌入式 AI 开发的同学,大概率都遇到过这样的困境:训练好的 AI 模型(比如 CNN),在 PC 上用 TensorFlow/PyTorch 跑起来流畅丝滑,可移植到单片机、MCU 等边缘设备上,要么内存爆掉,要么推理延迟高到无法使用——毕竟边缘设备的资源太有限了:几百 KB 的 RAM、几 MB 的 Flash、没有 GPU 加速,甚至连浮点运算都要靠软件模拟。这时,依赖庞大的深度学习框架就成了'杀鸡用牛刀',甚至根本无法运行。而 C 语言,作为嵌入式开发的'母语',凭借其极致的性能控制、内存可控性和无 runtime 依赖的优势,成为边缘设备 AI 推理引擎的最佳选择。

但纯 C 语言实现 AI 推理,绝不是简单地'用 C 重写框架代码',关键在于掌握三大核心优化技术——这就是我们今天要讲的 AI 推理'三板斧':量化、算子融合、内存映射。

它们三者协同作用,能从'体积、速度、内存'三个维度彻底优化 AI 推理性能:量化压缩模型体积、降低计算量;算子融合减少冗余开销、提升执行效率;内存映射实现零拷贝调度、释放内存压力。掌握这三板斧,你就能用 C 语言从零搭建一个高能效、低延迟的轻量级 AI 推理引擎,真正实现 AI 模型在边缘设备上的高效落地。

先明确核心前提:为什么边缘 AI 推理必须用 C 语言?

在讲'三板斧'之前,先解答一个核心疑问:为什么不用 Python、C++,非要用 C 语言做边缘 AI 推理?

答案很简单:边缘设备的'资源瓶颈',决定了必须用最'轻量、高效、可控'的语言——C 语言恰好完美契合这三点:

  • 无 runtime 依赖:C 语言编译后直接生成机器码,无需依赖任何虚拟机、框架 runtime,能在资源极度匮乏的设备上运行(比如只有几十 KB RAM 的单片机);
  • 内存完全可控:手动管理内存(malloc/free),可以精准控制每一块内存的分配与释放,避免框架自动内存管理带来的冗余开销和内存泄漏;
  • 极致性能:C 语言接近底层硬件,能直接操作寄存器、优化指令集,配合编译器优化(O3),可以最大化利用 CPU 算力,尤其适合边缘设备的软件浮点运算、定点运算场景。

而 Python 的解释型特性、C++ 的异常机制和 STL 依赖,在边缘设备上都会成为'性能包袱'——这也是为什么主流的嵌入式 AI 推理引擎(如 TensorFlow Lite Micro、CMSIS-NN),其核心底层代码全是用 C 语言编写的。

而我们今天讲的'三板斧',正是这些主流引擎的核心优化手段,学会它们,你就能看透嵌入式 AI 推理的本质。

第一板斧:量化(Quantization)—— 用精度换速度与体积

核心逻辑:从'浮点'到'定点',砍去冗余计算与存储

训练好的 AI 模型(比如 CNN),其权重、偏置和激活值默认都是 32 位浮点型(float32),一个简单的 CNN 模型,权重文件可能就有几十 MB——这对于只有几 MB Flash 的边缘设备来说,根本装不下;同时,浮点运算的计算量极大,边缘设备的 CPU 没有硬件浮点单元(FPU)时,软件模拟浮点运算会慢到无法使用。

量化的核心作用,就是将 32 位浮点型数据(float32)转换为低精度的定点型数据(如 int8、uint8),本质是'用微小的精度损失,换取体积压缩和速度提升'——这对于边缘 AI 推理来说,是'性价比最高'的优化手段。

举个直观的例子:一个 float32 的权重占 4 字节,而一个 int8 的权重只占 1 字节,量化后模型体积直接压缩为原来的 1/4;同时,int8 定点运算的计算量远低于 float32 浮点运算,在无 FPU 的设备上,速度能提升 3-5 倍,甚至更高。

关键注意点:量化不是'粗暴截断',而是通过'缩放因子'和'零点',将浮点数据映射到定点数据,尽可能保留模型的推理精度——通常情况下,int8 量化的精度损失在 5% 以内,完全能满足大多数边缘 AI 场景(如人脸检测、害虫识别、简单分类)的需求。

C 语言实战:int8 量化的核心实现(可直接复用)

量化的核心流程分为两步:量化(浮点转定点)和反量化(定点转浮点,用于最终输出)。下面给出 C 语言实现的核心代码,以 float32 转 int8 为例(最常用的量化方式)。

首先定义量化参数(缩放因子 scale 和零点 zero_point):

#include <stdint.h>
#include <math.h>

// 量化参数结构体:存储缩放因子和零点
typedef struct {
    float scale;      // 缩放因子:float = (int8 - zero_point) * scale
    int8_t zero_point;// 零点:int8 = round(float / scale) + zero_point
} QuantParam;

// 计算量化参数(根据浮点数据的最大值和最小值)
void calc_quant_param(const float* data, int len, QuantParam* param) {
    // 1. 找到浮点数据的最大值和最小值
    float max_val = data[0], min_val = data[0];
    for (int i = 1; i < len; i++) {
        if (data[i] > max_val) max_val = data[i];
        if (data[i] < min_val) min_val = data[i];
    }
    // 2. 计算缩放因子:将 float 范围映射到 int8 范围(-128 ~ 127)
    param->scale = (max_val - min_val) / 255.0f; // 255 = 127 - (-128)
    // 3. 计算零点:确保最小值映射到 -128,最大值映射到 127
    param->zero_point = round(-min_val / param->scale) - 128;
}

// 浮点转 int8:量化
int8_t float_to_int8(float data, const QuantParam* param) {
    // 公式:int8 = round(data / scale) + zero_point
    int32_t temp = round(data / param->scale) + param->zero_point;
    // 裁剪到 int8 范围(防止溢出)
    if (temp > 127) temp = 127;
    if (temp < -128) temp = -128;
    return (int8_t)temp;
}

// int8 转浮点:反量化(用于输出结果)
float int8_to_float(int8_t data, const QuantParam* param) {
    // 公式:float = (int8 - zero_point) * scale
    return (data - param->zero_point) * param->scale;
}

实际使用时,我们只需先对模型的权重、偏置进行量化(离线量化,提前计算好量化参数),推理过程中,输入数据量化为 int8,所有计算都用 int8 定点运算,最终输出时再反量化为浮点型,即可完成整个量化推理流程。

避坑技巧:量化的关键是'合理选择量化范围',如果浮点数据的分布范围过大或过小,会导致精度损失严重。建议在量化前,先统计数据的分布(最大值、最小值、均值),针对性调整量化参数;对于激活值,可采用'动态量化'(每一层的激活值单独量化),进一步提升精度。

第二板斧:算子融合(Operator Fusion)—— 减少冗余,提升推理吞吐量

核心逻辑:将'多步操作'合并为'一步',砍去中间开销

AI 模型的推理过程,本质是一系列算子(Operator)的串联执行——比如 CNN 的'卷积(Conv)→ 批量归一化(BN)→ 激活(ReLU)',这三个算子通常是连续执行的。

在常规实现中,每个算子都会单独执行:先执行卷积,输出中间张量;再将中间张量作为输入,执行 BN;再将 BN 的输出作为输入,执行 ReLU。这样做的问题很明显:

  • 中间张量开销:每个算子的输出都需要单独分配内存存储中间结果,增加内存占用;
  • 内核启动开销:每个算子单独调用一次执行函数,频繁的函数调用会带来大量的冗余开销,尤其在边缘设备上,函数调用的开销占比会很高。

算子融合的核心,就是将多个连续的算子'合并'为一个融合算子,一次性完成所有操作——比如将'Conv+BN+ReLU'融合为一个算子,直接输入原始数据,输出 ReLU 后的结果,无需存储中间张量,也无需多次调用函数。

这样做能带来两个核心收益:减少内存占用(省去中间张量的存储)和提升执行速度(减少函数调用和数据拷贝),在边缘设备上,算子融合通常能带来 20%-40% 的推理速度提升。

C 语言实战:Conv+BN+ReLU 融合算子实现

以 CNN 中最常见的'Conv+BN+ReLU'为例,拆解融合算子的实现思路:常规流程是'Conv 输出 → BN 处理 → ReLU 激活',融合后,我们可以在 Conv 计算的同时,嵌入 BN 和 ReLU 的逻辑,直接得到最终结果。

先明确各算子的核心公式:

  • 卷积(Conv):output_conv = input × weight + bias
  • 批量归一化(BN):output_bn = (output_conv - mean) / sqrt(var + eps) × gamma + beta
  • ReLU 激活:output_relu = max(output_bn, 0)

融合后,将三个公式合并为一个:output = max( ( (input×weight + bias - mean) / sqrt(var + eps) ) × gamma + beta, 0 )

通过公式合并,我们可以在卷积计算的每一步,直接计算出最终的 ReLU 输出,无需存储 output_conv 和 output_bn 两个中间张量。下面给出 C 语言核心实现(简化版,聚焦融合逻辑):

#include <stdint.h>
#include <math.h>

// 融合算子:Conv + BN + ReLU(int8 量化版本)
void conv_bn_relu_fusion(
    const int8_t* input,      // 输入特征图(int8)
    const int8_t* weight,     // 卷积核(int8)
    const int8_t* bias,       // 卷积偏置(int8)
    const float* bn_mean,     // BN 均值(float,离线计算)
    const float* bn_var,      // BN 方差(float,离线计算)
    const float* bn_gamma,    // BN gamma(float,离线计算)
    const float* bn_beta,     // BN beta(float,离线计算)
    const QuantParam* input_q,// 输入量化参数
    const QuantParam* weight_q,// 权重量化参数
    const QuantParam* output_q,// 输出量化参数
    int input_h, int input_w, // 输入特征图尺寸
    int kernel_h, int kernel_w,// 卷积核尺寸
    int output_h, int output_w,// 输出特征图尺寸
    int in_channels, int out_channels,// 输入/输出通道数
    int stride,               // 卷积步长
    int8_t* output            // 输出特征图(int8)
) {
    const float eps = 1e-5f; // BN 防止除零的微小值

    // 遍历输出特征图的每个像素
    for (int oc = 0; oc < out_channels; oc++) { // 输出通道
        for (int oh = 0; oh < output_h; oh++) { // 输出高度
            for (int ow = 0; ow < output_w; ow++) { // 输出宽度
                // 1. 卷积计算(int8 定点运算,需反量化为 float 计算)
                float conv_sum = 0.0f;
                for (int ic = 0; ic < in_channels; ic++) { // 输入通道
                    for (int kh = 0; kh < kernel_h; kh++) { // 卷积核高度
                        for (int kw = 0; kw < kernel_w; kw++) { // 卷积核宽度
                            // 计算输入坐标
                            int ih = oh * stride + kh;
                            int iw = ow * stride + kw;
                            if (ih >= input_h || iw >= input_w) continue; // 边界判断

                            // 反量化:int8 → float
                            float input_val = int8_to_float(input[ic * input_h * input_w + ih * input_w + iw], input_q);
                            float weight_val = int8_to_float(weight[oc * in_channels * kernel_h * kernel_w + ic * kernel_h * kernel_w + kh * kernel_w + kw], weight_q);
                            float bias_val = int8_to_float(bias[oc], weight_q); // 偏置与权重共用量化参数

                            // 卷积累加:input_val * weight_val
                            conv_sum += input_val * weight_val;
                        }
                    }
                }

                // 加上卷积偏置
                conv_sum += bias_val;

                // 2. BN 处理(直接嵌入卷积后,无需中间存储)
                float bn_val = (conv_sum - bn_mean[oc]) / sqrt(bn_var[oc] + eps);
                bn_val = bn_val * bn_gamma[oc] + bn_beta[oc];

                // 3. ReLU 激活(直接处理 BN 输出)
                float relu_val = (bn_val > 0) ? bn_val : 0.0f;

                // 4. 量化:float → int8,存入输出
                output[oc * output_h * output_w + oh * output_w + ow] = float_to_int8(relu_val, output_q);
            }
        }
    }
}

这段代码的核心优势的是:将 Conv、BN、ReLU 三个算子的逻辑合并在一个函数中,全程只使用输入和输出两个张量,没有任何中间张量的分配与拷贝,同时减少了两次函数调用的开销——这在边缘设备上,能显著提升推理速度和内存利用率。

实际工程中,还可以根据模型的算子组合,实现更多融合场景(如'Conv+ReLU''BN+ReLU''池化+Conv'),融合的算子越多,优化效果越明显。

第三板斧:内存映射(Memory Mapping)—— 零拷贝加载,释放内存压力

核心逻辑:直接操作外部存储,砍去数据拷贝开销

边缘设备的内存资源极其宝贵,而 AI 模型的权重、偏置等数据,通常存储在 Flash、SD 卡等外部存储设备中。常规的做法是:将外部存储中的模型数据,拷贝到内存(RAM)中,再进行推理——这会带来两个问题:

  • 内存占用高:模型数据(即使量化后)需要占用大量 RAM,而边缘设备的 RAM 通常只有几百 KB 到几 MB;
  • 数据拷贝开销:将数据从外部存储拷贝到 RAM,需要消耗 CPU 资源和时间,尤其在模型较大时,拷贝时间会成为推理延迟的重要组成部分。

内存映射(Memory Mapping)的核心,就是无需将数据拷贝到 RAM,直接将外部存储的地址映射到 CPU 的地址空间,CPU 可以像访问 RAM 一样,直接读取外部存储中的数据——这就是'零拷贝'加载,既能节省 RAM 空间,又能省去数据拷贝的开销。

形象地说,内存映射就像是'给外部存储的文件,在 RAM 中开了一个'窗口'',CPU 通过这个窗口直接操作外部文件,而不是把文件搬到 RAM 里再操作。

在 C 语言中,我们可以通过标准库的 mmap 函数(Linux 系统)或类似的内存映射接口(嵌入式系统通常有专属 API),实现模型数据的零拷贝加载。

C 语言实战:内存映射加载量化模型权重(Linux/嵌入式通用思路)

下面以 Linux 系统为例,给出内存映射加载模型权重的核心代码——嵌入式系统(如 STM32、ESP32)的实现思路类似,只是需要调用对应的 Flash 映射 API(如 STM32 的 HAL_FLASH_Program + 地址映射)。

核心流程:打开外部存储的模型文件 → 将文件地址映射到内存地址 → 直接通过内存地址访问模型权重 → 推理结束后解除映射。

#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <sys/mman.h>
#include <unistd.h>
#include <stdint.h>

// 内存映射加载模型权重
int8_t* map_model_weights(const char* model_path, size_t* model_size) {
    // 1. 打开模型文件(只读模式)
    int fd = open(model_path, O_RDONLY);
    if (fd == -1) {
        perror("open model file failed");
        return NULL;
    }

    // 2. 获取文件大小(模型权重的总字节数)
    *model_size = lseek(fd, 0, SEEK_END);
    lseek(fd, 0, SEEK_SET); // 重置文件指针到开头

    // 3. 内存映射:将文件映射到进程地址空间
    // MAP_SHARED:共享映射,文件内容修改会同步到磁盘(只读模式下可省略)
    // PROT_READ:映射区域只读
    int8_t* mapped_addr = (int8_t*)mmap(NULL, // 映射地址由系统自动分配
                                        *model_size, // 映射大小(文件大小)
                                        PROT_READ,   // 只读权限
                                        MAP_SHARED,  // 共享映射
                                        fd,          // 文件描述符
                                        0            // 映射偏移量(从文件开头开始)
    );
    if (mapped_addr == MAP_FAILED) {
        perror("mmap failed");
        close(fd);
        return NULL;
    }

    // 4. 关闭文件描述符(映射后,文件描述符可关闭,映射依然有效)
    close(fd);

    // 返回映射后的内存地址(直接访问该地址,即可读取模型权重)
    return mapped_addr;
}

// 解除内存映射
void unmap_model_weights(int8_t* mapped_addr, size_t model_size) {
    if (mapped_addr != NULL) {
        munmap(mapped_addr, model_size);
    }
}

// 实际使用示例
int main() {
    size_t model_size;
    // 内存映射加载模型权重(模型文件为 quantized_model.bin,int8 量化后的权重)
    int8_t* model_weights = map_model_weights("quantized_model.bin", &model_size);
    if (model_weights == NULL) {
        return -1;
    }

    // 直接通过映射地址访问权重(无需拷贝到 RAM)
    // 例如:获取第一个卷积核的第一个权重值
    int8_t first_weight = model_weights[0];
    printf("First weight: %d\n", first_weight);

    // 执行 AI 推理(推理过程中,直接使用 model_weights 地址访问权重)
    // ... 此处省略推理代码 ...

    // 推理结束,解除映射,释放资源
    unmap_model_weights(model_weights, model_size);
    return 0;
}

关键说明:

  • 内存映射后,model_weights 指向的地址就是外部存储中模型文件的地址,CPU 直接访问该地址,无需拷贝数据,节省了 RAM 空间和拷贝时间;
  • 嵌入式系统中,Flash 通常是'只读'的,因此映射时需设置为只读权限(PROT_READ),避免误写;
  • 对于需要频繁访问的模型数据(如卷积核权重),内存映射的优势尤为明显,能显著降低推理延迟。

避坑技巧:内存映射的核心是'地址对齐'——外部存储的地址(如 Flash 地址)通常需要对齐到 4 字节或 8 字节,否则会导致映射失败或访问异常。在嵌入式系统中,需提前配置 Flash 的地址对齐方式,确保映射地址合法。

三板斧协同:C 语言搭建完整 AI 推理流水线

量化、算子融合、内存映射,三者不是孤立的,而是协同作用,构成一个完整的边缘 AI 推理流水线——下面梳理一下完整的实现流程,帮你快速落地:

  1. 离线准备:将训练好的 float32 模型,通过量化工具(如 TensorFlow Lite Converter)进行 int8 量化,得到量化后的权重、偏置和量化参数(scale、zero_point),同时计算 BN 层的均值、方差、gamma、beta 等参数,将所有数据保存为二进制文件(用于内存映射);
  2. 内存映射加载:通过 C 语言的内存映射接口,将二进制模型文件映射到内存地址,直接访问量化后的权重、偏置和 BN 参数,无需拷贝到 RAM;
  3. 融合算子推理:实现 Conv+BN+ReLU 等融合算子,推理过程中,输入数据先量化为 int8,所有计算都用定点运算,通过融合算子一次性完成多步操作,无需存储中间张量;
  4. 输出反量化:推理结束后,将 int8 定点输出反量化为 float32,得到最终的推理结果;
  5. 资源释放:推理结束后,解除内存映射,释放相关资源。

通过这个流水线,我们就能用 C 语言搭建一个轻量级、高能效、低延迟的 AI 推理引擎——在 STM32F407(512KB RAM、1MB Flash)上,运行一个简单的 CNN 分类模型(如 MNIST 手写数字识别),推理延迟可控制在 100ms 以内,内存占用不超过 100KB,完全满足边缘设备的需求。

工程实践避坑指南(嵌入式场景重点)

在实际嵌入式开发中,除了掌握'三板斧',还需要注意以下几点,避免踩坑:

  • 量化精度控制:如果推理精度不达标,可尝试'动态量化'(每一层单独量化)或'混合精度量化'(部分关键层用 float16,其余用 int8),平衡精度与性能;
  • 算子融合边界:不是所有算子都能融合,只有连续执行、无分支的算子才能融合(如 Conv 和 BN 必须连续,中间不能有池化);
  • 内存映射权限:嵌入式 Flash 通常是只读的,映射时需设置为只读权限,避免误写导致 Flash 损坏;
  • 指令集优化:针对边缘设备的 CPU(如 ARM Cortex-M 系列),可使用 ARM CMSIS-NN 库中的定点运算接口,配合编译器 O3 优化,进一步提升推理速度;
  • 内存泄漏:C 语言手动管理内存,推理过程中避免频繁 malloc/free,可提前分配固定内存池,减少内存碎片。

总结:穿透 AI 黑盒,掌控边缘推理的核心

在边缘 AI 落地的浪潮中,C 语言依然是不可替代的核心工具,而量化、算子融合、内存映射这'三板斧',则是用 C 语言实现高效 AI 推理的关键——它们本质上都是'从底层优化资源利用率',用最小的资源代价,实现最优的推理性能。

量化解决'模型装得下、算得快'的问题,算子融合解决'冗余少、效率高'的问题,内存映射解决'内存够、拷贝省'的问题,三者协同,就能突破边缘设备的资源瓶颈,让 AI 模型真正落地到每一个智能终端。

对于嵌入式工程师来说,掌握这三板斧,能让你摆脱对庞大框架的依赖,自主开发轻量级推理引擎,提升项目竞争力;对于进阶开发者来说,这也是穿透 AI 黑盒、理解 AI 部署本质的最佳途径——毕竟,只有懂底层,才能真正掌控 AI 的性能。

目录

  1. 量化、算子融合、内存映射:C 语言实现 AI 推理的“三板斧”
  2. 先明确核心前提:为什么边缘 AI 推理必须用 C 语言?
  3. 第一板斧:量化(Quantization)—— 用精度换速度与体积
  4. 核心逻辑:从“浮点”到“定点”,砍去冗余计算与存储
  5. C 语言实战:int8 量化的核心实现(可直接复用)
  6. 第二板斧:算子融合(Operator Fusion)—— 减少冗余,提升推理吞吐量
  7. 核心逻辑:将“多步操作”合并为“一步”,砍去中间开销
  8. C 语言实战:Conv+BN+ReLU 融合算子实现
  9. 第三板斧:内存映射(Memory Mapping)—— 零拷贝加载,释放内存压力
  10. 核心逻辑:直接操作外部存储,砍去数据拷贝开销
  11. C 语言实战:内存映射加载量化模型权重(Linux/嵌入式通用思路)
  12. 三板斧协同:C 语言搭建完整 AI 推理流水线
  13. 工程实践避坑指南(嵌入式场景重点)
  14. 总结:穿透 AI 黑盒,掌控边缘推理的核心
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 嵌入式 C/C++ 核心考点:内存管理、多态与系统调用
  • JavaScript 简介:从网页脚本到全栈语言
  • RabbitMQ 延迟队列插件安装与使用详解
  • 基于 AI 智能体的 C 语言与前端实训项目快速实现指南
  • 双足机器人 2-RSS-1U 并联踝关节设计与运动学分析
  • 使用 MCP-Server 插件将 Dify 工作流发布为第三方服务
  • Git 多人协作开发流程与最佳实践
  • 微信小程序 Python 校园美食点评与配送系统架构设计
  • GitHub Desktop 中文界面汉化方案与工具使用指南
  • Apache IoTDB 在工业物联网时序数据管理中的核心优势
  • 微软Copilot+企业版:为什么AI智能体才是企业数字化的终极答案
  • Microi 吾码:基于 Spring Boot 的低代码微服务框架解析
  • 2026 年:技术人如何用 AI 前瞻性思维应对职业变革
  • 基于 CesiumJS + React + Go 实现三维无人机编队实时巡航可视化系统
  • 贪心算法:300.最长递增子序列
  • Linux 部署 OpenClaw 并接入 QQ 机器人指南
  • Open WebUI MCPo 项目详解:MCP 协议转 OpenAPI 代理服务器实现
  • CentOS 7 环境下安装 JDK 1.8 及解决 wget 命令缺失问题
  • Arduino BLDC 基于串口指令的远程控制工业巡检机器人
  • Open-Lovable 本地部署与远程访问指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online