跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

ICCV2019 贝叶斯优化 1-Bit CNNs 方法解读

ICCV2019 会议论文提出贝叶斯优化的 1-Bit CNNs(BONNs),利用贝叶斯学习将全精度 kernels 和 features 的先验分布纳入框架,端到端构造 1-bit CNNs。通过贝叶斯 kernel 损失和 feature 损失优化网络,提升模型容量。实验显示 BONNs 在 ImageNet 和 CIFAR 数据集上性能优于现有最先进 1-bit CNNs 方法。

蜜桃汽水发布于 2025/2/7更新于 2026/5/2322 浏览
ICCV2019 贝叶斯优化 1-Bit CNNs 方法解读

Bayesian Optimized 1-Bit CNNs

**论文作者:**Jiaxin Gu, Junhe Zhao, Xiaolong Jiang, Baochang Zhang, Jianzhuang Liu, Guodong Guo, Rongrong Ji(北京航空航天大学,百度深度学习研究院,华为诺亚方舟实验室等)

**论文地址:**https://arxiv.org/pdf/1908.06314v1.pdf

前言

本文将对 ICCV2019 会议论文《Bayesian Optimized 1-Bit CNNs》进行解读。这篇论文在二值化神经网络(1-bit CNNs)方面取得了最新进展。作者提出了一种新颖的贝叶斯优化的 1-Bit CNNs(简称 BONNs),利用贝叶斯学习,将全精度 kernels 和 features 的先验分布纳入贝叶斯框架,以端到端的方式构造 1-bit CNNs,这是以往任何相关方法都没有考虑到的。实现了连续和离散空间中的贝叶斯损失同时优化网络,将不同的损失联合起来提高模型容量。作者在 ImageNet 和 CIFAR 数据集上的实验表明,与最先进的 1-bit CNNs 相比,BONNs 具有更好性能。

研究现状

量化采用低精度值代替全精度值,可加速卷积运算,同时节省存储开销。而 1-Bit 卷积神经网络是量化的极端情况,其卷积核和激活是二值化的。DoReFa-Net【1】开发了具有低比特宽度参数和梯度的 1-Bit 卷积核以加快训练和推理。不同的是,ABC-Net【2】采用多个二进制权值和激活来近似全精度权值,从而可以降低预测精度退化。

除此之外,Wang 等【3】提出了调制卷积网络,仅对核进行二值化,并取得了比参考基线更好的结果。Leng 等借鉴了 ADMM 思想,由少量比特表示网络权重来压缩深度模型【4】。Bi-real net【5】探索了残差结构的新变体,以保留符号函数之前的真实激活,并提出了对不可微分符号函数的导数的紧逼近。Zhuang 等提出了一种使用两阶段方法对权重和激活进行交替量化的 2~4 位量化方法【6】,并在存储器、效率和性能之间提供了最佳均衡方案。

此外,Wu 等提出了对训练和推理过程进行离散化的方法【7】,它不仅量化了权重和激活,而且量化了梯度和误差。Gu 等提出了一种基于离散投影反向传播算法的量化方法【8】,以获得更好的 1-bit CNNs。

作者认为 1-bit CNNs 与全精度 CNNs 相比,精度明显降低的原因有两个:1)全精度和 1-bit CNNs 之间的关系并未充分研究;2)贝叶斯学习作为一种公认的全局优化策略【9】,在 1-bit CNNs 领域被忽略了。

方法

概述

作者利用贝叶斯学习的有效性以端到端的方式构建 1-bit CNNs。特别地,引入了两个新的贝叶斯损失,在此基础上优化 1-bit CNNs,提高了效率和稳定性。在统一的理论框架下,这些贝叶斯损失不仅考虑了 1-bit CNNs 的 kernel、weight 分布,而且还监督了 feature 分布。下图显示了损失如何与 CNN backbone 相互作用。

损失与 CNN backbone 相互作用示意图

考虑贝叶斯框架中 kernels 和 features 的先验分布,实现了两个新的贝叶斯损失,以优化 1-bit CNNs 的计算。贝叶斯 kernel 损失改善了各卷积层的分层 kernel 分布,而贝叶斯 feature 损失引入了类内紧密度(intra-class compactness)以减轻量化过程带来的干扰。注意,贝叶斯 feature 损失仅适用于全连接层。

贝叶斯损失(Bayesian Losses)

训练 1-bit CNNs 有三个步骤:正向传递,反向传递和通过梯度更新参数。二值化的权重仅在前向(inference)和梯度计算时考虑。更新参数后,获得了全精度权重。如何将其连接是确定网络性能的关键。作者在概率框架中对其进行求解,以获得最佳的 1-bit CNNs。

1. 贝叶斯 Kernel 损失

贝叶斯 Kernel 损失结构图

贝叶斯 Kernel 损失结构图

贝叶斯 Kernel 损失结构图

贝叶斯 Kernel 损失结构图

2. 贝叶斯 Feature 损失

贝叶斯 Feature 损失结构图

通过贝叶斯学习优化 1-bit CNNs

BONNs 优化流程示意图

反向传递

反向传播过程图

反向传播过程图

实验

消融实验

作者使用 WRN22 在 CIFAR-10 数据集上,结果如下表所示,贝叶斯 kernel 损失和贝叶斯 feature 损失都可以提高准确度,一起使用时,Top-1 准确度达到最高 59.3%。

消融实验结果表

如下图所示为 BONNs 第 1 个二值化卷积层的 kernel 权重分布。在训练之前,将 kernel 初始化为单模高斯分布。从第 2 个到第 200 个 epoch,两种模式下的 kernel 权重分布在变得越来越紧凑,证明了贝叶斯 kernel 损失可以将 kernel 正则化为可能的二进制分布。

Kernel 权重分布对比图

如下图所示,为 XNOR 和 BONN 的权重分布对比。XNOR 和 BONN 之间的权重分布差异表明,通过我们提出的贝叶斯 kernel 损失,在卷积层上对 kernel 实现了了正则化。

XNOR 与 BONN 权重分布对比图

下图显示了 XNOR Net 和 BONN 训练过程中二值化值的演变,表明在 BONN 中学习到的二值化值更加多样化。

二值化值演变图

CIFAR10/100 数据集结果

作者使用 Three WRN 变种:22 层 WRN,kernel stage 为 16-16-32-64 和 64-64-128-256。如下表所示,BONN 在两个数据集上的性能均优于 XNOR Net。即使与全精度 WRN 相比,BONN 性能也相当不错。

CIFAR 数据集结果表

ImageNet 数据集结果

如下表所示,与其他最先进 1-bit CNNs 量化网络相比,BONN 获得最高的准确度,其中 Bi-Real Net 和 PCNN 的性能与 BONN 最为接近,而 BONN 的 Top-1 分别超过前者大约 3% 和 2%。DoReFa-Net 和 TBN 尽管使用了超过 1-bit 来量化激活,性能仍逊于 BONN。

ImageNet 数据集结果表

内存使用率和效率分析

在 BONN 中,BONN 遵循 XNOR-Net 采用的策略,该策略在第一个卷积层,所有 1×1 卷积和全连接层中保持全精度参数,由此,ResNet18 的总体压缩率为 11.10。对于效率分析,如果卷积的所有操作数都是二进制的,可以通过 XNOR 和位计数操作来估计卷积【M. Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, and Y. Bengio. Binarized neural networks: Training deep neural networks with weights and activations constrained to+ 1 or- 1. arXiv preprint arXiv:1602.02830, 2016】。

总结

作者提出了贝叶斯优化的 1-bit CNNs(BONN),该模型考虑了全精度 kernel 和 features 分布,从而形成了具有两个新贝叶斯损失的统一贝叶斯框架。贝叶斯损失用于调整 kernel 和 features 的分布,以达到最佳解决方案。

参考文献

【1】S. Zhou, Y. Wu, Z. Ni, X. Zhou, H. Wen, and Y. Zou. Dorefa-net: Training low bitwidth convolutional neural networks with low bitwidth gradients. arXiv preprint arXiv:1606.06160, 2016.

【2】X. Lin, C. Zhao, and W. Pan. Towards accurate binary convolutional neural network. In Advances in Neural Information Processing Systems, pages 345–353, 2017.

【3】X. Wang, B. Zhang, C. Li, R. Ji, J. Han, X. Cao, and J. Liu. Modulated convolutional networks. In IEEE Conference on Computer Vision and Pattern Recognition, pages 840–848, 2018.

【4】C. Leng, Z. Dou, H. Li, S. Zhu, and R. Jin. Extremely low bit neural network: Squeeze the last bit out with admm. In AAAI Conference on Artificial Intelligence, 2018.

【5】Z. Liu, B. Wu, W. Luo, X. Yang, W. Liu, and K.-T. Cheng. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm. In Proceedings of the European Conference on Computer Vision, pages 747–763. Springer, 2018.

【6】B. Zhuang, C. Shen, M. Tan, L. Liu, and I. Reid. Towards effective low-bitwidth convolutional neural networks. In IEEE Conference on Computer Vision and Pattern Recognition, June 2018.

【7】S. Wu, G. Li, F. Chen, and L. Shi. Training and inference with integers in deep neural networks. In International Conference on Learning Representations, 2018.

【8】J. Gu, C. Li, B. Zhang, J. Han, X. Cao, J. Liu, and D. Doermann. Projection convolutional neural networks for 1-bit cnns via discrete back propagation. In AAAI Conference on Artificial Intelligence, 2019.

【9】C. Blundell, J. Cornebise, K. Kavukcuoglu, and D. Wierstra. Weight uncertainty in neural network. In International Conference on Machine Learning, pages 1613–1622, 2015.

目录

  1. Bayesian Optimized 1-Bit CNNs
  2. 前言
  3. 研究现状
  4. 方法
  5. 概述
  6. 贝叶斯损失(Bayesian Losses)
  7. 1. 贝叶斯 Kernel 损失
  8. 2. 贝叶斯 Feature 损失
  9. 通过贝叶斯学习优化 1-bit CNNs
  10. 反向传递
  11. 实验
  12. 消融实验
  13. CIFAR10/100 数据集结果
  14. ImageNet 数据集结果
  15. 内存使用率和效率分析
  16. 总结
  17. 参考文献
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • OpenClaw 自托管 AI 网关安装与配置指南
  • 基于SpringBoot与Vue的客户关系与信息管理系统
  • 地瓜机器人 RDK 系列选型指南:X3 vs X5 vs S100 vs S100P
  • Python 入门教程:从安装到编写第一个实用程序
  • AI 辅助前端开发:掌握三大设计技能独立完成产品全流程
  • 前端独立完成产品设计全流程:掌握三大 AI 设计技能
  • 前端利用三大 AI 设计技能独立完成产品设计与开发全流程
  • 基于 AI 设计技能的独立前端开发全流程实战
  • ResNext 网络核心技术解析及 UCI-HAR 数据集实验分析
  • 主流 AI 编程辅助工具全方位对比:Cursor、Copilot 等
  • HarmonyOS Next DevEco Studio 编译选项定制指南
  • 玄武 CLI:国产芯片本地大模型部署工具详解
  • Stable Diffusion 新手超详细快速入门教程
  • Vivado 2023.2 安装与 FPGA 开发环境搭建指南
  • MySQL 权限管理与 C/C++ 客户端对接实战指南
  • AI Agent 安全警示与工具演进:从 Meta 事故到 Claude Code 及 Python 3.15 JIT 进展
  • AI 应用开发不仅是调接口:技术深度与工程实践解析
  • 人工智能在推荐系统中的应用与优化
  • 微软 Azure 学生订阅:免费云服务器创建与避坑指南
  • 具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online