哪种量化方法更好:GPTQ vs. GGUF vs. AWQ[大模型量化]

哪种量化方法更好:GPTQ vs. GGUF vs. AWQ[大模型量化]

那种量化方法更好:GPTQ vs. GGUF vs. AWQ

GPTQ

GPTQ是Post-Training Quantization for GPT Models的缩写,即GPT模型的后训练量化

GPTQ是一种针对4位量化的后训练量化方法,主要侧重于在GPU上提升推理性能。

该方法的核心思想是通过将所有权重压缩到4位量化,通过最小化权重的均方误差来实现量化。在推理过程中,它会动态将权重反量化为float16,以提高性能同时保持低内存消耗。

GPTQ是目前最常用的量化压缩方法。它主要针对GPU进行优化,如果大模型太大而无法加载到GPU中,那么我们首先考虑使用GPTQ,再转向其他方法比如GGUF(专注于CPU)。

GGUF

GGUF是GPT-Generated Unified Format的缩写,即GPT生成的统一格式

尽管GPTQ在压缩方面表现出色,但如果没有适合运行它的GPU硬件,那么其专注于GPU的优化可能会成为一个劣势。

GGUF,以前称为GGML,是一种量化方法,允许用户使用CPU来运行LLM,并且还可以将部分层次加载到GPU以加快速度。

尽管在推理过程中使用CPU通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的方式。

如果你没有GPU设备或者没有最新最好的GPU可用,GGUF是一个非常好的量化方法,因为它可以充分利用CPU和GPU的各自优势。

AWQ

AWQ是Activation-aware Weight Quantization的缩写,即激活感知权重量化

这是一种类似于GPTQ的量化方法。AWQ和GPTQ最重要的不同是,AWQ假设并非所有权重对LLM的性能的影响同等重要。

换句话说,在量化过程中会跳过一小部分权重,这有助于减少量化损失。

与GPTQ相比,AWQ可以显著提高推理速度,同时保持类似甚至更好的性能。

尽管AWQ是一种新格式,但由于其较快的速度和较好的压缩质量,它正变得越来越受欢迎!

如果本文对你有所帮助,欢迎分享给更多人。

Answer

GPTQ、GGUF和AWQ是三种常用的大语言模型量化方法,它们各有特点和适用场景。以下是这三种方法的详细比较:

相同点

  1. 目的:这三种方法都旨在减小模型大小、降低内存占用和提高推理速度,同时尽可能保持模型性能.
  2. 应用对象:它们主要用于大型语言模型(LLM)的量化.
  3. 位宽:通常都支持4位量化,这是在模型大小和性能之间的一个平衡点.

不同点

GPTQ (GPT模型的训练后量化)

  • 特点:
  1. 是一种训练后量化(PTQ)方法,不需要重新训练模型.
  2. 主要针对GPU推理进行优化.
  3. 在推理过程中动态将权重解量化为float16.
  • 优势:
  1. 实现简单,可直接应用于预训练模型.
  2. 针对GPU使用进行了优化,性能较好.
  • 劣势:
  1. 可能引入一些量化误差,对模型性能有轻微影响.

GGUF (GPT生成的统一格式)

  • 特点:
  1. 是一种文件格式,而非量化算法.
  2. 主要用于CPU推理.
  • 优势:
  1. 适用于CPU推理,特别适合GPU资源受限的情况.
  2. 文件格式统一,便于模型分发和使用.
  • 劣势:
  1. 在GPU上的性能可能不如GPTQ.

AWQ (激活感知的权重量化)

  • 特点:
  1. 基于激活感知的权重量化策略.
  2. 通过观察激活而非权重来搜索保护显著权重的最佳通道缩放.
  • 优势:
  1. 能够保留更多的模型信息.
  2. 不依赖反向传播或重构,保留了模型的泛化能力.
  3. 在各种语言建模和特定领域基准上表现优异.
  4. 对指令调整的LLMs有出色的量化性能.
  • 劣势:
  1. 相对较新,尚未被广泛采用.

选择建议

  1. 如果主要在GPU上进行推理,GPTQ是一个很好的选择,因为它针对GPU使用进行了优化.
  2. 如果需要在CPU上运行模型或GPU资源受限,可以考虑使用GGUF格式.
  3. 如果追求更高的量化性能和模型泛化能力,AWQ是一个值得尝试的新方法.
  4. 在实际应用中,可以根据具体的硬件环境、性能需求和模型特性来选择最合适的量化方法。

总的来说,这三种方法各有优势,适用于不同的场景。随着技术的发展,未来可能会出现更多高效的量化方法,需要持续关注这一领域的最新进展。

© THE END

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk