通义千问(Qwen)2大模型技术报告全文翻译解读
通义千问(Qwen)2大模型技术报告全文翻译解读
原创 旺知识 2024年07月20日 17:03 广东
本报告介绍了 Qwen2 系列,这是大型语言模型和大型多模态模型的最新成员。文本发布了一套全面的基础和指令调优语言模型,参数范围从 0.5 到 72 亿,包括密集模型和专家混合模型。Qwen2 超越了大多数以前的开放权重模型,包括其前身 Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中展现出与专有模型相媲美的性能。
我们翻译解读最新论文:Qwen2技术报告,文末有论文链接。
作者:张长旺,图源:旺知识
旗舰模型 Qwen2-72B 展示了卓越的性能:在 MMLU 上得分 84.2,在 GPQA 上得分 37.9,在 HumanEval 上得分 64.6,在 GSM8K 上得分 89.5,在 BBH 上得分 82.4 作为基础语言模型。指令调优变体 Qwen2-72B-Instruct 在 MT-Bench 上得分 9.1,在 Arena-Hard 上得分 48.1,在 LiveCodeBench 上得分 35.7。此外,Qwen2 展示了强大的多语言能力,精通约 30 种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和全球覆盖范围。
为了促进社区创新和可访问性,我们已经在 Hugging Face 和 ModelScope 上公开提供了 Qwen2 模型权重,以及包括示例代码在内的补充材料在 GitHub 上。这些平台还包括量化、微调和部署的资源,促进了广泛的应用和研究工作。
目录
1 引言 2 词元化器与模型 2.1 词元化器 2.2 模型架构 2.2.1 Qwen2 密集模型 2.2.2 Qwen2 专家混合模型 2.2.3 模型配置 3 预训练 3.1 预训练数据 3.2 长上下文训练 4 后训练 4.1 后训练数据 4.1.1 协作数据注释 4.1.2 自动数据合成 4.2 监督微调 4.3 从人类反馈中学习强化学习 5 评估 5.1 基础语言模型 5.1.1 核心能力 5.2 指令调优模型 5.2.1 开放基准评估 5.2.2 内部自动评估 5.2.3 长上下文能力 5.2.4 多语言评估 5.2.5 安全与责任 6 结论
1 引言
随着 ChatGPT(OpenAI, 2022)的出现,全球对大型语言模型(LLMs)的热情不断升温。Llama 系列(Touvron et al., 2023)的发布进一步激发了开源社区的兴趣,特别是关于 GPT 级别的本地 LLMs。最近,Claude-3 Opus(Anthropic, 2024)和 GPT-4o(omni)(OpenAI, 2024),即 ChatGPT 的更新模型,迅速登上了 Chatbot Arena(Chiang et al., 2024)的顶峰。该平台以其对 LLMs 的人类评估而闻名。此外,Llama3(AI@Meta, 2024)已成为最先进的开放权重模型系列,缩小了与领先专有模型的性能差距,并被广泛认为是 GPT-4 级别的。越来越多的竞争性 LLMs 正在追求与 OpenAI 的 GPT 系列相似的进步。包括 Qwen(Bai et al., 2023a)、Mistral(Jiang et al., 2023a)、Gemma(Mesnard et al., 2024)等在内的许多模型,都以开放权重的方式发布。
在过去的几个月里,我们陆续推出了 Qwen 系列(Bai et al., 2023a)并发展到 Qwen1.5(Qwen Team, 2024a)。同时,我们推出了视觉语言模型 Qwen-VL(Bai et al., 2023b),并启动了音频语言模型 Qwen-Audio(Chu et al., 2023)。在这项工作中,我们介绍了 Qwen 家族大型语言模型和大型多模态模型的最新成员:Qwen2。Qwen2 是一系列基于 Transformer 架构(Vaswani et al., 2017)的 LLMs,使用下一个词预测进行训练。该模型系列包括基础的,即预训练但未与人类偏好对齐的基础语言模型,以及通过单轮和多轮指令遵循数据集进行微调的指令调优模型,适用于聊天和智能体目的。我们的发布包括四个密集模型,参数计数分别为 0.5 亿、1.5 亿、7 亿和 72 亿,以及一个参数为 570 亿的专家混合(MoE)模型,每个 token 激活 140 亿参数。较小的模型,特别是 Qwen2-0.5B 和 Qwen2-1.5B,旨在易于在便携设备如智能手机、耳机和智能眼镜上部署。相反,较大的模型适用于不同规模的 GPU 部署。
所有模型都在超过 7 万亿个 token 的高质量、大规模数据集上进行了预训练,涵盖了广泛的领域和语言。与以前的 Qwen 版本相比,Qwen2 包括更广泛的语言数据,增强了代码和数学内容的数量和质量。这种丰富被假设为提高 LLMs 的推理能力。关于后训练,所有模型都经过了监督微调和直接偏好优化(DPO, Rafailov et al., 2023),通过学习人类反馈使它们与人类偏好对齐。这个过程赋予了模型有效遵循指令的能力。
我们对 Qwen2 进行了全面评估,同时选择了包括通过 API 可访问的开放权重和专有模型在内的基线模型。Qwen2 在评估基本语言能力和指令调优功能方面超越了竞争模型。具体来说,我们的指令调优变体 Qwen2-72B-Instruct 在 MT-Bench(Zheng et al., 2023)上得分 9.1,在 Arena-Hard(Chiang et al., 2024)上得分 48.1,在 LiveCodeBench(Jain et al., 2024)上得分 35.7。同时,基础语言模型 Qwen2-72B 在 MMLU(Hendrycks et al., 2021a)上得分 84.2,在 GPQA(Rein et al., 2023)上得分 37.9,在 HumanEval(Chen et al., 2021)上得分 64.6,在 GSM8K(Cobbe et al., 2021)上得分 89.5,在 BBH(Suzgun et al., 2023)上得分 82.4。
2 词元化器与模型
本节介绍 Qwen2 的词元化器和模型设计。我们详细说明了不同模型大小的模型架构和配置。
2.1 词元化器
遵循 Qwen(Bai et al., 2023a),我们采用了基于字节级字节对编码的相同词元化器。值得注意的是,该词元化器展示了高编码效率,其相对于替代方案的更好压缩率证明了其对 Qwen2 的多语言能力。
所有大小的模型都采用一个包含 151,643 个常规词元和 3 个控制词元的通用词汇表。有关更多信息,请参阅 Bai et al. (2023a)。需要注意的是,由于分布式训练的考虑,嵌入的有效大小更大。
2.2 模型架构
Qwen2 系列基本上由基于 Transformer 架构的大型语言模型组成,具有因果掩码的自注意力(Vaswani et al., 2017)。具体来说,该系列包括 4 个规模的密集语言模型和专家混合(MoE)模型。我们在深入探讨 MoE 模型的独特属性之前,先介绍密集模型的细节。
2.2.1 QWEN2 密集模型
Qwen2 密集模型的架构由多个 Transformer 层组成,每层都配备了因果注意机制和前馈神经网络(FFN)。与 Qwen 的关键区别如下:
分组查询注意力:我们采用了分组查询注意力(GQA, Ainslie et al., 2023)而不是传统的多头注意力(MHA)。GQA 在推理期间优化了 KV 缓存的使用,显著提高了吞吐量。不同模型大小的详细 KV 头配置在第 2.2.3 节中报告。
带有 YARN 的双块注意力:为了扩大 Qwen2 的上下文窗口,我们实现了双块注意力(DCA, An et al., 2024),它将长序列分割成可管理的长度块。如果输入可以在一个块中处理,DCA 会产生与原始注意力相同的结果。否则,DCA 有助于在块内和跨块之间有效地捕获 token 之间的相对位置信息,从而提高长上下文性能。此外,我们还采用了 YARN(Peng et al., 2023)来重新调整注意力权重,以实现更好的长度外推。
此外,我们沿用了 Qwen 的 SwiGLU(Dauphin et al., 2017)用于激活,旋转位置嵌入(RoPE, Su et al., 2024)用于位置嵌入,QKV 偏置(Su, 2023)用于注意力,RMSNorm(Jiang et al., 2023b)和预归一化用于训练稳定性。
2.2.2 QWEN2 专家混合模型
Qwen2 MoE 模型的架构与 Qwen1.5-MoE-A2.7B(Qwen Team, 2024c)非常相似。作为原始 FFN 的替代,MoE FFN 由 n 个单独的 FFN 组成,每个 FFN 充当一个专家。每个 token 根据由门控网络 G 分配的概率被引导到特定的专家 Ei 进行计算:
接下来,我们介绍 Qwen2 MoE 的关键设计考虑。
专家粒度:MoE 模型与密集模型的关键结构区别在于 MoE 层包含多个 FFN,每个 FFN 充当一个独立专家。因此,从密集架构过渡到 MoE 架构的一个直接策略是将每个专家的参数设置为原始密集模型中单个 FFN 的参数。例如,从 Mistral-7B(Jiang et al., 2023a)过渡到 Mixtral 8x7B(Jiang et al., 2024),涉及同时激活八个专家中的两个。不同地,我们的模型采用细粒度专家(Dai et al., 2024),创建更小规模的专家同时激活更多的专家。在总专家参数和激活参数相等的情况下,细粒度专家提供了更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE 促进了更多样化和动态的专家利用,从而提高了整体性能和适应性。
专家路由:专家路由机制的设计对于提高 MoE 模型的性能至关重要。最近,将共享专家和特定路由专家整合到 MoE 层内的趋势日益明显(Rajbhandari et al., 2022; Dai et al., 2024)。我们采用了这种方法,因为它既促进了共享专家在各种任务中的应用,又保留了其他专家在特定路由场景中的选择性使用。引入共享和专门的专家为开发 MoE 路由机制提供了一种更适应性和有效的方法。
表 1: Qwen2 密集和 MoE 模型的架构。对于 MoE 模型,57B-A14B 表示模型总共有 570 亿参数,每个 token 激活 140 亿参数,中间大小表示每个专家的大小,# 激活专家不包括共享专家。
2.2.3 模型配置
接下来,我们提供了 Qwen2 系列的关键配置和信息。
Qwen2 系列由 5 种大小的模型组成,分别是 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。表 1 列出了超参数和重要信息,例如预训练 token 的数量。特别是,Qwen2-57B-A14B 是从 Qwen2-7B 扩展而来。值得注意的是,与 Qwen1.5 模型相比,Qwen2 模型展示了每个 token 的显著降低的键值(KV)大小。这一特性转化为长上下文推理任务中的内存占用减少。
3 预训练
在 Qwen2 的预训练中,我们专注于完善数据集并研究有效处理扩展上下文长度的方法。
3.1 预训练数据
Qwen2 模型的预训练涉及开发一个新的、大规模、高质量的多语言数据集。该数据集在多个关键领域改进了以前 Qwen 和 Qwen1.5 模型(Bai et al., 2023a; Qwen Team, 2024a)使用的语料库,增强了预训练数据的规模、质量和多样性:
质量提升:过滤算法通过额外的启发式和基于模型的方法进行了改进,包括使用 Qwen 模型过滤出低质量数据。此外,这些模型被用来合成高质量的预训练数据。
数据扩展:与 Qwen1.5(Qwen Team, 2024a)相比,我们收集了更大量的高质量代码、数学和多语言数据,增强了模型在这些领域的能力。这个新数据集支持约 30 种语言,如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语。
分布改进:为了确保模型学习到类似于人类学习的分布,我们在缩小规模的模型上进行实验,以优化来自各种来源和领域的数据的混合。
基于这些增强,预训练数据从 Qwen1.5 的 3 万亿 token 扩展到 7 万亿 token。尝试进一步放宽质量阈值导致了 12 万亿 token 数据集的创建。然而,在这个数据集上训练的模型并没有显示出比 7 万亿 token 模型显著的性能提升。怀疑增加数据量并不一定有益于模型预训练。考虑到训练成本,我们选择使用更高质量的 7 万亿 token 数据集来训练更大的模型,将进一步的探索留给未来的模型迭代。
所有 Qwen2 密集模型(不包括 Qwen2-0.5B)都是在超过 7 万亿 token 的大规模数据集上预训练的。Qwen2-0.5B 是使用 12 万亿 token 数据集预训练的。MoE 模型接受了额外的 4.5 万亿 token 预训练,符合升级再利用的原则。与以前的 Qwen 模型类似,高质量的多任务指令数据被整合到 Qwen2 预训练过程中,以增强上下文学习和指令遵循能力。
3.2 长上下文训练
为了增强 Qwen2 的长上下文能力,我们在预训练的最后阶段将上下文长度从 4,096 个 token 增加到 32,768 个 token。这一扩展通过引入大量高质量的长数据来补充。结合这些增强,我们将 RoPE 的基础频率从 10,000 调整到 1,000,000,以优化长上下文场景中的表现(Xiong et al., 2023)。
为了充分利用模型的长度外推潜力,我们采用了 YARN 机制(Peng et al., 2023)和双块注意力机制(An et al., 2024)。这些策略使模型能够处理长达 131,072 个 token 的序列,同时保持高性能,初步实验中几乎没有困惑度下降。
4 后训练
在广泛的大规模预训练之后,我们对 Qwen2 进行后训练。这一过程对于增强其在包括编码、数学、逻辑推理、指令遵循和多语言理解在内的广泛领域的熟练程度至关重要。此外,它确保模型的生成与人类价值观相一致,使其有帮助、诚实且无害。与依赖大量人类监督的传统方法不同,我们的方法侧重于可扩展的对齐,最小化人类注释(Cao et al., 2024)。具体来说,我们研究了获取高质量演示和偏好数据的方法,用于监督微调(SFT)和从人类反馈中学习强化学习(RLHF),旨在最小化人类标记的需求,同时最大化数据的质量和可靠性。
4.1 后训练数据
后训练数据主要由两个组成部分:演示数据 D = {(xi, yi)} 和偏好数据 P = {(xi, y+ i , y− i )},其中 xi 表示指令,yi 表示满意的响应,y+ i 和 y− i 是 xi 的两个响应,y+ i 是比 y− i 更受偏好的选择。集合 D 用于 SFT,而 P 用于 RLHF。
构建训练数据涉及一个两步过程:协作数据注释和自动化数据合成。首先,我们从大规模指令语料库中提取数据本体,导致获得广泛和多样化的高质量指令。这些指令通过系统增强以纳入更大的复杂性。通过人工注释,我们获得目标响应 yi 及其正面和负面对应物(y+ i , y− i )。随后,采用各种自动化对齐策略来合成大量人工注释的数据,涵盖代码、数学、指令遵循、创作、角色扮演和安全等领域。
4.1.1 协作数据注释
自动本体提取:该过程首先应用 InsTag(Lu et al., 2024c),一个开放集细粒度标记器,从大规模指令数据集中提取底层本体。随后的手动细化确保了提取本体的准确性。
指令选择:每个带有标签的指令都根据标签多样性、语义丰富性、复杂性和意图完整性进行评估。基于这些标准,我们选择了一组代表性指令(Dong et al., 2023)。
指令演变:为了丰富指令数据集,采用了自我演变策略(Zhao et al., 2024),促使 Qwen 模型向现有指令添加约束或要求,从而增加它们的复杂性,并确保数据集中不同难度级别的多样性。
人工注释:使用不同的生成策略和不同规模的 Qwen 模型获得指令的多种响应。注释者根据他们的偏好对这些响应进行排名,确保最佳响应满足既定标准,产生演示和偏好数据。
4.1.2 自动化数据合成
在大规模上维护对指令响应的注释质量面临重大挑战,特别是那些需要专业知识、经验、细心或耐心的任务。为了解决这些挑战,我们设计了各种自动化对齐策略来大规模合成数据。
拒绝采样:对于数学或类似具有明确最终答案的任务,应用拒绝采样(Yuan et al., 2023)来提高解决方案的质量。大型语言模型(LLMs)被要求为每个指令生成多个响应,即推理路径。那些得出准确结论并被模型认为是合理的路径被保留,作为演示数据。偏好数据通过对比正确和错误的路径生成。
执行反馈:对于编码任务,LLMs 被用来生成解决方案和相关的测试用例。通过编译和执行这些解决方案来评估其有效性,从而创建演示和偏好数据。这种方法也适用于评估指令遵循(Dong et al., 2024)。对于每个带有约束的指令,例如长度限制,LLM 被要求生成一个 Python 验证函数,以确保响应符合指令要求。
数据再利用:在文学写作任务中创建熟练的响应对于没有专门培训的注释者来说是一个挑战。为了解决这个问题,我们从公共领域聚合高质量的文学作品,并使用 LLMs 开发具有不同详细程度的指令。这些指令与原始作品配对,作为演示数据。例如,为了编译具有生动有趣响应的角色扮演数据,我们从像维基百科这样的知识库中获取详细的人物档案,并指示 LLMs 生成相应的指令和响应(Lu et al., 2024b)。这个过程类似于阅读理解任务,确保了人物档案的完整性。
宪法反馈:宪法 AI 指的是引导 LLMs 根据预定义的原则集生成响应的过程(Bai et al., 2022)。为了确保遵守如安全和价值观等指导方针,编制了一个宪法数据集。该数据集概述了要遵循的原则和要避免的原则。它被用来指导 LLMs 生产符合或偏离这些指导方针的响应,作为演示和偏好数据的参考。
4.2 监督微调
我们汇集了一个广泛的指令数据集,包含超过 500,000 个示例,涵盖指令遵循、编码、数学、逻辑推理、角色扮演、多语言和安全等技能。我们的模型在 32,768 个 token 的序列长度上进行了两个周期的微调。为了优化学习,学习率从 7 × 10^-6 逐渐降低到 7 × 10^-7。为了解决过拟合问题,我们应用了 0.1 的权重衰减,并将梯度限制在最大值为 1.0。
4.3 从人类反馈中学习强化学习
我们的 RLHF 训练制度包括两个连续的阶段:离线和在线训练。在离线训练阶段,我们使用预先编译的偏好数据集 P,通过直接偏好优化(DPO, Rafailov et al., 2023)最大化 y+ i 和 y− i 之间的似然差异。在在线训练阶段,模型利用即时反馈的奖励模型迭代地改进其性能。具体来说,我们从当前策略模型中采样多个响应,奖励模型选择最受欢迎和最不受欢迎的响应,形成用于每个情节 DPO 的偏好对。此外,我们采用了在线合并优化器(Lu et al., 2024a)来减轻对齐税,即与人类偏好对齐模型生成时的性能下降。
5 评估
为了全面评估 Qwen2 模型,包括基础和指令调优模型,我们实施了一个综合评估协议。该协议检查了一系列能力,包括一般知识理解、语言理解、生成、编码、数学、推理和其他专业领域。具体来说,基础模型通过少量提示的基准数据集评估,除非另有说明。对于指令调优模型,除了基准评估外,我们还优先考虑人类偏好评估。
5.1 基础语言模型
本节介绍了 Qwen2 系列基础语言模型的评估。具体来说,我们在知识基准数据集上评估模型,并通过少量提示的基本能力,并应用多语言基准数据集来评估它们对语言的支持。由于有多个模型大小,我们将它们与类似或更大大小的 SOTA 模型进行比较。
5.1.1 核心能力
基准测试和评估协议 评估基础语言模型的核心能力通常通过实施基准数据集评估,并通过少量或零提示提示进行。评估主要关注模型在自然语言理解、一般问题回答、编码、数学、科学知识、推理等方面的表现。评估数据集包括 MMLU(Hendrycks et al., 2021a)(5-shot)、MMLU-Pro(Wang et al., 2024)(5-shot)、GPQA(Rein et al., 2023)(5-shot)、Theorem QA(Chen et al., 2023a)(5-shot)、BBH(Suzgun et al., 2023)(3-shot)、HellaSwag(Zellers et al., 2019)(10-shot)、Winogrande(Sakaguchi et al., 2021)(5-shot)、TruthfulQA(Lin et al., 2022a)(0-shot)、ARC-C(Clark et al., 2018)(25-shot)、HumanEval(Chen et al., 2021)(0-shot)、MBPP(Austin et al., 2021)(0-shot)、EvalPlus(Liu et al., 2023a)(0-shot)、MultiPL-E(Cassano et al., 2023)(在 Python、C++、Java、PHP、TypeScript、C#、Bash 和 JavaScript 上的 0-shot)、GSM8K(Cobbe et al., 2021)(5-shot)、MATH(Hendrycks et al., 2021b)(4-shot)、C-Eval(Huang et al., 2023)(5-shot)和 CMMLU(Li et al., 2023)(5-shot)。多语言数据集可以分为四类:(a) 考试:M3Exam(5-shot,我们只选择不需要图像的示例)、IndoMMLU(Koto et al., 2023)(3-shot)、ruMMLU(Fenogenova et al., 2024)(5-shot)和翻译的 MMLU(Chen et al., 2023b)(在阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语上的 5-shot);(b) 理解:BELEBELE(Bandarkar et al., 2023)(5-shot)、XCOPA(Ponti et al., 2020)(5-shot)、XWinograd(Muennighoff et al., 2023)(5-shot)、XStoryCloze(Lin et al., 2022b)(0-shot)和 PAWS-X(Yang et al., 2019)(5-shot);(c) 翻译:Flores-101(Goyal et al., 2022)(5-shot)。
表 2:70B+ 模型的性能。我们将 Qwen2-72B 与基线模型进行比较,包括 Mixtral-8x22B、Llama-3-70B、Qwen1.5-72B 和 Qwen1.5-110B。在大多数数据集上,Qwen2-72B 显示出比基线模型的优势。
表 3:30B+ 密集模型和 40B+ MoE 模型的性能。Qwen2-57B-A14B,一个总参数为 570 亿,激活参数为 140 亿的 MoE 模型,旨在匹配 300 亿参数密集模型的性能。此比较包括密集模型基线:Yi-1.5-34B 和 Qwen1.5-32B,以及 MoE 基线:Mixtral-8x7B 和 Jamba。结果表明 Qwen2-57B-A14B 总体上取得了有竞争力的性能,特别是在编码和数学任务中表现突出。
表 4:7B+ 模型的性能。我们将 Qwen2-7B 与之前发布的 7B+ 模型进行比较,包括 Mixtral-7B、Gemma-7B、Llama-3-8B 和我们的前身 Qwen1.5-7B。Qwen2-7B 在大多数评估数据集上显示出比基线模型的显著优势。
结果可以在表 4 中找到。Qwen2-7B 在大多数数据集上表现出色,特别是在编码任务、数学和中文语言任务中。它还在多语言理解和考试中表现出强大的性能。这表明 Qwen2-7B 已经优化,能够处理广泛的语言和基于逻辑的任务,展示了其多功能性和先进能力。
表 5:较小模型的性能。我们将 Qwen2-0.5B 和 Qwen2-1.5B 与之前的 SOTA 小型模型进行比较,包括 Phi-2、Gemma-2B 和 Qwen1.5-1.8B。Qwen2-0.5B 以更小的模型大小实现了竞争性性能,而 Qwen2-1.5B 显著优于 Qwen2-0.5B。
5.2 指令调优模型
为了严格评估指令调优模型,我们实施了一个多方面的方法。使用开放数据集和基准测试对基础技能和人类偏好进行评估。我们详细的内部考试进一步探究了模型在关键领域的能力。特别关注评估长上下文能力。安全措施包括多语言安全评估和红队演习。以下各节详细介绍了评估方法及其结果。
5.2.1 开放基准评估
为了全面评估指令调优模型的质量,我们编制了自动和人类评估,以评估能力和人类偏好。对于基础能力的评估,我们应用了与预训练模型评估中类似的数据集,这些数据集针对自然语言理解、编码、数学和推理。具体来说,我们评估了 MMLU、MMLU-Pro、GPQA 和 Theorem QA 用于语言理解和知识,HumanEval、MBPP、MultiPL-E 和 LiveCodeBench v1(Jain et al., 2024)用于编码,GSM8K 和 MATH 用于数学。此外,我们通过评估基准测试,包括 MT-Bench(Zheng et al., 2023)、Arena-Hard(Li et al., 2024)、AlignBench(Liu et al., 2023b)、MixEval(Ni et al., 2024)其结果近似于 Chatbot Arena,以及 IFEval(Zhou et al., 2023)4 用于指令遵循,来评估人类偏好对齐和指令遵循的表现。
Qwen2-72B-Instruct 我们将 Qwen2-72B-Instruct 与包括 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct 以及 Qwen1.5-72B-Chat 在内的指令调优模型进行比较。结果显示在表 6 中。可以发现,强大的基础语言模型可以帮助提升指令调优模型的下游性能。具体来说,Qwen2-72B-Instruct 在语言理解、编码和数学等领域超越了其同行,除了 GPQA 和 MBPP。关于人类偏好对齐和指令遵循,Qwen2-72B 比基线模型有显著优势。我们认为这一成就是归因于高质量的预训练模型以及后训练数据和训练技术的改进。
表 6:70B+ 指令调优模型的性能。我们将 Qwen2-72B-Instruct 与 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct、Qwen1.5-72B-Chat 和 Qwen1.5-110B-Chat 进行比较。“-Instruct” 或 “-Chat” 在表中省略。Qwen2-72B-Instruct 在核心能力上展示优势,并在人类偏好对齐上表现卓越。
Qwen2-57B-A14B-Instruct 对于中等大小的模型,我们将 Qwen2-57B-A14B-Instruct 与 Mixtral-8x7B-Instruct 另一个 MoE 基线,以及超过 300 亿参数的密集 SOTA 模型,例如 Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat 进行比较。结果提供在表 7 中。与 Qwen1.5-32B-Chat 相比,Qwen2-57B-A14B-Instruct 在几乎所有基准测试中都达到了优越的性能,并且与 300 亿 SOTA 模型 Yi-1.5-34B-Chat 相比,Qwen2-57BA14B-Instruct 在大多数评估中都获得了优势,除了数学评估。在对齐评估方面,Qwen2-57B-A14B-Instruct 的优势尤为明显。
Qwen2-7B-Instruct 在 7B 到 9B 模型的范围内,我们将 Qwen2-7B-Instruct 与 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5-7B-Chat 进行比较。结果可以在表 8 中找到。Qwen2-7B-Instruct 与其前身 Qwen1.5-7B-Chat 相比,在全面评估中表现出显著的进步,特别是在编码和数学相关任务中取得了更高的分数。与最近的 SOTA 模型 Llama-38B-Instruct 相比,Qwen2-7B-Instruct 展示了竞争力的表现,特别是在编码方面表现优越。然而,在指令遵循方面,Qwen2-7B-Instruct 大大落后于竞争对手。为了解决这个限制,我们计划通过提高后训练数据的质量来增强 7B 模型的指令遵循能力,确保更强大的理解和执行复杂命令的能力。
Qwen2-1.5B-Instruct & Qwen2-0.5B-Instruct 在较小模型的背景下,我们将 Qwen2-0.5B-Instruct 与 Qwen1.5-0.5B-Chat 进行比较,并将 Qwen2-1.5B-Instruct 与 Qwen1.5-1.8B-Chat 进行比较。值得注意的是,某些为较大模型设计的基准数据集的复杂性超出了这些较小模型的能力;因此,我们的分析集中在选定的子集上。如表 9 所示,Qwen2 模型在核心能力和指令遵循任务中明显优于其前身。这一成就主要归因于预训练数据的扩展。因此,我们的结果证实,数据扩展仍然是提高模型性能的有效策略,即使是在十亿参数以下的模型领域。
表 7:30B+ 密集和 40B+ MoE 指令调优模型的性能。我们将 Qwen2-57B-A14B-Instruct 与类似大小的 MoE 模型 Mixtral-8x7B-Instruct、30B 密集模型如 Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat 进行比较。“-Instruct” 或 “-Chat” 在表中省略。Qwen2-57B-A14B-Instruct 与最近的 SOTA 30B 密集模型竞争力相当,并且显著优于 MoE 基线。
5.2.2 内部自动评估
尽管有许多开放基准数据集用于评估,但我们认为这还远远不足以完全理解 LLMs 的能力。具体来说,我们制作了一系列内部数据集,评估模型的不同能力,例如知识理解、文本生成、编码等。评估是中文和英文的。结果分别收集在表 10 和表 11 中。
中文评估 对于中文评估,我们专注于比较 Qwen2 模型与 Qwen1.5 对应模型的性能。对于小型模型,Qwen2-1.5B-Instruct 即使参数更少,也几乎在所有评估中都优于 Qwen1.5-1.8B-Chat。在比较 7B 模型时,Qwen2 的优势更加明显。值得注意的是,尽管 Qwen1.5-110B-Chat 参数更多,但 Qwen2-72B 的性能更优越。MoE 模型在大多数领域相对于 Qwen1.5-32B-Chat 表现更好,除了知识理解。这种差异可能归因于预训练 token 的不足。在不久的将来,我们将继续对 MoE 模型进行预训练,以发现其扩展行为。
英文评估 对于英文,我们将 Qwen2 与 Qwen1.5 和 Llama-3 进行比较。同样,Qwen2 的小型模型在显著优于 Qwen1.5 对应模型。然而,与 Llama-3-70B 相比,Qwen2-72B-Instruct 在理解和编码方面略有落后。我们认为预训练的英文 token 数量以及后训练数据的数量和多样性导致了英文方面的性能差距。
表 8:7B+ 指令调优模型的性能。我们将 Qwen2-7B-Instruct 与最近的 SOTA 模型进行比较,这些模型具有 7-9 亿参数,包括 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5-7B-Chat。“-Instruct” 或 “-Chat” 在表中省略。Qwen2-7B-Instruct 与 Llama-3-8B-Instruct 表现竞争力。
表 9:较小指令调优模型的性能。我们将 Qwen2-0.5B-Instruct 和 Qwen2-1.5B-Instruct 与 Qwen1.5-0.5B-Chat 和 Qwen2-1.8B-Chat 进行比较。“-Instruct” 或 “-Chat” 在表中省略。与类似大小的基线相比,Qwen2 的性能显著优于 Qwen1.5。
5.2.3 长上下文能力
我们采用了三种方法来评估长上下文能力:Needle in a Haystack (NIAH, Kamradt, 2023)、NeedleBench(OpenCompass Contributors, 2023)和 LV-Eval(Yuan et al., 2024)。
Needle in a Haystack 这个实验评估模型在大量文本中定位事实的能力。制作了长度为 8K、16K、...、128K token 的文本,并将事实策略性地放置在不同的深度。每个深度间隔,例如从 0% 到 10%,包含两个实例。对于超过 32K 的上下文,在此评估中应用了 YARN(Peng et al., 2023)。如图 1 所示,Qwen2-72B-Instruct 在检索整个 128K 上下文中的信息时表现出异常的准确性。结合其固有的优势,该模型成为处理大量文本的最佳选择,假设有足够的资源可用。此外,同一系列中的模型在不同上下文长度下也表现出显著的性能。具体来说,Qwen2-7B-Instruct 在处理长达 128K token 的上下文时达到了高水平的准确性。同时,Qwen2-57B-A14B-Instruct 能够有效地处理长达 64K token 的上下文,而 Qwen2 系列中的两个较小模型可以支持长达 32K token 的上下文。
表 10:Qwen2-Instruct 模型在我们内部中文自动评估基准上的表现。Qwen2 模型的得分超过其可比大小的 Qwen1.5 对应模型的用粗体显示。Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 进行比较。
表 11:Qwen2-Instruct 模型在我们内部英文自动评估基准上的表现。Qwen2 模型的得分超过其可比大小的 Qwen1.5 和 Llama-3 对应模型的用粗体显示。Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 进行比较。
图 1:Qwen2 指令调优模型在 Needle in A Haystack 测试中的表现。所有支持超过 32k 个 token 上下文的模型都集成了 YARN 机制。
表 12:Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 在 NeedleBench 和 LV-Eval 中的表现。+YARN+DCA 在 32k 个 token 内不会改变模型行为。
表 13:Qwen2-72B-Instruct 与专有 LLMs 在多语言人类评估中的表现。我们将 Qwen2-72B-Instruct 与 GPT-3.5-Turbo-1106、GPT-4-Turbo-0409、GPT4o-0513、Claude-3-Opus-0229 进行比较。分数范围从 1 到 5。总体而言,Qwen2-72B-Instruct 显著优于 GPT-3.5-Turbo,但与最近六个月发布的专有模型相比还有进步空间。
NeedleBench NeedleBench 通过在段落中包含多个事实(两个到五个)来增加 NIAH 的挑战,需要同时识别和多跳推理。表 12 显示,集成 YARN 和 DCA(An et al., 2024)显著提高了 Qwen2 模型的长上下文能力。Qwen2-7B-Instruct 超过了 ChatGLM4-9B-1M(Zeng et al., 2024),后者声称具有 1M 上下文长度。此外,Qwen2-72B-Instruct 表现出色,与 ChatGLM4-9B-1M 相比,其准确性仅下降了 6 个百分点,而后者的下降更为明显,下降了 11 个百分点,特别是考虑到其初始准确性较低。
LV-Eval LV-Eval 包括 11 个不同的 QA 数据集,要求同时理解多个证据片段。为了纠正原始指标过于严格并导致高误报率的问题,我们采用关键词召回作为报告的分数。如表 12 所示,集成 YARN 和 DCA 大大加强了 Qwen2 模型在 LV-Eval 上的长上下文能力。Qwen2-7B-Instruct 达到了与 ChatGLM4-9B-1M 相当的水平,尽管在更长的上下文中有更明显的下降。此外,Qwen2-72B-Instruct 在所有长度上都表现出色,证实了其处理长上下文任务的能力。
5.2.4 多语言评估
对于多语言评估,我们实施了全面的人类评估,以评估大型语言模型的多语言能力。具体来说,我们设计了不同的测试案例,评估大型语言模型的不同能力,并且我们有多种语言的测试案例。对于注释者,我们邀请了每种语言的专业注释者,他们主修该语言进行评估。对于每个测试案例,注释者根据模型的响应给出 1 到 5 分的评分。
我们报告了我们的模型和基线在不同语言评估中的结果。从表 13 中可以发现,平均而言,Qwen2-72B-Instruct 显著优于 GPT-3.5Turbo,并且与 GPT-4-Turbo 竞争力相当,略逊于 Claude-3-Opus。这表明我们的多语言预训练和指令调优数据有助于 Qwen2-72B-Instruct 的多语言能力,并且它与大多数最先进的专有大型语言模型竞争力相当。
5.2.5 安全与责任
具有公开可访问权重的大型语言模型有效地加速了研究及其应用的发展。此外,我们认为构建安全和负责任的大型语言模型至关重要,以便显著减轻人工智能技术滥用的影响。
我们实施了多语言安全评估,测试了不同语言中的 LLMs。具体来说,我们评估了模型在关于非法行为、欺诈、色情内容和隐私等主题方面的安全性能。我们收集了倾向于越狱的提示,并用它们测试模型是否能够通过拒绝提供安全响应。
结果如表 14 所示,显示了模型生成的有害响应的比例,越低越好。可以观察到 Qwen2-72B-Instruct 比专有模型 GPT-4 表现更好,并且显著优于开放权重模型 Mixtral-8x22B-Instruct。然而,我们认为我们的模型在成为更安全、更负责任的模型方面仍有改进空间,尤其是在色情内容方面,这是一个传统上难以区分的类别,即使对人类也是如此。
表 14:模型在安全评估中的表现。我们将 Qwen2-72B-Instruct 与 GPT-4 和 Mixtral-8x22B-Instruct 进行比较。越低越好。
6 结论
本技术报告介绍了 Qwen2 系列,这是一套多功能的基础和指令调优语言模型,参数范围从 0.5 到 72 亿,包括密集和专家混合架构的模型。Qwen2 超越了以前的开放权重模型,特别是其前身 Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中展现出与专有模型相媲美的性能。在这次更新中,我们特别关注长上下文、多语言、编码、数学能力和安全与责任。为了促进社区内的创新和可访问性,我们已经公开提供了 Qwen2 模型权重,使研究人员和开发人员能够充分利用 Qwen2 在各种应用和研究项目中的全部潜力。通过这些努力,我们旨在为人工智能技术的进步及其对社会的积极影响做出贡献。
作者:张长旺,图源:旺知识
参考资料
标题:Qwen2 技术报告
作者:An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, Zhihao Fan
单位:Qwen Team, Alibaba Group
标签:人工智能、大型语言模型、多模态模型、Transformer、自注意力机制、混合专家模型、多语言能力、编码、数学、推理、安全性
内容概要:Qwen2 技术报告介绍了阿里巴巴集团 Qwen 团队开发的新一代大型语言模型和多模态模型,展示了其在多个领域的卓越性能和技术创新。
链接:https://arxiv.org/abs/2407.10671