【LLM技术报告】Qwen2 Technical Report

【LLM技术报告】Qwen2 Technical Report

【LLM技术报告】Qwen2 Technical Report

原创 吕阿华  2024年07月18日 21:05 广东

作者:吕阿华文章:https://zhuanlan.zhihu.com/p/709433404

简介

自从ChatGPT问世以来,全球范围内对LLM的热情迅速升温。Llama系列的发布进一步激发了开源社区对GPT级本地LLM的兴趣。最近,Claude-3 Opus和GPT-4o作为更新的ChatGPT模型,迅速登顶Chatbot Arena(该平台以其对LLM的人工评估而著称)。此外,Llama-3作为最先进的开源权重模型系列问世,缩小了与领先的专有模型之间的性能差距,被广泛认为达到了GPT-4级别。越来越多具有竞争力的LLM正在追求类似于OpenAI GPT系列的进展,包括以开源权重发布的Qwen、Mistral和Gemma等。

在过去的几个月里,Qwen团队(后面简称“团队”)相继推出了Qwen系列,并发展到Qwen1.5。同时还推出了视觉-语言模型Qwen-VL和音频-语言模型Qwen-Audio。

本文介绍了Qwen家族最新的大型语言模型和大型多模态模型:Qwen2。Qwen2是一系列基于Transformer架构的大型语言模型,通过next token预测进行训练。该系列包括基础模型,即未对齐人类偏好的预训练语言模型,以及通过单轮和多轮指令跟随数据集微调的指令调优模型,适用于聊天和智能体用途。团队发布了四个密集模型,参数量分别为0.5B、1.5B、7B和72B,还有一个参数量为57B的混合专家(MoE)模型,每个token激活14亿参数。其中较小的模型如Qwen2-0.5B和Qwen2-1.5B,设计用于便携设备的轻松部署,如智能手机、耳机和智能眼镜,较大的模型适用于不同规模的GPU部署。

所有模型都在高质量的大规模数据集上进行了预训练,涵盖了超过7T tokens,涉及广泛的领域和语言。相比之前的Qwen版本,Qwen2包含更广泛的语言数据,并增加了代码和数学内容的数量和质量。预计这种丰富性可以提高LLM的推理能力。在后训练过程中,所有模型都经过监督微调(SFT)和直接偏好优化(DPO),通过学习人类反馈使其对齐人类偏好。这个过程赋予了模型有效跟随指令的能力。

团队对Qwen2及一系列基准模型进行了全面评估,包括通过API访问的开源权重模型和专有模型。在基础语言能力和指令调优功能的评估中,Qwen2表现优于竞争对手。

具体来说,Qwen2的指令调优版Qwen2-72B-Instruct在MT-Bench中得分为9.1,在Arena-Hard中得分为48.1,在LiveCodeBench中得分为35.7。同时,基础语言模型Qwen2-72B在MMLU中得分为84.2,在GPQA中得分为37.9,在HumanEval中得分为64.6,在GSM8K中得分为89.5,在BBH中得分为82.4。

*笔者会用GPTs翻译形成初稿,然后自己精读后完成终稿,力求每一句话自己都能理解后再输出译文。
*需要原文的请至文末跳转至原文链接阅读。

Tokenizer与模型设计

本节概述了Qwen2的tokenizer与模型设计,详细介绍了不同规模模型的架构和配置。

Tokenizer

按照Qwen的方案,Qwen2采用了基于字节级别的字节对编码(byte-level byte-pair encoding)的相同tokenizer。这个tokenizer表现出高效的编码效率,其压缩率优于其他方案,从而增强了Qwen2的多语言处理能力。所有规模的模型都使用包含151,643个常规token和3个控制token的通用词汇表。

需要注意的是,出于分布式训练的考虑,有效的向量尺寸更大。

模型架构

Qwen2系列基本上是基于Transformer架构的大型语言模型,具有因果掩码的自注意力机制。该系列包括四种规模的密集语言模型和一个MoE模型。

Qwen2密集模型

Qwen2密集模型的架构由多个Transformer层组成,每层都配备了因果注意力机制和前馈神经网络(FFNs)。与Qwen相比,主要有以下几个区别:

分组查询注意力:Qwen2采用分组查询注意力(Grouped Query Attention, GQA)取代传统的多头注意力(Multi-Head Attention, MHA)。GQA优化了推理期间的KV-Cache使用,显著提高了数据处理的吞吐量。

双块注意力和YARN:为了扩展Qwen2的上下文窗口,Qwen2实现了双块注意力(Dual Chunk Attention, DCA),将长序列分割成可管理长度的块。如果输入可以在一个块内处理,DCA会产生与原始注意力机制相同的结果。否则,DCA有助于有效捕捉块内和跨块之间的相对位置信息,从而提升长上下文处理性能。
此外,Qwen2还采用了YARN重新调整注意力权重,以更好地进行长度外推。

Qwen2延续了Qwen的SwiGLU激活函数,旋转位置向量(RoPE)进行位置编码,QKV偏置进行注意力处理,以及RMSNorm和预归一化方法以确保训练的稳定性。

Qwen2专家混合模型

Qwen2 MoE模型的架构与Qwen1.5-MoE-A2.7B高度相似。MoE FFN取代了原始FFN,由n个独立的FFN组成,每个FFN作为一个专家。每个token根据门控网络 � 分配的概率被引导到一个特定的专家 �� 进行计算:

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

以下是Qwen2 MoE的关键设计考虑:

专家粒度:MoE模型和密集模型的主要结构区别在于MoE层包含多个FFN,每个FFN作为一个独立的专家。因此,从密集架构过渡到MoE架构的一种简单策略是将每个专家的参数设置为原始密集模型中单个FFN的参数。例如,从Mistral-7B过渡到Mixtral 8x7B时,每次激活八个专家中的两个。而Qwen2模型采用细粒度专家,创建了更小规模的专家,并同时激活更多的专家。给定相同的总专家参数和激活参数,细粒度专家提供了更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE实现了更为多样化和动态的专家使用,从而提升了整体性能和适应性。

专家路由:专家路由机制的设计对于提高MoE模型的性能至关重要。最近的趋势是将共享专家和特定路由专家结合在MoE层中。Qwen2采用了这种方法,这有助于将共享专家应用于各种任务,同时保留其他专家用于特定的路由场景。共享和专用专家的引入提供了一种更灵活和高效的方法来开发MoE路由机制。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

模型配置

以下是Qwen2系列的关键配置和信息。Qwen2系列包括五种规模的模型,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。表1列出了超参数和重要信息,如预训练token的数量。特别是,Qwen2-57B-A14B是从Qwen2-7B扩展而来的。值得注意的是,与Qwen1.5模型相比,Qwen2模型每个token的键值(KV)大小显著较低。这一特性使得在长上下文推理任务中内存占用大幅减少。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表1:Qwen2密集模型和MoE模型的架构。对于MoE模型,57B-A14B表示模型总共有57B参数,每个token激活14B参数,中间大小表示每个专家的大小,#激活专家数不包括共享专家。

预训练

Qwen2的预训练主要集中在改进数据集和探索有效处理扩展上下文长度的方法。

预训练数据

Qwen2模型的预训练涉及开发一个新的、大规模、高质量的多语言数据集。相比之前的Qwen和Qwen1.5模型,这个数据集在多个关键领域提升了预训练数据的规模、质量和多样性:

质量提升:通过引入额外的启发式和基于模型的方法优化过滤算法,包括使用Qwen模型来过滤低质量数据。此外,这些模型还用于生成高质量的预训练数据。

数据扩展:相比Qwen1.5,Qwen2收集了更多高质量的代码、数学和多语言数据,提升了模型在相关领域的能力。这个新数据集支持约30种语言,如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语。

分布改进:为了确保模型学习到类似人类的分布,团队在小规模模型上进行了实验,以优化来自不同来源和领域的数据混合。 基于这些改进,预训练数据从Qwen1.5的3T token扩展到7T token。尽管尝试放宽质量门槛使数据量达到了12T token,但基于此数据集训练的模型并未显示出比7T token模型更好的性能。因此,考虑到训练成本,团队选择使用高质量的7T token数据集来训练大型模型,未来的模型迭代将继续探索这一方向。 除了Qwen2-0.5B,所有Qwen2密集模型均在这个超过7T token的大规模数据集上进行了预训练。Qwen2-0.5B使用了12T token数据集进行预训练。MoE模型额外接受了4.5T token的预训练,遵循回收的原则。 与之前的Qwen模型类似,高质量的多任务指令数据被整合到Qwen2的预训练过程中,以增强上下文学习和指令跟随能力。

长上下文训练

为了增强Qwen2的长上下文处理能力,团队在预训练的最后阶段将上下文长度从4,096个token增加到32,768个token。

为了实现这一目标,团队引入了大量高质量的长数据,并将RoPE的基本频率从10,000修改为1,000,000,以优化长上下文场景中的性能。 为了充分利用模型的长度外推潜力,团队采用了YARN机制和双块注意力机制。这些策略使模型能够处理多达131,072个token的序列,同时保持高性能,初步实验显示困惑度的下降非常小。

后训练

大规模预训练之后,Qwen2进入了后训练阶段。这一过程在增强其在编码、数学、逻辑推理、指令跟随和多语言理解等方面的能力中起到了关键作用。此外,它确保了模型的生成内容与人类价值观一致,使其有用、诚实且无害。

不同于传统方法对大量人类监督的高度依赖,Qwen2的方法侧重于通过最小化人类标注来实现可扩展的对齐。 团队研究了获取高质量示范和偏好数据的方法,用于监督微调(SFT)和基于人类反馈的强化学习(RLHF),旨在减少对人类标注的需求,同时提高数据的质量和可靠性。

后训练数据

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

协作数据注释

自动本体提取:首先应用InsTag,一个开放集细粒度标注器,从大规模指令数据集中提取基础本体。后续的手动修正确保提取本体的准确性。

指令选择:每个带有标签的指令根据标签多样性、语义丰富性、复杂性和意图完整性进行评估。基于这些标准,选择一组代表性指令。

指令演化:为了丰富指令数据集,采用自演化策略,促使Qwen模型为现有指令添加约束或要求,增加其复杂性,确保数据集内的难度级别多样化。

人工注释:通过多样化生成策略和不同规模的Qwen模型,获取对一个指令的多个响应。注释人员根据偏好对这些响应进行排序,确保最佳响应符合既定标准,生成示范数据和偏好数据。

自动数据合成

在大规模下维持对指令响应注释的质量,尤其是那些需要专业知识、经验、细致或耐心的任务,存在显著挑战。为应对这些挑战,设计了各种自动对齐策略以大规模合成数据。

拒绝采样:对于具有明确最终答案的数学或类似任务,应用拒绝采样以提高解决方案质量。LLM生成多个响应,即推理路径,对于每个指令,保留得出准确结论且被模型认为合理的路径,作为示范数据。通过对比正确和错误路径生成偏好数据。

执行反馈:对于编码任务,LLM生成解决方案和相关测试案例。通过编译和执行这些解决方案来评估其效力,生成示范和偏好数据。这种方法也适用于评估指令跟随。对于每个带有约束的指令,如长度限制,LLM生成一个Python验证函数以确保响应符合指令要求。

数据再利用:在文学写作任务中创建高水平的响应对于未经专业训练的注释人员来说具有挑战性。为解决这一问题,从公共领域聚集高质量的文学作品,并使用LLM开发具有不同细节级别的指令。这些指令与原作配对,作为示范数据。例如,为编写角色扮演数据,从维基百科等知识库中获取详细的角色档案,并指导LLM生成相应的指令和响应。这一过程类似于阅读理解任务,确保角色档案的完整性。

宪法反馈:宪法AI是指指导LLM根据预定义的原则集生成响应的过程。为了确保遵循安全和价值观等指导原则,编制了一个宪法数据集。该数据集列出了要遵循和避免的原则,用于指导LLM生成符合或偏离这些指南的响应,作为示范和偏好数据的参考。

监督微调

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

基于人类反馈的强化学习

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

性能评估

为了全面评估Qwen2模型,包括基础模型和指令调优模型,团队制定了一套综合评估协议。该协议考察了模型在一般知识理解、语言理解、生成、编码、数学、推理及其他专业领域的多种能力。

基础模型使用LLM的标准基准数据集进行评估,通常通过少样本提示(few-shot prompting)来获得响应,除非另有说明。对于指令调优模型,除了基准评估外,还优先进行人工偏好评估。

基础语言模型

接下来展示的是Qwen2系列基础语言模型的评估。具体来说,团队在知识和基本能力的基准数据集上评估这些模型,并应用多语言基准数据集来评估它们对多种语言的支持。由于存在多种模型规模,我们将其与相似或更大规模的SOTA模型进行比较。

核心能力

基准和评估协议:评估基础语言模型核心能力的常见做法是使用少样本或零样本提示进行基准数据集评估。评估主要关注模型在自然语言理解、一般问答、编码、数学、科学知识、推理等方面的表现。评估使用的数据集包括

MMLU(5-shot)

MMLU-Pro(5-shot)

GPQA(5-shot)

Theorem QA(5-shot)

BBH(3-shot)

HellaSwag(10-shot)

Winogrande(5-shot)

TruthfulQA(0-shot)

ARC-C(25-shot)

HumanEval(0-shot)

MBPP(0-shot)

EvalPlus(0-shot)

MultiPL-E(0-shot,涵盖Python,C++,Java,PHP,TypeScript,C#,Bash和JavaScript)

GSM8K(5-shot)

MATH(4-shot)

C-Eval(5-shot)

CMMLU(5-shot)。

多语言数据集可以分为四类:

考试:M3Exam(5-shot,仅选择不需要图像的示例),IndoMMLU(3-shot),ruMMLU(5-shot),和翻译的MMLU(5-shot,涵盖阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语);

理解:BELEBELE(5-shot),XCOPA(5-shot),XWinograd(5-shot),XStoryCloze(0-shot)和PAWS-X(5-shot);

数学:MGSM(Goyal等,2022)(8-shot CoT)

翻译:Flores-101(Goyal等,2022)(5-shot)

Qwen2-72B

对于Qwen2的最大模型Qwen2-72B,团队将其与具有竞争力的开源基准模型进行比较,包括Mixtral-8x22B,Llama-3-70B,以及Qwen1.5-72B和Qwen1.5-110B,结果如表2所示。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表2:70B+模型的性能。团队比较了Qwen2-72B与各种基准模型包括Mixtral-8x22B、Llama-3-70B、Qwen1.5-110B和Qwen1.5-72B。在大多数数据集上,Qwen2-72B显示出相对于基准模型的优势。

Qwen2-72B在一般知识理解方面优于Llama-3-70B,在MMLU和MMLU-Pro上分别提高了4.7和2.8。在科学评估中,Qwen2-72B在GPQA和Theorem QA上分别提高了1.6和9.8。
通过丰富编码数据,Qwen2-72B在HumanEval和MBPP评估中相对于Qwen1.5-72B分别有18.3和10.0个百分点的显著优势。
增强的数学相关数据使Qwen2-72B在GSM8K和MATH基准上分别优于Qwen1.5-72B 10.0和17.0个百分点。
Qwen2-72B在推理能力上与Llama-3-70B相当,考虑到BBH,Winogrande和ARC-C,其改进的编码和数学数据起到了作用。
在评估中文语言理解方面,Qwen2-72B显著优于Mixtral-8x22B和Llama-3-70B,并且也优于Qwen1.5-72B。

Qwen2-57B-A14B

对于MoE模型的评估,Qwen2-57B-A14B与相似规模的基准模型进行比较。这些基准包括其他MoE模型,如Mixtral-8x7B和Jamba,以及密集模型,如Yi-1.5-34B和Qwen1.5-32B,这两个模型都有大约30亿参数。结果如表3所示。预计Qwen2-57B-A14B在激活14亿参数的情况下将达到30亿参数密集等效Qwen2模型的性能。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表3:30B+密集模型和40B+MoE模型的性能。Qwen2-57B-A14B是一个总参数为57B、激活参数为14B的MoE模型,旨在与30B参数的密集模型相媲美。

评估显示,Qwen2-57B-A14B在自然语言理解任务中与Yi-1.5-34B表现相当。此外,它在编码和数学任务中优于基准模型。Qwen2-57B-A14B还展示了强大的中文语言理解能力,与较大的Qwen2-72B模型相媲美。本质上,Qwen2-57B-A14B是一个高效的模型,每次前向传播仅激活14B参数,但保持了30B参数密集模型的性能。

Qwen2-7B

Qwen2-7B模型广泛使用,因为它能够在配备16GB内存的加速器上以16位浮点数运行。重点是将该模型与其他领先的7B模型进行比较,包括最近在Chatbot Arena中表现出色的Llama-3-8B。这次比较还包括Mistral-7B-v0.2,Gemma-7B,以及Qwen2的前身Qwen1.5-7B。结果见表4。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表4:7B+模型的性能。团队将Qwen2-7B与之前发布的最先进的7B+模型进行了比较,包括Mixtral-7B、Gemma-7B、Llama-3-8B以及Qwen1.5-7B。Qwen2-7B在大多数评估数据集上显示出相对于基准模型的显著优势。

Qwen2-7B在大多数数据集上的表现优于其他模型,特别是在编码任务、数学和中文语言任务中表现突出。它还在多语言理解和考试中表现强劲。这表明Qwen2-7B已针对广泛的语言和逻辑任务进行了优化,展示了其多功能性和先进的能力。

Qwen2-1.5B和Qwen2-0.5B

为了评估较小模型的性能,特别是Qwen2-1.5B和Qwen2-0.5B,我们将它们与已建立的基准模型进行比较:Phi-2,Gemma-2B,以及Qwen1.5-1.8B。结果见表5。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表5:小模型的性能。团队将Qwen2-0.5B和Qwen2-1.5B与之前的最先进小模型进行了比较,包括Phi-2、Gemma-2B和Qwen1.5-1.8B。尽管Qwen2-0.5B的模型尺寸较小,但其性能依然具有竞争力,而Qwen2-1.5B显著优于Qwen2-0.5B

在语言理解方面,Qwen2-1.5B优于基于教科书数据训练的Phi-2。对于编码任务,Qwen2-0.5B的表现与Gemma-2B和Qwen1.5-1.8B相当,而Qwen2-1.5B在这些基准中除Phi-2外均超越。两款Qwen2模型在数学方面的表现优于竞争对手。在一般推理方面,发现Phi-2总体上表现优于其他模型,这在某种程度上反映了教科书数据对于推理能力的重要性。在TruthfulQA中,Qwen2-1.5B表现最佳,表明较小的模型不一定会出现幻觉。在中文语言理解方面,这两款Qwen2模型的表现均优于所有其他模型,这一趋势在其各自的比较中与较大的模型一致。

总体而言,Qwen2系列在不同模型规模中均表现出优于基准模型的性能。值得注意的是,Qwen2-72B在所有Qwen2模型中表现最佳,突显了模型规模扩展的有效性。

指令调优模型

我们通过多方面的方法全面评估指令调优模型。使用开放数据集和基准测试评估基础技能和人类偏好。内部详细检查进一步探讨了模型在关键领域的能力,特别关注长上下文能力的评估。安全措施包括多语言安全评估和红队演习。以下部分详细介绍了评估方法及其结果。

开放基准评估

为了全面评估指令调优模型的质量,我们结合自动评估和人工评估来评估其能力和人类偏好。对于基本能力的评估,我们使用了与预训练模型评估中类似的数据集,这些数据集针对自然语言理解、编码、数学和推理。具体来说,我们在MMLU、MMLU-Pro、GPQA和Theorem QA上评估语言理解和知识,在HumanEval、MBPP、MultiPL-E和LiveCodeBench v1(Jain等,2024)上评估编码,在GSM8K和MATH上评估数学。此外,我们通过在MT-Bench(Zheng等,2023)、Arena-Hard、AlignBench(Liu等,2023b)、MixEval(Ni等,2024)和IFEval(Zhou等,2023)上的评估来评估人类偏好对齐和指令跟随能力。

Qwen2-72B-Instruct

我们将Qwen2-72B-Instruct与包括Mixtral-8x22B-Instruct、Llama-3-70B-Instruct以及Qwen1.5-72B-Chat在内的指令调优模型进行比较。结果见表6。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表6:70B+指令微调模型的性能。团队将Qwen2-72B-Instruct与Mixtral-8x22B-Instruct、Llama-3-70B-Instruct、Qwen1.5-72B-Chat和Qwen1.5-110B-Chat进行了比较。表中的“Instruct”或“Chat”被省略。Qwen2-72B-Instruct在核心能力上表现出优势,并在人类偏好对齐方面表现出卓越的性能。

可以发现,强大的基础语言模型有助于提高指令调优模型的下游性能。具体来说,Qwen2-72B-Instruct在语言理解、编码和数学等领域优于其同类模型,但在GPQA和MBPP方面除外。在人类偏好对齐和指令跟随方面,Qwen2-72B显著优于基准模型。这一成就归功于高质量的预训练模型以及数据和后训练技术的改进。

Qwen2-57B-A14B-Instruct

对于中等规模的模型,团队将Qwen2-57B-A14B-Instruct与另一个MoE基准Mixtral-8x7B-Instruct以及超过30亿参数的密集SOTA模型,如Yi-1.5-34B-Chat和Qwen1.5-32B-Chat进行比较,结果见表7。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表7:30B+密集模型和40B+MoE指令微调模型的性能。团队将Qwen2-57B-A14B-Instruct与相似规模的MoE模型Mixtral-8x7B-Instruct、30B密集模型如Yi-1.5-34B-Chat和Qwen1.5-32B-Chat进行了比较。表中省略了“Instruct”或“Chat”。Qwen2-57B-A14B-Instruct在最近的SOTA 30B密集模型中具有竞争力,并显著优于MoE

与Qwen1.5-32B-Chat相比,Qwen2-57B-A14B-Instruct在几乎所有基准测试中表现优异;与30B SOTA模型Yi-1.5-34B-Chat相比,Qwen2-57B-A14B-Instruct在大多数评估中具有优势,但数学方面除外。在人类偏好对齐评估中,Qwen2-57B-A14B-Instruct的优势尤为明显。

Qwen2-7B-Instruct

在7B到9B模型范围内,团队将Qwen2-7B-Instruct与Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat和Qwen1.5-7B-Chat进行比较。结果见表8。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表8:7B+指令微调模型的性能。团队将Qwen2-7B-Instruct与最近的SOTA模型进行了比较,这些模型包括Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat和Qwen1.5-7B-Chat。表中省略了“Instruct”或“Chat”。Qwen2-7B-Instruct在与Llama-3-8B-Instruct的对比中表现出具有竞争力的性能。

Qwen2-7B-Instruct在综合评估中相比其前身Qwen1.5-7B-Chat有显著进步,特别是在编码和数学相关任务中取得更高的分数。与最近的SOTA模型Llama-3-8B-Instruct相比,Qwen2-7B-Instruct表现出竞争力,尤其在编码方面表现优越。然而,在指令跟随方面,Qwen2-7B-Instruct大大落后于竞争对手。为了解决这一局限性,计划通过提高后训练数据的质量,增强7B模型的指令跟随能力,以确保对复杂命令的理解和执行更加稳健。

Qwen2-1.5B-Instruct和Qwen2-0.5B-Instruct

在较小模型的评估中,将Qwen2-0.5B-Instruct与Qwen1.5-0.5B-Chat进行比较,将Qwen2-1.5B-Instruct与Qwen1.5-1.8B-Chat进行比较。值得注意的是,一些设计用于较大模型的数据集的复杂性超过了这些较小模型的能力;因此,分析集中在选定的子集上。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表9:小型指令微调模型的性能。团队将Qwen2-0.5B-Instruct和Qwen2-1.5B-Instruct与Qwen1.5-0.5B-Chat和Qwen2-1.8B-Chat进行了比较。表中省略了“Instruct”或“Chat”。与相似大小的基线模型相比,Qwen2显著超越了Qwen1.5的性能

如表9所述,Qwen2模型在核心能力和指令跟随任务方面相对于其前身具有显著优势。这个成就主要归功于预训练数据的扩展。因此,结果确认了数据扩展仍然是增强模型性能的有效策略,即使是在十亿以下参数模型领域。

长上下文能力

为了评估长上下文能力,团队采用了三种方法:大海捞针(NIAH),NeedleBench和LV-Eval。

大海捞针

该实验评估模型在长文本中定位事实的能力。文本长度为8K、16K、...、128K token,事实被策略性地放置在不同深度。每个深度区间,例如从0%到10%,包含两个实例。对于超过32K的上下文,在此评估中应用了YARN。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

图1:Qwen2指令微调模型在“大海捞针测试”中的表现。所有支持超过32k token上下文长度的模型都集成了YARN机制

如图1所示,Qwen2-72B-Instruct在从整个128K上下文中检索信息方面表现出色,结合其固有的优势,这款模型成为处理长文本的最佳选择,前提是有足够的资源。此外,同系列模型在不同上下文长度下也表现出色。具体来说,Qwen2-7B-Instruct在处理多达128K token的上下文方面表现出很高的准确性。同时,Qwen2-57B-A14B-Instruct能有效处理多达64K token的上下文,而Qwen2系列中的两个较小模型能够支持32K token的上下文。

NeedleBench

NeedleBench通过在段落中包含多个事实(两个到五个)来增加NIAH的难度,要求同时识别和多跳推理。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表12:Qwen2-72B-Instruct和Qwen2-7B-Instruct在NeedleBench和LV-Eval上的表现。+YARN+DCA不会在32k上下文长度内改变模型行为

表12显示,YARN和DCA的结合显著提升了Qwen2模型在长上下文任务中的表现。Qwen2-7B-Instruct超越了声称具有1M上下文长度的ChatGLM4-9B-1M。此外,Qwen2-72B-Instruct表现优异,与ChatGLM4-9B-1M相比,其准确率仅下降6个百分点,而ChatGLM4-9B-1M的下降幅度更大,达到了11个百分点,特别是在其初始准确率较低的情况下。

LV-Eval

LV-Eval包括11个需要同时理解多条证据的多样化QA数据集。为了纠正其原始指标过于严格导致高假阴性率的缺点,团队采用了关键词召回作为报告分数。

如表12所示,结合YARN和DCA显著增强了Qwen2模型在LV-Eval上的长上下文能力。Qwen2-7B-Instruct与ChatGLM4-9B-1M达到了相当的水平,尽管在较长上下文下的下降更为明显。此外,Qwen2-72B-Instruct在所有长度上表现出色,确认了其处理长上下文任务的能力。

多语言评估

团队进行了全面的人类评估,以评估模型的多语言能力。

具体来说,团队设计了多样化的测试案例来评估大型语言模型的不同能力,这些测试案例使用多种语言。每种语言邀请一名专业评估员进行评估。每个测试案例中,评估员对模型的响应评分,评分范围为1到5。 实验报告了模型和基准模型在不同语言评估中的结果。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

表13:Qwen2-72B-Instruct与专有LLM在多语言人类评估中的表现比较。我们将Qwen2-72B-Instruct与GPT-3.5-Turbo-1106、GPT-4-Turbo-0409、GPT-4o-0513、Claude-3-Opus-0229进行比较。评分范围为1到5分。

从表13可以看出,Qwen2-72B-Instruct的平均表现显著优于GPT-3.5-Turbo,并且与GPT-4-Turbo具有竞争力,仅稍稍落后于Claude-3-Opus。这表明Qwen2多语言预训练和指令调优数据对Qwen2-72B-Instruct的多语言能力有很大贡献,并且它在大多数最先进的专有LLM中具有竞争力。

安全性与责任

具有开放权重的LLM有效地加速了研究及其应用的发展。此外,构建安全和负责的LLM至关重要,这样可以显著减轻AI技术滥用的影响。

团队进行了多语言安全评估,测试LLM在不同语言中的表现。具体来说,实验评估了模型在非法行为、欺诈、色情和隐私等主题上的安全性能。团队收集了容易绕过安全机制的提示词,并使用它们测试模型是否可以通过拒绝提供安全响应。

www.zeeklog.com  - 【LLM技术报告】Qwen2 Technical Report

结果如表14所示,表中显示了模型生成有害响应的比例,比例越低越好。可以观察到,Qwen2-72B-Instruct的表现优于专有模型GPT-4,并且显著优于开源模型Mixtral-8x22B-Instruct。然而,该模型在成为一个更安全、更负责任的模型方面仍有很大的改进空间,特别是在色情方面,这一类别即使对于人类也很难区分。

结论

本技术报告介绍了Qwen2系列,这是一套多功能的基础和指令调优语言模型,参数范围从0.5亿到720亿,包括密集模型和专家混合架构模型。

Qwen2的表现优于之前的开源模型,特别是其前身Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理的广泛基准上显示出对专有模型的竞争力。在此更新中,团队特别关注长上下文、多语言、编码、数学能力以及安全性和责任。

为了促进社区内的创新和可访问性,团队公开了Qwen2模型的权重,使研究人员和开发人员能够在各种应用和研究项目中充分利用其潜力。通过这些努力,旨在推动AI技术的发展及其对社会的积极影响。

Read more

含文档+PPT+源码等]精品https://zeeklog.com小程序springboot巧匠家装小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

含文档+PPT+源码等]精品https://zeeklog.com小程序springboot巧匠家装小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

🍅文末获取联系🍅 目录 一、项目介绍 微信小程序springboot巧匠家装系统 +后台管理系统|前后分离VUE》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序前台和Java做的后台管理系统,该后台采用前后台前后分离的形式使用Java+VUE 微信小程序——前台涉及技术:WXML 和 WXSS、JavaScript、uniapp Java——后台涉及技术: 前端使用技术:JSP,HTML5,CSS3、JavaScript、VUE等 后端使用技术:Spring、SpringMvc、Mybatis(SSM)等 数据库:Mysql数据库 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序运行软件:微信开发者 系统主要功能: 管理员服务端;首页、个人中心、用户管理、

By Ne0inhk
含文档+PPT+源码等]精品https://zeeklog.com小程序ssm电子作业小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

含文档+PPT+源码等]精品https://zeeklog.com小程序ssm电子作业小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

🍅文末获取联系🍅 目录 一、项目介绍 微信小程序ssm电子作业 +后台管理系统|前后分离VUE》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序前台和Java做的后台管理系统,该后台采用前后台前后分离的形式使用Java+VUE 微信小程序——前台涉及技术:WXML 和 WXSS、JavaScript、uniapp Java——后台涉及技术: 前端使用技术:JSP,HTML5,CSS3、JavaScript、VUE等 后端使用技术:Spring、SpringMvc、Mybatis(SSM)等 数据库:Mysql数据库 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序运行软件:微信开发者 系统主要功能: 管理员:首页、个人中心、学生管理、

By Ne0inhk
含文档+PPT+源码等]精品https://zeeklog.com小程序ssm后勤服务|会议室预约|办公管理管理系统小程序+后台管理系统|前后分离VUE[包运行成功]

含文档+PPT+源码等]精品https://zeeklog.com小程序ssm后勤服务|会议室预约|办公管理管理系统小程序+后台管理系统|前后分离VUE[包运行成功]

🍅文末获取联系🍅 目录 一、项目介绍 微信小程序后勤服务管理系统+后台管理系统|前后分离VUE》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序前台和Java做的后台管理系统,该后台采用前后台前后分离的形式使用Java+VUE 微信小程序——前台涉及技术:WXML 和 WXSS、JavaScript、uniapp Java——后台涉及技术: 前端使用技术:JSP,HTML5,CSS3、JavaScript、VUE等 后端使用技术:Spring、SpringMvc、Mybatis(SSM)等 数据库:Mysql数据库 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序运行软件:微信开发者 系统主要功能: 管理员服务端;首页、个人中心、公告信息管理、

By Ne0inhk
含文档+PPT+源码等]精品https://zeeklog.com小程序ssm家教服务系统小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

含文档+PPT+源码等]精品https://zeeklog.com小程序ssm家教服务系统小程序+后台管理系统|前后分离VUE[包运行成功]https://zeeklog.com小程序项目源码Java毕业设计

🍅文末获取联系🍅 目录 一、项目介绍 微信小程序家教服务系统+后台管理系统|前后分离VUE》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序前台和Java做的后台管理系统,该后台采用前后台前后分离的形式使用Java+VUE 微信小程序——前台涉及技术:WXML 和 WXSS、JavaScript、uniapp Java——后台涉及技术: 前端使用技术:JSP,HTML5,CSS3、JavaScript、VUE等 后端使用技术:Spring、SpringMvc、Mybatis(SSM)等 数据库:Mysql数据库 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序运行软件:微信开发者 管理员:首页、个人中心、教员管理、学员管理、

By Ne0inhk