Qwen2 技术报告
摘要
本报告介绍了 Qwen2 系列,这是大型语言模型和大型多模态模型的最新成员。发布了一套全面的基础和指令调优语言模型,参数范围从 5 亿到 720 亿,包括密集模型和混合专家模型。Qwen2 超越了包括其前身 Qwen1.5 在内的大多数先前的开放权重模型,并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。
旗舰模型 Qwen2-72B 表现卓越:在 MMLU 上为 84.2,在 GPQA 上为 37.9,在 HumanEval 上为 64.6,在 GSM8K 上为 89.5,在作为基础语言模型的 BBH 上为 82.4。指令调整变体 Qwen2-72B-Induce 在 MT Bench 上达到 9.1,在 Arena Hard 上达到 48.1,在 LiveCodeBench 上获得 35.7。此外,Qwen2 展示了强大的多语言能力,精通约 30 种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。
模型权重已在 Hugging Face 和 ModelScope 公开,并在 GitHub 上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源,促进了广泛的应用和研究工作。

