论文:
Qwen: https://arxiv.org/abs/2309.16609
相关论文:
Qwen-vl: https://arxiv.org/pdf/2308.12966
qwen2-vl: https://arxiv.org/pdf/2409.12191
代码:https://github.com/QwenLM/Qwen2-VL
1、为什么要做这个研究(理论走向和目前缺陷) ?
之前LLaMA开源并且使用的是完全开源的数据,本文基于LLaMA做了后续的一些工作,整体看算法上的创新不大,工程上工作比较多。
2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
模型架构和LLaMA基本相同,但是准备了比较充分的数据,也加了一些小trick, 比如参考NTK理论根据上下文长度动态调整RoPE 的底数以支持推理更长上下文输入,qwen重点强调了对齐(SFT和RLHF)的重要性。
3、发现了什么(总结结果,补充和理论的关系)?
开放了一系列不同大小的模型(1.7B~14B),在开源模型领域效果已属于前列,但和闭源模型相比仍有差距。
摘要
发布Qwen系列首款产品,包括基础预训练模型Qwen, 使用人工对齐机器微调出来的聊天模型qwen-chat, 聊天模型在agent应用时的工具使用能力和规划能力也是相当优化。还发布了针对变成的模型code-qwen和code-qwen-chat,以及专注于数学的模型math-qwen-chat。这些模型比现有的开源模型都要强,但是比闭源模型略弱。
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/806113447fce4302868769bc94813f8a.png)
1 引言
LLM发展迅速,不止可以应用于语言任务,也可以作为通用agent来使用外部的工具、系统或者模型。之前的LLM模型大多有几大问题,不可复现、不可操作、不可访问(如chat-gpt对国内用户就很不友好)。Qwen系列将打破这一局面,主要贡献:
- 基础预训练模型qwen,在超过3万亿token的文本、代码数据上训过,覆盖了相当多的领域,在不同下游任务上泛化性很好。
- 聊天模型Qwen-chat 在精选的数据上微调过,拥有聊天、工具使用、agent、安全等功能。主要是加了SFT和RLHF,使其具备更好的性能并且能够根据人类喜好回答问题,但比GPT-4要差一些。
- 编程模型code-qwen有两个版本QWEN-7B and CODE-QWEN-14B,以及对应的编程聊天模型CODE-QWEN-14B- CHAT and CODE-QWEN-7B-CHAT。code-qwen预训练时就在大量的代码数据的,然后微调时使其获得代码生成、debug以及代码解释的能力。
- 数学模型MATH-QWEN-CHAT,能力接近GPT-3.5。
- 开源了多模态QWEN-VL和QWEN-VL-CHAT, 支持多图会话和讲故事的能力。
注:参考toolFormer论文提供的方法微调预训练后的模型,赋予模型自主调用外部工具的能力。
2 预训练
预训练时模型从海量数据中获取对复杂世界的综合理解能力。不仅赋予模型语言能力,也赋予其算术、编程以及逻辑推理能力。
2.1 数据
专门工具提取网页数据,数据语言类型识别,精确去重和模糊去重(MinHash, LSH),去除低质量内容数据(使用语言模型给内容打分、识别攻击性)。除了一般的预训练数据,还把高质量的指令数据(之前一般用于指令微调)加到预训练数据中,以提升零样本或少样本能力。
2.2 分词
分词方法BPE,以cl100k作为基础词汇表,然后用中文数据增强这个词汇表。最终词汇表大约152K。
压缩率对比,这里标识同样的字符信息,不同的词汇表表达时需要使用token的数目,值越低越好,但也意味着词表会很大。

![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/bffb258b7d2941b4a696bcf68f232ad9.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/f2cba4613805428f93942d44559a53ff.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/f58603bb495d4bc3989702267bf7db64.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/6e17ea157e064454802ef56baba19f9e.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/98b9b10c89ad4978bc8ff4ef3924c662.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/a088c9088c8a41389b765cb127eb607c.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/10d37af5d93441a6903cec45830d4b39.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/e85cba4509ce477eb0c9b63d779e4862.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/0555c8031a414c1095cb8df31afd67d0.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/4781754db99d41ec974fd1ba66323173.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/26c4261a43ca405a82b67762fe20bb30.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/b8adfd1f66e345af96a3bb8572b46b09.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/86ffb13714fd45ef8309d69cf2f7dd88.png)
![[图片]](https://qiniu.meowparty.cn/coder.2023/2026-04-06/25a47477d16949ca89015b0a6a81a7c9.png)
