DeepSeek 各版本说明与优缺点分析
DeepSeek是最近人工智能领域备受瞩目的一个语言模型系列,其在不同版本的发布过程中,逐步加强了对多种任务的处理能力。本文将详细介绍 DeepSeek 的各版本,从版本的发布时间、特点、优势以及不足之处,为广大 AI 技术爱好者和开发者提供一份参考指南。
1. DeepSeek-V1:起步与编码强劲
DeepSeek-V1 是 DeepSeek 的起步版本,主要分析它的优缺点。
DeepSeek 系列语言模型涵盖 V1 至 R1 等多个版本,逐步增强编码、推理及多模态能力。V1 侧重基础 NLP 与编码;V2 提升性能并开源;V2.5 融合 Chat 与 Coder 模型,增强数学与联网搜索;R1-Lite 预览版对标 o1,强化推理过程;V3 采用 MoE 架构,提升推理速度;R1 正式版基于强化学习,支持蒸馏。各版本在参数规模、训练成本及应用场景上各有优劣,用户可根据需求选择。
DeepSeek是最近人工智能领域备受瞩目的一个语言模型系列,其在不同版本的发布过程中,逐步加强了对多种任务的处理能力。本文将详细介绍 DeepSeek 的各版本,从版本的发布时间、特点、优势以及不足之处,为广大 AI 技术爱好者和开发者提供一份参考指南。
DeepSeek-V1 是 DeepSeek 的起步版本,主要分析它的优缺点。
2024 年 1 月
DeepSeek-V1 是 DeepSeek 系列的首个版本,预训练于 2TB 的标记数据,主打自然语言处理和编码任务。它支持多种编程语言,具有强大的编码能力,适合程序开发人员和技术研究人员使用。
作为 DeepSeek 的早期版本,DeepSeek-V2 的性能比 DeepSeek-V1 提升了太多,其差距和 ChatGPT 的首个版本和 ChatGPT3.5 相比一样。
2024 年上半年
DeepSeek-V2 系列搭载了 2360 亿个参数,是一个高效且强大的版本。它具有高性能和低训练成本的特点,支持完全开源和免费商用,极大地促进了 AI 应用的普及。
2024 年 9 月
下面是官方对于 V2.5 版本的更新日志:
DeepSeek 一直专注于模型的改进和优化。在 6 月份,我们对 DeepSeek-V2-Chat 进行了重大升级,用 Coder V2 的 Base 模型替换原有的 Chat 的 Base 模型,显著提升了其代码生成和推理能力,并发布了 DeepSeek-V2-Chat-0628 版本。紧接着,DeepSeek-Coder-V2 在原有 Base 模型的基础上,通过对齐优化,大大提升通用能力后推出了 DeepSeek-Coder-V2 0724 版本。最终,我们成功将 Chat 和 Coder 两个模型合并,推出了全新的 DeepSeek-V2.5 版本。
可以看出官方在这次更新中融合了 Chat 和 Coder 两个模型,使得 DeepSeek-V2.5 能够辅助开发者处理更高难度的任务。
并且从官方发布的数据来看,V2.5 在通用能力(创作、问答等)等问题中表现对比 V2 模型来说,有了显著得提升。

下面用一张图来对比一下 DeepSeek - V2 和 DeepSeek - V2.5 两个版本模型分别与 ChatGPT4o - latest 和 ChatGPT4o mini 的通用能力对比测试。

在这张图中我们可以看出 DeepSeek - V2 和 DeepSeek - V2.5 两个版本模型分别与 ChatGPT4o - latest 和 ChatGPT4o mini 进行对比测试的胜率、平局率和败率情况:
在与 ChatGPT4o 系列模型的对比中,DeepSeek - V2.5 整体表现优于 DeepSeek - V2;DeepSeek - V2.5 和 DeepSeek - V2 在与 ChatGPT4o mini 的对比中胜率相对较高,而与 ChatGPT4o - latest 对比时胜率相对较低。
在代码方面,DeepSeek-V2.5 保留了 DeepSeek-Coder-V2-0724 强大的代码能力。在 HumanEval Python 和 LiveCodeBench(2024 年 1 月 - 2024 年 9 月)测试中,DeepSeek-V2.5 显示了较为显著的改进。在 HumanEval Multilingual 和 Aider 测试中,DeepSeek-Coder-V2-0724 略胜一筹。在 SWE-verified 测试中,两个版本的表现都较低,表明在此方面仍需进一步优化。另外,在 FIM 补全任务上,内部评测集 DS-FIM-Eval 的评分提升了 5.1%,可以带来更好的插件补全体验。
另外,DeepSeek-V2.5 对代码常见场景进行了优化,以提升实际使用的表现。在内部的主观评测 DS-Arena-Code 中,DeepSeek-V2.5 对战竞品的胜率(GPT-4o 为裁判)取得了显著提升。
DeepSeek-V2.5 在前一个版本的基础上进行了一些关键性改进,尤其是在数学推理和写作领域,表现得更加优异。同时,该版本加入了联网搜索功能,能够实时分析海量网页信息,增强了模型的实时性和数据丰富度。
DeepSeek-V2.5 现已开源到了 HuggingFace:
2024 年 11 月 20 日
不得不说 DeepSeek 版本的迭代速度很快,同年 11 月划历史意义的 R1-Lite 模型发布。作为 R1 模型的前置版本,虽然没有 R1 模型那样备受瞩目,但是其作为对标 OpenAI o1 的国产推理模型,表现也是可圈可点的,DeepSeek-R1-Lite 预览版模型在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,均取得了卓越的成绩,大幅超越了 GPT-4o 等知名模型。
下表为 DeepSeek-R1-Lite 在各项相关评测中的得分结果:

DeepSeek - R1 - Lite - Preview 在数学竞赛(AIME、MATH - 500)和世界级编程竞赛(Codeforces)的测试任务中表现突出,在理工科博士生测试、另一世界级编程竞赛和自然语言解谜任务中也有不错表现,但在理工科博士生测试、自然语言解谜等任务中,OpenAI o1 - preview 得分更优,这也是 DeepSeek - R1 - Lite 没有得到太多关注的原因。
根据官网消息,DeepSeek-R1-Lite 的推理过程长,并且包含了大量的反思和验证。下图展示了模型在数学竞赛上的得分与测试所允许思考的长度紧密相关。

由上图可以看出:
使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字,在数学和编程等需要长逻辑链条的任务中具备优势;在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1 的推理效果,并展现了 o1 未公开的完整思考过程,目前在 DeepSeek 官网上免费可用。
2024 年 12 月 26 日
作为深度求索公司自主研发的首款混合专家(MoE)模型,其拥有 6710 亿参数,激活 370 亿,在 14.8 万亿 token 上完成了预训练。
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

DeepSeek - V3 在 MMLU - Pro、MATH 500、Codeforces 任务测试中表现突出,准确率领先;在 GPQA Diamond、SWE - bench Verified 任务中也有不错表现,但在 AIME 2024 任务中,GPT - 4o - 0513 准确率更优。

由上面表格可以看出,这项对比涉及 DeepSeek - V3、Qwen2.5 - 72B - Inst、Llama3.1 - 405B - Inst、Claude - 3.5 - Sonnet - 1022、GPT - 4o - 0513 等模型,从模型架构、参数及各测试集表现等方面分析得出:
总体来看,DeepSeek - V3 在多个测试集上有不错表现,在 DROP、MATH - 500 等测试中优势明显,在不同语言和领域的测试集中各模型有不同程度的优势与不足。
DeepSeek-V3 是该系列中的一个里程碑版本,拥有 6710 亿参数,专注于知识类任务和数学推理,性能大幅度提升。V3 引入了原生 FP8 权重,支持本地部署,并且推理速度大幅提升,生成吐字速度从 20TPS 提升至 60TPS,适应了大规模应用的需求。
下面附上 V3 模型的论文链接,供大家参考学习。 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
2025 年 1 月 20 日
作为一经发布就备受瞩目的 DeepSeek-R1 来说,真正的是经历了很多磨难才诞生走到现在,而 DeepSeek-R1 发布以来就秉持着开源的原则,遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
这将有以下两方面的影响:
MIT License 是一种宽松的开源软件许可协议。这意味着 DeepSeek - R1 以非常开放的姿态面向广大开发者和用户。在遵循 MIT License 相关规定的前提下,用户拥有极大的自由:
允许用户通过蒸馏技术借助 R1 训练其他模型,这具有很高的技术价值和应用潜力:
并且 DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用,这无疑极大的方便了很多对于大模型感兴趣的个体用户。
据官网信息透漏,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

从上图可以看出,在 Codeforces、MATH - 500、SWE - bench Verified 测试中,DeepSeek - R1 或 DeepSeek - R1 - 32B 表现突出;在 AIME 2024、GPQA Diamond、MMLU 测试中,OpenAI - o1 - 1217 表现较好。
但是在蒸馏小模型的对比上,R1 模型超越 OpenAI o1-mini。
在官方在开源的数据中 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

上表为对比不同模型在多项测试集上表现的表格,测试集包括 AIME 2024、MATH - 500 等,模型有 GPT - 4o - 0513、Claude - 3.5 - Sonnet - 1022 等,还涉及基于 DeepSeek - R1 蒸馏的系列模型,具体详情如下的分析:
从表格看,o1 - mini 在 CodeForces 竞赛评分上优势明显;DeepSeek - R1 蒸馏的大参数模型(如 DeepSeek - R1 - Distill - Qwen - 32B、DeepSeek - R1 - Distill - Llama - 70B)在数学和编程相关测试集表现较好,反映出 DeepSeek - R1 蒸馏技术对模型性能有提升作用,不同模型在各测试集有不同优势。
DeepSeek-R1 是系列中的最新版本,通过强化学习(RL)技术,优化了模型的推理能力。R1 版本推理能力接近 OpenAI 的 O1,并且遵循 MIT 许可证,支持模型蒸馏,进一步促进开源生态的健康发展。
R1 论文链接如下,供大家学习参考。 论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek 系列的不断迭代和升级,体现了其在自然语言处理、推理能力和应用生态等方面的持续进步。每个版本都有其独特的优势和适用场景,用户可以根据自身需求选择最适合的版本。随着技术的不断发展,未来 DeepSeek 可能会在多模态支持、推理能力等方面继续取得突破,值得期待。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online