通俗易懂地说说DeepSeek的原理

Ne0inhk

09 Feb 2025 — 6 min read

通俗易懂地说说DeepSeek的原理

Jet 2025年02月08日 08:52 北京

DeepSeek 简直可以称为华人之光，最近在 AI 领域风头一时无两，聊天的时候不说下 DeepSeek 咱都不好意思开口。它不仅在性能上超越了 OpenAI 的 ChatGPT，还在 App Store 下载排行榜中位居第一，这是连 Claude 都没有过的。DeepSeek 的成功，离不开其独特的训练方式和技术创新。下面我们一起看看 DeepSeek 的训练过程、工作原理以及优化与创新之处。

#01

DeepSeek 的训练过程

训练语言模型通常分为两个阶段：预训练和后训练，DeepSeek 也不例外，也是这两个阶段。

预训练阶段

DeepSeek 在预训练阶段的目标是让模型学习语言的通用规律。这一阶段主要通过预测互联网上的海量文本数据中的下一个 Token 来实现。预训练阶段处理的数据量通常以数万亿级别的 Token 计，数据主要来源于网络抓取，如 Common Crawl 等公开数据集。通过这种方式，模型能够学习到语言的基本模式和结构。

预训练阶段的复杂性主要体现在训练过程的演进方式和不同损失函数的选择上。许多预训练技术都源于自然语言处理领域的文献。指令微调就是其中最古老，但至今仍被广泛采用的技术，也被称为监督微调，缩写为 IFT 或 SFT。

预训练阶段的核心是自回归预测，即预测文档序列中的下一个 Token。预训练可以扩展到非常大的规模，并且效率很高。预训练通常会使用单一的损失函数，并投入大量的计算资源。研究人员构建高效的系统，最终得到的就是基础模型。

后训练阶段

预训练阶段完成后，DeepSeek 会进行后训练，以使模型具备更符合人类期望的行为。后训练阶段包括两种主要的方法：指令调优和基于人类反馈的强化学习。

指令调优的核心思想是在模型中加入特定的格式，使其能够理解并响应指令。例如，当模型接收到“请解释罗马帝国的历史”这类问题时，它能够以信息量丰富且易于理解的方式给出答案。指令调优阶段的关键在于训练模型理解和遵循指令的格式。

基于人类反馈的强化学习是另一种后训练方法，它的核心在于使模型的回复不仅格式良好，而且更符合人类的阅读偏好。这一过程通过收集人类的成对偏好数据来实现，最初的数据标注工作由人工完成，现在也开始引入 AI 进行数据标注。偏好微调使用对比损失函数，让模型学习区分好答案和坏答案，并学习人类偏好的模式。

#02

模型工作原理

DeepSeek-V3 和 DeepSeek-R1 都是 LLM，但它们的工作方式有所不同。

DeepSeek-V3 是一个指令模型，类似于 ChatGPT。它通过接收到的指令生成相应的文本回复。当用户向 V3 提问时，它会快速生成 Token，这些 Token 会组合成易于理解的人类语言答案，通常会采用 Markdown 列表的形式，并带有格式，突出显示答案的核心要点。V3 可以生成数十甚至数百个 Token，Token 通常是一个词，对于常用词或长词的一部分，它可能只是一个子词。

DeepSeek-R1 是一个推理模型。当用户向 R1 提问时，它会首先进行大量的推理过程，然后再生成最终答案。R1 生成的 Token 中首先出现的是大量的思维链过程，模型在生成答案之前，会先解释问题，分解问题，所有这些推理过程都会以 Token 的形式快速生成。在完成推理过程后，R1 模型的语气会发生转变，开始给出最终答案，答案的形式与 V3 等模型类似。

#03

优化与创新

为了让模型生成质量更高的回答，AI 模型开发者会向用户界面展示更多的推理过程，比如计划问题解决步骤，或者解释答案的逻辑。由此催生了推理模型，目前的主要参与者有 DeepSeek-R1、DeepSeek-Reasoning 以及近期 OpenAI 发布的 o3-mini 等推理模型。

推理模型会把中间的思考路径拿出来呈现给大家看，这正是推理模型这类赛道未来的发展方向之一。DeepSeek-R1 是直接把推理模型通过强化学习加指令微调的混合方式训练出来，这种模型结构在设计上具有明显的优势，特别是在需要精确性和可解释性的领域，但在可扩展性、自适应能力和处理复杂场景方面存在一定的局限性。

DeepSeek-R1 和 R2 基于的是一个 13B 规模参数的模型，通过结合推理训练模块和 SFT（基于人类监督的有标注的数据微调）模块，实现了在推理任务和其他通用任务中的高性能表现。推理训练模块通过强化学习提升模型的推理能力，而 SFT 模块则通过监督微调优化模型的输出质量和语言一致性。这种结合使得模型在多种任务中都能表现出色，更具实用性。

人类常常难以通过直接的分析和评估来确定语言模型生成文本的质量。因此，许多研究者开始探索基于“策略”的评价，即通过观察语言模型在特定任务上的行为和表现来评估其性能。具体来说，他们可以构建一个游戏场景，在这个场景中，语言模型需要与虚拟环境进行互动，以解决特定问题或完成特定任务。通过观察模型在游戏中采取的策略、决策的质量以及最终任务完成的效果，研究者可以间接评估模型生成文本的能力。

DeepSeek R1 模型的运行效率高，它的平均响应时间在 2 秒左右，模型的 API 端口速率与 GPT 4.5 相当，是 GPT-4 的 4 倍。它的推理速度非常快，能够做到秒级响应，这在处理复杂的逻辑和数学问题方面，模型的表现依然精准。

【JavaEE初阶】告别小白！Java IO 流读写 + 文件操作实战

我的个人主页我的专栏：人工智能领域、java-数据结构、Javase、C语言，MySQL，JavaEE初阶，希望能帮助到大家！！！点赞👍收藏❤ 目录 * 一、先搞懂：文件和文件系统的基础认知 * 二、Java 中操作文件的“核心工具”：File 类 * 1. File 类的关键属性、构造和方法 * 2. File 类实操：从获取信息到创建删除 * （1）搞懂 get 系列方法：获取文件信息 * （2）创建与删除文件：createNewFile() 和 delete() * （3）创建目录：mkdir() 和 mkdirs() 的区别 * （4）文件重命名：renameTo() * 三、Java IO

Spring Boot 机制四： AOP 代理机制源码级深度解析（JDK / CGLIB 全链路）

博主社群介绍： ① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。 ② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。 ③ 群内也有职场精英，大厂大佬，跨国企业主管，可交流技术、面试、找工作的经验。进群免费赠送写作秘籍一份，助你由写作小白晋升为创作大佬，进群赠送ZEEKLOG评论防封脚本，送真活跃粉丝，助你提升文章热度。群公告里还有全网大赛约稿汇总/博客提效工具集/ZEEKLOG自动化运营脚本有兴趣的加文末联系方式，备注自己的ZEEKLOG昵称，拉你进群，互相学习共同进步。文章目录 * Spring Boot 机制四： AOP 代理机制源码级深度解析（JDK / CGLIB 全链路） * 目录 * 1. Spring Boot AOP 的本质是什么？ * 2. JDK vs CGLIB：

【Java 开发日记】为什么要有 time _wait 状态，服务端这个状态过多是什么原因？

目录为什么要有 TIME_WAIT 状态？原因一：可靠地终止TCP连接（确保最后的ACK能到达对方）原因二：让旧连接的重复报文段在网络中自然消失（防止影响新连接）服务端 TIME_WAIT 状态过多是什么原因？原因一：服务端使用了短连接，并且是它主动关闭连接原因二：客户端的非正常行为原因三：负载均衡器的健康检查总结面试回答为什么要有 TIME_WAIT 状态？ TIME_WAIT，俗称2MSL等待状态，是TCP连接主动关闭一方（通常是客户端，但也可能是服务端）在发送最后一次ACK确认报文后，会进入的一个状态。它需要等待2倍的最大报文段生存时间后，才会最终进入CLOSED状态，释放连接资源。设计TIME_WAIT状态主要有两个核心原因，它们是确保TCP协议可靠性的基石：原因一：可靠地终止TCP连接（确保最后的ACK能到达对方）这是最主要的原因。让我们回顾一下TCP四次挥手的正常流程： 1. 主动关闭方（假设为A）

豆包AI生图去水印实用指南：5种免费方法，轻松拿下纯净原图

相信大部分的豆包用户都曾为水印问题困扰过，好不容易在豆包生成了一张完美的配图，却被右下角的水印破坏了整体美感。你试了各种方法，要么效果不佳，要么操作复杂，最后只能无奈放弃。今天分享几个小方法教你简单去除它。样图：通过以上两张图展示，常规下载的时候都是这两种情况，水印要么在左上角、要么在右下角。接下来，我们看实操，分享5招如何获得高清无水印图片的方法。第一种：如何开始下载无水印图片首先，单击已经生成的图片，图片会在右边新的窗口打开，如下图：然后，点击左上角的智能编辑，如下：这时候图片会出现在左边的对话框中：我们将鼠标移到图片上，鼠标右击，弹出如下菜单：这里我们看到其中四个选项均可获取到无水印图片，无差异： * 在新标签页中打开图像：点击后会在新的浏览器窗口看到完整的无水印图片； * 将图像另存为：点击后直接下载，这种是最常用的方法之一； * 复制图像：点击后，可以在微信对话框中直接粘贴，也比较实用； * 复制图像链接：这种和在新标签页中类似，是需要在一个空白标签中粘贴打开。好了，我们看看获得无水印图片是怎样的：

通俗易懂地说说DeepSeek的原理

Read more

【JavaEE初阶】告别小白！Java IO 流读写 + 文件操作实战

Spring Boot 机制四： AOP 代理机制源码级深度解析（JDK / CGLIB 全链路）

【Java 开发日记】为什么要有 time _wait 状态，服务端这个状态过多是什么原因？

豆包AI生图去水印实用指南：5种免费方法，轻松拿下纯净原图