DeepSeek-R1技术笔记 (含图解和技术点介绍)
DeepSeek-R1技术笔记 (含图解和技术点介绍) 原创 艾尔文很爱问 2025年02月07日 23:31 广东 最近DeepSeek-R1简直杀疯了,所以我特地看了论文和一些相关技术点(包括GRPO、拒绝采样、PRM、MCTS),并做了相关笔记,希望能帮到大家跟进前沿工作。推荐指数:5星。不足之处,还望批评指正。文章可能会很长,读不完的伙伴建议收藏。 论文:2025 | Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning 机构:DeepSeek 代码:https://github.com/deepseek-ai/DeepSeek-R1 论文:https://arxiv.org/pdf/2501.12948? DeepSeek推出了全新的推理模型:DeepSeek-R1-Zero和DeepSeek-R1。