大模型 - 极客日志 (Page 2)

DeepSeek-R1技术笔记 (含图解和技术点介绍)

DeepSeek-R1技术笔记 (含图解和技术点介绍) 原创艾尔文很爱问 2025年02月07日 23:31 广东最近DeepSeek-R1简直杀疯了，所以我特地看了论文和一些相关技术点（包括GRPO、拒绝采样、PRM、MCTS），并做了相关笔记，希望能帮到大家跟进前沿工作。推荐指数：5星。不足之处，还望批评指正。文章可能会很长，读不完的伙伴建议收藏。论文：2025 | Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning 机构：DeepSeek 代码：https://github.com/deepseek-ai/DeepSeek-R1 论文：https://arxiv.org/pdf/2501.12948? DeepSeek推出了全新的推理模型：DeepSeek-R1-Zero和DeepSeek-R1。

手把手教学，DeepSeek-R1微调全流程拆解

手把手教学，DeepSeek-R1微调全流程拆解原创极客见识 2025年02月09日 09:02 广东 DeepSeek 通过发布其开源推理模型 DeepSeek-R1 颠覆了 AI 格局，该模型使用创新的强化学习技术，以极低的成本提供与 OpenAI 的 o1 相当的性能。更令人印象深刻的是，DeepSeek 已将其推理能力提炼成几个较小的模型。这篇文章，我们将使用其蒸馏版本之一引导大家完成 DeepSeek-R1 的整个微调过程。本文章将演示了如何微调其中一个模型（使用我们自己的自定义思维链数据集），然后保存和部署微调后的模型。高级推理模型微调 DeepSeek 简介 DeepSeek-R1 是由深度求索（DeepSeek）公司开发的突破性推理模型。DeepSeek-R1 基于 DeepSeek-V3-Base（总共 671B 个参数，每次推理 37B 处于活动状态）构建，使用强化学习（RL）在提供最终答案之前生成思路链

本地化部署32B版本残血DeepSeek R1模型

最近， DeepSeek大火，导致官网访问量剧增，大家都碰到下面讨厌的回复了吧？所以，我就想自己在本地部署一个DeepSeek R1大模型，自己用，还可以做一些定制化的微调，应该挺不错的。一、如何本地部署 DeepSeek R1模型是完全开源，大家都可以装，只是硬件资源要求高，满血版本的R1模型，服务器的硬件成本大概100万，一般人也装不起。我的电脑配置还可以，可以装一个32B的残血版本的R1模型，跑跑玩玩。服务器配置 * CPU： i9-11900K 3.5GHZ x 16核 * 内存：64G * GPU： RTX3090 24G显存 * OS： Ubuntu 22 * 硬盘：固态 10T 本地化部署步骤 1.下载和安装Ollama: curl -fsSL https://ollama.com/install.shlsh

DeepSeek R1打造本地RAG知识库的AI助手

在大模型大火特火的今天，搭建一个属于自己的私有 RAG（Retrieval-Augmented Generation，检索增强生成）知识库，能够为特定的业务场景提供高效、精准的知识服务。本文将详细介绍如何利用 ollama 并结合 Dify 来搭建本地的私有 RAG 知识库，涵盖从环境准备到最终部署的完整工作流程以及关键技术细节。一、环境准备在开始工作之前，我们先明确一下本文主要涉及的几个方面： 1. Docker：dify是在docker中安装使用的。 1. Ollama：本地模型的部署和安装，是在ollama中的。 1. 模型：Deepseek r1和Embed模型。 1. Dify：源码下载及安装。 1. 实操：详细的操作使用指南。二、Docker安装 * 打开Docker的官网:https://docs.docker.com/ * 下载对应版本的docker * 下载完成后直接安装运行即可。 * 运行界面如图三、安装

Google I/O 2024：让每个开发者都能用上 AI 并从中受益

作者：Jeanine Banks Developer X 副总裁兼总经理感谢您参加今年的 Google I/O 大会。AI 正在从根本上改变我们打造的产品以及打造产品的方式，在这种新环境下进行创新离不开新工具的帮助。我们致力于通过提供这类工具，让每个开发者都能用上 AI 并从中受益。欢迎您回顾以下重点发布内容，了解我们如何在全栈开发中实现这一目标。生成式 AI 运用我们的多款模型和 API，打造不可思议的 AI 赋能型应用。全新推出 Gemini 1.5 Flash 和 1.5 Pro，支持长达 200 万个词元的上下文窗口 Gemini 1.5 Flash 是我们针对高频任务打造的模型，可帮助简化工作流程并优化 AI 赋能的应用，您可通过 Google AI

大模型

效率与性能提升 | 可供开发者和研究人员使用的 Gemma 2 现已发布

作者 / Google DeepMind 研究副总裁 Clement Farabet 和 Google DeepMind 总监 Tris Warkentin AI 有可能解决人类面临的一些最紧迫的问题，但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候的原因，Gemma 是一系列轻量级开放模型系列，采用了与创建 Gemini 模型相同的研究和技术。我们还陆续推出了 CodeGemma、RecurrentGemma 和 PaliGemma，以此不断发展我们的 Gemma 系列，上述每个模型都能为不同的 AI 任务提供独特的功能，并且可以通过与 Hugging Face、NVIDIA 和 Ollama 等合作伙伴的集成轻松访问。 Gemini 模型 https://deepmind.google/technologies/gemini/ CodeGemma

玩转 Gemma 2，模型的部署与 Fine-Tuning

以下文章来源于谷歌云服务，作者 Google Cloud 作者 / 曹治政，Google Cloud 解决方案架构师 Google 近期发布了最新开放模型 Gemma 2，目前与同等规模的开放模型相比，取得了明显的优势，同时在安全可控性上得到了显著的增强。 Gemma 2 提供了 9B 以及 27B 两种参数规模的选择，同时分别提供了预训练模型 (Gemma 2-9B/Gemma 2-27B) 与指令微调模型 (Gemma 2-9B-it/Gemma 2-27B-it)，优异的性能表现原自 Gemma 2 在训练阶段的各项技术创新。 Gemma 2 支持 8192 tokens 的上下文长度，同时使用了旋转位置编码 (RoPE)。Gemma 2-9B 在 Google TPUv4

智启万象｜即刻开启 AI 创新之旅

谷歌致力于负责任地打造 AI 驱动的产品跟我们一起来回顾 2024 Google 开发者大会 AI 专题演讲探索多款 AI 工具更新了解如何解锁 AI 潜力推动开源协作加快创新速度谷歌致力于让生成式 AI 触手可及，助力全球每一位开发者借助 AI 释放创新潜能，提升开发效率。为此，谷歌提供了三种不同规格的 Gemini 模型*，更好地满足不同的需求，包括适合处理设备端任务的 Gemini Nano，适合处理高容量任务的 Gemini 1.5 Flash，能够处理各种复杂任务 Gemini 1.5 Pro。 Gemini 1.5 Pro & Gemini 1.5 Flash

招募活动投稿展示 | 感受科技温度，从一个 LLM 应用开始

活动介绍是专为 Google 技术的爱好者及开发者们开展的活动，旨在鼓励大家通过多种形式 (文章/视频/coding 等) 创作与 Google 技术相关的讲解分享、实践案例或活动感受等内容，展示代码、框架、平台在真实世界中的生动表现，以及分享您应用 AI 技术的故事经历与成果。作者简介本文作者 Jax，从事 Web 开发工作已有 7 年，也从中获得了很多乐趣。文章导读源自近期的观察和思考，作者萌生了借助 AI 为老年人提供关怀的想法。在谷歌开发者社区举办的 Gemma Hackathon 中将自己的想法付诸了实践，打造了一款 "药童" 的 Web 应用，巧用 LLM 特性帮助老年人轻松读懂药品说明书，展示了科技世界的温度。 *以下为投稿原文，有改动

更小、更安全、更透明 | Gemma 促进负责任的 AI

作者 / 研究工程师 Neel Nanda、Tom Lieberum、Kathleen Kenealy, 产品经理 Ludovic Peran 我们在 6 月发布了全新的一流开放模型，该模型拥有 270 亿 (27B) 和 90 亿 (9B) 两种参数版本。自首次亮相以来，Gemma 27B 模型迅速成为 LMSYS 聊天机器人竞技场排行榜上排名最高的开放模型之一，在实际对话中的表现甚至优于一些规模为其两倍以上的热门模型。 LMSYS 聊天机器人竞技场排行榜 https://chat.lmsys.org/?leaderboard Gemma 不仅关注性能，还在负责任的 AI 基础之上，优先考虑安全性和可访问性。为了支持这一承诺，我们很高兴地为您推出 Gemma 2 系列的三个新模型: 1. Gemma

DeepSeek-R1技术笔记 (含图解和技术点介绍)

DeepSeek-R1技术笔记 (含图解和技术点介绍) 原创艾尔文很爱问 2025年02月07日 23:31 广东最近DeepSeek-R1简直杀疯了，所以我特地看了论文和一些相关技术点（包括GRPO、拒绝采样、PRM、MCTS），并做了相关笔记，希望能帮到大家跟进前沿工作。推荐指数：5星。不足之处，还望批评指正。文章可能会很长，读不完的伙伴建议收藏。论文：2025 | Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning 机构：DeepSeek 代码：https://github.com/deepseek-ai/DeepSeek-R1 论文：https://arxiv.org/pdf/2501.12948? DeepSeek推出了全新的推理模型：DeepSeek-R1-Zero和DeepSeek-R1。

大模型

手把手教学，DeepSeek-R1微调全流程拆解

手把手教学，DeepSeek-R1微调全流程拆解原创极客见识 2025年02月09日 09:02 广东 DeepSeek 通过发布其开源推理模型 DeepSeek-R1 颠覆了 AI 格局，该模型使用创新的强化学习技术，以极低的成本提供与 OpenAI 的 o1 相当的性能。更令人印象深刻的是，DeepSeek 已将其推理能力提炼成几个较小的模型。这篇文章，我们将使用其蒸馏版本之一引导大家完成 DeepSeek-R1 的整个微调过程。本文章将演示了如何微调其中一个模型（使用我们自己的自定义思维链数据集），然后保存和部署微调后的模型。高级推理模型微调 DeepSeek 简介 DeepSeek-R1 是由深度求索（DeepSeek）公司开发的突破性推理模型。DeepSeek-R1 基于 DeepSeek-V3-Base（总共 671B 个参数，每次推理 37B 处于活动状态）构建，使用强化学习（RL）在提供最终答案之前生成思路链