跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
PythonAI算法

大模型学习路线:从新手到专家的完整路径

综述由AI生成提供了一条从零开始学习大模型的完整路径,遵循从实践到理论再回归实践的规律。内容涵盖普通用户 Prompt 工程技巧、程序员 AI 辅助编码、API 调用开发、LangChain 应用构建、RAG 检索增强生成及 Agent 智能体设计。进阶部分深入讲解模型微调技术如 LoRA、QLoRA、SFT 及 RLHF,并涉及多模态处理、硬件部署与商业化考量。旨在帮助读者建立系统的知识体系,从入门到专家逐步掌握大模型核心技术与应用场景。

监控大屏发布于 2025/2/6更新于 2026/4/256 浏览
大模型学习路线:从新手到专家的完整路径

0 基础入门大模型,这些是要学的,但是你的第一口不一定从这里咬下去。

真的没有必要一上来就把时间精力全部投入到复杂的理论、各种晦涩的数学公式还有编程语言上,这样不仅容易让你气馁,而且特别容易磨光热情。

当我们认识复杂新事物时,最舒适的路径应当是:感性认识现象->理解本质和原理->将所学知识用于解释新现象并指导实践。

所以我给出的这条路径是:先学会如何使用大模型,然后了解其背后的原理,最后探索如何将其应用于实际问题。

作为一个普通人,把大模型用起来

如果说大模型像一个矿藏,那么 prompt 就像是一把铲子,从哪个角度挖,如何挖,决定了你能开采出什么内容。

一个清晰有效的 prompt 包含角色、任务目标、上下文、输出要求、限定条件、理想示例等一系列内容,只有把 prompt 设计好了,大模型才有可能发挥出理想的效果。

推荐 Prompt 模板:

# Role
[设定角色]

# Profile
- author: [作者]
- version: [版本]
- language: [语言]
- description: [描述]

# Skills
- [技能 1]
- [技能 2]

# Goals
- [目标 1]
- [目标 2]

# Constraints
- [限制 1]
- [限制 2]

# Workflow
1. [步骤 1]
2. [步骤 2]

# Output Format
[期望的输出格式]

作为一个程序员,把大模型用起来

学会使用 Copilot、通义灵码之类的 AI 编程工具来提升编码效率。现阶段 AI 辅助编程在代码补全以及注释生成方面表现还不错,因此需要你来把架子搭好、把模块分好。这样无形中还能提高你的架构能力。

建议配置 IDE 插件,如 VS Code 的 GitHub Copilot 或 Cursor,利用 AI 进行单元测试生成、代码重构和遗留代码解释。

作为一个大模型套壳程序员,玩一下

掌握如何调用市面上常见的大模型 API,结合自己的想法实现具体的小任务,这对初学者来说是一个实际操作的好机会。

Python API 调用示例:

import requests

def call_llm(prompt):
    url = "https://api.example.com/v1/chat/completions"
    headers = {
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    }
    payload = {
        "model": "gpt-3.5-turbo",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

print(call_llm("你好,请介绍一下大模型"))

这时候你就获得了实践经验和对 AI 的直观认识。接下来就可以进入更深一层的大模型应用技术了。

作为一个大模型应用开发程序员,把大模型用起来

在工具方面,需要学习如 LangChain 这样的开发库,以及如 LlamaIndex 这样的数据索引和检索工具。

RAG (Retrieval-Augmented Generation) 检索增强生成

RAG 是 LLM 落地最早的一个方向之一。简单来说就是搭建一个私有的知识库,将你的私有知识数据存储在向量数据库中,然后对话的过程中按照某些策略去检索这些知识,然后提供给大模型进行参考。

逻辑流程:

  1. 数据提取:从文档、数据库中提取文本。
  2. Embedding(向量化):使用嵌入模型将文本转换为向量。
  3. 索引创建:将向量存入向量数据库(如 Milvus, Chroma, FAISS)。
  4. 检索:根据用户问题检索相似向量。
  5. 排序:对检索结果进行相关性排序。
  6. LLM 生成:将检索到的上下文与问题一起输入 LLM 生成回答。

这部分内容技术细节很多,也非常有趣,很有搞头。重点在于处理长文本切片(Chunking)和混合检索策略。

Agent (智能体)

大模型应用的风口方向,非常香!简单来说就是给大模型大脑制定一个策略,让它可以自主地去感知环境并且进行任务执行。

典型的 AI agent 分为 Memory(记忆)、Tools(外部工具)、Planning(计划)和 Action(行动) 四个模块。

  • Memory: 短期记忆(当前会话)和长期记忆(向量存储的历史)。
  • Tools: 搜索、计算器、API 调用等能力。
  • Planning: 任务拆解,如 CoT (Chain of Thought)。
  • Action: 执行具体操作。

Agent 相关的开源项目以及产品非常多,可以边研究边学边做,例如 AutoGen, LangGraph。

至此,应用方面的板块内容就介绍完了。注意这个路径虽然更适合 0 基础入门,但是并不代表轻松简单。出来混,总要还的,因为我们前期跳过了很多基础知识,所以意味着越往后学,越需要回填大量前置内容,比如:

  • 掌握 Python 编程基础
  • 掌握向量数据库原理
  • 熟悉常用的库和工具,如 NumPy、Pandas、TensorFlow、PyTorch 等
  • 具备 NLP 相关的基础知识,包括文本预处理、分词、词性标注、命名实体识别、词向量表示等
  • Transformer 模型的结构和原理、基于注意力机制的自然语言处理技术等
  • BERT、BART、T5 等经典的模型
  • 数学基础知识(线性代数、概率论、微积分)

说真的,补理论知识、搭项目环境,这个过程自己摸索和踩坑的话还是非常痛苦的。很有可能学着学着就放弃了。建议配合系统课程或文档进行理论学习。

深水区:模型训练和微调

在这一阶段,重点学习各种常见的预训练模型、模型结构及其主要的预训练任务。

  • Prompt-Tuning / Prefix-Tuning / P-Tuning: 通过 Prompt 更精细地控制模型在特定场景下的表现。
  • LoRA / QLoRA: 通过局部调整网络参数来提高模型的灵活性和效率,降低显存需求。
  • SFT (Supervised Fine-Tuning): 监督微调,构建高质量指令数据集。
  • RLHF (Reinforcement Learning from Human Feedback): 人类反馈强化学习,对齐人类价值观。

掌握强化学习基础;使用工具来优化文本数据的预处理过程,如清洗、去重、格式化。

多模态

大模型的重要的发展方向,探索如何处理和整合多种类型的数据(文本、图像、声音等),学习构建多模态模型。例如 CLIP 模型用于图文匹配,Stable Diffusion 用于文生图,以及 GPT-4V 等多模态大模型。

硬件与部署

在实际应用中,推理成本是关键。

  • 推理加速: 使用 vLLM, TensorRT-LLM 等框架提升吞吐量。
  • 量化: INT8, FP16 量化减少显存占用。
  • 服务化: 使用 FastAPI 封装模型接口,Docker 容器化部署。

产品和交付

大模型时代的产品,无论从用户需求、产品逻辑还是产品形态、商业模式等方面,大家都还处于摸索状态,因此在学习大模型领域知识时一定要一直看到产品和商业化这一层。

看清楚了哪个赛道拥挤、哪个领域是风口,就能够更好地把握职业机会,更有效地将大模型技术转化为求职市场的竞争力。

我们把这个路径捋一下,就得到了这张 AI 大模型全栈知识地图:

从下往上看,就是我所说的'从实践到理论再到实践'的学习路径了。这样看起来是不是既清晰又舒适呢?

最后,要想拿到好的大模型相关岗位 offer,还需要大量积累论文学习经历以及项目经验。比如可以参加一些竞赛,像国外的 Kaggle 和阿里云天池都是获取项目经验的好途径。关注 ArXiv 上的最新论文,尝试复现经典模型,这些都是面试中的加分项。

目录

  1. 作为一个普通人,把大模型用起来
  2. Role
  3. Profile
  4. Skills
  5. Goals
  6. Constraints
  7. Workflow
  8. Output Format
  9. 作为一个程序员,把大模型用起来
  10. 作为一个大模型套壳程序员,玩一下
  11. 作为一个大模型应用开发程序员,把大模型用起来
  12. RAG (Retrieval-Augmented Generation) 检索增强生成
  13. Agent (智能体)
  14. 深水区:模型训练和微调
  15. 多模态
  16. 硬件与部署
  17. 产品和交付
  • 💰 8折买阿里云服务器限时8折了解详情
  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • C++ 智能指针:使用场景、实现原理与内存泄漏防治
  • Spring Boot 4.0 与 Spring Cloud Alibaba 2025 整合指南
  • Spring Boot 使用 web3j 交互智能合约详解
  • AI 绘画工作台:Z-Image-Turbo 云端协作部署指南
  • OpenClaw Skills 安装与实战:构建 AI 技能工具箱
  • 基于FPGA的CARRY4 抽头延迟链TDC延时仿真
  • Java 中间件:Dubbo 服务降级(Mock 机制)
  • 深入剖析 Spring 框架:架构、缺陷与演进之路
  • OpenClaw Skills 安装与实战:打造你的 AI 技能工具箱
  • Java 集合框架进阶:Map 接口核心原理与实战
  • OpenClaw 是一个开源的、面向具身智能(Embodied AI)与机器人操作研究的多模态大模型框架
  • Faster-Whisper-GUI 日语语音识别长音频异常修复指南
  • FLUX.1-dev FP8 量化模型部署与优化指南
  • C++ 智能指针详解:从裸指针到 unique_ptr、shared_ptr、weak_ptr
  • 基于FPGA的CARRY4抽头延迟链TDC延时仿真
  • 大模型、超大模型与 Foundation Model 技术精要
  • OpenAkita:自我进化的开源 AI 助手框架
  • 国内人工智能领域头部企业概览与求职方向分析
  • 基于 FPGA 的并行 FIR 滤波器设计与实现
  • 日本 Sakana AI 发布进化模型融合研究,模仿生物进化构建基础模型

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online