前言
ChatGPT 等生成式 AI 产品展现了强大的自然语言处理能力,类似的产品如文心一言、通义千问、Kimi Chat 等层出不穷。AI 应用已逐渐渗入工作和生活的诸多场景。面对这一技术浪潮,深入理解其原理与机制至关重要。
大语言模型的定义与特点,解析了 Transformer 架构的工作原理及结构。对比了开源与闭源模型在性能、成本、灵活性和隐私方面的差异,阐述了从数据准备、预训练、微调、评测到部署的全流程。探讨了开发者如何根据资源参与大模型领域,并展望了模型小型化、多模态及新架构的发展趋势。

ChatGPT 等生成式 AI 产品展现了强大的自然语言处理能力,类似的产品如文心一言、通义千问、Kimi Chat 等层出不穷。AI 应用已逐渐渗入工作和生活的诸多场景。面对这一技术浪潮,深入理解其原理与机制至关重要。
大语言模型(Large Language Model, LLM)是一种用于处理自然语言的机器学习模型,采用神经网络架构,属于生成式 AI。它通过预训练与微调相结合的方法,利用大规模无监督语料库学习丰富的语言知识,从而能够生成自然流畅的语言。简单来说,该模型能像人脑一样学习知识,并根据所学生成类人内容。
相比传统自然语言模型,大语言模型的创新主要体现在'大'和'新'。
参数可类比大脑中的神经元。神经元越多,理论上越可能出现高级智慧。例如 GPT-3 参数高达 1750 亿,马斯克开源的 Grok-1 有 3140 亿参数,Meta 开源的 Llama 3 70B 也有 700 亿参数。榜单上评分较高的模型通常参数较大,尤其在逻辑或数学方面得分越高,参数规模往往越大。
GPT-3 的预训练数据量高达 45TB,涵盖维基百科、书籍、期刊及代码等多种类型数据。
训练大语言模型需要大量显卡。Google 拥有的 H100 显卡数量高达 2.6 万块,显存总量巨大。运行这些资源需要深厚的硬件支撑。
Transformer 模型由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它采用了自注意力机制(Self-Attention)、多头注意力机制和位置编码等关键技术,极大增强了模型的处理能力和学习效率,是当下最流行的架构。
基于 Transformer 架构的生成式 AI 主要目标是生成文本。生成时根据输入内容和已生成的文本一起预测下一个字(Token),直到结束符号出现。当前生成的字将作为生成新字的输入,实现一字一字的生成。
例如输入'我',模型可能生成'我是',再根据'我是'生成'我是 AI'。这取决于训练数据。如果更换训练数据,模型可能生成'我是大熊猫'。
Transformer 由一个编码器(Encoder)和一个解码器(Decoder)组成。每个部分通常包含 6 层编码层和解码层。
![Transformer 架构图]
每个编码层包含一个自注意力层(self-attention)和一个前馈神经网络层(Feed Forward)。多头注意力(Multi-Head Attention)初始化了多组平行的自注意力层,以获得对输入序列更丰富的理解。
解码层结构类似,由掩码自注意力层(masked multi-head attention)、编码 - 解码注意力层(Encoder-Decoder)和前馈神经网络层组成。掩码自注意力层遮盖当前词后面的词,确保训练时只关注当前词。编码 - 解码注意力层接收编码器输出与上层自注意力层输出作为参考。
最后,通过 Linear 层和 Softmax 层将输出转为文字概率,选择概率较高的文字输出,重复此过程直到结束。
大语言模型主要分为两大类:开源大模型和闭源大模型。
开源大模型允许获取模型文件本身,并在此基础上调整。源代码和训练数据通常公开,开发者可根据需求修改优化,满足特定场景。例如 Llama 3、GLM、Qwen 等。
闭源大模型用户只能通过厂商 API 使用。部分厂商提供微调服务,但仅能调整输出结果,无法修改模型本身。例如 GPT 系列、Gemini、Claude 等。
闭源模型综合性能通常更高,但开源模型差距并不太大。OpenCompass 榜单显示前 10 位多为闭源,因盈利投入更多资源。但在特定维度,开源模型表现优异,如 Qwen72b 在知识维度略低于 GPT-4o,Llama3 70b 在数学维度接近 Claude3-Opus。
经验法则:一块 A100 约等于 10 亿个 GPT-4o token。项目初期用户少时用闭源 API 合适,规模扩大后购买硬件部署开源模型成本更可控。
开源模型更具灵活性,支持 LoRA、QLoRA 和全量参数微调,调整范围广。闭源模型通常仅提供 API 微调,影响较小,多针对输出格式和风格调整。
ToC 项目且不涉及隐私、预算有限时,选性能好的闭源模型。需本地化部署时,选适合的开源模型。
数据质量决定模型性能。高质量数据如同擅长学习的大脑。需准备垂直领域优质数据以提升特定能力。
不同厂商提供不同预训练模型,在架构、训练方法和优化策略上各有差异。厂商不断尝试更强架构和高效训练方法。
在预训练模型基础上,使用特定任务数据再训练,提高模型在该任务上的表现。需选择合适的超参数和调整训练策略。
训练完成后需全面评测,包括准确率、召回率、F1 值等指标,并进行实际场景测试,发现缺陷并优化。
部署需考虑运行效率、稳定性和资源占用。选择合适的软硬件平台,设置监控系统及时发现解决问题。
结合用户场景与需求,搭配大模型能力创造价值。主流方向为 RAG 系统和 Agent 系统。
检索增强生成(Retrieval-Augmented Generation, RAG)从数据库或知识库检索相关信息,在此基础上生成内容。
Agent(智能体)是在特定环境中执行自主活动的软件系统,能思考如何行动、使用工具、观察结果。
应积极学习并深入了解人工智能浪潮。
天然接近 AI,应分出精力了解相关知识。尝试将 AI 技术应用到项目中,优化现有系统或开发新应用。保持积极心态拥抱变革。
无论角色如何,都应正视 AI 发展,确保自身或企业处于"AI-READY"状态。积极了解并使用 AI 应用,将其融入日常工作流程。
参考行业全流程,根据自身资源参与:
| 序号 | 掌握的资源 | 所属流程 | 我们能干什么 |
|---|---|---|---|
| 1 | 垂直行业数据(如医疗疾病数据) | 数据 | 基于开源模型微调垂直行业模型,或与第三方合作。 |
| 2 | 相关技术资源及大量计算资源 | 预训练模型 | 通常只有大公司能做,可提供开源模型或 API。 |
| 3 | 计算资源、高质量数据集、技术团队 | 微调 | 协助数据收集清洗,提供微调服务。 |
| 4 | 专业技术团队、评估方法或工具 | 评测 | 评估现有模型,选择适合客户的模型,提供性能报告。 |
| 5 | 专业技术团队、部署方法或工具 | 部署 | 帮助客户部署模型,确保稳定运行,提供技术支持。 |
| 6 | AI 知识、软件开发能力、开发框架知识 | 应用开发 | 根据场景提供基于大模型的应用开发。 |
| 7 | AI 应用操作方法 | 使用 AI 应用 | 利用 AI 优化工作流程,学习 AI 知识。 |
为解决算力限制,厂商发布较小参数模型。微软 Phi-3 Mini 仅 38 亿参数,性能接近 GPT-3.5,可部署在手机等终端。
大模型具备处理图片、音频等多模态能力。如 GPT-4o 可直接处理音频信息,未来将支持视频输入及音视频输出。
基于 Transformer 和 GPU 的性能曲线趋于平缓,新的硬件架构加上新的模型架构将接力。例如基于存算一体架构的新模型架构。
随着技术进步和需求变化,大型语言模型发展方向将更加多样化和专业化,与日常生活和工作结合越来越紧密。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online