跳到主要内容 大模型学习笔记:从零认识大模型基础与原理 | 极客日志
编程语言 AI 算法
大模型学习笔记:从零认识大模型基础与原理 人工智能到大模型的演变历程,涵盖机器学习、深度学习及生成式人工智能的核心概念。详细解析了大模型的训练流程,包括预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。阐述了大模型的分词机制、自回归生成原理,并分类介绍了大语言模型、多模态模型等类型。深入探讨了 Transformer 架构、注意力机制及提示工程基础,分析了典型应用场景、当前面临的幻觉与算力挑战,并展望了模型轻量化、多模态融合及垂直领域深化的未来趋势,为读者提供系统的大模型技术认知框架。
监控大屏 发布于 2025/2/7 更新于 2026/4/20 1 浏览
1.1 从人工智能到大模型的演变 人工智能按照技术实现的不同可被划分为多个子领域,各个子领域之间往往相互关联和影响。大模型是人工智能领域的一个重要里程碑,它推动了人工智能技术的发展,并为人类的未来带来新的可能性。
1、机器学习 机器学习 (Machine Learning, ML) 是一门研究计算机如何在没有明确编程的情况下,通过对数据进行分析、学习,自动改进其行为或做出预测的学科。关键概念包括监督学习、无监督学习和强化学习。
机器学习旨在使计算机系统具备从经验中学习的能力,以适应新情况、解决问题或完成特定任务。以教一个孩子区分不同的水果为例:
监督学习 :你拿着一个苹果和一个香蕉,告诉孩子:'这是苹果,它的形状是圆的,颜色通常是红色或绿色;这是香蕉,它的形状是长条形,颜色通常是黄色。'孩子会学习到特征与类别的对应关系。监督学习需要在机器进行学习时人为提供数据对象的类别。
无监督学习 :你让孩子观察一堆水果,没有直接告诉他每一个水果的名称。无监督学习一般没有预设的类别标识,通过机器自动学习数据的分布并将相似的数据对象归为同类。
强化学习 :你不会直接教孩子苹果和香蕉的区别,而是每次展示一个水果让他进行判断。如果他判断正确,就给他一个奖励;如果判断错误,则不给奖励。这种学习过程中的关键在于孩子需要在探索新的判断方法和利用已有经验之间找到平衡,以最大化获得奖励的次数。
2、深度学习 深度学习是机器学习的一个分支,主要使用神经网络模型(由多个隐藏层组成)对数据进行学习和表示。深度学习算法试图模拟人类大脑的工作方式,其灵感来源于神经生物学,它通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别、语音识别、自然语言处理等任务。按照架构的不同,神经网络可以分为:卷积神经网络 (CNNs)、循环神经网络 (RNNs)、Transformer 网络等等。关键概念包括神经网络、CNNs、RNNs、Transformer。
同样是区分不同水果,这次你带着孩子去了超市,那里有各种不同的水果。你没有解释每种水果的特点,只是给孩子指出了哪些是苹果哪些是香蕉,他通过观察和比较,慢慢学会了辨认各种水果。在这个过程中,孩子的大脑(在这里比喻为深度学习模型)自动从复杂的视觉、嗅觉等信号中提取层次化的特征,比如圆形、条纹、颜色深浅、气味等,从而达到识别水果的目的。
3、生成式人工智能 生成式人工智能 (Generative AI) 是深度学习中快速增长的子集,2023 年热门模型和应用 ChatGPT、Stable Diffusion 等都属于生成式人工智能领域,它们使用了大模型提供支持,在大量原始、未标记的数据基础上对深度学习模型进行预训练,使得机器能够'理解'语言甚至图像,并能够根据需要自动生成内容。
1.2 大模型,它来了! 2021 年,斯坦福大学的研究员团队发表了一篇论文,提出了 Foundational Models(基础模型,即大模型)的概念。简单来说,它是一类具有大量参数(通常在十亿以上),能在极为广泛的数据上进行训练,并适用于多种任务和应用的预训练深度学习模型。
大模型通过广泛数据集的训练后,可以适用于多种多样的需求。2022 年 11 月,OpenAI 公司发布了 ChatGPT——一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。ChatGPT 的发布标志着 AI 大模型在语言理解与生成能力上的重大突破,对全球 AI 产业产生了深远影响,开启了人工智能大模型应用的新篇章。
大模型是如何通过训练得到的,整体分为三个阶段:预训练、SFT(监督微调)以及 RLHF(基于人类反馈的强化学习)。
1、预训练 预训练(Pre-training)的过程类似于从婴儿成长为中学生的阶段,在这个阶段我们会学习各种各样的知识,我们的语言习惯、知识体系等重要部分都会形成;对于大模型来说,在这个阶段它会学习各种不同种类的语料,学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子,却没有学会怎么样去领会人类的意图。假设我们向预训练的模型提问:'埃菲尔铁塔在哪个国家?'模型有可能不会回答'法国',而是根据它看到过的语料进行输出:'东方明珠在哪个城市?'这显然不是一个好的答案,因此我们需要让它能够去遵循人类的指示进行回答,这个步骤就是 SFT(监督微调)。
2、监督微调 监督微调(SFT, Supervised Fine Tuning)的过程类似于从中学生成长为大学生的阶段,在这个阶段我们会学习到专业知识,比如金融、法律等领域,我们的头脑会更专注于特定领域。对于大模型来说,在这个阶段它可以学习各种人类的对话语料,甚至是非常专业的垂直领域知识,在监督微调过程之后,它可以按照人类的意图去回答专业领域的问题。这时候我们向经过 SFT 的模型提问:'埃菲尔铁塔在哪个国家?'模型大概率会回答'法国',而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答有时候可能并不符合人类的偏好,它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论,这时候我们就需要对模型进行 RLHF(基于人类反馈的强化学习)。
3、基于人类反馈的强化学习 基于人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)的过程类似于从大学生步入职场的阶段,在这个阶段我们会开始进行工作,但是我们的工作可能会受到领导和客户的表扬,也有可能会受到批评,我们会根据反馈调整自己的工作方法,争取在职场获得更多的正面反馈。对于大模型来说,在这个阶段它会针对同一问题进行多次回答,人类会对这些回答打分,大模型会在此阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。
1.3 大模型的特点
规模性 :参数量巨大,通常达到数十亿甚至数千亿级别。
通用性 :经过大规模预训练,具备处理多种任务的能力。
涌现性 :随着规模增加,模型展现出小模型不具备的新能力。
自适应性 :能够通过少量样本快速适应新任务。
1.4 大模型的分类 按照应用场景,大模型可以大致分为以下四类:大语言模型 (LLM)、多模态模型、计算机视觉模型、音频处理模型。
1、大语言模型 大语言模型(LLM):这类大模型专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构(如 Transformer 模型),经过大规模文本数据集训练而成,能够捕捉语言的复杂性,包括语法、语义、语境以及蕴含的文化和社会知识。语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。示例包括 GPT 系列、Bard、通义千问等。
2、多模态模型 多模态模型:多模态大模型能够同时处理和理解来自不同感知通道(如文本、图像、音频、视频等)的数据,并在这些模态之间建立关联和交互。它们能够整合不同类型的输入信息,进行跨模态推理、生成和理解任务。多模态大模型的应用涵盖视觉问答、图像描述生成、跨模态检索、多媒体内容理解等领域。例如视觉 + 文本包括 VQA 视觉问答、图像字幕、图文检索、文生图等应用;音频 + 文本包括语音生成、语音摘要、语音识别等应用。
1.5 大模型是如何工作的 大模型的工作流程可以分为两部分,第一部分是分词化与词表映射,第二部分为生成文本。
1、分词与词表映射 分词化(Tokenization)是自然语言处理(NLP)中的重要概念,它是将段落和句子分割成更小的分词(token)的过程。举一个实际的例子,以下是一个英文句子:I want to study ACA.
为了让机器理解这个句子,对字符串执行分词化,将其分解为独立的单元。使用分词化,我们会得到这样的结果:['I', 'want', 'to', 'study', 'ACA', '.']
将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分,以及它们在上下文中的作用,这对于进行大量上下文的分析尤其重要。分词化有不同的粒度分类:
词粒度(Word-Level Tokenization) :分词化,如上文中例子所示,适用于大多数西方语言,如英语。
字符粒度(Character-Level) :分词化是中文最直接的分词方法,它是以单个汉字为单位进行分词化。
子词粒度(Subword-Level) :分词化,它将单词分解成更小的单位,比如词根、词缀等。这种方法对于处理新词(比如专有名词、网络用语等)特别有效,因为即使是新词,它的组成部分(子词)很可能已经存在于词表中了。
每一个 token 都会通过预先设置好的词表,映射为一个 token id,这是 token 的'身份证',一句话最终会被表示为一个元素为 token id 的列表,供计算机进行下一步处理。
2、大语言模型生成文本的过程 大语言模型的工作概括来说是根据给定的文本预测下一个 token。对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。
大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的 token,根据概率最大原则预测出下一个最有可能的 token,然后将该预测的 token 加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个 token,这个过程叫做自回归。直到输出特殊 token(如 end of sentence,专门用来控制推理何时结束)或输出长度达到阈值。
1.6 核心技术与架构
1、Transformer 架构 目前绝大多数大模型都基于 Transformer 架构。Transformer 引入了自注意力机制(Self-Attention),使得模型能够并行处理序列数据,并捕捉长距离依赖关系。相比 RNN,Transformer 在处理长文本时效率更高,且更容易训练。
2、注意力机制 注意力机制允许模型在处理当前 token 时,关注输入序列中的其他相关 token。这有助于模型理解上下文关系,例如在句子'银行位于河边'中,模型能准确判断'银行'指的是金融机构而非河岸机构。
1.7 提示工程基础 提示工程(Prompt Engineering)是通过设计特定的输入指令来引导大模型生成高质量输出的技术。常见的策略包括:
零样本提示(Zero-shot Prompting) :不提供示例,直接给出指令。
少样本提示(Few-shot Prompting) :提供少量示例,帮助模型理解任务模式。
思维链(Chain-of-Thought) :引导模型逐步推理,提高复杂问题的解决能力。
角色设定 :赋予模型特定角色,使其回答更符合特定场景需求。
1.8 应用场景与挑战
1、典型应用场景
智能客服 :自动化处理用户咨询,提供 24/7 服务。
代码辅助 :生成代码片段、解释代码逻辑、检测潜在 bug。
内容创作 :辅助撰写文章、营销文案、剧本大纲。
数据分析 :从非结构化数据中提取洞察,生成报告。
2、面临的挑战
幻觉问题 :模型可能生成看似合理但事实错误的信息。
上下文限制 :受限于显存和计算资源,输入长度有限制。
算力成本 :训练和推理需要巨大的 GPU 资源,成本高昂。
伦理与安全 :存在偏见、隐私泄露及被恶意使用的风险。
1.9 未来发展趋势
1、模型轻量化 为了降低部署成本,模型压缩、蒸馏和量化技术将成为热点,使得大模型能在边缘设备上运行。
2、多模态融合 未来的模型将更好地融合文本、图像、音频和视频,实现真正的通用人工智能体验。
3、垂直领域深化 通用大模型将向医疗、法律、金融等垂直领域深耕,结合行业知识库提供更精准的服务。
1.10 总结 大模型作为人工智能发展的最新成果,正在重塑各行各业的生产力。从机器学习到深度学习,再到生成式人工智能,技术的演进路径清晰可见。理解大模型的训练流程、工作原理及局限性,有助于开发者更好地利用这一技术解决实际业务问题。随着技术的不断成熟和成本的降低,大模型将在更多场景中发挥关键作用,推动社会智能化进程。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online