前言
在人工智能领域,我们经常听到'行业大模型'、'医疗大模型'、'开源大模型'等术语,甚至出现'产品 + 大模型'的命名方式,例如百度的文心一言。然而,严格来说,文心一言属于大语言模型(LLM)。虽然'大模型'和'大语言模型'仅差两个字,但它们之间存在着包含与被包含的主从关系。理解这一区别对于把握技术发展趋势至关重要。
本文详细阐述了大模型与大语言模型的区别与联系。大模型是基于神经网络的宽泛概念,参数量达亿级至千亿级,涵盖语言、视觉、多模态、决策及垂直行业等多个类别。大语言模型(LLM)作为大模型的重要分支,专注于自然语言处理。文章对比了通用大模型与行业垂直大模型在训练数据和能力上的差异,分析了大模型与 AIGC 的关系,指出大模型是 AIGC 的基石。此外,文中还介绍了 Transformer 架构、预训练与微调范式、主流评估指标,探讨了国内大模型生态现状及面临的算力、幻觉、安全等挑战,并对未来人才需求和技术趋势进行了展望。

在人工智能领域,我们经常听到'行业大模型'、'医疗大模型'、'开源大模型'等术语,甚至出现'产品 + 大模型'的命名方式,例如百度的文心一言。然而,严格来说,文心一言属于大语言模型(LLM)。虽然'大模型'和'大语言模型'仅差两个字,但它们之间存在着包含与被包含的主从关系。理解这一区别对于把握技术发展趋势至关重要。
大模型的概念建立在神经网络模型之上。神经网络是一种基于生物学神经系统结构和功能的计算模型,旨在模仿人脑的学习和决策过程。
该模型由多个神经元组成,这些神经元通过权重连接形成层次结构,通常分为输入层、隐藏层和输出层:
神经网络通过学习调整连接权重,从而能够识别模式、进行分类或回归任务。训练过程通常包括提供输入数据和相应的期望输出,然后通过反向传播算法来调整权重,使得网络的输出逼近期望的输出。这个过程反复迭代,直到网络能够准确执行任务。
可以将神经网络想象成一个初生的婴儿,每当婴儿看到一个新物体(如苹果),并被告知'这是一个苹果',这就相当于在神经网络中调整连接的权重,让大脑建立起'苹果'的概念。随着时间推移,婴儿逐渐长大,依靠计算机强大的计算能力完成更复杂的任务。
大模型的核心特征在于其参数量达到了亿级甚至千亿级。近期的研究成果基本集中在百亿到千亿的范围。这并非终点,大模型的神经元数量和相关参数量正朝着远超人类大脑神经元数量的方向发展,以换取更强的泛化能力和推理能力。
模型的发展最初伴随着自然语言处理技术的进步,因为文本数据量更大且更容易获取。因此,目前大模型最大的分类是大语言模型。近两年,衍生出一些语言与其他形式融合的大模型,例如文字生成音乐(MusicLM)、文字生成图像(DALL-E2, Midjourney)以及文字图像生成机器人动作(RT-1)等。
大模型包括但不限于以下几类:
专注于处理自然语言,能够理解、生成和处理大规模文本数据。在机器翻译、文本生成、对话系统等任务上取得显著成果。
专注于计算机视觉任务,例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。
能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态是大模型接下来发展的一大趋势。
专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。
专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。
大语言模型只是大模型的一个子集。我们有时候简称大模型倒也没有什么问题,但在严谨的技术讨论中需要注意区分。
大语言模型和行业垂直大模型有非常明显的区别,主要体现在训练数据的侧重点上:
因此,在使用通用 AI 工具(如 ChatGPT)询问专业知识时,经常会出现 AI 幻觉。而垂直大模型在特定领域内回答更加精准。
开源的 LLaMA 大模型是一个大语言模型,很多行业大模型都是从这个基础模型调教出来的。它就像一个正在读医的大学生,拥有广泛的基础知识但缺乏临床经验。而 DoctorGPT 这样的产品就像是一个从业多年的医科教授。因此,问一些专业的医科问题时,肯定是医科教授回答更加精准,简单问题大学生也能回答,但专业细节上教授更具权威性。
大模型和 AIGC(生成式人工智能)是人工智能领域中的两个重要概念。
从一定意义上说,大模型是 AIGC 的一种表现形式,或者说,大模型是 AIGC 的基石。AIGC 代表的是人工智能从 1.0 时代到 2.0 时代的跃迁,其技术核心是利用人工智能算法生成具有一定创意和质量的内容。而大模型,如 GPT-3,可以通过对大量数据的训练,习得如何生成自然流畅的文本内容,这是 AIGC 的一个重要应用。
大模型和 AIGC 分别代表了人工智能的深度学习和生成式智能这两个不同的方向。其中 AIGC 更强调生成内容的能力和应用场景。通俗点理解,AIGC 代表的是一种技术实现形态,而大模型是技术实现其中的核心环节或基础设施。
为了深入理解大模型,我们需要了解其背后的技术支撑。
现代大模型几乎都基于 Transformer 架构。其核心创新在于自注意力机制(Self-Attention),这使得模型能够并行处理序列数据,并捕捉长距离依赖关系,解决了传统 RNN/LSTM 在处理长文本时的梯度消失和计算效率问题。
评估大模型性能通常关注以下维度:
国内 AI 大模型已近 80 个,呈现出'百模大战'的局面,类似于春秋战国时期的'百家争鸣'。各大厂商依托自身业务场景和数据优势,构建了各自的模型体系。
根据 SuperCLUE 等权威排行榜的表现,国内头部模型在中文理解、逻辑推理及代码生成方面已具备国际竞争力。主要玩家包括百度、阿里、腾讯、字节、华为以及众多创业公司。
尽管大模型发展迅猛,但仍面临诸多挑战:
训练和推理大模型需要巨大的 GPU 集群支持,能耗和硬件成本高昂,限制了中小企业的参与门槛。
模型可能会生成看似合理但事实错误的内容,这在医疗、法律等高风险领域尤为致命。需要通过检索增强生成(RAG)等技术缓解。
训练数据可能包含敏感信息,模型本身也可能泄露隐私。联邦学习、差分隐私等技术正在被探索用于保护数据。
大模型通常被视为'黑盒',难以解释其内部决策逻辑。提高可解释性是建立信任的关键。
大模型时代,企业对人才的需求发生了转变。掌握大模型技术的人才稀缺,薪资持续走高。全栈大模型工程师不仅需要具备 Prompt Engineering、LangChain 开发能力,还需掌握模型微调(LoRA, P-Tuning)、部署优化及 GPU 算力调度技能。
大模型不仅是技术的革新,更是生产力的重塑。从大语言模型到多模态大模型,再到垂直行业大模型,技术边界正在不断拓展。对于开发者而言,理解大模型的本质、掌握其开发流程、关注伦理与安全,是在这一浪潮中立足的关键。未来,随着端侧大模型的发展和推理成本的降低,大模型将更深入地融入各类应用场景,推动人工智能进入普及化时代。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online