大模型 is all you need?
本文旨在通过对业务案例、prompt 技巧、大模型原理等探讨,让大家能够更好地在实际业务中应用大模型。
最佳食用顺序和方法:
考虑到非技术背景的同学可能较多,以及避免先讲原理再案例的枯燥,影响阅读效果,改成了先业务案例后技术原理的顺序。
如果对大模型原理和 prompt 技巧感兴趣,或者有相关背景,可以尝试从第三部分开始,先了解原理和技巧,再看业务中如何使用的,有助 prompt 技巧的理解和记忆。
本文主要分为三大部分,每个部分都会在开头提出两个问题,每部分的正文都是围绕问题展开的,阅读时牢记问题,有助于消化吸收。
一、从语义向量和业务场景了解模型能力和应用侧重点
本节从语义向量空间的角度,解释了大模型完成各类语言任务的原理和难度层级,并尝试将模型的应用分为不同业务场景,并介绍各自侧重点。
目标是回答两个问题:
- 模型具备哪些能力,可以帮助我们完成什么任务?
- 如果应用的话,难度如何以及优化侧重点在哪?
注:本文中的'大模型'并不仅指 LLM(Large Language Model, 即大规模预训练语言模型),更接近 Foundation Model(即基座模型)的概念,既包含纯文本的 LLM,也包括多模态的 MLLM(Multimodal Large Language Model)。
1.1、基于语义向量变换角度理解大模型完成任务的能力
语义向量(Word Vector)是一种用数学方式表示词语、短语或文本语义含义的技术 [1]。它可以将语言中的语义信息编码为固定维度的数值向量,便于计算机处理和分析。有如下性质:
- 语义相近的词语,其向量在空间中距离较近。通过余弦相似度等方法可计算向量间的语义相似度。
- 语义向量支持加减乘除等数学运算。例如 "king - man + woman ≈ queen" 这样的类比推理。

大模型虽然是'文科生',但底层原理还是数学。通过语义向量的角度,可以对大模型的语言能力有更本质的理解:
- 语义向量的映射:语义/内容理解(上下文和世界知识)、情感分析
- 语义向量的距离计算:近义词判断、分类聚类
- 语义向量的截取:信息抽取、实体识别
- 语义向量的转换:文生图/视频(跨模态)、翻译(跨语种)、古文&诗词翻译(跨文体)、风格改写(跨文风)
- 语义向量的缩放:文本扩展、概括
- 语义向量的延伸递进:问答(明确方向的延伸)、评价/对话(模糊方向的延伸)、推理(模糊方向的节点递进/路径搜索)
从向量操作的角度理解大模型完成任务的难度:
向量映射 < 距离计算 < 向量截取 < 向量转换 < 向量缩放 < 延伸递进
这是从向量空间角度的粗粒度划分难度,但实际还是有些特例,比如:
- 向量缩放的文本扩展,如果需要输出有创意的长文本,比如小说,也会因输出过长,而导致上下文遗忘和错误累加,影响文本连贯性,难度非常高。但概括只需要理解大意并总结输出,相对容易。
- 向量转换中的跨模态,由于需要不同模型的表征空间对齐,对数据和模型能力要求都很高,对目前的模型来说难度同样很大。
- 向量延伸递进中的问答,如果是简单的知识检索回答(不需要多步推理),对大模型的难度很小,因为很符合训练数据和目标。
大模型的元能力:
- 世界知识:世界知识是语义理解的基础,知道不同的文本应该映射到对应的向量,意味着模型从训练语料中学到了知识,而内化在隐藏层的神经元连接和权重。
- 上下文/小样本学习(In-context-learning) [2]:能够从指令提供的小样本中学习到专项任务下的注意力权重,效果类似于隐式微调。简单理解:给模型打了个样,于是模型学会了照葫芦画瓢。













