大模型 is all you need?
本文旨在通过对业务案例、prompt 技巧、大模型原理等探讨,让大家能够更好地在实际业务中应用大模型。
最佳食用顺序和方法:
从语义向量空间角度解析大模型能力层级,结合电商客服案例阐述业务落地流程与切入点选择。详解 Prompt 工程技巧及其原理,提供调优方法论,并探讨大模型长期趋势与商业化挑战,旨在帮助读者理解模型本质并在实际业务中有效应用。

本文旨在通过对业务案例、prompt 技巧、大模型原理等探讨,让大家能够更好地在实际业务中应用大模型。
最佳食用顺序和方法:
考虑到非技术背景的同学可能较多,以及避免先讲原理再案例的枯燥,影响阅读效果,改成了先业务案例后技术原理的顺序。
如果对大模型原理和 prompt 技巧感兴趣,或者有相关背景,可以尝试从第三部分开始,先了解原理和技巧,再看业务中如何使用的,有助 prompt 技巧的理解和记忆。
本文主要分为三大部分,每个部分都会在开头提出两个问题,每部分的正文都是围绕问题展开的,阅读时牢记问题,有助于消化吸收。
本节从语义向量空间的角度,解释了大模型完成各类语言任务的原理和难度层级,并尝试将模型的应用分为不同业务场景,并介绍各自侧重点。
目标是回答两个问题:
注:本文中的'大模型'并不仅指 LLM(Large Language Model, 即大规模预训练语言模型),更接近 Foundation Model(即基座模型)的概念,既包含纯文本的 LLM,也包括多模态的 MLLM(Multimodal Large Language Model)。
语义向量(Word Vector)是一种用数学方式表示词语、短语或文本语义含义的技术 [1]。它可以将语言中的语义信息编码为固定维度的数值向量,便于计算机处理和分析。有如下性质:

大模型虽然是'文科生',但底层原理还是数学。通过语义向量的角度,可以对大模型的语言能力有更本质的理解:
从向量操作的角度理解大模型完成任务的难度:
向量映射 < 距离计算 < 向量截取 < 向量转换 < 向量缩放 < 延伸递进
这是从向量空间角度的粗粒度划分难度,但实际还是有些特例,比如:

横轴更偏'编码器'部分,更多需要模型的知识和理解能力。纵轴更偏'解码器'部分,更侧重模型的生成和推理能力。
还有两个维度比较重要:
从上述模型能力和场景侧重点的介绍,应该能够回答通过模型可以完成哪些任务,以及如何预判应用难度和侧重点的问题。
讲完模型能够评估思路之后,趁热打铁结合案例讲解下实际业务中应该怎么用和落地,以及找到模型在业务切入点的思路。
本节目标也是回答两个问题:

工作流拆解


离线用户问题分析 根据不同来源页面,关键词和历史意图分类抽取用户问题,人工分析归纳意图类型,并总结各类型对应的表述特点。
抽取样本打标 通过不同维度和类型抽取用户问题,保证 benchmark 的多样性。

###角色定义
你是一位经验丰富的电商智能客服专家"AI 助手"。你性格亲和,处事专业,擅长准确理解和分类客户问题。
###核心任务
1. 准确理解并分类用户问题意图
2. 提供标准化且温暖的回复
3. 识别需要转人工的场景
4. 妥善处理无效问题
###意图分类指南
##分类流程
1. 首先理解用户完整问题
2. 识别关键词和情感倾向
3. 对照分类标准进行匹配
4. 评估是否需要转人工
5. 选择合适的回复模板
6. 检查以上结果是否准确并评估置信度
7. 如果置信度不高,请优先和用户确认信息,或要求用户补充相关信息提高置信度
##详细分类标准
=== 一级分类 ===
1. 订单类(ORDER)
2. 物流类(LOGISTICS)
3. 退换货类(REFUND)
4. 商品类(PRODUCT)
5. 账户类(ACCOUNT)
6. 转人工(HUMAN)
7. 无效问题(INVALID)
=== 二级分类及表述特点 ===
1. 订单类 (ORDER)
1.1 订单查询
• 关键词:订单、查询、查看、找、状态
• 句式模板:
o "{时间词}的订单在哪里查"
o "订单显示{状态词}"
o "订单号{数字}怎么查不到"
• 特征词组:订单状态、订单号、购买记录、成交订单
...
Prompt 技巧解读
角色&性格设定
内容分段
符号分隔
思维链
反思
重复
输出格式
约束
任务示例
问题回复 Prompt 调优
回复质量评估 Prompt
系统角色定义:
您是专业的客服质量评估专家,需要对 AI 客服回复内容进行全方位评估。评估需要客观、准确、具有建设性。
输入结构:
{
"original_query": string,
"reference_answer": {
"key_points": array,
"required_info": array,
"business_rules": array
},
"ai_response": string,
"context": {
"user_info": object,
"scenario_type": string,
"business_category": string
}
}
评估维度:
1. 准确性评估 (权重:0.35)
A. 事实准确性 (0-10 分)
- 信息与标准答案匹配度
- 数据引用准确性
...
问题回复 Prompt
角色定义:
作为电商行业的客服专家,您需要在严格的技术框架下处理复杂的业务场景,具备:
- 精准的多维度信息处理能力
- 深度的电商领域专业知识
...
思路:先构造回复质量评估的 Agent,再构造智能回复 Agent,用前者对后者打分并不断迭代提高分数。
最后还想简单聊聊怎么在业务中寻找和大模型的结合点,主要是个人的一点感想和思考:
以钉找锤:基于当前业务中现有的痛点和问题,尝试用大模型的优势实现和替代,是现有功能、流程的优化。
思路:
举锤寻钉:基于模型能力,思考和业务的结合点,往往是创新的场景和功能。
案例:

大模型感觉用不好,主要是在于没有很好地结合大模型能力,在工作流中找到合适的切入点。工作流中不同环节依赖能力不同,所有环节都给大模型做是不切实际的,但大概率有模型能力可以覆盖的环节,这就是切入点。
所以在应用时,业务层面需要抽象,拆清楚工作流,每个环节需要什么能力。模型知识层面,需要了解模型具备哪些能力,以及通过哪些方式优化。最终结合业务和模型,找到适合切入点。
还有一点感想,在设计大模型的工作流时,大模型很多时候是替代'人'的角色,而不是代码的角色。基于代码思维的一些设计,很多时候是'委曲求全',并没有真正拟合人的能力和流程。从人是怎么完成任务的角度来设计流程和方案,或许更适合大模型。最著名的就是马斯克说:'人开车是不需要激光雷达的',从而推出了全视觉方案的自动驾驶。
小结:本节通过智能客服的案例,回答了在业务中怎么用大模型能力和落地流程的问题。最后针对钉锤问题的探讨,回答了在业务中找大模型切入点的问题。
本节是偏技术的内容,以流程图的方式讲解大模型的原理,不涉及公式推导,尽量简洁易懂。并列举了 Prompt 技巧,以及调优的方法。
目标回答两个问题:
Prompt 工程 [6]:本质是通过调节输入文本序列,帮助模型在预训练学到的巨大概率分布空间中,寻找最优的输出路径。
直观化理解:Prompt 优化就像在语义空间中引导 Token 贪吃蛇,朝着期望方向吃下一个个 Token,最终输出符合任务要求的 Token 序列。
模型和任务是两端,语言(Prompt)是链接模型和任务的纽带。
从任务角度,是背景和要求表述清楚,让模型的输出和人对齐标准。 从语言角度,是表达精炼,避免歧义和上下文矛盾。 从模型角度,是扬长避短,增强模型的能力,规避模型的幻觉问题 [7]。
为了更好地理解 Prompt 技巧,这里将大模型的工作原理和 Prompt 技巧关联起来,希望能知其然的同时,也知其所以然。也尝试提供一种框架,希望能在理解生效原理的基础上,可以不断创新扩展 Prompt 技巧。
注:

写 Prompt 有两大流派:'随心所欲'派和'循规蹈矩'派。前者特点是按自己的理解写 Prompt,不局限于模板和固定范式,后者是按照模板一步步写 Prompt,尽量全面但不缺失。
我觉得比较好的方式是有一定套路,但不照搬模板的'按图索骥派'。
大模型目前很像'内力深厚'(理解世界知识)且懂得各类'武林秘籍'(知道各种 Prompt 技巧),但不懂得实战的潜在高手,Prompt 调优就像在逐步教会 ta'实战',所以下面用偏武侠的风格介绍:
起势(撰写初版 Prompt):知己知彼:充分理解任务的关键点,以及用到模型哪些能力,从而确定 Prompt 重点。比如重点是业务经验 + 推理能力,就需要先梳理业务经验和流程,并通过 CoT 和示例增强推理能力。 关于总结业务经验和流程有个较为熟知的方法:假设有一名实习生,没有业务背景,你需要提供哪些信息,帮助 ta 完成任务。 还有一个方法是,你假装自己是大模型,按任务要求输出一次结果,然后从每个环节反推需要哪些信息。既可以评估难度,也可以对落地的侧重点有个预判。
对决(Prompt 调优):
科技狠活:输出每个 Token 的依据即激活的神经元 [10],辅助判断问题出在哪里。比如'9.11 和 9.9 比大小'的典型幻觉问题中,可以发现大模型错误激活了恐怖袭击相关的神经元。

小技巧: 基于 CoT 和大模型生成示例:当思维链较长,导致不易构造示例时,可以先写好 CoT,在真实 Case 上跑一下,挑选符合要求的大模型输出结果当作示例。
除了以上列举的人工调优技巧外,Prompt 自动调优技术在学术界也有比较多的探索,包括基于梯度 [11]、搜索 [12]、强化学习 [13]、元学习 [14] 等不同流派,这部分实践较少,后续会有相应探索,这里不做展开,感兴趣的读者可以自行了解~
FAQ:
本文从大模型能力和应用场景开始,从向量空间角度介绍了大模型处理不同任务的能力和难度。也将模型的应用场景划分为了四个象限(通用/垂直和信息/任务),每个象限分别介绍了优化的侧重点。主要是提供一种评估思路,支持模型在业务应用的前期评估。
第二部分结合案例介绍落地经验,包括前期评估、工作流拆解、落地流程和优化经验,也探讨了在现有业务中找到大模型结合点的问题,并基于实践经验提出一些思考和观点,希望能为大家提供借鉴和参考的价值。
第三部分是相对技术向的内容,主要介绍 Prompt 技巧和优化思路,首先结合模型工作原理和 Prompt 技巧进行了整体讲解,希望能知其然也知其所以然,可以在这个框架下尝试新的 Prompt 技巧,也介绍了在已知技巧的基础上,在业务落地时调优 Prompt 的流程和方法。希望为大家提供一个地图,帮大家遇到问题时'按图索骥'。
误区:
智能度持续提升,完成任务和多模态的能力增强 推理成本下降,轻量级模型性能提升

[15]

[16]
入口迁移:互联网平台主要价值在于'数字化供给'和'链接用户',大模型在这两方面都能发挥作用,从而增加平台价值。但大模型独有的语义理解 + 工具使用能力,可能改变用户和平台互动方式。用户开始能够对终端设备发出指令,终端来和平台交互完成任务。这会导致用户和平台的交互次数减少,流量也从泛需求为主变得更为聚焦,影响到平台的流量池和分布,进而对广告为主的商业模式造成影响。
潜在机会:大模型可以加强用户被动的链接模式,当前主流的链接模式都是用户主动触发的,但某些场景更适合用户被动的链接。特点是用户需求相对固定,但空闲时间不固定,和供给高时效的场景,此时大模型可以作为代理的角色,决策是否主动推送给用户决策,现有典型场景是 RSS 订阅、特价机票订阅、活动推送等。

[17]

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online