大模型应用实战：原理、场景与 Prompt 技巧

大模型应用实战：原理、场景与 Prompt 技巧 | 极客日志

###角色定义
你是一位经验丰富的电商智能客服专家"AI 助手"。你性格亲和，处事专业，擅长准确理解和分类客户问题。

###核心任务
1. 准确理解并分类用户问题意图
2. 提供标准化且温暖的回复
3. 识别需要转人工的场景
4. 妥善处理无效问题

###意图分类指南
##分类流程
1. 首先理解用户完整问题
2. 识别关键词和情感倾向
3. 对照分类标准进行匹配
4. 评估是否需要转人工
5. 选择合适的回复模板
6. 检查以上结果是否准确并评估置信度
7. 如果置信度不高，请优先和用户确认信息，或要求用户补充相关信息提高置信度

##详细分类标准
=== 一级分类 ===
1. 订单类（ORDER）
2. 物流类（LOGISTICS）
3. 退换货类（REFUND）
4. 商品类（PRODUCT）
5. 账户类（ACCOUNT）
6. 转人工（HUMAN）
7. 无效问题（INVALID）

=== 二级分类及表述特点 ===
1. 订单类 (ORDER)
1.1 订单查询
•  关键词：订单、查询、查看、找、状态
•  句式模板：
o  "{时间词}的订单在哪里查"
o  "订单显示{状态词}"
o  "订单号{数字}怎么查不到"
•  特征词组：订单状态、订单号、购买记录、成交订单
...

系统角色定义：
您是专业的客服质量评估专家，需要对 AI 客服回复内容进行全方位评估。评估需要客观、准确、具有建设性。

输入结构：
{
    "original_query": string,
    "reference_answer": {
        "key_points": array,
        "required_info": array,
        "business_rules": array
    },
    "ai_response": string,
    "context": {
        "user_info": object,
        "scenario_type": string,
        "business_category": string
    }
}

评估维度：
1. 准确性评估 (权重：0.35)
A. 事实准确性 (0-10 分)
- 信息与标准答案匹配度
- 数据引用准确性
...

角色定义:
作为电商行业的客服专家，您需要在严格的技术框架下处理复杂的业务场景，具备：
- 精准的多维度信息处理能力
- 深度的电商领域专业知识
...

起势（撰写初版 Prompt）：知己知彼：充分理解任务的关键点，以及用到模型哪些能力，从而确定 Prompt 重点。比如重点是业务经验 + 推理能力，就需要先梳理业务经验和流程，并通过 CoT 和示例增强推理能力。关于总结业务经验和流程有个较为熟知的方法：假设有一名实习生，没有业务背景，你需要提供哪些信息，帮助 ta 完成任务。还有一个方法是，你假装自己是大模型，按任务要求输出一次结果，然后从每个环节反推需要哪些信息。既可以评估难度，也可以对落地的侧重点有个预判。
对决（Prompt 调优）：
- 排兵布阵：在构建 Benchmark 时，需要尽可能保证多样性，能够充分覆盖业务实际的各种场景。避免评测集多样性差，导致未覆盖场景的准确率不足。
- 投石问路：运行初版 Prompt 验证模型能力是否满足任务要求。标志：模型是否能够正确理解要求，模型的推理方向是否准确。
- 洞若观火：查看大模型不符合指令或者幻觉的结果，人工分析原因。比如背景信息不全，模型理解偏差，格式不符合约束，数值对比幻觉等等。
- 步步紧逼：人工不易看出问题时，可以让大模型先不要给出结果，只产出分析过程，便于看出模型的理解哪里有偏差。
- 攻守易位：让大模型按自己的理解来复述要求，并构造例子展示 Prompt 结果，使问题点充分暴露。
- 借力打力：将 Prompt 和模型错误结果都输入给大模型，让大模型分析出错原因，并给出优化建议。如果业务中只能用开源模型或小模型，还可以让大模型纠错和优化 Prompt，然后再用到小模型上。
- 见招拆招：找到问题点后，结合列举的 Prompt 技巧进行优化。比如补充业务经验引导，通过示例对齐标准和强化推理，多次强调加强约束，补充小数提示解决数值对比出错等。
- 步步为营：Prompt 任何变动都尽量测试准确率，包括但不限于：只改语序未改语义，改变输出格式，调整示例及顺序，更换基座模型等。
- 以退为进：如果 Prompt 中的某些步骤，通过大模型很难解决，思考是否可以通过代码或者工具来解决，而不是和大模型死磕。比如数学运算通过使用计算器解决。
- 严防死守：大模型是基于概率而不像代码是基于逻辑的，因此不可避免会出错，需要有检查修正节点，尤其模型输出直接暴露给 C 端的场景。以及如果用户可通过自定义的 Prompt 直接和大模型交互，需要考虑提示注入防护，避免用户诱骗大模型输出不当言论和内容。
- 审时度势：如果发现模型较难对齐标准，可以考虑将一部分业务经验转化为强规则让大模型执行，不追求完美主义。如果基本用尽以上优化方法和提示词技巧，模型表现还是不足，可以考虑放弃，等待基座模型能力提升。
科技狠活：输出每个 Token 的依据即激活的神经元 [10]，辅助判断问题出在哪里。比如'9.11 和 9.9 比大小'的典型幻觉问题中，可以发现大模型错误激活了恐怖袭击相关的神经元。

大模型应用实战：原理、场景与 Prompt 技巧

大模型 is all you need？

一、从语义向量和业务场景了解模型能力和应用侧重点

1.1、基于语义向量变换角度理解大模型完成任务的能力

大模型的元能力：

更多推荐文章

相关免费在线工具

1.2、从业务场景理解大模型应用的侧重点

不同场景的优化侧重点：

二、从实践案例介绍大模型应用经验和思考

2.1、结合案例讲解大模型的落地流程和经验

案例 1：客服机器人

1.1、项目成果

1.2、需求拆解

1.3、落地流程

1.3.1、阶段介绍

1.4、项目展望

2.2、大模型在业务中切入点的思考

2.2.1、钉锤问题，到底用谁找谁 - 均可

2.2.2、怎么在业务中用好大模型

三、详解大模型原理、Prompt 技巧和调优方法

3.1、从大模型原理角度介绍 Prompt 技巧

3.2、详解 Prompt 调优流程和方法

四、总结 & 建议

4.1、总结回顾

4.2、忠告及建议

五、未来展望

5.1、大模型长期趋势

5.2、价值链重塑

5.3、商业化挑战

5.4、潜在应用方向

更多推荐文章

相关免费在线工具

大模型应用实战：原理、场景与 Prompt 技巧

大模型 is all you need？

一、从语义向量和业务场景了解模型能力和应用侧重点

1.1、基于语义向量变换角度理解大模型完成任务的能力

大模型的元能力：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2、从业务场景理解大模型应用的侧重点

不同场景的优化侧重点：

二、从实践案例介绍大模型应用经验和思考

2.1、结合案例讲解大模型的落地流程和经验

案例 1：客服机器人

1.1、项目成果

1.2、需求拆解

1.3、落地流程

1.3.1、阶段介绍

1.4、项目展望

2.2、大模型在业务中切入点的思考

2.2.1、钉锤问题，到底用谁找谁 - 均可

2.2.2、怎么在业务中用好大模型

三、详解大模型原理、Prompt 技巧和调优方法

3.1、从大模型原理角度介绍 Prompt 技巧

3.2、详解 Prompt 调优流程和方法

四、总结 & 建议

4.1、总结回顾

4.2、忠告及建议

五、未来展望

5.1、大模型长期趋势

5.2、价值链重塑

5.3、商业化挑战

5.4、潜在应用方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具