在大模型系统中,提示工程(Prompt Engineering)、微调(Fine-tuning)和检索增强生成(Retrieval Augmented Generation,RAG)分别扮演了不同但互补的角色,共同构成了大模型产品优化的核心路径。
虽然这三项技术在大模型开发和运营中的地位至关重要,但在数据及人工智能法律合规领域,鲜有人深入讨论其背后的运行原理与合规风险。只有深入研究这些技术细节,才能发表更贴切的法律合规意见。
OpenAI 在其大模型优化指南中提出了一个基本线性流程:从提示工程开始,然后转到检索增强生成,最后再进行微调。但更重要的是不同方法之间的杠杆比例运用,而非单纯的前后顺序。
01 提示工程
提示工程(Prompt Engineering)通过设计和优化提示词来引导生成式 AI 模型生成所需的输出。它涉及到自然语言处理、机器学习和人机交互等多个领域的知识。提示工程解决的是提出准确有效的问题。
从目前来看,提示工程是现阶段所有大模型补丁升级中最经济便捷的路径。一般而言,如果能够通过提示工程解决的,不宜直接使用 RAG 特别是微调机制来处理,否则成本代价过高。
假设你在编写一个旅游指南,需要大模型为你生成一些内容。如果你直接问:'请告诉我巴黎的有趣景点',模型可能会给出一些通用的信息。通过提示工程,你可以调整提示来获得更具体的答案,比如:'请为我写一篇关于巴黎卢浮宫的详细介绍,包括其历史背景、主要展品和游客须知。'这样的提示会引导模型提供更详细和具体的信息。
安全与越狱风险 在大模型系统及产品中,大模型需要采取一定的措施以防止越狱风险,即通过越狱而规避大模型限制生成的过程。通过精心设计和细化提示工程,用户可能引导 LLM 绕过限制。
大模型的越狱可能导致大模型产品的生成物泄露特定用户的个人信息(如该用户曾输入的 Prompt 内容),特定用户设计的智能体(AI agent)中知识库中的全量数据,以及企业知识库中的商业信息。因此,不管大模型是开源还是闭源,提升大模型的鲁棒性仍然是一项重要的课题。
合规设计建议 针对单纯的提示词,无论是用户的输入还是大模型系统的预设,提示词的输入本身应当赋予用户一定的控制权利。《生成式人工智能服务管理暂行办法》第十一条规定:'提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。'
基于此,产品设计需满足以下 PBD(Privacy by Design)合模需求:
| 功能点 | 实现要求 | 合规说明 |
|---|---|---|
| 清除上下文 | 清除上下文后,重新开启对话,确保清除后上下文不再记忆关联提示词及答复 | 需区分是清除问答原文内容,还是仅清除上下文的关联记忆 |
| 删除问答记录 | 删除选择项或者同一智能体下的全部问答记录信息 | 须同时清空上下文关联记忆 |
| 账号关联 | 提示工程内容非和用户账号或相关标识实施绑定 | 中国大模型须基于账号提供服务,此项合规在中国法环境下并不现实 |
| 分库保存 | 提示工程内容本身具有一定的敏感性,可能会基于提示注入攻击而泄露 | 宜私有数据库服务端独立保存,不被输出侧所调用 |
| 模型训练 | 允许大模型将提示工程内容用于训练模型,优化用户体验 | 获得用户的同意(opt-in) |
截止目前,大模型提示工程已经从提示工程师职业,衍生发展出了一个庞大的商业模式,大量科技型企业进入提示工程领域创业。例如,promptperfect 已将提示工程 AI 化后作为插件嵌入大模型产品中的输入框之中。
在插件、SDK 或者 API 模式下的提示工程中,用户可以直接在任何可接入提示工程插件的大模型产品中调起提示词服务。例如在文心一言中,用户在输入框中可以直接@三方插件方式共同输入提示词。
法律定性 从法律定性上来看,提示工程服务属于独立的数据处理者,不仅要进行独立入驻身份标识,也需要独立向用户取得授权同意提示。如果提示工程服务本身属于基于大模型的生成服务,在中国法语境下还需要实施算法备案。退出中国市场的 promptperfect,兴许就是基于难以备案的原因。


