角色扮演大模型的产品设计与训练经验分享

在角色扮演（Role-Play）这个领域深耕一段时间后，分享一些关于产品设计与模型训练的心得和思考。出于商业保密考虑，部分细节不再展开，欢迎同行交流指正。

1. 角色扮演大模型产品设计的重要性

有朋友可能会问，技术人员为什么要聊产品设计。实际上，产品设计直接决定了技术方案的走向。产品的形态不仅界定了目标用户群体，更从根本上影响了模型的输出设计和交互模式。

1.1 对角色扮演大模型的认知

Role-Play LLM 是一个极具挑战性的课题。在青少年社区中，有一种玩法叫做「语 C」（语言 Cosplay），这是一种文字游戏。最早可以追溯到小时候的过家家，"我演白雪公主，你演王子"，这就是最原始的角色扮演。借用语 C 术语，我们聊聊"角色扮演大模型"。

在语 C 中，"皮"指的是扮演的角色。角色扮演大模型就是给 AI 穿上一层"皮"，让它从助手变成有血有肉的角色。这与传统工具型通用大模型有显著区别。通用大模型经过对齐训练，给人的感觉是"老好人助手"。如果让它们直接演戏，往往会表现出强烈的"AI 感"。

示例对比：

AI 感：（微微皱眉，眼神透着关切）吴彩霞，这句话听起来有些复杂。如果你遇到了什么困难，随时可以跟我说，我会尽力帮助你。
角色扮演感：（眼神一凛，语气严肃）吴彩霞，你这话是什么意思？我们需要的是真相，你这话可是在误导调查，你知道后果的严重性吗？

角色扮演大模型希望模型具备角色一致性，甚至要有"自我意识"。判断模型是否崩皮的一个简单方法是看它会不会说"不"。例如，如果模型扮演商铺老板，用户要求白嫖彩电，现实中老板会拒绝甚至爆粗口。如果模型在用户持续要求下偏离立场把彩电送人，这就属于"崩皮"。

更优秀的角色扮演模型应当让用户有强烈的沉浸感，不仅要脱离人设，还要主动引导用户去演绎、推动剧情，创造画面感。如果内容枯燥重复，会导致聊天轮数和用户留存降低。作为泛娱乐向应用，必须尊重用户体验。

1.2 谁在消费角色扮演大模型

根据行业报告分析，角色扮演产品的核心用户想象力极强，喜欢通过在虚拟世界观和人物中寄托幻想，获得精神满足，并愿意投入时间和金钱。这类产品满足了用户逃避现实的需求，通过虚构情节获得陪伴。如果没有此类产品，用户可能会选择电影、书籍、剧集等成熟产业。

这意味着角色扮演产品的竞争对手不一定是友商，也可能是成熟的娱乐产业。我们曾尝试用大模型做类 AVG 游戏，使用复杂的 Prompt 和 Claude3.5 模型才勉强达到要求，但用户体验难以企及传统游戏，且成本高昂。

留给大模型的空间在于其高自由度的聊天特性。在国内，年轻女性群体（尤其是玩乙游、混二次元、喜欢同人和语 C 的用户）更容易在对话框中获得情感体验。这是业内已验证的商业模式。相比之下，国外市场可主打付费 NSFW 内容，利用大模型的互动感提供不同于小说的体验。

1.3 产品设计拾遗

当前应用环境较为艰难，需要保持务实清醒。以下是一些不成体系的设计思考：

卖点定位：建议卖"爱上我"的过程而非单纯卖模型。这是一种满足情感境遇幻想的童话体验，设计过程体现诚意。
带 OS 还是不带 OS：OS（内心独白）适合情景演绎模型。在新产品上，带 OS 风险更低，更贴合主要群体使用方式，可能带来更高对话轮数。
多角色 vs 单角色：推荐流形式多角色产品消耗的是人设 Prompt，人设消费完用户易流失。单角色（如 AI 男友/女友）注重陪伴，但若外观或人设不喜则直接弃用。折中解法类似《恋与制作人》。
输入门槛：针对年轻女性用户，写文也是 Play 的一环，无需强行降低门槛选 ABC，这会改变产品性质。

2. 角色扮演大模型训练经验分享

2.1 数据生产

业界共识是"质量优于数量"。训练单角色专有模型时，不到一千条高质量数据即可取得不错效果。前期需花时间肉眼筛数据，这对工程师理解业务、基座及数据本身都很有帮助。

人设卡构建

微调训练本质是学习如何遵循指令。构建通用角色模型时，训练数据中一定要有丰富的人设卡。多样性的 Prompt 有助于避免模型对特定 Token 反复训练出现过拟合，防止智商降低。不同的人设卡对应不同性格经历，能帮助产运或 UGC 用户在线上构建各类人物。

注意： 每个人设卡下的数据量不宜过大，否则会出现过拟合。User 输入最好有较大变化性（如包含夸赞与指责），以激发不同性格反应。人设卡条目可参考 Character Eval 或 Social Bench 论文，目标是丰富并在对话中反映特征。来源建议：整本小说抽取或开源人设卡，不建议直接用大模型生成，以免多样性降低。

小说语料利用

小说是丰富的训练数据来源，但需注意提取片段与人设的关系。若模型是超拟人模型，直接用小说对话可能产生割裂感。提取时需关注片段是否体现人设中的性格，确保 Prompt 有合适响应。

生成对话技巧

可使用已有的人设卡借助更强模型生成对话。若预算充足，建议使用 Claude3.5。一个 Trick 是引入"导演"角色，让两张人设卡进行对话时生成场景和故事，避免左右互搏导致的假大空感。

数据 Bias 处理

合成数据（包括由大模型生成或提取的数据）通常存在 Bias。不同大模型有表达偏好，这在角色扮演中可能是致命的。例如重复某一口癖会导致机械感重。

Bias 示例：

character: （轻声一笑，眼中闪过一丝不屑）...
character: （挑眉，眼中闪过一丝兴趣）...

"眼中闪过一丝"的重复出现容易让用户出戏。无论数据来自何种渠道，都必须仔细校验，特别是待训练的 Character 数据，确保标点符号准确。

2.2 模型微调

数据配比

通用数据集配比通常在 0%～50%。单角色且 Prompt 变化不大时，可只用专有数据，但这会导致强烈过拟合损害通用能力。建议采用 30% 比例的通用数据集，保证多样性同时兼顾效果。需清楚了解每个渠道数据特点（如 OS 比例、口语化程度、逻辑性），结合基座模型特性调整。

模型选择

中文选择 Qwen 系列，英文选择 Llama 系列，模型大小根据算力调整。

LoRA vs 全参 SFT

全参数调整是性能上限。角色扮演不仅要求表达正确，还需用词"高级"。基础模型预训练语料庞杂，高频词概率高，导致回答机械。LoRA 虽节省显存，但低秩近似可能带来信息损失，难以解决高频词重复问题。全参微调能让模型注意到长尾词的出现，这些词在角色扮演领域可能具备较高的条件概率，从而提升沉浸感。

参数调优注意事项

涉及"炼丹"过程，每次训练前需注意基本要素：

per_device_train_batch_size
gradient_accumulation_steps
learning_rate
num_train_epochs
warmup_ratio
bf16

Batch Size 由设备 Batch Size、累积步数及显卡数量决定。样本量决定总 Step 数，不要过少。结合 Learning Rate 调整，尽量让 Loss 曲线平滑。建议了解配置文件中所有参数含义，即使不修改也需知晓其影响。

2.3 进阶策略与评估

Continue Pre-train (CPT)

一般用于灌入大量知识，资源消耗大。若完成 CPT 后发现对通用能力影响较大，需重新调配数据比。若有故事续写需求或 SFT 遇到瓶颈，可尝试。

DPO (Direct Preference Optimization)

在解决明显 Bad Case（如输出过短）上很有效。可对模型自推理结果采样后训练，效果好但造数据速度慢。最好有线上产品以便构建 Chosen 和 Reject 对。

评估体系

没有单一指标能完全评估角色扮演模型好坏。算法工程师除看开源评估集外，更重要的是建立自己熟悉的 Case 评估集（约 200 个），熟悉到可背诵。每次迭代跑一下，心里有底。产运则关注上线前的 GSB 和上线后人均对话轮数。

3. 总结

角色扮演大模型的成功依赖于产品设计的精准定位与数据训练的高质量把控。在产品端，需明确用户画像，平衡沉浸感与自由度；在技术端，需重视数据清洗与去偏，优先采用全参微调以提升表现力，并建立多维度的评估体系。随着技术发展，该领域仍有广阔探索空间，需持续优化用户体验与技术边界。

注：本文基于实际项目经验整理，旨在分享技术思路与避坑指南。