企业内部如何更好落地大模型?实践与经验总结
在微软推出 Copilot 后,工作场景中如何落地 LLM(Large Language Model)很快成为业内关注的重点。钉钉、飞书等办公软件也快速在最新版本中集成 AI 功能。对于软件企业而言,在已有的软件上增加 AI 功能并带来新产值,已被 Notion、多邻国等产品所验证。此外,在企业生产场景中,集成 LLM 的能力为企业组织赋能,也成为人们关注 AI 落地的一个重要视角。
随着大模型技术话题的广泛破圈,相较于以往的技术升级,来自不同领域、行业的企业都更有意愿进行内部生产环境中尝试 LLM。应用落地的速度和质量,与企业本身对技术的理解、技术实践能力、落地方式选择息息相关。本文基于多位第一批尝试用新技术在企业内部搭建应用的实践者访谈,总结 LLM 在企业生产环境中的落地经验。
01. LLM 技术特点适合场景
内容创作与对话交互
作为概率模型,LLM 的本质是预测下一个 Token。因此在应用中,尽管具体表现形式不同,目标的实质都是让模型在特定语境中,预测的下一个 Token 准确率达到预期标准。
从通用角度而言,LLM 拥有语言理解和逻辑推理能力,落实到应用搭建中,可以表现为两种能力模式:写作与交互。
侧重内容写作能力,以写作内容作为结果交付。 常见用例有营销文案生成、报表生成。这些用例下,关键在于让模型按照特定逻辑、风格、模式生成内容。通过多种工程手段,最终可以将模型的能力调教成一个具有专业知识的写手,按照一定的规则输出内容。典型的例子如在电商领域,根据商品基本信息、促销的背景,生成符合电商平台规则、有 SEO 优化效果的促销文案。原先这样的工作,需要具备运营经验的业务熟手才能够完成。
代码辅助则可以看作是一种特殊的写作场景,coding 能力本身就是对模型评测的一项指标。作为应用功能,LLM 能够帮助快速补全代码、或者修正错误,相关应用还拓展了代码注释、代码运行。在企业内部代码与业务强相关而呈现相关特性,此在企业研发场景中,将模型能力做个性化适配,除了提升开发效率,规范统一格式,还能够整体上提升代码复用,也有助于企业代码资产沉淀。
目前局限在于,模型输出代码长度大约为 30~50 行,仅能实现一些代码片段,而实现更高级的软件工程能力,还需要大模型本身的能力升级。
工作执行需要进行对话交互,并且对交互质量有要求。 常见用例有企业内部员工问答助手、客服助手。这些用例中,关键在于让模型根据交互的具体情境,解读信息。沟通的结果是信息、人、工作内容的进一步匹配,最终大多会被封装成 ChatBot、Agent 的形态。比如「分发 Bug」这样一个很具体的小功能,系统测试人员描述了具体遇到的 bug,由 Agent 读取内容、理解之后,再根据之前系统中运维人员维修 Bug 的历史记录,匹配最合适的运维人员,再开出工单,就是在现有系统中进行了信息的精准匹配。
在实践中,这两种能力模式往往会按具体需求组合使用。比如,在对话交互中,帮助业务人员生成所需要的报告;为了更好的交互效果,根据相关的文档抽取有针对性的信息,在此基础上进行话术写作。
02. 面向企业,LLM 可以带来哪些具体价值
交付结果而非单纯工具
LLM 交付的不仅是工具,而是整个流程中某一环节的工作结果。应用落地,可以视作为模型提供具体语境、以及明确的行为规范。LLM 本身的理解、推理能力,可适用于各个场景;将通用能力封装为针对具体岗位、环节所需要的能力,其原理是将生产环节的 Know-how 与通用智能叠加。
在实际企业生产环节,如果想落地应用,专家/岗位知识数字化、高质量过程性数据是两种可行的思路。 可以通过整理知识库,来实现专家/岗位知识数字化。比如落地最快的客服环节,因为有明确的话术规则、对答规范,而 LLM 还可以在此基础上实现自然交流。 一些职能或岗位的技能或 Know-how,难以通过清晰的语言描述,但是会存储在工作流程的文件中,比如项目策划的需求、初稿、定稿;HR 对于简历的分析与评价;优秀销售和客户的交流记录,通过这样的过程性数据输入,模型能够汲取其中的能力,并进行模仿。
价值增量衡量维度
模型对于生产环节带来的价值增量,则可以从风险规避、开源、节流三个维度来衡量。
节流: 多人、重复劳动、流程明确的场景,可以通过 AI 承担部分工作、放大单人能力,来减少人力成本;或者在成本管理视角中,LLM 能够提供更灵活的数据看板,对运营数据进行分析,典型的场景如云成本管理。
开源: 主要集中在营销场景。LLM 能够提供更优质的互动和沟通,销售线索跟进、售后(复购)均可以利用 AI 来实现更多的潜在转化、促成交易,从而增益收入。
风险规避: 企业经营中涉及法律合规、生产安全检查等场景,LLM 可以依据规则,对相关文件、合同实现更灵活高效的查验、审核功能,规避风险,避免损失。
效果与成本的差值
从效果角度而言,大模型带来的价值增量与应用成本之间的差值越大越好。理想情况下,应用带来价值增量可以通过指标进行衡量,也更利于项目落地。例如,销售场景,从使用大模型前后的复购率等指标的变化,可以估算出对于销售额的贡献;在招聘场景中,可以对比使用大模型前后的简历采纳率变化,估算出节省的人力成本;云成本管理的场景中,节省的成本也可以被明确感知。


