企业应对大模型的策略及方法
随着生成式人工智能技术的快速发展,大模型已从通用场景迅速向垂直领域渗透。对于企业而言,未来的竞争焦点在于如何站在通用大模型的肩膀上,基于自身的业务逻辑和私有数据,打造出具有独特竞争力的行业大模型。
一、大模型发展趋势:垂直化与行业化
大模型的发展战事已明确从通用大模型转向面向垂直领域的行业大模型。正如业界共识所示,未来所有的应用都将基于大模型来开发,每一个行业都应该拥有属于自己的专属模型。这意味着需要用 AI 原生思维重构所有的产品、服务和工作流程。
- 通用大模型的局限性:虽然通用大模型具备强大的涌现能力,但在缺乏特定行业数据的情况下,其对专业领域的理解存在天然局限。例如在医疗、金融等高精度要求领域,通用模型难以满足合规性和准确性需求。
- 行业知识的沉淀:每个行业都是独立的知识体系,包含庞杂的知识和大量沉默的行业数据。只有通过行业大模型才能激活并发挥这些数据的价值,生成的内容更符合特定垂类场景的需求。
- AI 原生应用:未来需要用 AI 原生思维重构所有业务流程,大模型将催生全新的 AI 原生应用形态。
二、为什么 To B 大模型会成为下一个风口?
1. 通用大模型的能力限制
当大模型发展到一定阶段,企业发现原始数据里若没有行业数据,通用大模型对行业的理解仍存在局限性。其通用能力无法承载更为专业的 To B 需求。企业在自己擅长的行业训练适合自己的行业版大模型,这类模型生成的内容质量更高,更贴合业务。
2. 成本优势
通过通用大模型微调实现的行业大模型,相较通用大模型是几何级别的成本下降。在模型微调阶段,由于训练量级较小(通常为万级),相关的算力成本相比之下可忽略不计。这使得中小企业也有机会参与行业大模型的构建。
3. 市场结构与云部署模式
中国数字化市场不像美国以公有云为主,而是公有云、混合云、私有云并存。这种分叉延续到了 AI 模型市场,定制化/私有化需求会占据较大比重,尤其在政府、金融、制造等对数据安全敏感的市场。
4. 信息安全考量
当前在海外市场,部分政府、金融机构、电信运营商、制造企业甚至科技公司已经明确禁止或限制员工在工作场合使用公共大模型产品。理由通常是担心专利或机密资讯泄密、客户资料外流。因此,私有化部署成为刚需。
三、To B 大模型的主要挑战
尽管打造行业大模型的门槛和成本大大降低,但仍面临显著挑战。
1. 开源大模型的质量差距
行业大模型是在通用大模型基础上进行微调训练或通过提示词工程得到的。基于大多企业私有化部署的需要,私有化部署的通用大模型有三种实现方式:直接引入开源大模型、购买商业化大模型、基于行业数据微调开源大模型。但根据测试判断,当前的各种开源大模型离 OpenAI 的 GPT-3.5 还有相当大的差距。基于这些开源大模型打造的行业大模型基本不可用,同时微调领域大模型需要企业有较高的技术能力,这进一步抬高了行业大模型的门槛。
2. 缺乏高质量的行业数据
大模型强调垂直领域的 Know-How,基础是行业大数据。在质量方面,要求行业数据具有权威性;在规模方面,要求保证质量的前提下,训练数据量越大,推理能力越强;在多样性方面,要求训练数据集尽可能丰富、全面;在及时性方面,要求实时更新的数据尽快得到利用。
很多传统企业或数字化刚起步的企业,大量语料数据都是非结构化的,散落在各个不同部门,没有什么现成的行业语料数据可供训练。行业数据的记录、盘点、采集、清洗和转化成为了前提条件,这实际上考验着企业的数据治理水平。如果贸然将未经筛选和处理的数据直接给大模型,则会严重影响行业大模型的训练效果。
3. 缺乏快速落地的硬场景
现在搞行业大模型的厂家一个接着一个,但就目前来看,大多其实都还停留在讲概念、讲技术的阶段。要做好行业大模型,企业一方面要能找到合适的业务场景,从逻辑上讲,行业大模型一定会是在精度相对较低、容错率较高的行业先引用,再到精度要求高的地方去。另一方面还需整合 AI、数据、技术等关键生产要素,这非常考验企业对大模型的认知水平、技术能力和组织能力。
四、To B 大模型的实现路径
在当下的情况下,出于对成本、进入门槛和速度等的考虑,'开源大模型 + 自研小模型 + 垂直语料'大概率会成为接下来一个行业大模型的实现路径。
方案一:RAG(检索增强生成)
基于开源大模型做行业大模型的企业,在尽可能跟市场上这些开源大模型结合的同时,也要解耦。第一种方案是用提示词的形式来对接,耦合度很低,随便换一个模型,一下就能换掉。例如 ChatGLM+LangChain 的方案,共分为五步:
- :把领域的相关文档资料进行收集,并转成文本文件。


