背景
当前,人工智能技术正处于从通用智能向垂直领域深入发展的关键阶段。GPT-4 等通用大模型的出现给研究和工业界带来了巨大冲击,其显著特点是拥有强大的底座知识能力,超越了传统知识图谱,蕴含丰富的世界知识和人类常识。它能够解答各种复杂问题,包括脑筋急转弯等逻辑推理任务。对专注于知识图谱的从业者来说,常识一直是知识领域最难解决的问题,但大模型似乎轻松解决了这一问题。因此,业界不禁要问:大模型是否终结了知识工程?
大模型是目前唯一能利用人类常识进行开放推理的技术。传统常识知识图谱在灵活应用常识于开放推理场景上受限,而大模型则能克服这一限制。大模型具备开放世界的理解能力,能轻松处理具体场景问题,例如,在给大模型药品说明书的情况下,面对一些具体场景的问题,大模型能轻松推理并回答。
此外,大模型不仅限于单步问答,还能连续执行动作,形成 Agent。通过 Agent,大模型能一步步执行,去处理更复杂的一些任务,如编写代码或在 Minecraft 中收集原材料、制作工具等。尽管大模型具有独特的甚至不可替代的优点,但我们也面临着大模型难以在领域落地的实际挑战。为什么这么强的大模型现在不能很好地被应用呢?我们也尚未看到大模型引领的工业革命的进行。这主要是由于推理成本、能力缺陷和难以协同三方面的挑战。
挑战一:大模型的推理成本限制其应用
构建和使用大模型都需要大量资源,且在实际应用中大模型的推理速度相对较慢,即使是经过优化的版本,处理文本分析仍需数秒。这与传统应用场景如文档搜索和索引的速度相差甚远,后者能在一秒内处理数十甚至上千篇文档。此外,随着大模型上下文长度的增加,如达到几十万 token,处理整个文档库将需要巨大的计算资源,导致推理成本进一步上升。这种高成本使得大模型在需要大规模重复应用的场景中变得不切实际。尽管有些企业愿意投入更多成本,但即使采购了大量计算资源并采用最新的推理技术,大模型是否能够真正完成任务并创造价值仍需验证。
挑战二:大模型在复杂决策场景仍有缺陷
尽管大模型在聊天机器人等开放式闲聊场景中表现出色,但在工业、商业等严肃场景中,如替代程序员编写代码,大模型目前仍显不足。从开放式闲聊到复杂决策,大模型还有很长的路要走。目前的大模型,如 GPT-3 或 GPT-4,无法直接应用于特定场景,仍需要用户通过多次交互和提供 prompt 来引导。尽管许多工作正致力于提升大模型的能力,有可能发布的新一代模型能进一步提升性能,但即便如此,是否足够满足实际应用需求仍存有疑问。
挑战三:大模型在企业应用中需要协同能力和可控性
即使招聘了天才员工,也需要时间适应企业流程。同样,大模型也需要时间与企业现有流程相融合。即使大模型有能力重塑整个企业流程,但这也可能带来不稳定和风险,因此直接替换原有系统并不现实。实际上,人们期望大模型能够在人机协作中发挥作用,嵌入现有系统,辅助升级特定环节,而非全面替代。因此,大模型与现有业务人员或系统的对接能力,即其协同能力和可控性,显得尤为重要。在实际应用中,我们更看重大模型能否在特定环节上协同工作,而非仅仅追求其在某些测试中的高分表现。
大模型的领域适配
第二部分是关于大模型领域适配的研究。当前,领域大模型如医疗大模型、金融大模型等备受关注。持续预训练是构建这些模型的基本方法,虽然简单且开源,但数据问题至关重要。在选择训练数据时,面临两个主要挑战:一是数据质量,即什么样的数据是好的;二是数据配比,即如何平衡不同来源的数据。如维基百科与网络小说在数量和性质上存在显著差异,配比比例难以确定。过分依赖单一数据源可能导致模型出现偏差。如仅依赖维基百科可能导致模型缺乏娱乐性和现实感,而过多使用网络小说可能导致模型产生不符合实际情况的认知。
在领域大模型的训练中,数据的选择是一个关键问题。我们将数据分为三层:第一层是基础且不必要的数据,这些数据对于大模型来说已经足够了解,无需再重复训练;第二层是过于细节且不必要的数据,如实时股价等,这些数据对于人类专家来说也无需背诵,不适用于训练大模型;最重要的是中间层,即高价值行业数据,这些数据对于微调大模型至关重要。然而,这些行业数据数量稀少且收集成本高,导致精品语料占比小,而'垃圾'语料却占据大部分。尽管如此,两者都是不可或缺的。
针对数据选择的问题,我们提出了一个创新的解决方案。在训练大模型时,无论是预训练还是微调,我们为语料添加了一个特殊的标记,以指示其来源,如'维基'、'新闻'、'小说'或特定网站(如'起点')。这样,模型就能像人一样区分不同来源的数据,从而更加准确地评估其可靠性。实验证明,这种简单的'来源增强'方法在许多小任务中的表现,甚至超越了未增强的更大规模的模型。
我们还有一些特别的发现。在下游任务中,如果我们提供任务相关信息,如论文分析或科幻小说创作,模型的表现会进一步提升。即使没有这些信息,经过来源增强的模型本身也优于未增强的模型。关于来源标签的选择,我们发现具体的标签表达方式并不重要。即使使用抽象字符对语料进行分类,也能增强模型效果。然而,带有语义的标签,尽管表达方式没有严格规定,却能带来更显著的增强效果。
我们正在研究一个工作,就是将语料进行系统化分类,类似于知识图谱中的整体分类。尝试使用这些分类来预训练模型,希望获得更强大的能力。目前,我们已经初步建立了训练语料分类体系,并取得了一些积极的结果。这些分类不仅存在于语料中,而且确实能有效增强模型的能力。
大模型的能力提升
接下来探讨领域微调和能力提升。我们强调大模型协同能力的重要性,而不仅仅是模型在 MMLU 等考试题中的表现。首要工作是提升大模型理解复杂指令的能力。这与 GPT-4 Turbo 的发布会中提到的类似,即确保模型能准确输出可解析的 JSON 格式。我们发现,模型能否给出固定、可对接的表达至关重要。因此,我们需要评估并提升模型理解复杂指令的能力。这些指令可包括各种特定要求,如格式约束(如 JSON 输出)、内容约束(如简短或详细回答)等。通过将不同类别的特殊要求自由组合来测试模型是否能遵循这些复杂指令。这样,大模型不仅能作为聊天机器人,还能更准确地满足用户在创作文章或作为 Agent 的执行器时的各种需求。


