大规模语言模型的个性化：综述

优质文章学习记录

07 Feb 2025 — 15 min read

大规模语言模型（LLM）的个性化近年来变得越来越重要，拥有广泛的应用前景。尽管这一领域重要且取得了进展，大多数现有的个性化 LLM 研究主要集中于 (a) 个性化文本生成，或 (b) 利用 LLM 用于与个性化相关的下游应用（如推荐系统）。在本研究中，我们首次弥合了这两大研究方向之间的差距，通过引入个性化 LLM 使用的分类体系，概述了关键差异与挑战。我们正式化了个性化 LLM 的基础，整合并拓展了 LLM 个性化的概念，定义并讨论了个性化、使用方法和个性化 LLM 的理想特性等新颖方面。接着，我们通过提出系统的分类方法，将这些多样化的研究领域和使用场景统一起来，包括个性化的粒度、个性化技术、数据集、评估方法和个性化 LLM 的应用。最后，我们指出了尚需解决的挑战和重要的开放性问题。通过使用所提出的分类体系统一并综述近期研究，我们旨在为现有文献和 LLM 个性化的不同方面提供清晰的指导，助力研究人员和实践者。

1 引言

大规模语言模型（LLM）已成为能够执行广泛自然语言处理（NLP）任务的强大工具，并展现了出色的能力（例如，Radford 等，2018；Devlin 等，2019；Lewis 等，2019；Radford 等，2019；Brown 等，2020；Raffel 等，2020；Achiam 等，2023；Touvron 等，2023；Groeneveld 等，2024）。实证上，这些模型已展示出作为通用模型的能力，使其能够准确地完成诸如文本生成、翻译、摘要和问答等多种任务。值得注意的是，LLM 在零样本或少样本环境中也能有效工作，即使没有任务特定的训练数据，它们也能够理解并执行复杂的指令（Bommasani 等，2021；Liu 等，2023c）。这一能力消除了对模型参数进行广泛微调的需求，使人与机器的交互通过简单的输入提示大大简化。例如，用户可以以对话形式与 LLM 互动，使交互更加直观易用。LLM 的这种强大且多才多艺的能力已催生了诸多应用，包括通用人工智能助手（AutoGPT，2024）、协同工具（微软，2024）以及基于个人的 LLM 代理（Li 等，2024f）。这些应用可以帮助用户执行写邮件、生成代码、撰写报告等各种任务。

最近，人们越来越关注将 LLM 适应用户特定的上下文，以超越其作为 NLP 任务解决方案或通用聊天机器人的自然用途（Tseng 等，2024）。LLM 个性化正是为此而生，通过适应模型生成符合每位用户或用户群独特需求和偏好的响应。这种个性化对于人机交互和用户导向的应用至关重要。通过提供更相关和有意义的互动内容，个性化预计能提升用户满意度，确保用户收到更符合其需求和期望的响应。这样一来，LLM 可以在客户支持（亚马逊，2024）、教育（Wang 等，2022；2024b）和医疗（Tang 等，2023；Yuan 等，2023）等广泛应用中提供更有效的支持，其中个性化响应可以显著改善用户体验；在教育领域，定制内容可以更好地满足个体学习需求；在医疗领域，个性化建议可以提高患者护理质量。

LLM 的个性化近来获得了大量关注（Salemi 等，2023；Tseng 等，2024）。然而，现有的个性化 LLM 研究通常分为两个类别：(a) 个性化文本生成，主要关注在个性化上下文中生成单轮或多轮文本，以及 (b) 在下游个性化任务（如推荐系统）中应用 LLM。这两个领域的大量研究往往独立发展，缺乏一个统一的视角。此外，现有综述（Chen，2023；Chen 等，2024b；2024c）通常仅聚焦于其中一个方面，缺乏系统定义关键组成部分并整合两个个性化 LLM 维度洞见的综合视角。尽管这两个领域在特征和目标上有所不同，但统一的视角对于弥合这些研究社区之间的差距至关重要，以促进协作和知识共享，从而开发出更具通用性和多功能性的系统。例如，用户特定文本生成的进展可以通过对话互动为推荐系统提供更个性化和可解释的建议。通过整合这两个领域的洞见，研究人员可以开发不仅能够生成符合个体偏好的文本，还能在各种应用中提升用户满意度的 LLM。此跨学科方法可促进更全面的解决方案，以互补方式兼顾个性化和性能。

在本研究中，我们通过为个性化 LLM 的个性化粒度、技术、评估、数据集和使用场景提出直观的分类体系，统一了来自不同领域的文献。本文的关键贡献如下：

个性化 LLM 使用的统一视角与分类体系（第二节）。我们基于生成文本是直接用于评估还是间接用于其他下游应用，提供了个性化 LLM 使用的统一视角与分类体系。这为理解和统一专注于 LLM 个性化的两个独立领域奠定了基础。我们进一步分析了每种方法的局限性，包括特征、评估和数据集等因素。

个性化 LLM 的形式化（第三节）。我们通过确立基础概念，对个性化 LLM 进行了形式化，整合了现有的个性化概念，定义并讨论了个性化的新方面，并概述了它们在各种使用场景中的理想特性。

LLM 个性化粒度的分析和分类体系（第四节）。我们提出了 LLM 个性化的三个不同粒度层次，包括 (i) 用户级个性化，(ii) 角色级个性化，以及 (iii) 全局偏好个性化。我们形式化了这些层次，并讨论了各粒度之间的权衡。值得注意的是，用户级个性化是最细的粒度，但需要足够的用户级数据。相比之下，角色级个性化将用户分组为角色，并根据角色分配来定制体验；虽然不及用户级个性化细致，但对于数据有限的用户来说是一种有效的个性化方式。最后，全局偏好个性化针对大众的整体偏好，不提供用户特定的个性化。

LLM 个性化技术的调查与分类体系（第五节）。我们根据用户信息的使用方式，对现有个性化 LLM 技术进行了分类并提供了全面的概述。分类涵盖了各种方法，如检索增强生成（RAG）、提示工程、监督微调、嵌入学习和基于人类反馈的强化学习（RLHF）。对于每种方法，我们讨论了其特点、应用以及相关权衡。详细分析有助于理解不同个性化技术的优缺点及其在不同任务中的适用性。

个性化 LLM 评估指标的调查与分类体系（第六节）。我们对个性化 LLM 评估中使用的现有指标进行了分类和分析，提出了一种新的分类体系，以区分直接和间接的评估方法。我们强调了定性和定量指标的重要性，涵盖用户满意度、生成文本的相关性和连贯性等方面。此外，我们讨论了个性化 LLM 评估中的挑战，并提出了改善评估过程稳健性和可靠性的潜在解决方案。

个性化 LLM 数据集的调查与分类体系（第七节）。我们对用于训练和评估个性化 LLM 的数据集进行了全面分类，基于其在直接或间接个性化文本生成评估中的用途。综述涵盖了广泛的数据集，包括专门设计用于短文本和长文本生成、推荐系统、分类任务和对话生成的数据集。我们讨论了每个数据集的优缺点、与不同个性化技术的相关性，以及为了推进该领域而需要更具多样性和代表性的数据集。

个性化 LLM 的应用调查（第八节）。我们调查了个性化 LLM 应用的关键领域，包括教育和医疗、金融、法律、编程环境中的人工智能助手。我们还探索了其在推荐系统和搜索引擎中的应用，突显个性化 LLM 提供定制用户体验、增强参与度并改善特定任务效果的能力。

未来工作的重要开放性问题和挑战概述（第九节）。我们列出了个性化 LLM 中需要解决的关键挑战和开放性研究问题，以推动该领域的发展。核心问题包括需要改进基准和指标以有效评估个性化，解决在用户数据稀少时适应模型的冷启动问题，以及解决可能在个性化输出中出现的刻板印象和偏见问题。还探讨了用户数据隐私保护与个性化之间的平衡。此外，我们讨论了将个性化扩展到多模态系统的独特复杂性，其中跨越多种输入类型整合用户偏好仍是一个未解决的挑战。

在本文的剩余部分，我们首先提出个性化 LLM 使用的统一视角和分类体系（第二节），然后深入探讨个性化 LLM 的理论基础（第三节）。接着，探讨 LLM 个性化的粒度（第四节），并对个性化 LLM 技术进行全面的综述与分类（第五节）。然后，我们对个性化 LLM 的评估指标和方法进行分类（第六节），并对个性化 LLM 的数据集进行详细的分类（第七节）

个性化 LLM 的基础

尽管先前的研究（Yang & Flek，2021；Chen 等，2024c；b）探讨了个性化 LLM 的定义并分析了其各个方面，但仍缺乏一个全面的理论框架来理解和形式化这些模型中的个性化。在本节中，我们旨在填补这一空白，通过建立基础原则、定义和形式结构来形式化 LLM 中的个性化问题。我们系统地发展必要的符号和概念框架，以形式化该问题和评估，为深入理解个性化如何在 LLM 中有效实施和分析奠定基础。以下小节结构如下：

§LLM 的一般原则：我们首先概述构成 LLM 基础的核心原则。这为理解这些模型的功能及其能力驱动的基本机制提供了重要背景。

§LLM 中个性化的定义：我们在 LLM 的特定上下文中定义“个性化”这一术语，为后续讨论奠定明确的理解基础。

§个性化数据概述：我们提供当前用于个性化的数据概述，强调数据源的不同格式。

§个性化生成的形式化：我们形式化个性化生成的概念空间，为理解如何实现个性化提供结构化框架。

§个性化标准的分类体系：我们引入一个全面的个性化标准分类体系，分类影响个性化输出的各种因素。