大语言模型综述:核心能力与局限性分析
本文综述了大型语言模型(LLMs)的发展、架构及应用。内容涵盖从统计模型到 Transformer 的演进,重点分析了扩展法则及 BERT、GPT、LLaMA 等模型家族的特性。探讨了预训练策略、数据源、预处理技术及模型适应方法(如指令微调)。此外,详细阐述了利用策略,包括上下文学习(ICL)、思维链(CoT)及规划能力,并评估了 LLM 在医疗、金融、教育等领域的实际应用与挑战。最后总结了 LLM 的变革潜力与伦理技术挑战。

本文综述了大型语言模型(LLMs)的发展、架构及应用。内容涵盖从统计模型到 Transformer 的演进,重点分析了扩展法则及 BERT、GPT、LLaMA 等模型家族的特性。探讨了预训练策略、数据源、预处理技术及模型适应方法(如指令微调)。此外,详细阐述了利用策略,包括上下文学习(ICL)、思维链(CoT)及规划能力,并评估了 LLM 在医疗、金融、教育等领域的实际应用与挑战。最后总结了 LLM 的变革潜力与伦理技术挑战。

人工智能的迅速发展,尤其是基于 Transformer 架构的大型语言模型(LLMs)的发展,重新定义了自然语言处理的能力。这些模型在多种与语言相关的任务中展现出了卓越的表现,例如文本生成、问答、翻译和摘要,往往能与类人理解相媲美。更为引人注目的是,LLMs 展现出了超越其核心功能的突现能力,表现出在常识推理、代码生成和算术等任务中的卓越能力。
本文综述了驱动这些能力的基础组件、扩展机制和架构策略。重点分析了像 GPT 和 LLaMA 这样的模型,探讨了数据和计算量指数增长对 LLM 性能的影响,并讨论了扩展过程中面临的权衡问题。我们还考察了 LLM 在多个领域(如医疗、金融、教育和法律)的应用,突出了它们的适应性以及解决领域特定问题的潜力。
本文的核心问题包括:LLMs 如何在不同任务之间进行泛化,如何展示规划和推理能力,突现能力是否可以系统地引出或增强。特别地,我们深入探讨了 LLM 中的 CoT(思维链)和 PoT(思维计划)能力,重点分析了预训练数据如何影响这些能力的出现。此外,我们还研究了 LLM-模块化框架,这些框架能够集成外部系统,支持 LLM 处理复杂的动态任务。通过分析这些因素,本文旨在促进关于 LLM 能力和局限性的持续讨论,推动其在新兴且日益复杂的环境中的负责任发展和应用。
近年来,人工智能领域经历了前所未有的变革,主要得益于基于变换器(Transformer)架构的大规模语言模型(LLMs)的发展。以 OpenAI 的 GPT 系列和 Meta 的 LLaMA 为代表的这些模型,彻底改变了我们处理自然语言处理任务的方式,实现了曾被认为无法企及的理解、学习和生成水平。它们在多种任务中表现出色,包括文本生成、问答、语言翻译和摘要,展示了它们在解决复杂语言问题方面的巨大潜力。令人惊讶的是,这些模型还展现了一些超越文本生成的能力,如常识推理、代码生成、算术运算以及各个领域中的其他复杂任务。
推动 LLM 演进的关键因素有几个,其中最重要的便是数据和计算资源的指数级增长。社交媒体平台、数字图书馆及其他来源提供了大量的文本和多媒体信息,使得 LLM 能够在丰富且多样化的数据集上进行训练。另一方面,强大的 GPU、TPU 以及分布式计算框架的出现,使得训练拥有数十亿乃至数万亿参数的模型成为可能。这两者结合,促使 LLM 能够捕捉到细致的语言模式、文化背景和领域特定的知识,增强了它们生成连贯、上下文适当且高度多样化输出的能力。
然而,随着模型的复杂性和能力的不断增加,这些模型也带来了新的挑战,并引发了关于其适用性、局限性以及未来发展潜力的关键问题。围绕其伦理使用及长期影响的讨论,已经成为关于其未来的核心议题,这不仅涉及到 AI 领域,还涉及到我们的日常生活。解决这些问题至关重要,因为研究人员和从业者正在继续探索 LLM 所能带来的变革性可能性。
本文的目标有两个。
首先,我们旨在提供关于 LLM 及其应用的深入综述,从其发展、预训练策略和架构变体的基础概述开始。这包括对从早期语言模型到如 BERT、GPT、LLaMA 等 LLM 复杂架构的演进进行考察。特别地,我们探讨了扩展规律的概念,这对于理解 LLM 的规模和复杂性如何影响其性能和能力,以及构建日益庞大和强大的模型所涉及的权衡和挑战至关重要。我们还将研究它们在各个领域的应用,如医疗、金融、教育、法律和科学研究。每个领域都有独特的挑战和机会,突出展示了 LLM 的多样性和适应性。例如,在医疗领域,LLM 在辅助临床决策方面展现出了潜力,而在金融领域,它们则被用于情感分析和市场预测等任务。
本文的第二个目标是深入探讨使 LLM 能够执行以往被认为机器学习系统无法完成的任务的机制。特别地,我们将尝试回答一些根本性问题。这些模型是如何学习和在任务及领域间泛化的?这些新兴能力是什么,它们如何被激发出来?哪些因素有助于它们的发展(例如模型规模、数据、架构等)?这些模型的固有局限性是什么,又该如何应对?因此,本研究的核心动机是调查 LLM 的当前能力和边界,重点关注它们在自我规划和执行任务方面的泛化能力。
下面是按结构组织的论文概要:
第 2 节 介绍了大规模语言模型(LLMs),追溯了其从早期统计语言模型到现代基于变换器(Transformer)架构的发展历程。强调了扩展规律在 LLM 发展中的重要作用,即模型规模、数据量和计算资源的增加导致了语言任务中显著的性能提升。本节还展示了如 BERT、T5、GPT 系列和 LLaMA 等著名的 LLM 家族,突出它们各自独特的架构、优势以及对自然语言处理进步的贡献。此外,本节还强调了 LLM 在医疗、金融、教育、法律和科学研究等各个领域的变革性影响。
第 3 节 聚焦于 LLM 的基础构建模块,涵盖数据预处理技术、预训练方法以及模型适应策略。本节探讨了各种预训练方法,包括无监督学习、有监督学习和半监督学习,强调它们对模型性能和适应性的影响。本节还审视了用于 LLM 训练的不同数据来源,将其分为一般数据(如网页、书籍和对话文本)、专业数据(如科学文献和代码)以及广泛使用的数据集(如 Wikipedia、BookCorpus 和 CommonCrawl)。详细介绍了关键的数据预处理步骤,如质量筛选、数据清洗、去重和分词,它们在为有效的 LLM 训练准备数据中的作用。此外,本节还讨论了模型适应技术,如指令微调和对齐微调,它们能为特定任务微调模型,并使模型的行为与预期的人类价值对齐。关键地,本节提供了对变换器(Transformer)架构的全面分析,详细描述了其组件(编码器、解码器、自注意力机制)、标准化方法、激活函数、位置嵌入和优化策略。
第 4 节 讨论了有效利用 LLM 的策略和技术,重点介绍了上下文学习(ICL)、链式思维提示(CoT)和规划能力。它解释了 ICL 作为一种独特的提示技术,使 LLM 能够通过提示中提供的示例进行学习,从而无需显式的梯度更新就能解决新任务。本节详细阐述了各种 ICL 策略,如示范设计、提示工程和选择合适的评分函数,同时探讨了影响 ICL 性能的因素。接着,本节介绍了 CoT 提示作为增强 LLM 推理能力的强大方法。这种方法通过将中间推理步骤整合到提示中,引导模型采用结构化的思维过程,尤其对需要逻辑推理、问题解决和数学计算的任务非常有益。最后,本节探讨了 LLM 的规划能力,重点介绍了基于提示的规划技术。该技术将复杂任务分解为可管理的子任务,并生成执行计划。讨论了不同的规划方法,包括基于文本和编程的方式,并强调了反馈机制和计划优化在成功执行计划中的关键作用。
第 5 节 探讨了 LLM 中 CoT 能力的来源,提出了一个假设,即预训练数据中代码的存在可能有助于这些推理能力的出现。为此,本节通过使用 LMStudio 软件在 HuggingFace 平台上对公开可用的 LLaMA 系列模型进行实验,提供了实证证据。分析重点是这些模型在 GSM8k 和 gsm-hard 数据集上的推理任务表现,评估它们在利用 CoT 和思维计划(PoT)方法方面的能力。
第 6 节 总结了本文的关键内容,重申了 LLM 在各个领域的变革性潜力。还承认了与 LLM 发展相关的伦理、技术和实践挑战,并倡导继续进行研究,确保其在未来得到负责任和有益的应用。
LLMs 的核心设计目标是理解、学习和生成连贯且上下文相关的语言,其规模前所未有。历史上,语言模型(LMs)的发展根植于理解和复制人类语言的追求,可以分为四个主要阶段:
统计语言模型:这些模型旨在捕捉语言的统计特性,如词频和共现,基于马尔可夫假设预测给定词序列的可能性。如果上下文长度固定,模型被称为 n-gram 模型。然而,这些模型受限于需要估计的转移概率的指数级增长以及马尔可夫假设的局限性,无法捕捉自然语言中的长距离依赖关系。
神经语言模型:神经网络的兴起导致了利用神经架构捕捉语言复杂模式和依赖关系的语言模型的发展。这些模型,如循环神经网络(RNN)和长短期记忆网络(LSTM),能够捕捉长距离依赖关系和上下文信息,从而生成连贯且上下文相关的文本。
预训练语言模型(PLM):预训练语言模型的发展标志着语言模型演进的一个重要里程碑。这些模型在大量数据语料库上进行无监督或自监督训练,然后在特定任务上进行微调。ELMo 和 BERT 是这一阶段的代表性模型,BERT 通过双向 Transformer 架构在自然语言处理任务中取得了显著进展。
大型语言模型(LLM):LLMs 的出现重新定义了语言处理系统的能力。研究表明,随着参数数量或数据量的增加,语言模型的性能会提高,这一现象被称为扩展法则。许多 LLMs 基于 Transformer 架构,能够捕捉语言中的长距离依赖关系和上下文信息。LLMs 在文本生成、问答、语言翻译、摘要和情感分析等任务中表现出色,展示了其在各种应用中的潜力。
扩展法则是 LLMs 发展的基本原则,表明随着语言模型规模的增加,其在语言任务中的能力和表现呈现出不成比例的正向增长。这一概念已成为推动语言处理和理解边界的关键力量。
随着 LLMs 在参数数量上的扩展,它们展示了从多样化数据集中泛化并生成上下文连贯文本的非凡能力。扩展法则的核心在于语言模型规模与其包含的参数数量之间的直接相关性。参数是模型在训练过程中学习的内部变量,代表了其理解语言的连接和权重。随着参数数量的增加,模型捕捉复杂语言结构的能力也随之增强。
扩展法则的一个主要结果是,模型在各种语言相关任务中的表现显著提升。从语言生成到情感分析、问答和摘要,较大的模型始终优于较小的模型。学习复杂语言特征的能力增强,使得 LLMs 在理解和生成更接近人类的文本方面表现出色。
LLMs 的发展得益于一些著名模型家族的出现,每个家族都有其独特的架构和能力。这些模型家族在推动语言处理和理解边界方面发挥了关键作用。
BERT(Bidirectional Encoder Representations from Transformers)由 Google 于 2018 年推出,通过专注于文本处理中的双向上下文,标志着 LLMs 的重要演进。BERT 的模型架构基于原始 Transformer 架构,采用了双向 Transformer 编码器。与之前的模型不同,BERT 从左到右和从右到左两个方向分析文本,提供了对语言上下文的更细致理解。这种双向性使 BERT 在问答、命名实体识别和情感分析等各种 NLP 任务中取得了最先进的成果。
BERT 的创新在于其双向性和使用了一种称为掩码语言模型(MLM)的机制。在 MLM 中,输入令牌的某些百分比被随机掩码,目标是基于上下文预测这些掩码的令牌,利用序列两侧的信息。BERT 还结合了下一句预测(NSP)任务,帮助模型学习句子之间的关系,进一步增强其对上下文的理解。
尽管 BERT 具有强大的性能,但它也存在一些局限性。模型的规模和复杂性需要大量的计算资源进行训练,这对一些组织或研究人员来说可能是一个障碍。BERT 对周围文本上下文的关注并不能解决所有语言理解挑战,特别是在涉及广泛世界知识或超出其训练数据范围的推理任务时,模型可能会遇到困难。
T5(Text-to-Text Transfer Transformer)由 Google 于 2019 年开发,将所有 NLP 任务重新定义为统一的文本到文本问题,其中每个任务都被转换为从输入文本生成目标文本。这种方法简化了使用单一模型跨多样化任务的过程,鼓励了对语言的更广义理解。
T5 基于 Transformer 模型,类似于其前身 BERT 和 GPT。它利用有效的自注意力机制处理数据序列。该模型设计用于处理各种任务,无需任务特定的架构修改。它使用统一的文本到文本框架,其中任务被转换为输入和输出始终为文本字符串的格式。T5 在无监督和有监督任务的多任务混合上进行预训练,使用了称为'C4'的大规模数据集。
T5 的统一方法简化了将新任务集成到模型训练体系中的过程,因为它们只需要重新格式化为文本到文本格式。尽管 T5 的统一方法具有显著优势,但它可能并不适用于所有类型的任务。某些任务可能受益于更专门的模型架构或格式。T5 的训练过程需要大量的计算资源,这可能对小型组织或独立研究人员构成限制。
GPT 系列由 OpenAI 开发,处于 LLM 研究的前沿。最初的 GPT 模型于 2018 年推出,基于 Transformer 架构,显著提升了先前模型对上下文的理解和文本生成能力。GPT-2 于 2019 年发布,扩展了模型的规模,展示了前所未有的文本生成能力。GPT-3 进一步推动了边界,展示了在无需任务特定训练的情况下生成类人文本、执行语言翻译和问答等任务的能力。
GPT 系列基于 Transformer 架构,利用自注意力机制处理输入数据,允许模型权衡输入上下文中不同词的重要性,增强其理解和生成语言的能力。GPT 模型以其堆叠的 Transformer 块为特征,这些块由多头自注意力层和全连接前馈神经网络组成。该系列在参数数量上呈指数级增长:GPT 有 1.1 亿参数,GPT-2 有 15 亿参数,GPT-3 有 1750 亿参数。
GPT 模型展示了生成连贯且上下文相关文本的显著能力,模拟了人类的写作风格。它们在无需任务特定数据训练的情况下,在广泛的 NLP 任务中表现出色,展示了其在少样本、单样本或零样本学习场景中的多功能性。架构的可扩展性表明,较大的模型往往表现出更好的性能,并捕捉到数据中更细微的模式。
尽管 GPT 模型具有强大的生成能力,但它们也存在一些批评。这些模型对数据的依赖性很强,需要大量的文本数据进行训练,这引发了关于环境影响和计算成本的担忧。模型有时会生成看似合理但实际上不正确或无意义的信息,这种现象通常被称为'幻觉'。这些模型的黑箱性质在可解释性和透明度方面提出了挑战,使得理解其决策过程或纠正偏差变得困难。
LLaMA(Large Language Model Meta AI)是由 Meta AI 开发的语言模型,旨在为广泛的自然语言处理(NLP)任务提供多功能且高效的基础。LLaMA 基于 Transformer 架构,参数范围从 7B 到 65B 不等。与原始 Transformer 架构的主要区别在于:
预归一化:LLaMA 使用预归一化,意味着归一化层放置在自注意力和前馈层之前。预归一化提高了大型语言模型的训练稳定性和收敛性,使其成为许多最先进模型的热门选择。
SwiGLU 激活函数:LLaMA 使用 SwiGLU 激活函数,这是一种 Gated Linear Unit(GLU)激活函数的变体。SwiGLU 通过增强信息在网络中的流动,提高了大型语言模型的性能。
旋转嵌入:LLaMA 使用旋转嵌入,这是一种位置编码,帮助模型捕捉输入数据中的长距离依赖关系。
尽管 LLaMA 的规模小于许多竞争对手,但它在大多数基准测试中优于 GPT-3,65B 模型与 Chinchilla 和 PaLM-540B 等最佳大型语言模型竞争,尽管其规模小 10 倍。
专用大型语言模型(LLMs)是为特定领域或任务精炼的模型检查点,如医疗和金融。现有的领域特定模型通过预训练在专用数据集上开发,或通过将通用大型模型适应特定任务,或混合这两种方法。这些模型作为领域特定问题解决者,并根据其一般能力(如基本复杂推理)和更细微的能力(如与人类意图的对齐)进行评估。
人工智能(AI)与医疗的交汇推动了医疗服务、诊断、治疗和患者护理的进步。LLMs 在医疗领域的应用主要体现在以下几个方面:
医学图像分析:LLMs 与医学成像技术结合,提高了诊断的准确性和效率。通过分析放射图像和临床报告,LLMs 可以协助放射科医生解释图像,识别异常并提供诊断见解。
临床决策支持:LLMs 在增强临床决策支持系统(CDSS)方面发挥了关键作用。通过分析患者数据和医学文献,LLMs 可以协助临床医生诊断病情、建议治疗方案并预测患者结果。
医疗文档和编码:LLMs 展示了自动化临床对话和笔记转换为结构化电子健康记录(EHR)的能力,从而减少了错误并节省了时间。
药物发现与开发:在制药领域,LLMs 加速了药物发现和开发流程。通过挖掘大量化学库和医学数据库,这些模型促进了潜在药物候选物的识别和现有药物的重新利用。
个性化医疗:个性化医疗根据个体患者特征定制治疗方案,LLMs 通过生成患者特定模型来预测疾病易感性和药物反应,从而受益。
患者参与和自我管理:LLMs 通过提供信息、提醒和慢性病自我管理的动机支持,革新了患者参与。
尽管 LLMs 在医疗应用中具有显著优势,但也面临重大挑战。患者隐私、数据安全性和 AI 驱动决策的可解释性是关键问题。此外,训练数据中的偏差可能导致患者护理中的不平等,需要在临床部署前进行严格的验证和公平性评估。
LLMs 在金融领域的应用包括情感分析、问答和股票市场预测等任务。尽管对通用领域 LLMs 的研究广泛,金融 LLM(Fin-LLM)研究仍然有限,该领域仍处于早期阶段。
算法交易:LLMs 分析大量非结构化数据,包括新闻文章、财务报告和社交媒体,以评估市场情绪并预测股票价格走势。
风险管理:在风险管理中,LLMs 通过解析和解释复杂的监管文件,识别潜在的合规风险并提供可操作的见解。
客户服务自动化:金融机构利用 LLMs 为聊天机器人和虚拟助手提供动力,提供实时、个性化的客户服务。
欺诈检测:LLMs 通过分析交易数据和客户通信,识别欺诈活动的模式,从而增强金融交易的安全性。
尽管 LLMs 在金融领域具有潜力,但也面临数据隐私、模型决策的可解释性以及训练数据中的偏差等挑战。确保这些模型符合伦理标准和监管合规性至关重要。
LLMs 在教育中的应用显著影响了教学和学习体验。LLMs 可以生成个性化的教育内容,提供解释、生成练习题并提供反馈。
智能辅导系统:LLMs 可以模拟一对一的辅导互动,适应学生的学习节奏、风格和当前知识水平。
自动评分:LLMs 可以评估考试和作业中的开放式回答,从而节省教师的时间,使他们能够专注于更个性化的教学方法。
研究支持:LLMs 可以协助文献综述、生成假设甚至撰写研究提案或论文,尽管需要仔细监督以确保学术诚信。
管理与支持:LLMs 可以简化与学生的沟通,处理日常查询并管理日程安排和提醒,从而增强学生和教师的整体教育体验。
尽管 LLMs 在教育中具有巨大潜力,但也面临确保信息可靠性、避免偏差以及维护隐私和安全等挑战。
LLMs 在法律领域的应用显著影响了法律文件分析、法律判决预测和法律文件撰写等任务。
法律文件分析:LLMs 可以分析法律文件,提取关键信息并提供见解。
法律判决预测:LLMs 可以基于历史数据和案例预测法律判决结果。
法律文件撰写:LLMs 可以协助撰写法律文件,如合同和诉状,提高效率和准确性。
尽管 LLMs 在法律应用中表现出色,但也面临处理复杂法律推理和多层次上下文理解等挑战。
LLMs 在科学研究中的应用涵盖了从文献综述到假设生成、头脑风暴、数据分析、手稿起草、校对和同行评审的各个阶段。
文献综述:LLMs 可以执行详尽的文献综述,总结特定科学学科的进展。
假设生成:LLMs 可以生成有说服力的科学假设,推动研究方向的探索。
数据分析:LLMs 可以自动化数据属性分析,包括探索性数据分析、可视化和提取分析推断。
手稿起草:LLMs 可以协助科学写作,提供摘要、引言和结论的生成服务。
同行评审:LLMs 可以自动化同行评审过程,执行错误识别、合规性检查和提交优先级排序等任务。
尽管 LLMs 在科学研究中具有广泛的应用前景,但也面临确保信息准确性和避免偏差等挑战。
预训练是开发大型语言模型(LLMs)的基础阶段,允许模型捕捉词之间的关系并生成连贯且上下文相关的文本,为其在特定 NLP 任务中的表现奠定基础。这一阶段涉及在大量文本数据上训练语言模型,然后在较小的任务特定数据集上进行微调,以提高其在该任务上的表现。
无监督预训练是一种预训练策略,涉及在没有标签或注释的情况下在大量文本数据上训练模型。模型被训练为预测给定序列中的下一个词,使用自回归语言建模(ALM)技术。GPT-3 及其变体使用这种自回归语言建模目标在大型文本语料库上进行预训练,学习语言中词之间的关系。
有监督预训练是一种预训练策略,涉及在带有标签或注释的大量文本数据上训练模型。这种方法使模型能够学习与最终任务更紧密对齐的表示,从而潜在地提高其性能和效率。在有监督预训练中,LLMs 暴露于各种领域的标记数据中,学习在已知输入输出对的监督下预测正确输出。
半监督预训练是一种混合训练方法,结合了有监督和无监督学习的优势。这种方法利用大量未标记数据和少量标记数据,优化模型的学习效果和适应性。半监督预训练涉及初始使用未标记数据进行训练,类似于无监督预训练,随后在较小的标记数据集上进行进一步训练或微调,以灌输任务特定的知识和细微差别。
LLMs 的训练和评估依赖于广泛的高质量数据集,涵盖多样化领域和语言。这些数据集作为预训练和微调 LLMs 的基础,使研究人员能够评估模型在文本生成、翻译等任务中的表现。
通用数据通常包括网页内容、文学作品和对话文本,因其数量庞大、种类繁多且易于获取而受到重视,从而增强了 LLMs 的语言建模和泛化能力。
网页:从互联网提取的网页内容是多样化且最新的文本数据来源,涵盖新闻文章、博客文章和论坛讨论。
对话文本:包括聊天记录和社交媒体互动的对话文本,提供了丰富的非正式语言和口语表达,使 LLMs 能够捕捉人类交流的细微差别。
书籍:包括小说、散文和科学文献的书籍,提供了长期结构化和连贯的文本数据,使 LLMs 能够学习复杂的语言结构和主题细微差别。
专用数据集旨在提高 LLMs 在特定任务中的熟练度,涵盖多语言文本、科学文献和编程代码。
多语言文本:多语言文本数据涵盖多种语言和方言,对于训练 LLMs 理解和生成多样化语言环境中的文本至关重要。
科学文献:科学文献包括研究论文、专利和技术文档,提供了领域特定的文本数据,对于训练 LLMs 生成科学文本和推理任务至关重要。
代码:代码包括源代码片段和软件文档,是结构化文本数据的重要来源,对于训练 LLMs 生成代码和完成代码任务至关重要。
LLMs 的训练和评估依赖于一些常用的数据源,如 BookCorpus、CommonCrawl、Reddit 链接、Wikipedia、代码和其他数据集。
书籍:BookCorpus 和 Gutenberg 是两个著名的数据集,包含来自各种书籍的文本,涵盖多种类型和主题。
CommonCrawl:CommonCrawl 是一个庞大的网页语料库,包含来自数十亿网页的数据,涵盖多样化主题和语言。
Reddit 链接:Reddit 是一个社交媒体平台,用户可以提交链接和帖子,并通过'点赞'或'点踩'进行投票。OpenWebText 和 Pushshift.io 是包含从 Reddit 提取的文本数据的数据集。
Wikipedia:Wikipedia 是一个广泛使用的数据集,包含来自各种文章的高质量文本。
代码:GitHub 和 StackOverflow 是两个主要的代码数据来源,Google 发布了 BigQuery 数据集,包含来自各种编程语言的代码片段。
其他:The Pile 和 ROOTS 是包含来自各种来源的文本数据的数据集,如书籍、文章和网站。
在收集数据后,下一步是进行数据预处理,以确保其干净、一致并准备好用于训练 LLMs,去除噪声和无关或潜在有害信息。
数据预处理的第一步是质量过滤,清理数据以去除无关或低质量内容。现有工作主要采用两种策略:基于分类器的过滤和基于启发式的过滤。
基于分类器的过滤:训练分类器以区分高质量和低质量数据,使用精心策划的数据(如 Wikipedia 页面)作为正例,噪声数据(如垃圾邮件或无关内容)作为负例。
基于启发式的过滤:设置预定义规则以识别和去除噪声数据,如语言过滤、基于指标的过滤、基于统计的过滤和基于关键字的过滤。
数据预处理的下一步是去重,去除重复数据以减少冗余并提高训练数据的多样性。去重可以在文档、段落或句子级别进行,通过计算文档之间的表面特征重叠率来去除包含相似内容的重复文档。
隐私减少是数据预处理中的另一个重要步骤,特别是在处理敏感或个人信息时。常见的技术包括掩码个人身份信息(PII),如姓名、地址和电话号码,并用通用占位符或令牌替换它们。
分词是数据预处理中的关键步骤,将文本数据转换为模型可以处理的令牌。常见的分词技术包括基于词的分词、基于子词的分词和基于字符的分词。
基于词的分词:将文本分割为单个词,适用于传统 NLP 研究。
基于子词的分词:将文本分解为子词单元,如前缀、后缀和词根,适用于处理复杂形态或有限词汇的语言。
基于字符的分词:将文本分割为单个字符,适用于处理没有明确词边界的语言。
LLMs 的适应是其在实际应用中部署的关键方面,使其能够在预训练后在特定任务或领域上进行微调,通过最小化泛化能力的损失来提高其性能。适应可以通过各种技术实现,如指令微调和对齐微调,这些技术使 LLMs 能够增强(或解锁)其能力,并将其行为与人类价值观或偏好对齐。
指令微调是一种利用自然语言指令微调预训练 LLMs 的技术,与有监督微调和多任务提示训练密切相关。指令微调增强了 LLMs 遵循和理解自然语言指令的能力。与传统微调不同,指令微调采用更广义的方法,通过'指令遵循'范式拓宽模型的实用性。
FLAN 是一种指令微调方法,显著提高了零样本学习能力,相比传统模型如 GPT-3 有显著改进。指令微调在 PaLM 等模型中的应用也展示了其在各种任务中的性能提升。
指令微调的实例构建涉及任务描述和输入输出示例的格式化,通常包括任务描述、演示和输入输出对。指令微调的有效性取决于任务描述的多样性和复杂性,以及演示的数量和质量。
对齐微调确保 LLMs 的输出与指定的伦理指南或期望行为一致,避免生成虚假信息、追求不准确目标或产生有害、误导或有偏见的内容。对齐微调的主要标准包括有用性、诚实性和无害性。
有用性:模型有效且高效地协助用户,回答查询或解决任务。
诚实性:提供准确信息并透明地说明模型的不确定性和局限性。
无害性:避免生成冒犯性或歧视性语言,并警惕被操纵进行有害行为。
对齐微调的主要方法包括基于排名的反馈、基于问题的反馈和基于规则的反馈。强化学习从人类反馈(RLHF)是一种常用的对齐微调方法,通过强化学习技术(如近端策略优化)基于人类反馈微调 LLMs。
LLMs 的架构在决定其性能、效率和可扩展性方面起着关键作用。通常,我们可以识别一些关键组件,如编码器和解码器,它们定义了不同的 LLM 架构。
编码器 - 解码器架构是 Transformer 架构的原始版本,由编码器和解码器组成。编码器将输入序列转换为一组表示,捕捉其语义和句法属性。解码器基于编码表示生成输出序列,通过条件生成每个令牌。
因果解码器基于前面的令牌预测每个令牌,确保生成过程是单向的,防止模型在预测过程中使用未来的令牌。GPT 系列是因果解码器架构的典型代表。
前缀解码器允许部分条件生成序列,修改因果解码器的掩码机制,以允许对前缀令牌进行双向注意力,仅对生成的令牌进行单向注意力。这种架构在需要生成具有特定前缀或约束的序列的任务中非常有用。
Transformer 架构已成为 LLMs 的事实标准,因其能够捕捉长距离依赖关系并有效建模复杂语言结构。该架构通常由堆叠的 Transformer 层组成,每层包括多头自注意力子层和位置全连接前馈网络。
一些新兴架构被提出以解决特定挑战或提高 Transformer 的性能,如参数化状态空间模型、长卷积和递归更新机制。
由于 LLMs 由数百万或数十亿参数组成,参数调优可能非常昂贵且耗时。本节讨论了参数和内存的模型适应方法。
参数高效模型适应方法旨在减少模型参数数量,同时尽可能保持性能。常用的方法包括适配器调优、前缀调优、提示调优和 LoRA。
适配器调优:在预训练网络的层之间引入小型可训练模块,称为'适配器',使原始网络的参数保持固定,同时以最小的参数增加适应新任务。
前缀调优:优化一组称为前缀的连续任务特定向量,将其添加到输入中,使 Transformer 模型能够像处理输入序列一样处理这些前缀。
提示调优:在模型输入层引入可训练向量,称为提示令牌,以协助模型执行特定任务。
LoRA:通过低秩分解更新密集层,显著减少内存和存储需求,同时保持单一大型模型以适应各种任务。
内存高效模型适应方法旨在减少 LLMs 在推理过程中的内存占用,使其更适合在资源受限的环境中部署。常用的方法包括模型量化。
上下文学习(ICL)是一种独特的提示技术,使 LLMs 能够从提示中提供的示例中学习,从而在不显式梯度更新的情况下处理新任务。ICL 策略包括演示设计、提示工程和选择适当的评分函数。
思维链提示(CoT)是一种增强 LLM 推理能力的强大方法,通过在提示中整合中间推理步骤,引导模型采用结构化的思维过程,特别适用于需要逻辑推理、问题解决和数学计算的任务。
程序思维(PoT)是一种将复杂任务分解为可管理子任务并生成执行计划的技术。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。
复杂任务的规划涉及将任务分解为子任务并生成执行计划。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。
检索增强生成(RAG)是一种将 LLMs 与外部知识库结合的技术,允许模型在生成过程中检索相关信息,从而提高准确性和可信度。
激发思维链的因素可能包括预训练数据中代码的存在,这些代码可能促成了 LLMs 的推理能力。
通过实验,展示了在 HuggingFace 平台上使用 LMStudio 软件对公开可用的 LLaMA 家族模型进行实验的经验证据,评估了它们在 GSM8k 和 gsm-hard 数据集上的推理任务中的表现。
提示技术在激发 LLMs 的推理能力中起到了关键作用,特别是在需要逻辑推理和数学计算的任务中。
生成文本的示例展示了 LLMs 在复杂推理任务中的表现,特别是在使用思维链提示和程序思维方法时的能力。
本文总结了 LLMs 在各个领域的变革潜力,重申了其在文本生成、问答、语言翻译和摘要等任务中的出色表现。尽管 LLMs 具有强大的能力,但也面临伦理、技术和实践挑战。未来的研究应继续探索 LLMs 的潜力,确保其负责任和有益的应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online