垂直领域的大模型是人工智能发展的重要方向。在构建此类模型时,核心问题在于选择检索增强生成(RAG)还是微调(Fine Tuning)。微软近期发表的论文《RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASE STUDY ON AGRICULTURE》针对农业领域的案例研究提供了极具实操性的参考。本文基于该论文内容,深入探讨垂直领域大模型的构建路径、技术选型及权衡策略。
论文摘要
在构建大型语言模型(LLM)应用程序时,开发人员通常通过两种常见方式整合专有数据和特定领域数据:检索增强生成(RAG)和微调。RAG 使用外部数据增强提示,而微调则将其他知识合并到模型本身中。然而,这两种方法的优缺点尚不完全明确。该论文提出了一个用于微调和 RAG 的通用管道,并介绍了多种流行 LLM(包括 Llama2-13B、GPT-3.5 和 GPT-4)在两者上的权衡分析。
流程包含多个阶段:从 PDF 中提取信息、生成问题和答案、使用它们进行微调,以及利用 GPT-4 评估结果。研究团队提出了一些指标来评估 RAG 和微调管道不同阶段的性能。通过对农业数据集的深入研究,我们发现农业作为行业,人工智能的渗透率并不高。研究探索了一种潜在的颠覆性应用——为农民提供特定地理位置的见解。结果显示,数据集生成管道在捕获特定地理知识方面有效,且 RAG 和微调均展现出定量和定性优势。在微调模型时,精度提高了 6 个百分点以上;在此基础上再进行 RAG,准确性进一步提高了 5 个百分点。在一个特定实验中,微调模型利用来自不同地理位置的信息回答特定问题,将答案相似度从 47% 提高到 72%。总体而言,研究结果指出了如何使用 LLM 构建的系统进行调整,以响应和整合对特定行业至关重要的维度上的知识。
背景与挑战
过去几年,人工智能和自然语言处理取得了重大进展,推动了 GPT-4、Llama 2 等强大模型的发展。这些模型在编码、医学、法律、农业等领域表现出接近人类水平的专业知识。然而,由于缺乏专门的训练数据,人工智能在农业等特定领域的应用仍然受到限制。虽然 AI 已被用于从卫星图像和传感器数据中获得见解,但该技术仍在慢慢被农民采用。
尽管 GPT-4 和 Bing 是查找信息的强大工具,但它们可能无法为对作物和牲畜有非常具体问题的农民提供最佳解决方案。这些问题通常需要了解当地条件、特定品种和最新数据,而这些数据可能无法通过一般搜索引擎轻松获得。例如,对比 GPT-4 和一位农艺师专家对美国三个不同州提出的同一查询的答案可以发现,专家会根据各州特定的气候和农业传统提供情境化的答案,而大语言模型提供了一个通用的答案,虽然正确,但对每个州来说并不像专家答案那样精确。
因此,为需要按照特定情景响应的行业创建 AI Copilot 显得尤为重要。我们需要一个全面的 LLM 管道,以生成高质量的、特定于行业的问题和答案。这种方法涉及一个系统的过程,包括确定和收集涵盖广泛农业主题的相关文档,清理和结构化以便利用基本模型生成有意义的问答对,并根据质量进行评估和过滤。
方法论与 Pipeline 架构
该论文提出的方法是通过 Pipeline 来构建和评估农业领域的 AI Copilot,该管道旨在生成和评估用于构建特定领域的副驾驶的问答对。Pipeline 从数据采集开始,重点是收集与行业领域相关的多样化和精心策划的数据集(包括美国、巴西和印度)。这包括从各种高质量的存储库(如政府机构、科学知识数据库和专有数据)中获取数据。
数据采集后,Pipeline 继续从收集的文档中提取信息。此步骤至关重要,因为它涉及解析复杂和非结构化的 PDF 文件以恢复底层内容和结构。从 PDF 文档提取信息颇为挑战,作者尝试了多种开源工具(PDF2Text、PyPDF 等),最终使用 GROBID(GeneRation Of Bibliographic Data)开源工具。它采用强大的文本提取工具和机器学习算法来恢复文本、表格和视觉信息,同时识别文档的语义结构以及其中可能的交叉关系。即使面对复杂文档,GROBID 也能够提取结构化信息。
Pipeline 的下一个组件是问答生成(Q&A Generation)。这里的目标是生成基于上下文的高质量问题,以准确反映提取文本的内容。该方法采用一个指导框架(Guidance Framework),其主要优势在于它能够对输入和输出的结构组成提供无与伦比的控制,从而增强语言模型生成响应的整体效率。这种程度的控制使输出不仅更加精确,而且表现出增强的连贯性和上下文相关性。该框架能够将生成、提示和逻辑控制合并到一个单一的统一流程中,这与语言模型文本处理的固有机制非常相似。此外,Guidance 的独特功能可以通过特定于上下文的提示来指导语言模型,有助于提高生成文本的语义相关性。
随后,Pipeline 会为给定的问题生成答案。这里采用的方法利用检索 - 增强生成(RAG),它结合了检索和生成机制的力量来创建高质量的答案。创建向量数据库和检索是采用 Facebook AI 相似性搜索(FAISS)及其 similarity_search_with_score 来完成,最后由 LLM 生成合成的答案。
最后,Pipeline 使用成对的问答集微调模型。优化过程采用了低秩适配(LoRA)等方法,并确保全面了解科学文献的内容和背景,使其成为各个领域或行业的宝贵资源。
综合评估与权衡
论文的主要贡献之一是对 LLMs 的综合评估。在回答农业相关问题时,对包括 LlaMa2-13B、GPT-4 和 Vicuna 在内的大型语言模型进行了广泛的评估,这通过主要农业生产国的基准数据集来完成。评估包括完整的微调和 RAG 管道,每个管道都有自己的一组指标。这次评估的结果为理解这些模型在农业领域应用的性能提供了重要的基线。此外,论文还进行了评估,展示了空间转移对现有 LM 编码的知识的影响,以及空间范围微调提供的改进。研究表明,GPT-4 的表现一直优于其他模型,但需要考虑与其微调和推理相关的成本。
关于检索技术和微调的影响,研究表明 RAG 和微调都是提高 LLM 性能的有效技术。RAG 在数据与上下文相关的情况下被证明非常有效,例如在农场数据的解释中,同时也导致了比基础模型更简洁的响应。另一方面,微调被发现有助于向模型传授特定于农业领域的新技能,并提供更精确和简洁的响应。然而,由于需要大量工作来微调新数据的模型,因此初始成本很高,这是一个重要的考虑因素。


