特定领域大模型应用：RAG 与微调流程指南及农业案例研究

综述由AI生成探讨了构建大语言模型应用程序时整合专有数据的两种方法：检索增强生成（RAG）和微调。以农业为案例，提出了一套生成高质量领域特定问答对的全流程，涵盖数据获取、清洗、结构化及评估。研究对比了不同模型（如 GPT-4、Llama2、Vicuna）在农业领域的表现，并建立了针对问题质量和答案质量的度量标准。实验结果表明，结合检索增强生成和微调能显著提升模型性能，其中 GPT-4 配合 RAG 或微调在准确性和简洁性上表现最佳。该流程为行业特定 AI 助手开发提供了参考框架。

雪落无声发布于 2025/2/6更新于 2026/6/221 浏览

特定领域大模型应用：RAG 与微调流程指南及农业案例研究

在构建大语言模型（LLM）应用程序时，通常有两种常见的方法来整合专有和特定领域的数据：检索增强生成（Retrieval-Augmented Generation, RAG）和微调（Fine-tuning）。检索增强生成通过外部数据增强提示，而微调将额外的知识整合到模型本身中。不过，对这两种方法的优缺点了解的却不够充分。

本文基于微软的研究者引入的新关注点：为需要特定背景和自适应响应的行业（如农业）创建 AI 助手。文章提出了一个全面的大语言模型流程，用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程，包括鉴别和收集涵盖广泛农业主题的相关文档。接着清理和结构化这些文档，以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。

本文的目标是为特定行业创建有价值的知识资源，以农业为案例研究，最终的目标是能为 LLM 在农业领域的发展做出贡献。

核心流程与方法

本文提出的流程旨在生成满足某个行业中专业人员和利益相关者需求的领域特定问题和答案，在该行业中，期望从 AI 助手那里得到的答案应该基于相关的行业特定因素。本文涉及的是农业研究，目标是生成该特定领域的答案。因此研究的起点是农业数据集，它被输入到三个主要组件中：问答生成、检索增强生成和微调过程。

1. 问答生成

问答生成根据农业数据集中的信息创建问答对。本文方法采用了一个框架来控制输入和输出的结构组成，从而增强语言模型生成响应的整体效果。流程的下一个组成部分是问题和答案生成。这里的目标是生成有上下文基础的高质量问题，准确反映提取文本的内容。

2. 检索增强生成

随后，流程为制定的问题生成答案。此处采用的方法利用了检索增强生成，结合了检索和生成机制的能力，以创建高质量的答案。这确保了回答能够基于最新的或特定的领域知识，而不是仅依赖模型的预训练记忆。

3. 模型微调

最后，流程通过 Q&A 对微调模型。优化过程采用了低秩调整（LoRA）等方法，确保全面理解科学文献的内容和背景，使其成为各个领域或行业的有价值资源。微调允许模型适应特定领域的术语和逻辑，提高回答的专业性。

该流程围绕着一个旨在生成和评估用于构建领域特定助手的问答对流程展开。该流程以数据获取开始，这包括从各种高质量的存储库中获取数据，比如政府机构、科学知识数据库，以及必要时使用专有数据。

在完成数据获取后，流程继续从收集的文档中提取信息。这一步骤至关重要，因为它涉及解析复杂且非结构化的 PDF 文件，以恢复其中的内容和结构。研究者下载并预处理了这些文件，提取了可以用作问答生成流程输入的文本信息。

数据集与评估标准

数据集来源

研究中评估了经过微调和检索增强生成的语言模型，使用与背景相关的问题和答案数据集，这些数据集来源于三个主要的作物生产国：美国、巴西和印度。本文的案例中，以农业作为工业背景。可用的数据在格式和内容上变化很大，涵盖了法规文件、科学报告、农学考试以及知识数据库等各种类型。

本文从美国农业部、州农业和消费者服务机构等公开可获得的在线文档、手册和报告中收集了信息。可获得的文档包括了有关作物和牲畜管理、疾病和最佳实践的联邦法规和政策信息，质量保证和出口法规，援助计划的详细信息，以及保险和定价指南。收集的数据总计超过 23,000 个 PDF 文件，包含超过 5000 万个 tokens，涵盖了美国 44 个州。

为了对模型进行基准测试和评估，本文使用了与华盛顿州相关的文档，其中包括 573 个文件，包含超过 200 万个 tokens。

度量标准建立

本节的主要目的是建立一套全面的度量标准，目的是指导对问答生成过程的质量评估，尤其是对微调和检索增强生成方法的评估。

在开发度量标准时，必须考虑几个关键因素。首先，问题质量中固有的主观性提出了重大挑战。其次，度量标准必须考虑到问题的相关性、实用性对上下文的依赖性。第三，需要评估生成问题的多样性和新颖性。强大的问题生成系统应该能够产生涵盖给定内容各个方面的广泛问题。然而，对多样性和新颖性进行量化可能面临着挑战，因为这涉及到评估问题的独特性以及它们与内容、其他生成问题的相似性。最后，好的问题应该能够基于提供的内容得到回答。

本文开发的度量标准旨在弥补以往研究在这一领域的空缺，提供一种全面评估问题质量的手段，这将对问答生成过程的进展产生显著影响。

问题评估指标

相关性：问题是否与上下文紧密相关。
全局相关性：问题在更大范围内的适用性。
覆盖范围：问题是否覆盖了文档的关键部分。
重叠度：问题与源文本的重合程度。
多样性：问题类型的丰富程度。
详细程度：问题的具体深度。

特定领域大模型应用：RAG 与微调流程指南及农业案例研究

特定领域大模型应用：RAG 与微调流程指南及农业案例研究

核心流程与方法

1. 问答生成

2. 检索增强生成

3. 模型微调

数据集与评估标准

数据集来源

度量标准建立

问题评估指标

更多推荐文章

相关免费在线工具

答案评估指标

实验与结果分析

带有指南的评估

简洁性与正确性

问答质量与上下文研究

组合生成与单独生成对比

检索消融研究

微调性能评估

知识发现与迁移学习

总结与展望

更多推荐文章

相关免费在线工具

特定领域大模型应用：RAG 与微调流程指南及农业案例研究

特定领域大模型应用：RAG 与微调流程指南及农业案例研究

核心流程与方法

1. 问答生成

2. 检索增强生成

3. 模型微调

数据集与评估标准

数据集来源

度量标准建立

问题评估指标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

答案评估指标

实验与结果分析

带有指南的评估

简洁性与正确性

问答质量与上下文研究

组合生成与单独生成对比

检索消融研究

微调性能评估

知识发现与迁移学习

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具