论文阅读|AgroBench：深耕农业领域的视觉语言模型基准数据集，解锁智能种植新可能

优质文章学习记录

06 Apr 2026 — 16 min read

一.论文信息

题目：AgroBench: Vision-Language Model Benchmark in Agriculture
作者：Risa Shinoda1,2,4, Nakamasa Inoue3,4, Hirokatsu Kataoka4,5, Masaki Onishi4, Yoshitaka Ushiku6
机构：1The University of Osaka 2Kyoto University 3Institute of Science Tokyo
4National Institute of Advanced Industrial Science and Technology (AIST)
5Visual Geometry Group, University of Oxford 6OMRON SINIC X

二. 摘要

在农业现代化进程中，精准识别作物病害、虫害、杂草，以及科学进行田间管理，是保障作物产量、实现可持续生产的关键。近年来，视觉语言模型（VLMs）凭借强大的跨模态理解能力，在通用领域展现出巨大潜力，但在农业这一高度专业化的场景中，却因缺乏全面、权威的评估基准而发展缓慢。由大阪大学、京都大学等机构联合推出的AgroBench（农学家AI基准），填补了这一空白——它由农业专家标注，覆盖7大农业核心任务、203种作物和682种病害，为VLMs的农业领域适配提供了标准化评估工具。本文将循着原论文逻辑，带您深入解读这一突破性数据集。

三、研究背景：农业智能化的痛点与VLMs的潜力

农业是人类生存的基础，而作物病害、虫害、杂草侵袭等问题，一直是制约产量稳定的关键因素。传统农业依赖人工识别和经验管理，但这种方式效率低、主观性强，难以应对大规模种植需求。

随着计算机视觉技术的发展，针对性的自动化解决方案不断涌现，比如专门的作物病害识别模型、虫害检测系统等。但这些模型存在明显局限：它们多是“单任务专用”，需要为每个任务单独标注大量数据，农民在实际应用中可能需要切换多个模型，操作复杂且门槛高。

视觉语言模型（VLMs）的出现改变了这一格局。这类模型通过大规模图文预训练，能够理解自然语言指令，支持零样本、少样本学习，无需针对单个农业任务单独训练，还能通过问答、对话等友好方式与用户交互。然而，VLMs在农业领域的应用面临一个核心障碍：缺乏权威的评估基准。

现有农业相关VLMs数据集存在两大问题：一是标注质量不足，多依赖GPT-4o等闭源模型生成合成数据，准确性难以验证；二是覆盖范围有限，作物、病害等类别数量少，无法全面评估模型的专业能力。正是在这样的背景下，AgroBench应运而生，旨在构建一个由专家标注、覆盖广泛、任务全面的农业VLMs评估体系。

表1：主流农业视觉数据集对比

数据集	标注者	作物类别	杂草类别	病害类别	虫害类别	图像数量	QA对数量	主要用途
Agri-LLaVA [48]	GPT-4	174	29	4	109	74	391k	训练
AgroInstruct [4]	GPT-4	112	12	-	-	-	70k	训练
CDDM [20]	GPT-4	15	-	60	-	137k	1M	训练
AgroBench（本文）	专家	203	108	682	134	3,745	4,342	评估

从表1可以清晰看出AgroBench的核心优势：它是唯一由人类农业专家标注的数据集，在作物（203种）、杂草（108种）、病害（682种）、虫害（134种）类别数量上实现了量级突破，且专门用于VLMs评估，彻底解决了传统合成数据集“质量不可靠、覆盖不全面”的痛点。

四、核心设计：AgroBench的数据集架构

2.1 七大核心任务，覆盖农业全流程

AgroBench围绕农业生产关键环节，设计了7个基准任务，既包含核心的识别任务，也涵盖实用的管理任务，全面贴合真实种植场景。

图1：AgroBench任务示例概览

图1直观展示了部分任务的问答形式：比如杂草识别任务需判断 bounding box 内的杂草种类，病害识别需确诊作物感染的病害，机器使用任务需说明农业机械的核心用途。这些任务均来自农业工程关键研究领域和农民实际面临的痛点，实用性极强。

图2：DID、PID、WID任务标注图像示例

这张图展示了三大核心识别任务的图像标注情况：

病害识别（DID）：覆盖370种病害、160种作物，包含682种作物-病害组合，每个问题搭配4个误导性病害选项（症状相似或该作物常见病害），需结合图像症状和作物种类精准诊断（图2a）；
虫害识别（PID）：涵盖134种虫害，包括昆虫、螨虫等，尽可能收集了虫害不同生长阶段的图像，选项设置为外形相似或与目标作物相关的虫害（图2b）；
杂草识别（WID）：包含108种田间常见杂草，为解决多种杂草混生问题，每个目标杂草都标注了 bounding box，模型需识别指定区域内的杂草种类（图2c）。

除了上述三大识别任务，另外四个管理类任务同样贴合实际：

作物管理（CMN）：聚焦灌溉、施肥、收获时机等种植决策，提供411个QA对，需结合作物生长阶段、健康状况等图像信息推荐方案。比如白芦笋和绿芦笋的收获长度要求不同，模型需精准区分（图4a、4b）；
病害管理（DMN）：针对141种作物-病害组合，提供569个QA对，需根据病害严重程度推荐防治措施（如初期修剪病枝、严重时喷施农药），同一病害的不同阶段对应不同答案（图4c、4d）；
机器使用（MQA）：覆盖98种农业机械，共303个QA对，需根据图像中的机械或田间场景，回答操作方法或选择合适机械；
传统管理（TM）：包含77种传统可持续农业方法（如有机施肥、梯田种植），共404个QA对，需识别方法类型或解释其优势。

图3：AgroBench七大任务分类框架

图3清晰呈现了七大任务的分类逻辑，所有任务围绕“作物-病虫害-管理”核心链路展开，涵盖从问题识别到解决方案的全流程。总准确率通过各任务平均分计算，避免了某些任务样本过多导致的结果偏差。

图4：CMN和DMN任务QA示例

这张图通过具体案例展示了管理类任务的复杂性：白芦笋（图4a）和绿芦笋（图4b）的收获长度要求不同，模型需通过图像判断芦笋类型并给出对应答案；对于苜蓿细菌性叶斑病，初期症状（图4c）和严重症状（图4d）的管理措施不同，专家标注时会根据图像中病害严重程度设置不同正确答案，充分考验模型的图像细节理解能力。

2.2 数据集构建：专家主导，质量优先

AgroBench的高质量源于严格的图像选择和标注流程，全程由农业专家主导：

图像筛选：初始从植物病理学家监管的网站收集约5万张图像，优先选择真实田间场景图像，不足时补充实验室图像。标注者（农业博士背景）手动筛选出特征清晰、标签准确的3,745张代表性图像，剔除模糊、标签无关的低质量数据；
QA标注：DMN、CMN、MQA、TM四大任务的QA对均由专家手动创建，仅用GPT进行语句润色，核心知识来自农业教科书、学术期刊等权威来源，耗时约150人时；
杂草数据处理：复用现有公开杂草数据集，提供专用代码用于下载、裁剪图像和标注 bounding box，避免图像重复分发，同时保证数据可用性。

最终，AgroBench包含4,342个QA对，覆盖7大任务、超1100个类别（作物+杂草+病害+虫害+机械+传统方法），成为当前农业领域类别最丰富、标注最权威的VLMs基准数据集。

五、实验设计与结果分析

3.1 实验设置

评估模型：涵盖4个闭源VLMs（GPT-4o、GPT-4o mini、Gemini1.5-Pro、Gemini1.5-Flash）和8个开源VLMs（EMU2Chat、LLaVA-Next系列、QwenVLM系列等），全面覆盖不同规模、不同类型的主流模型；
人类基线：邀请28名至少拥有农业学士学位的参与者，每人回答20个问题，共形成560条人类响应，作为性能参考；
评估指标：所有任务均采用五选一选择题形式，采用精确匹配准则（模型答案与选项字母或句子完全一致则正确），总分为各任务平均分。

3.2 核心实验结果

表2：七大任务图像+文本输入的模型性能对比

模型	病害识别（DID）	病害管理（DMN）	虫害识别（PID）	杂草识别（WID）	作物管理（CMN）	机器使用（MQA）	传统管理（TM）	总体得分（全量）	总体得分（子集）
随机选择	21.77	15.64	20.40	17.90	16.06	22.11	19.31	19.03	19.11
人类	25.00	22.50	45.00	20.00	36.25	57.50	51.25	-	36.79
闭源VLMs
GPT-4o mini	53.60	80.67	60.04	35.14	64.23	70.96	69.80	62.06	69.65
GPT-4o	64.18	87.35	77.76	44.17	75.43	82.84	82.43	73.45	79.26
Gemini1.5-Flash	55.06	79.96	70.04	50.90	64.72	78.22	73.27	67.45	68.82
Gemini1.5-Pro	62.92	81.55	74.45	55.17	71.05	82.84	77.72	72.24	69.74
开源VLMs
EMU2Chat	42.01	48.33	43.75	23.81	40.39	37.62	47.77	40.53	33.84
LLaVA-Next-8B	45.47	72.58	43.01	30.05	54.26	56.11	57.46	51.28	57.84
LLaVA-Next-72B	54.95	80.00	49.81	26.98	66.92	66.11	70.38	59.31	64.36
QwenVLM-7B	51.26	80.49	63.97	33.17	66.42	76.24	77.48	64.15	66.41
QwenVLM-72B	57.99	87.87	73.35	34.48	75.91	80.86	84.16	70.66	72.45
CogVLM-19B	29.16	53.78	52.39	25.45	54.01	71.62	66.09	50.36	44.27
LLaVA-7B	36.02	62.74	38.79	24.79	53.77	46.53	55.20	45.41	46.14
LLaVA-13B	40.21	68.89	44.49	24.79	59.37	54.13	58.42	50.04	55.31

从表2的核心结果中，可提炼出三大关键发现：

闭源模型全面领先：GPT-4o以73.45的总体得分位居第一，在病害识别（64.18%）、病害管理（87.35%）、虫害识别（77.76%）等多个任务中表现突出，且所有闭源模型得分均远超人类基线，展现了强大的农业知识储备；
开源模型差距明显，但头部表现可期：开源模型中QwenVLM-72B表现最佳（70.66分），部分任务（如病害管理87.87%）接近闭源模型水平，但整体仍有差距；小型开源模型（如EMU2Chat、LLaVA-7B）表现较弱，尤其是在细粒度识别任务上；
任务难度差异显著：杂草识别（WID）是最难任务，多数开源模型得分接近随机水平（17.90%），即使是表现最好的Gemini1.5-Pro也仅得55.17%；而病害管理（DMN）、传统管理（TM）任务得分普遍较高，说明VLMs在管理策略类任务上更擅长，在细粒度物种识别上仍有巨大提升空间。

3.3 消融实验：视觉信息与思维链的影响

3.3.1 视觉信息的必要性

为验证模型是否真的依赖图像信息完成任务，研究团队进行了“仅文本输入”的消融实验，结果如表3所示：

表3：仅文本输入的模型性能对比

模型	病害识别（DID）	病害管理（DMN）	虫害识别（PID）	杂草识别（WID）	作物管理（CMN）	机器使用（MQA）	传统管理（TM）	总体得分
GPT-4o	1.93	72.58	18.75	1.00	40.39	25.08	48.27	29.71
LLaVA-Next-8B	26.10	70.30	21.88	19.70	53.77	30.36	40.35	37.49

结果显示，仅文本输入时，模型总体性能大幅下降，接近随机水平，证明视觉信息对农业任务至关重要——尤其是识别类任务（DID、PID、WID），失去图像后准确率几乎归零。但病害管理（DMN）、作物管理（CMN）等任务仍保持一定准确率，这是因为许多病害的管理策略具有通用性（如修剪病枝、控制湿度），模型可通过文本上下文猜测答案，但这种猜测并非基于真实场景理解。

3.3.2 思维链（CoT）的作用

思维链（CoT）通过引导模型分步推理，常能提升复杂任务性能。研究团队在“零样本”“单样本”“双样本”“三样本”四种设置下测试了CoT的效果：

图5：思维链（CoT）对任务性能的影响

结果显示，CoT对性能有一定提升，但效果并不显著，且在三样本设置下出现性能饱和。具体来看，CoT在虫害识别（PID）、杂草识别（WID）等难任务上效果更明显，通过分步推理示例，模型能更细致地对比选项差异；但在管理类任务上，提升幅度较小，因为这类任务更依赖专业知识储备，而非推理过程。

3.4 错误分析：VLMs的主要短板

为明确VLMs在农业任务中的改进方向，研究团队从GPT-4o的零样本CoT结果中抽取错误案例，手动归类分析：

图6：GPT-4o的错误类型分布

错误类型主要分为四类，其中：

知识匮乏（51.92%）：占比最高，表现为模型无法准确描述作物/病害/虫害的特征（如不知道菌核病的白絮状菌丝症状），或缺乏管理知识（如不清楚特定杂草的防治方法）。图7a中，GPT-4o误将菌核病判断为根腐病，核心原因是不了解菌核病的茎部症状；
感知错误（32.69%）：模型无法识别图像中的关键信息，或产生幻觉。图7b中，模型误将秸秆切碎机判断为土豆收获机，还虚构了“土壤中收获的作物”这一不存在的视觉特征；
推理错误（7.6%）：模型能正确描述选项，但无法分步对比筛选，导致结论错误，这类错误占比较低，因为农业任务更依赖专业知识而非复杂推理；
其他错误（7.79%）：包括捷径错误（未对比选项直接下结论）、双重答案、误解问题等。

图7：GPT-4o的典型错误示例

这一分析明确了VLMs的改进方向：首要任务是补充农业专业知识，其次是提升对农业特定目标（如杂草、农机）的视觉感知能力。

六、研究结论与应用价值

AgroBench的推出，为农业领域VLMs的发展提供了三大核心价值：

填补评估空白：作为首个由农业专家标注、覆盖7大任务、超1100个类别的基准数据集，它为VLMs的农业适配提供了标准化评估工具，结束了“无据可依”的现状；
揭示模型短板：实验证明，VLMs在农业管理类任务上表现较好，但在杂草识别、病害识别等细粒度任务上存在明显不足，错误主要源于知识匮乏和感知能力不足；
指引研究方向：明确了未来VLMs的优化重点——补充农业专业知识、提升领域特定目标的视觉感知能力，为后续模型微调、预训练数据扩充提供了明确指引。

未来，随着AgroBench的开源（https://dahlian00.github.io/AgroBenchPage/），有望吸引更多研究者聚焦农业VLMs的优化。在实际应用中，优化后的VLMs可作为“智能农业助手”，帮助农民快速识别田间问题、获取科学管理方案，降低种植门槛、提升生产效率，为可持续农业发展注入新动力。