面向无人机和智能手机的YOLOv8模型改进实战—棉叶病虫害多尺度目标检测

优质文章学习记录

11 Apr 2026 — 7 min read

一、引言

YOLO（You Only Look Once）作为一种非常流行的目标检测算法，以其高效和准确性而闻名。YOLOv8作为这一系列算法较新颖的版本，相较于其前身在准确性、速度和模型大小方面都有所改进。博主将分享1篇发表在《Industrial Crops and Products》（中科院1区TOP）的“CPD-YOLO: A cross-platform detection method for cotton pests and diseases using UAV and smartphone imaging”，说明YOLOv8模型在跨平台（无人机+手机）场景下的棉花病虫害多尺度目标检测中的应用。主要改进点如下：

（1）特征融合改善：构建Bi-FPN +RepTransformer网络，实现多尺度特征的高效融合与推理加速。

（2）检测头增加：设计4头动态检测网络，赋予模型多维动态感知能力。

（3）损失函数优化：提出Inner-Shape IoU 边界框回归损失函数，提升定位精度，同时加速模型收敛。

论文原文：Redirecting

部分代码：https://github.com/xfl-521/GW_Y_YOLO

欢迎大家交流、引用和分享，博文如需转载请注明来源。

二、研究背景

棉花是一种重要的经济作物，也是世界范围内纺织品的主要原料。棉花种植期间主要面临病虫害的侵袭，威胁棉花生长发育，引发产量骤减，严重削弱棉花的商品属性和市场竞争力。病虫害的侵袭会导致棉花叶片细胞结构中的色素、水分、营养元素等性质发生变化，这种变化会反映在棉叶图像信息中，如颜色和形态。近年来，随着深度学习的发展，以YOLO系列模型为代表的目标检测算法，因其检测精度高、泛化能力和鲁棒性强等优势在作物病虫害诊断中应用广泛。因此，研发基于YOLO的棉叶病虫害检测方法有望为棉农提供移动互联新兴形势下的田间棉叶病虫害精确检测服务，助力棉花产业高质量发展。

三、数据集

（一）数据获取与标注

采用大疆Mavic3无人机和荣耀9手机采集了蚜虫、双斑萤叶甲和褐斑病侵袭下的棉叶图像数据，其中无人机图像分辨率为4000×3000像素，手机图像为3968×2976像素。随后对图像进行人工标注，生成包含病虫害位置及类别信息。

部分数据集：https://huggingface.co/datasets/Fukang2000/CPD_YOLOGWY/tree/main

参考链接：

X-AnyLabeling: https://blog.ZEEKLOG.net/weixin_45686120/article/details/144177943

AnyLabeling GitHub仓库: https://github.com/vietanhdev/anylabeling

AnyLabeling官方文档: https://anylabeling.nrl.ai

（a）无人机图像

（b）智能手机图像

图1 棉花病虫害图数据标注示例

四、模型改进

（1）RepViT-BiFPN：在RepViT block中采用了结构重参数化技术，以提高模型在训练期间的学习效率，并在推理期间减少计算和内存成本。采用跨块方式放置挤压-激励（SE）层，以最大化准确性收益，同时最小化延迟增加。

参考链接：https://blog.ZEEKLOG.net/qq_38668236/article/details/147259859

（2）DyHead：

参考链接：

https://blog.ZEEKLOG.net/zmyzcm/article/details/135185606?ops_request_misc=%257B%2522request%255Fid%2522%253A%25225c40eb4f2345606aaaa9f60c7a4176ef%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=5c40eb4f2345606aaaa9f60c7a4176ef&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-2-135185606-null-null.142^v102^pc_search_result_base5&utm_term=DyHead&spm=1018.2226.3001.4187

（3）Inner-IoU：对于高IoU的样本，使用较小的辅助边界框来计算损失可以加快收敛，而低IoU的样本则更适合使用较大尺寸的辅助边界框。基于此Inner-IoU应运而生，它通过辅助边界框来计算IoU损失。

参考链接：

https://blog.ZEEKLOG.net/athrunsunny/article/details/134458647?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522e90d1474bc3019db6c0d9db420e319ca%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=e90d1474bc3019db6c0d9db420e319ca&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-134458647-null-null.142^v102^pc_search_result_base5&utm_term=inner%20iou&spm=1018.2226.3001.4187

（4）Shape-IoU：Shape-IoU通过引入形状和尺度感知因子，改进了传统IoU的计算方式，使其能够更准确反映边界框之间的真实相似度，提高小目标的检测精度，增强模型对不规则形状目标的适应性。

参考链接：

https://blog.ZEEKLOG.net/feng1790291543/article/details/147256042?ops_request_misc=&request_id=&biz_id=102&utm_term=Shape-Iou&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-147256042.142^v102^pc_search_result_base5&spm=1018.2226.3001.4187

图2 改进的YOLOv8模型结构图

五、模型结果

无人机图像中的棉叶病虫害目标较智能手机图像更小且数量更多，尽管典型YOLO系列模型计算复杂度较低，但其特征融合和多尺度目标检测能力较弱。CPD-YOLO在智能手机图像中表现优异，尤其在小尺度、目标数量较少且特征明显的场景下。CPD-YOLO通过增强特征融合和构建多尺度动态检测头网络，有效减少了无人机图像中的漏检和误检。

（一）消融实验结果

表1消融实验结果

表2 模型对比实验结果

图3 棉叶病虫害检测结果示例

六、结论

研究提出了基于CPD-YOLO的棉花病虫害多尺度目标检测方法，适用于无人机和智能手机场景。消融实验与对比实验结果验证了改进策略的有效性，结果表明CPD-YOLO的漏检率最低，相较原始YOLOv8模型，其F1与mAP分别提升了7.44%和7.08%。

考虑到DeepSeek、豆包、文心一言等国内人工智能大语言模型的崛起，未来研究可在进一步扩充实验数据的基础上接入大语言模型，辅助棉叶病虫害诊断和防治决策，并由植保专家对决策结果进行评估和校正，建立决策结果与专家修正的闭环优化机制，提升棉花病虫害诊断和防控的AI+精准指导。

论文原文：Redirecting

部分代码：https://github.com/xfl-521/GW_Y_YOLO

撰写博客不易，请大家关注、点赞，博文如需转载请注明来源，感谢你们的支持！

无人机巡检新选择：YOLOv12镜像高效部署方案

无人机巡检新选择：YOLOv12镜像高效部署方案在电力线路巡检中，一架无人机每分钟飞越3公里，需实时识别绝缘子破损、金具锈蚀、树障侵入等十余类缺陷；在光伏电站运维场景里，热成像与可见光双模图像流持续涌入，系统必须在200毫秒内完成多目标定位与分类——这些严苛需求，正倒逼目标检测技术从“可用”迈向“可靠即用”。就在2025年初，YOLOv12官版镜像正式发布。这不是又一次参数微调的版本更新，而是一次面向边缘智能场景的架构重构：它首次将注意力机制深度融入YOLO实时检测范式，在保持毫秒级推理速度的同时，显著提升小目标与遮挡目标的识别鲁棒性。更重要的是，官方预构建镜像让这套前沿模型真正走出实验室，成为一线工程师可即刻部署的生产工具。 1. 为什么无人机巡检需要YOLOv12？ 1.1 传统方案的三大瓶颈过去两年，我们为南方某电网公司部署了三套不同架构的巡检AI系统，发现共性痛点始终围绕三个维度： * 小目标漏检严重：绝缘子串长度仅占图像高度3%–5%，YOLOv5/v8在未精细调参时漏检率超27%； * 边缘设备吞吐不足：Jetson Orin NX实测YOLOv8s

小米 “养龙虾”：手机 Agent 落地，智能家居十年困局被撬开

3月6日，小米正式推出国内首个手机端类 OpenClaw Agent 应用 ——Xiaomi miclaw，开启小范围邀请封测。这款被行业与网友戏称为小米 “开养龙虾” 的新品，绝非大模型浪潮下又一款语音助手的常规升级，而是基于自研 MiMo 大模型、具备系统级权限、全场景上下文理解能力的端侧智能体。作为深耕智能家居领域的行业媒体，《智哪儿》始终认为：智能家居行业过去十年的迭代，始终没能跳出 “被动执行” 的底层困局。而 miclaw 的落地，不止是小米在端侧 AI 赛道的关键落子，更是为整个智能家居行业的底层逻辑重构，提供了可落地的参考范本。需要清醒认知的是，目前该产品仍处于小范围封测阶段，复杂场景执行成功率、端侧功耗表现、第三方生态适配进度等核心体验，仍有待大规模用户实测验证。本文将结合具象场景、量化数据与多维度视角，客观拆解 miclaw 的突破价值、现实挑战，以及它对智能家居行业的长期影响。 01 复盘行业困局：智能家居十年始终困在 “被动执行”

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进

本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作（VLA）模型：π₀ 和 π₀.5，从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。 1. 引言机器人领域正在经历一场由基础模型驱动的革命。正如大语言模型（LLM）改变了自然语言处理领域，视觉-语言-动作模型（Vision-Language-Action, VLA）正在改变机器人学习的范式。 Physical Intelligence 公司先后发布了两代 VLA 模型： * π₀（2024年10月）：首个通用机器人策略 * π₀.5（2025年4月）：具备开放世界泛化能力的 VLA 本文将深入分析这两个模型的核心差异，帮助读者理解 VLA 技术的演进方向。 2. π₀：首个通用机器人策略 2.1 设计目标 π₀ 的核心目标是实现灵巧操作（

Coze（扣子）全解析：100个落地用途+发布使用指南，小白也能玩转低代码AI智能体

摘要：Coze（扣子）作为字节跳动推出的低代码AI智能体平台，凭借零代码/低代码拖拽式操作、丰富的插件生态和多平台发布能力，成为小白和职场人高效落地AI应用的首选工具。本文全面汇总Coze可实现的100个实用场景，覆盖个人、学习、办公、运营等7大领域，同时详细拆解其生成形态、发布流程和使用方法，帮你快速上手，把AI能力转化为实际生产力，无需专业开发经验也能轻松搭建专属AI应用。前言在AI普及的当下，很多人想借助AI提升效率、解决实际问题，但苦于没有编程基础，无法开发专属AI工具。而Coze（扣子）的出现，彻底打破了这一壁垒——它是字节跳动自主研发的低代码AI智能体平台，无需复杂编码，通过拖拽组件、配置插件、编写简单提示词，就能快速搭建聊天Bot、工作流、知识库等AI应用，并且支持多渠道发布，让你的AI工具随时随地可用。本文将分为两大核心部分：第一部分汇总Coze可落地的100个实用场景，帮你打开思路，找到适配自己需求的用法；第二部分详细讲解Coze生成的应用形态、发布流程和使用技巧，让你搭建完成后快速落地使用，真正实现“零代码上手，高效用AI”。第一部分：Coze

一、引言

二、研究背景

三、数据集

四、模型改进

五、模型结果

六、结论

Read more

无人机巡检新选择：YOLOv12镜像高效部署方案

小米 “养龙虾”：手机 Agent 落地，智能家居十年困局被撬开

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进

Coze（扣子）全解析：100个落地用途+发布使用指南，小白也能玩转低代码AI智能体