面向无人机和智能手机的YOLOv8模型改进实战—棉叶病虫害多尺度目标检测

面向无人机和智能手机的YOLOv8模型改进实战—棉叶病虫害多尺度目标检测

一、引言

       YOLO(You Only Look Once)作为一种非常流行的目标检测算法,以其高效和准确性而闻名。YOLOv8作为这一系列算法较新颖的版本,相较于其前身在准确性、速度和模型大小方面都有所改进。博主将分享1篇发表在《Industrial Crops and Products》(中科院1区TOP)的“CPD-YOLO: A cross-platform detection method for cotton pests and diseases using UAV and smartphone imaging”,说明YOLOv8模型在跨平台(无人机+手机)场景下的棉花病虫害多尺度目标检测中的应用。主要改进点如下:

(1)特征融合改善:构建Bi-FPN +RepTransformer网络,实现多尺度特征的高效融合与推理加速。

(2)检测头增加:设计4头动态检测网络,赋予模型多维动态感知能力。

(3)损失函数优化:提出Inner-Shape IoU 边界框回归损失函数,提升定位精度,同时加速模型收敛。

论文原文:Redirecting

部分代码:https://github.com/xfl-521/GW_Y_YOLO

欢迎大家交流、引用和分享,博文如需转载请注明来源。

二、研究背景

      棉花是一种重要的经济作物,也是世界范围内纺织品的主要原料。棉花种植期间主要面临病虫害的侵袭,威胁棉花生长发育,引发产量骤减,严重削弱棉花的商品属性和市场竞争力。病虫害的侵袭会导致棉花叶片细胞结构中的色素、水分、营养元素等性质发生变化,这种变化会反映在棉叶图像信息中,如颜色和形态。近年来,随着深度学习的发展,以YOLO系列模型为代表的目标检测算法,因其检测精度高、泛化能力和鲁棒性强等优势在作物病虫害诊断中应用广泛。因此,研发基于YOLO的棉叶病虫害检测方法有望为棉农提供移动互联新兴形势下的田间棉叶病虫害精确检测服务,助力棉花产业高质量发展。

三、数据集

(一)数据获取与标注

      采用大疆Mavic3无人机和荣耀9手机采集了蚜虫、双斑萤叶甲和褐斑病侵袭下的棉叶图像数据,其中无人机图像分辨率为4000×3000像素,手机图像为3968×2976像素。随后对图像进行人工标注,生成包含病虫害位置及类别信息。

部分数据集:https://huggingface.co/datasets/Fukang2000/CPD_YOLOGWY/tree/main

参考链接:

X-AnyLabeling: https://blog.ZEEKLOG.net/weixin_45686120/article/details/144177943

AnyLabeling GitHub仓库: https://github.com/vietanhdev/anylabeling

AnyLabeling官方文档: https://anylabeling.nrl.ai

                                             (a)无人机图像

                                         (b)智能手机图像

图1 棉花病虫害图数据标注示例

四、模型改进

(1)RepViT-BiFPN:在RepViT block中采用了结构重参数化技术,以提高模型在训练期间的学习效率,并在推理期间减少计算和内存成本。采用跨块方式放置挤压-激励(SE)层,以最大化准确性收益,同时最小化延迟增加。

参考链接:https://blog.ZEEKLOG.net/qq_38668236/article/details/147259859

(2)DyHead:

参考链接:

https://blog.ZEEKLOG.net/zmyzcm/article/details/135185606?ops_request_misc=%257B%2522request%255Fid%2522%253A%25225c40eb4f2345606aaaa9f60c7a4176ef%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=5c40eb4f2345606aaaa9f60c7a4176ef&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-2-135185606-null-null.142^v102^pc_search_result_base5&utm_term=DyHead&spm=1018.2226.3001.4187

(3)Inner-IoU:对于高IoU的样本,使用较小的辅助边界框来计算损失可以加快收敛,而低IoU的样本则更适合使用较大尺寸的辅助边界框。基于此Inner-IoU应运而生,它通过辅助边界框来计算IoU损失。

参考链接:

https://blog.ZEEKLOG.net/athrunsunny/article/details/134458647?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522e90d1474bc3019db6c0d9db420e319ca%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=e90d1474bc3019db6c0d9db420e319ca&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-134458647-null-null.142^v102^pc_search_result_base5&utm_term=inner%20iou&spm=1018.2226.3001.4187

(4)Shape-IoU:Shape-IoU通过引入形状和尺度感知因子,改进了传统IoU的计算方式,使其能够更准确反映边界框之间的真实相似度,提高小目标的检测精度,增强模型对不规则形状目标的适应性。

参考链接:

https://blog.ZEEKLOG.net/feng1790291543/article/details/147256042?ops_request_misc=&request_id=&biz_id=102&utm_term=Shape-Iou&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-147256042.142^v102^pc_search_result_base5&spm=1018.2226.3001.4187

                     

图2 改进的YOLOv8模型结构图

五、模型结果

      无人机图像中的棉叶病虫害目标较智能手机图像更小且数量更多,尽管典型YOLO系列模型计算复杂度较低,但其特征融合和多尺度目标检测能力较弱。CPD-YOLO在智能手机图像中表现优异,尤其在小尺度、目标数量较少且特征明显的场景下。CPD-YOLO通过增强特征融合和构建多尺度动态检测头网络,有效减少了无人机图像中的漏检和误检。

(一)消融实验结果

表1消融实验结果

表2 模型对比实验结果

图3 棉叶病虫害检测结果示例

六、结论

        研究提出了基于CPD-YOLO的棉花病虫害多尺度目标检测方法,适用于无人机和智能手机场景。消融实验与对比实验结果验证了改进策略的有效性,结果表明CPD-YOLO的漏检率最低,相较原始YOLOv8模型,其F1与mAP分别提升了7.44%和7.08%。

      考虑到DeepSeek、豆包、文心一言等国内人工智能大语言模型的崛起,未来研究可在进一步扩充实验数据的基础上接入大语言模型,辅助棉叶病虫害诊断和防治决策,并由植保专家对决策结果进行评估和校正,建立决策结果与专家修正的闭环优化机制,提升棉花病虫害诊断和防控的AI+精准指导。

论文原文:Redirecting

部分代码:https://github.com/xfl-521/GW_Y_YOLO

撰写博客不易,请大家关注、点赞,博文如需转载请注明来源,感谢你们的支持!

Read more

学习FPGA(八)快速傅里叶变换

前言         傅里叶变换能通过将信号的时域变换到信号的频域,因为在频域中,系统的响应就等于信号与系统传函的频域上相乘(时域上是卷积),相比于直接在时域里做卷积,先进行傅里叶变换,再在频域上相乘,最后通过逆傅里叶变换反变换回来的步骤看似更长更复杂,但在工程技术上却相对容易实现。         传统的傅里叶变换属于工程数学范畴,主要针对连续时间信号进行时域-频域的变换。而从工程技术的角度来看,人们不可能做到对信号进行连续时间的采样,因此离散傅里叶变换(DFT)也就在这种情况下诞生了。时间久了以后,人们发现DFT的算法时间复杂度太高了,优化DFT的迫在眉睫,快速傅里叶变换(FFT)的出现使原本时间复杂度o(n^2)的DFT直接降到了o(nlogn)。         以上算是FFT的极简版背景故事,具体如何发展如何变换的,数字信号处理相关课程一定有讲,这里就暂时不细讲了,这里还是主要以FPGA中实现快速傅里叶变换为主。         由于我仅在FPGA上实现FFT对信号进行时域-频域的变换,并做到了基波频率的采集,目前尚未如之前的一些历程那样试过其他的方案,因此本文不能给

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

「强化学习高速避障新范式」 目录 01  主要方法  1. 训练阶段:基于物理先验的奖励塑形 1. Dijkstra全局引导奖励 2. 基于控制障碍函数的安全惩罚  2. 部署阶段:基于高阶控制障碍函数的实时滤波 02  实验结果  1.仿真训练与消融实验  2.基准测试  3.实机飞行验证 03  总结 在无人机高速避障领域,Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟,往往难以兼顾高速与安全;而RL等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。 浙江大学高飞老师团队的这项工作,最令人振奋之处在于巧妙地构建了一套混合架构。 * 在训练阶段,利用 Dijkstra 势场 引导 RL 智能体跳出局部极小值陷阱 ,实现了全局可达性; * 在部署阶段,则引入了基于 高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。 这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s

【硬核实战】Mac mini M4 部署 OpenClaw + Ollama 本地大模型:从零到一打通飞书机器人

【硬核实战】Mac mini M4 部署 OpenClaw + Ollama 本地大模型:从零到一打通飞书机器人

文章目录 * 一、 核心环境准备 * 二、 避坑指南:环境初始化在 Mac 终端部署时,首要解决的是权限与路径问题。 * 1. 终端常用快捷键* `Control + C`:强制停止当前运行的命令(如安装卡死时)。 * 2. Node.js 环境修复若遇到 `zsh: command not found: openclaw`,说明 NVM 路径未加载。 * 3. 临时加载环境 * 4. 永久写入配置 * 三、 模型选择:M4 性能调优 * 四、 OpenClaw 配置手术 (JSON 详解) * 五、 飞书机器人接入:最后的临门一脚 * 六、 运行与调试 * 启动 Gateway * 第一次发消息需授权 (Pairing) * 💡 结语