【超音速专利 CN118134841A】一种光伏产品缺陷检测AI深度学习算法

优质文章学习记录

09 Apr 2026 — 7 min read


申请号	CN202410053849.9
公开号（公开）	CN118134841A
申请日	2024.01.12
申请人（公开）	超音速人工智能科技股份有限公司(833753)
发明人（公开）	张俊峰（总); 叶长春(总); 廖绍伟

原文摘要

本发明公开一种光伏产品缺陷检测AI深度学习算法，涉及AI算法领域。该光伏产品缺陷检测AI深度学习算法，采用深度卷积神经网络作为预训练模型，使用特征金字塔网络结构FPN对预训练模型得到的不同尺度的特征图进行融合，采用区域提议网络RPN在特征图上生成候选框，该光伏产品缺陷检测AI深度学习算法通过使用预训练模型提取图像特征，使用FPN融合多尺度特征，使用RPN提取候选框，使用ROIAlign抽取局部特征，使用分类、回归、FCN进行缺陷分类、位置回归以及掩膜信息提取，对缺陷的分类以及输出缺陷效果的准确性好，对缺陷的定位精度高，对缺陷的描述准确且全面，从而提高了在光伏产品加工中，对产品的缺陷检测效果。

术语

FCN指的是全卷积网络，是深度学习中用于图像处理任务的一种重要架构，相比于传统的卷积神经网络CNN，FCN不仅能够识别图像中的对象，还能在像素级别对图像进行预测，如图像分割、图像生成等。
全卷积网络是一种由卷积层组成的神经网络架构，没有全连接层。相比于传统的CNN，全卷积网络的主要特点在于它的输出层是一个像素级别的密集特征图，每个像素点都对应输入图像中的一个局部感受野，这使得FCN能够对输入图像进行像素级别的预测和分析，比如图像分割，将图像中的每个像素进行分类，标记其所属的语义类别。
全卷积网络的出现在计算机视觉领域不仅在图像分割任务上取得了显著的成果，而且为其他图像处理任务，如图像生成、图像修复等，提供了重要的基础。全卷积网络在计算机视觉领域具有广泛的适用性。

步骤

1.一种光伏产品缺陷检测AI深度学习算法：所述深度学习算法包括如下步骤：
第一步：采用深度卷积神经网络作为预训练模型，对输入的光伏产品图像进行特征提取，获取图像的高层语义信息，得到不同尺度的特征图；
第二步：使用特征金字塔网络结构FPN对预训练模型得到的不同尺度的特征图进行融合，增强模型对不同尺寸产品缺陷的检测能力；
第三步：采用区域提议网络RPN在特征图上生成候选框，这些候选框涵盖了存在缺陷的区域和信息，以实现后续产品的缺陷快速检测；
第四步：使用ROIAlign技术从候选框中抽取出局部特征，以供后续的分类和回归任务使用；
第五步：利用全卷积网络FCN对局部特征进行分类，并同时进行回归操作以精确定位缺陷的位置；
第六步：除了分类和位置回归外，还利用FCN从局部特征中提取掩膜信息，以得到缺陷的精确形状和大小。
2：在第一步中，首先选择适用于光伏产品缺陷检测任务的预训练模型，然后，将预训练模型导入到算法中，并将待检测的光伏产品缺陷图像输入到模型中。
3.在第二步中，利用特征金字塔网络融合来自不同尺度的特征图，同时利用低层特征图的空间信息和高层特征图的语义信息，将这些特征图进行融合。
4.在第三步中，使用区域生成网络来提取候选框，RPN网络得到所有anchors的分类、回归信息，RPN基于特征图。
5.在第四步中，使用ROIAlign操作来抽取候选框内的局部特征，根据RPN网络输出的分类、回归信息，经过NMS得到最终的ROIs。
6.第五步中，对筛选出来的ROIs进行分类、回归、mask分割操作，使用分类器对候选框进行缺陷分类。
7.第六步中：分类器是传统的机器学习方法。
8.第七步中：分类器是深度学习方法。
9.在第六步，通过位置回归，根据分类结果和候选框的位置信息，对缺陷的位置进行进一步的调整和修正，同时，根据FCN得到的掩膜信息，进一步提取缺陷信息。

总结

该光伏产品缺陷检测AI深度学习算法，通过使用预训练模型提取图像特征，使用FPN融合多尺度特征，使用RPN提取候选框，使用ROIAlign抽取局部特征，使用分类、回归、FCN进行缺陷分类、位置回归以及掩膜信息提取，对缺陷的分类以及输出缺陷效果的准确性好，对缺陷的定位精度高，对缺陷的描述准确且全面，从而提高了在光伏产品加工中，对产品的缺陷检测效果。

硬件需求

工控机+显卡

扩展阅读

我想对大家说的话
工作中遇到的问题，可以按类别查阅鄙人的算法文章，请点击《算法与数据汇总》。
学习算法：按章节学习《喜缺全书算法册》，大量的题目和测试用例，打包下载。重视操作
有效学习：明确的目标及时的反馈拉伸区（难度合适）专注
员工说：技术至上，老板不信；投资人的代表说：技术至上，老板会信。
闻缺陷则喜(喜缺)是一个美好的愿望，早发现问题，早修改问题，给老板节约钱。
子墨子言之：事无终始，无务多业。也就是我们常说的专业的人做专业的事。
如果程序是一条龙，那算法就是他的是睛
失败+反思=成功成功+反思=成功

视频课程

先学简单的课程，请移步ZEEKLOG学院，听白银讲师（也就是鄙人）的讲解。
https://edu.ZEEKLOG.net/course/detail/38771
如何你想快速形成战斗了，为老板分忧，请学习C#入职培训、C++入职培训等课程
https://edu.ZEEKLOG.net/lecturer/6176

测试环境

操作系统：win7 开发环境： VS2019 C++17
或者操作系统：win10 开发环境： VS2022 C++17
如无特殊说明，本算法用**C++**实现。

AirSim无人机仿真入门（一）：实现无人机的起飞与降落

概述：安装好所需要的软件和环境，通过python代码控制无人机进行起飞和降落。参考资料： 1、知乎宁子安大佬的AirSim教程（文字教程，方便复制） 2、B站瑜瑾玉大佬的30天RL无人机仿真教程（视频教程，方便理解） 3、AirSim官方手册（资料很全，不过是纯英文的） AirSim无人机仿真入门（一）：实现无人机的起飞与降落 * 1 安装AirSim * 1.1 参考教程 * 1.2 内容梳理 * 1.3 步骤总结 * 2 开始使用 AirSim * 2.1 参考教程 * 2.2 内容梳理 * 2.3 步骤总结 * 3 撰写python控制程序 * 3.1 参考教程 * 3.2 内容梳理

基于springboot+vue的无人机共享管理系统（源码+论文+部署+安装）

感兴趣的可以先收藏起来，还有在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，我会一一回复，希望可以帮到大家。一、程序背景随着无人机技术飞速发展，其应用场景已拓展至农业、物流、测绘、影视制作等多个领域，市场规模持续扩大。传统无人机管理模式高度依赖人工操作，存在管理效率低下、信息更新不及时、资源调度不合理等问题，不仅降低了无人机使用效率，还增加了管理成本。同时，无人机共享经济兴起，用户对无人机租赁、维修、信息查询等多样化需求日益增长，而现有国内外无人机管理系统多存在功能单一、智能化与便捷性不足的缺陷，在用户体验、资源调度及数据管理方面难以满足实际需求。在此背景下，基于Spring Boot + Vue技术栈开发一款高效、智能、便捷的无人机共享管理系统，成为推动无人机行业数字化转型、适配共享经济发展的必然需求。二、程序功能需求（一）用户端功能 1. 基础操作：用户登录系统，完成身份验证后进入功能界面； 2. 核心业务：浏览并查看无人机详细信息（型号、性能参数、使用状态等）

3DMAX VR渲染器局部渲染设置教程

VR 渲染器局部渲染设置 VR 渲染器的局部渲染功能灵活适配多种场景（尤其全景图），操作步骤如下： 1. 调出渲染设置面板：在 3DMAX 软件中，直接按下快捷键「F10」，快速打开渲染设置窗口（也可通过顶部菜单栏「渲染」→「渲染设置」手动调出）。 2. 确认渲染器类型：在渲染设置面板中，切换到「指定渲染器」选项卡，确保当前选定的渲染器为「V-Ray 渲染器」（若未选中，点击下拉菜单切换即可）。 1. 打开 VR 帧缓冲器：切换到「V-Ray」选项卡，找到「帧缓冲器」设置项，勾选「启用内置帧缓冲器」（部分版本默认开启），点击右侧「显示 VFB」按钮，调出 VR 帧缓冲窗口。 1.

LangGraph工具调用实战：手把手教你实现ReAct搜索机器人

## 前言在前两篇文章中，我们分别学习了 LangGraph 的快速入门和 StateGraph 基础。本文将带你进入 LangGraph 的进阶领域——**工具调用（Tool Calling）**。通过为聊天机器人添加 Tavily 搜索引擎，你将掌握 ReAct（Reasoning + Acting）模式的完整实现，让 AI 能够主动调用外部工具获取实时信息。 --- ## 一、核心概念 ### 1.1 什么是工具调用工具调用（Tool Calling）是 LLM 的重要能力，它允许 AI： 1. **推理（Reasoning）**：理解用户需求，判断需要什么信息 2. **行动（Acting）**：调用外部工具获取数据 3. **观察（Observation）