🚁 引言:当 AI 拥有了'上帝视角'
无人机(UAV)技术的普及,让计算机视觉终于摆脱了地面的束缚。从百米高空俯瞰,世界呈现出完全不同的几何逻辑。在农业植保、城市违建巡查、光伏板缺陷检测等领域,航拍 AI 正在解决传统人工无法触及的痛点。
但任何做过航拍项目的数据工程师都会告诉你:航拍数据是'带刺的玫瑰'。
一张 4K 分辨率的航拍图里可能挤着上百个车辆,几千个像素点的行人可能混在复杂的背景噪点中,树荫下的目标若隐若现,不同飞行高度带来的尺度剧变更是让模型难以适从。
我们将结合实战经验,拆解从无人机起飞前的那一刻,到模型最终部署的全链路细节。这不仅仅是一份标注指南,更是一份避坑手册。
🎯 重新认识你的数据:航拍图像的特殊性
1. 上帝视角的双刃剑:视角与尺度
当我们从地面切换到天空,特征的逻辑被彻底重构了。
- 形态的'降维打击':
在地面视角下,一辆车有丰富的侧面纹理、轮廓和车轮特征;但在航拍视角下,它往往退化成一个长方形的色块。行人更是一个极端的例子,从一个直立的生物变成了一个移动的圆点(头顶)。这就要求我们在制定标注规则时,必须明确**'顶部特征'**的边界,比如是否包含车辆的后视镜?行人的背包是否算作人体的一部分?这些细节决定了模型的泛化能力。 - 遮挡逻辑的翻转:
地面拍摄时,遮挡通常是前后的;而在航拍中,遮挡是垂直的。茂密的树冠可能遮住了停在树下的汽车,高架桥可能切断了底层的道路。在标注时,对于'被树遮挡了 50% 的汽车',是标出可见部分,还是脑补出完整轮廓?我们的经验是:如果用于计数,标完整轮廓(amodal);如果用于视觉定位,标可见区域(modal)。
尺度的剧烈跳变:
这是航拍最头疼的问题。同一个物体,在 50 米高度和 200 米高度拍摄,像素面积可能差了 16 倍。
实战经验:如果你的数据集混合了不同高度的采集数据,务必在训练前分析目标尺寸分布(Object Scale Distribution)。如果小目标(<32x32 像素)占比过高,常规的 YOLO 或 SSD 模型如果不做针对性修改(如增加高分辨率特征层),召回率会非常难看。
2. 那些容易被忽视的成像质量陷阱
- 运动模糊(Motion Blur):无人机不是三脚架,气流扰动和飞行速度都会导致糊片。对于快门速度不够快的相机,地面的纹理可能会拉丝。标注建议:对于严重模糊导致肉眼难以辨认类别的样本,坚决剔除(Hard Negative),不要强行标注,否则会给模型带来噪声。
- 光照与阴影的欺骗:清晨和傍晚的长阴影是最大的干扰源。很多初级模型会把长长的影子误认为是物体本身,或者因为阴影覆盖而漏检。采集建议:尽量选择正午前后 2 小时以外、日落前的'黄金时间'采集,光照既不过硬也不过斜。
3. 数据组织的特殊性
航拍数据通常是大图(例如 8000x6000 分辨率),直接塞进模型显存肯定爆。
- 切图(Tiling)是必修课:不能简单粗暴地切,必须要有重叠(Overlap)。一般建议保持 15%-20% 的重叠率,防止处于切割边缘的目标被切成两半导致漏检。
- 地理坐标(Geo-Tagging):每张图的 EXIF 信息里都有 GPS。在标注时,最好保留这些信息,因为在最终应用时,客户关心的不是'图里有火灾',而是'北纬 XX,东经 XX 有火灾'。
💡 像导演一样规划采集:不返工的艺术
很多项目失败的原因不是算法不行,而是数据源头就废了。
1. 航线规划的数学题
不要随意乱飞。你需要根据你的目标大小,反推飞行高度。
公式:飞行高度 ≈ (目标实际尺寸 × 焦距) / (最小可检测像素 × 传感器像元尺寸)
举个例子:你要检测地面上的安全帽(直径约 0.3 米),算法要求最小目标不能小于 15x15 像素。如果你用的是等效 24mm 焦距的镜头,像元尺寸约 3 微米。那么你的飞行高度上限大约在 160 米 左右。飞得再高,安全帽就变成噪点了。


