YOLOv8 逐位数字框检测模型训练实战 | 极客日志

PythonAI算法

YOLOv8 逐位数字框检测模型训练实战

YOLOv8 逐位数字框检测方案涵盖数据标注规范、模型训练配置及推理优化细节。重点解决小目标定位精度、数字粘连拆分及类别混淆问题。通过调整损失权重、输入尺寸及锚框策略，可实现工业级检测效果。流程包括环境搭建、数据集构建、训练调优及最终部署验证，适用于 OCR 前处理等场景。

佛系玩家发布于 2026/3/26更新于 2026/7/2936 浏览

YOLOv8 逐位数字框检测模型训练实战

核心目标是利用 YOLOv8 检测图像中每个独立数字的边界框（bounding box）并识别数字类别（0-9），实现「逐位标注、逐位检测」，而非检测整串数字的整体框。本教程聚焦 digit 框检测的核心环节，覆盖从环境搭建到推理验证的全流程。

一、核心前提：digit 框检测的关键要求

标注粒度：每个数字（0-9）必须单独标注一个框，即使数字粘连（如'69'），也需尽可能拆分标注独立框；
框的精度：标注框需紧贴数字边缘（上下左右无多余背景、不裁切数字）；
类别对应：每个框对应唯一类别（0-9），class_id 与数字一一映射。

二、digit 框检测专用数据集构建

1. 数据集结构（YOLO 标准格式）

digit_box_dataset # 数据集根目录
├── images/ # 图片目录（按训练/验证/测试划分）
│   ├── train/ # 训练集图片（70%）
│   ├── val/ # 验证集图片（20%）
│   └── test/ # 测试集图片（10%）
├── labels/ # 标注文件目录（与 images 目录结构完全一致）
│   ├── train/
│   ├── val/
│   └── test/
└── digit_box.yaml # 数据集配置文件

2. digit 框标注规则

（1）标注格式（YOLOv8 要求）

每个图片对应一个 .txt 标注文件，每行对应一个 digit 框，格式如下：

class_id：0→0，1→1，…，9→9（固定映射）；
x_center/y_center：digit 框中心的归一化坐标（除以图片宽 / 高，范围 0-1）；
width/height：digit 框宽 / 高的归一化值（除以图片宽 / 高，范围 0-1）。

（2）逐位标注示例

假设图片 859.jpg（宽 640，高 480）包含数字 8、5、9，各自的框坐标如下：

数字	像素框（x1,y1,x2,y2）	归一化中心 (xc,yc)	归一化宽高 (w,h)	class_id
8	(120, 200, 180, 280)	(0.234, 0.417)	(0.094, 0.167)	8
5	(220, 200, 280, 280)	(0.391, 0.417)	(0.094, 0.167)	5
9	(320, 200, 380, 280)	(0.547, 0.417)	(0.094, 0.167)	9

则 859.txt 标注文件内容为：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

8 0.234 0.417 0.094 0.167
5 0.391 0.417 0.094 0.167
9 0.547 0.417 0.094 0.167

# 数据集根路径（绝对路径/相对路径均可）
path: /home/user/digit_box_dataset
# 训练/验证/测试集图片路径（相对于 path）
train: images/train
val: images/val
test: images/test
# digit 类别配置（固定 10 类）
nc: 10
names: ['0','1','2','3','4','5','6','7','8','9']

from ultralytics import YOLO

# 1. 加载预训练模型（适配 digit 框检测）
model = YOLO("yolov8s.pt")  # 小目标可选 yolov8n.pt，高精度可选 yolov8m.pt

# 2. 启动训练（重点优化 digit 框精度）
train_results = model.train(
    data="digit_box.yaml",      # 数据集配置
    epochs=100,                 # 训练轮数
    imgsz=640,                  # 输入尺寸
    batch=16,                   # 批次大小
    device=0,                   # 训练设备
    lr0=0.01,                   # 初始学习率
    lrf=0.01,                   # 最终学习率（lr0*lrf）
    weight_decay=0.0005,        # 权重衰减（防止过拟合）
    warmup_epochs=3,            # 热身轮数（小数据集 1-3）
    box=7.5,                    # 框损失权重（核心：提升 digit 框定位精度）
    cls=0.5,                    # 类别损失权重
    save=True,                  # 保存最佳模型
    project="digit_box_train",  # 训练结果保存目录
    name="digit_box_model",     # 模型名称
    exist_ok=True               # 覆盖已有目录
)

# 3. 打印训练关键结果
print("最佳模型路径：", model.best)
print("训练集框损失：", train_results.results_dict["train/box_loss"])
print("验证集 [email protected]（框精度核心指标）：", train_results.metrics["metrics/mAP50(B)"])

参数	作用	推荐值
`box`	框损失权重（提升框定位精度）	7.0-8.0
`imgsz`	输入尺寸（越大越易检测小 digit 框）	640/800
`patience`	早停阈值（避免过拟合）	20-30
`batch`	批次大小（显存允许则越大越好）	16-32
`lr0`	初始学习率（小数据集调小）	0.001-0.01

# 加载训练好的最佳模型
model = YOLO("digit_box_train/digit_box_model/weights/best.pt")

# 评估验证集
val_metrics = model.val(
    data="digit_box.yaml",
    imgsz=640,
    device=0,
    iou=0.5  # 以 IOU=0.5 为标准评估框精度
)

# 打印核心评估指标（digit 框检测重点关注）
print(f"框平均精度 [email protected]：{val_metrics.box.map:.4f}")       # 核心指标，目标>0.9
print(f"框精确率（框定位准不准）：{val_metrics.box.mp:.4f}")
print(f"框召回率（框有没有漏检）：{val_metrics.box.mr:.4f}")
print(f"类别准确率：{val_metrics.box.mc:.4f}")                # digit 类别简单，目标>0.95

# 查看单类别精度（比如数字 6/9 易混淆）
for cls_id, cls_name in model.names.items():
    print(f"数字{cls_name}的框精度：{val_metrics.box.ap50[cls_id]:.4f}")

import cv2
from ultralytics import YOLO

# 配置参数
MODEL_PATH = "digit_box_train/digit_box_model/weights/best.pt"
TEST_IMG_PATH = "test_digit.jpg"
CONF_THRESH = 0.5
IOU_THRESH = 0.5

# 加载模型
model = YOLO(MODEL_PATH)

# 1. 推理（检测 digit 框）
results = model(
    TEST_IMG_PATH,
    imgsz=640,
    conf=CONF_THRESH,
    iou=IOU_THRESH,
    device=0
)

# 2. 解析 digit 框 + 数字
digit_boxes = []
for r in results:
    boxes = r.boxes
    for box in boxes:
        # 解析框坐标（像素值）
        x1, y1, x2, y2 = map(int, box.xyxy[0])
        # 解析数字类别
        cls_id = int(box.cls[0])
        digit = model.names[cls_id]
        # 解析置信度
        conf = round(float(box.conf[0]), 3)
        
        digit_boxes.append({
            "digit": digit,
            "confidence": conf,
            "bbox": (x1, y1, x2, y2),
            "center": ((x1+x2)/2, (y1+y2)/2)
        })

# 3. 按框中心 x 坐标排序（还原数字顺序）
digit_boxes = sorted(digit_boxes, key=lambda x: x["center"][0])
detected_digits = [d["digit"] for d in digit_boxes]

# 4. 可视化 digit 框（绘制到图片上）
img = cv2.imread(TEST_IMG_PATH)
for d in digit_boxes:
    x1, y1, x2, y2 = d["bbox"]
    # 绘制 digit 框（绿色，线宽 2）
    cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2)
    # 绘制数字 + 置信度
    label = f"{d['digit']} ({d['confidence']})"
    cv2.putText(img, label, (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (0, 255, 0), 2)

# 5. 输出结果
print("检测到的逐位数字：", detected_digits)
print("每个 digit 框详情：", digit_boxes)

# 保存/显示可视化结果
cv2.imwrite("digit_box_detect_result.jpg", img)
cv2.imshow("Digit Box Detection", img)
cv2.waitKey(0)
cv2.destroyAllWindows()

anchors:
  - [6,8, 10,13, 16,23]  # 超小 digit 框
  - [23,33, 30,61, 62,45] # 中小 digit 框
  - [59,119, 116,90, 156,198] # 大 digit 框

YOLOv8 逐位数字框检测模型训练实战

YOLOv8 逐位数字框检测模型训练实战

一、核心前提：digit 框检测的关键要求

二、digit 框检测专用数据集构建

1. 数据集结构（YOLO 标准格式）

2. digit 框标注规则

（1）标注格式（YOLOv8 要求）

（2）逐位标注示例

更多推荐文章

相关免费在线工具

（3）标注工具推荐

3. 数据集配置文件（digit_box.yaml）

三、digit 框检测模型训练

1. 训练策略适配

2. 启动训练

3. 关键参数说明

四、digit 框检测模型评估

1. 评估解析

2. 评估结果解读

五、digit 框检测推理

完整推理脚本

六、digit 框检测优化技巧

1. 小 digit 框漏检优化

2. digit 框定位不准优化

3. 数字粘连（如 69、85）的框检测优化

七、常见问题解决

八、最终输出

更多推荐文章

相关免费在线工具

YOLOv8 逐位数字框检测模型训练实战

YOLOv8 逐位数字框检测模型训练实战

一、核心前提：digit 框检测的关键要求

二、digit 框检测专用数据集构建

1. 数据集结构（YOLO 标准格式）

2. digit 框标注规则

（1）标注格式（YOLOv8 要求）

（2）逐位标注示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

（3）标注工具推荐

3. 数据集配置文件（digit_box.yaml）

三、digit 框检测模型训练

1. 训练策略适配

2. 启动训练

3. 关键参数说明

四、digit 框检测模型评估

1. 评估解析

2. 评估结果解读

五、digit 框检测推理

完整推理脚本

六、digit 框检测优化技巧

1. 小 digit 框漏检优化

2. digit 框定位不准优化

3. 数字粘连（如 69、85）的框检测优化

七、常见问题解决

八、最终输出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具