计算机视觉基础与实战开发指南

学习目标

理解计算机视觉的基本概念和重要性
掌握图像处理技术、特征提取方法及常用模型架构
学会使用 OpenCV、PIL、PyTorch 等库进行图像处理和模型训练
理解图像分类、目标检测、语义分割等任务的实现逻辑
通过实战项目，构建一个完整的计算机视觉应用

核心内容概览

计算机视觉基本概念与应用场景
图像处理技术（预处理、增强、滤波）
特征提取方法（HOG、SIFT、ORB）
常用模型与架构（LeNet、AlexNet、VGG、ResNet、YOLO）
实战项目：基于 Python 的计算机视觉应用开发

一、计算机视觉基础

1.1 基本概念

计算机视觉（Computer Vision）是人工智能的重要分支，旨在让计算机能够像人类一样理解和解释图像内容。其核心在于建立从像素到语义的映射。

1.1.1 核心价值

在实际应用中，计算机视觉主要解决以下问题：

图像理解：识别物体、场景及动作
目标检测：定位并识别图像中的多个物体
图像分类：对整张图像进行类别判定
语义分割：像素级的图像标记
图像生成：合成新的图像内容

1.1.2 应用场景

医疗：辅助诊断、医学影像分析
汽车：自动驾驶感知、智能交通
安防：视频监控、人脸识别
电商：以图搜图、商品推荐
社交：内容审核、滤镜特效

1.2 面临的挑战

尽管进展迅速，但 CV 领域仍面临不少难点：

图像质量：噪声、模糊、光照不均
物体多样性：尺度变化、姿态各异、遮挡严重
数据稀缺：特定领域标注数据不足
计算资源：实时处理对算力要求较高

二、图像处理技术

2.1 图像预处理

预处理是后续分析的基石，主要包括读取、调整尺寸、裁剪等操作。

2.1.1 常见格式

JPEG：有损压缩，适合照片
PNG：无损压缩，适合图标
BMP：位图，无压缩

2.1.2 代码实现

我们通常使用 OpenCV 来处理这些基础操作。注意 cv2.imread 默认加载为 BGR 格式，这与 PIL 的 RGB 不同，转换时需注意。

import cv2
import numpy as np

def read_image():
    image = cv2.imread(image_path)
     image

 ():
    cv2.imwrite(output_path, image)

 ():
    resized_image = cv2.resize(image, (width, height))
     resized_image

 ():
    adjusted_image = cv2.convertScaleAbs(image, alpha=alpha, beta=beta)
     adjusted_image

 ():
    cropped_image = image[y:y+height, x:x+width]
     cropped_image

 ():
    (h, w) = image.shape[:]
    center = (w // , h // )
    M = cv2.getRotationMatrix2D(center, angle, )
    rotated_image = cv2.warpAffine(image, M, (w, h))
     rotated_image

import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader from torchvision import datasets, transforms, models def train_resnet_model(data_dir, num_classes=2, batch_size=32, num_epochs=10, lr=0.001): # 数据预处理 data_transforms = { 'train': transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]), 'val': transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) } # 加载数据 image_datasets = {x: datasets.ImageFolder(f'{data_dir}/{x}', data_transforms[x]) for x in ['train', 'val']} dataloaders = {x: DataLoader(image_datasets[x], batch_size=batch_size, shuffle=True, num_workers=4) for x in ['train', 'val']} dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']} class_names = image_datasets['train'].classes # 加载模型 model = models.resnet18(pretrained=True) num_ftrs = model.fc.in_features model.fc = nn.Linear(num_ftrs, num_classes) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(model.parameters(), lr=lr, momentum=0.9) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1) # 训练循环 for epoch in range(num_epochs): print(f'Epoch {epoch}/{num_epochs - 1}') print('-' * 10) for phase in ['train', 'val']: if phase == 'train': model.train() else: model.eval() running_loss = 0.0 running_corrects = 0 for inputs, labels in dataloaders[phase]: optimizer.zero_grad() with torch.set_grad_enabled(phase == 'train'): outputs = model(inputs) _, preds = torch.max(outputs, 1) loss = criterion(outputs, labels) if phase == 'train': loss.backward() optimizer.step() running_loss += loss.item() * inputs.size(0) running_corrects += torch.sum(preds == labels.data) if phase == 'train': scheduler.step() epoch_loss = running_loss / dataset_sizes[phase] epoch_acc = running_corrects.double() / dataset_sizes[phase] print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}') print('Training complete') return model

import tkinter as tk from tkinter import ttk, messagebox, filedialog from PIL import Image, ImageTk # 假设相关模块已导入 # from image_input_frame import ImageInputFrame # from result_frame import ResultFrame # from cv_functions import classify_image, detect_objects class CVApp: def __init__(self, root): self.root = root self.root.title("计算机视觉应用") self.class_names = ['猫', '狗'] self.model_path = 'model.pth' self.create_widgets() def create_widgets(self): self.image_input_frame = ImageInputFrame(self.root, self.process_image) self.image_input_frame.pack(pady=10, padx=10, fill="both", expand=True) function_frame = tk.LabelFrame(self.root, text="功能选择") function_frame.pack(pady=10, padx=10, fill="x") self.function_var = tk.StringVar() self.function_var.set("图像分类") tk.Radiobutton(function_frame, text="图像分类", variable=self.function_var, value="图像分类").grid(row=0, column=0, padx=5, pady=5) tk.Radiobutton(function_frame, text="目标检测", variable=self.function_var, value="目标检测").grid(row=0, column=1, padx=5, pady=5) self.result_text = tk.Text(self.root, width=60, height=5) self.result_text.pack(pady=10, padx=10, fill="both", expand=True) self.output_image_label = tk.Label(self.root) self.output_image_label.pack(pady=10, padx=10, fill="both", expand=True) def process_image(self, image_path): function = self.function_var.get() try: if function == "图像分类": result = classify_image(image_path, self.model_path, self.class_names) self.result_text.insert(tk.END, result) elif function == "目标检测": result_image = detect_objects(image_path, self.model_path, self.class_names) result_image = cv2.cvtColor(result_image, cv2.COLOR_BGR2RGB) result_image_pil = Image.fromarray(result_image) result_image_pil = result_image_pil.resize((400, 300), Image.ANTIALIAS) photo = ImageTk.PhotoImage(result_image_pil) self.output_image_label.configure(image=photo) self.output_image_label.image = photo else: raise ValueError("未知功能") except Exception as e: messagebox.showerror("错误", f"处理失败：{str(e)}") if __name__ == "__main__": root = tk.Tk() app = CVApp(root) root.mainloop()

计算机视觉基础与实战开发指南