计算机视觉基础与实战应用指南

计算机视觉示意图

在人工智能的众多分支中，计算机视觉（Computer Vision）无疑是发展最迅猛、落地场景最丰富的领域之一。它致力于让计算机像人类一样'看懂'图像，从简单的像素识别到复杂的场景理解。本文将带你系统梳理计算机视觉的核心技术栈，从基础的图像处理到深度学习模型架构，最后通过一个完整的 Python 项目实战，展示如何构建具备图像分类与目标检测能力的实际应用。

一、计算机视觉基础

1.1 核心概念与价值

计算机视觉的目标是模拟人类视觉系统，使机器能够获取、处理和分析图像信息。其核心价值体现在以下几个方面：

图像理解：识别物体、场景及动作。
目标检测：定位并识别图像中的多个物体。
图像分类：对整张图像进行标签化归类。
语义分割：对图像进行像素级的精细划分。
图像生成：基于数据生成新的视觉内容。

在实际应用中，CV 技术已渗透至医疗诊断、自动驾驶、安防监控、电商推荐等多个领域。当然，我们也必须正视当前面临的挑战，如图像噪声干扰、物体姿态多样性、复杂光照环境以及计算资源的需求等，这些都是我们在算法设计中需要重点优化的方向。

二、图像处理技术

图像预处理是后续所有分析的基础。我们通常需要对原始数据进行清洗和增强，以提升模型的表现。

2.1 基础操作与预处理

常见的图像格式包括 JPEG（适合照片）、PNG（适合图标）和 BMP。在处理时，我们经常需要调整尺寸、亮度对比度，或者进行裁剪旋转。下面是一个使用 OpenCV 实现基础操作的示例，注意函数定义时的空格规范以及参数传递。

import cv2
import numpy as np

def read_image(image_path):
    image = cv2.imread(image_path)
    return image

def save_image(image, output_path):
    cv2.imwrite(output_path, image)

def resize_image(image, width, height):
    resized_image = cv2.resize(image, (width, height))
    return resized_image

def adjust_brightness_contrast(image, alpha=1.0, beta=0.0):
    adjusted_image = cv2.convertScaleAbs(image, alpha=alpha, beta=beta)
    return adjusted_image

 ():
    cropped_image = image[y:y+height, x:x+width]
     cropped_image

 ():
    (h, w) = image.shape[:]
    center = (w // , h // )
    M = cv2.getRotationMatrix2D(center, angle, )
    rotated_image = cv2.warpAffine(image, M, (w, h))
     rotated_image

import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader from torchvision import datasets, transforms, models def train_resnet_model(data_dir, num_classes=2, batch_size=32, num_epochs=10, lr=0.001): # 数据预处理 data_transforms = { 'train': transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]), 'val': transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) } image_datasets = {x: datasets.ImageFolder(f'{data_dir}/{x}', data_transforms[x]) for x in ['train', 'val']} dataloaders = {x: DataLoader(image_datasets[x], batch_size=batch_size, shuffle=True, num_workers=4) for x in ['train', 'val']} dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']} class_names = image_datasets['train'].classes # 加载模型 model = models.resnet18(pretrained=True) num_ftrs = model.fc.in_features model.fc = nn.Linear(num_ftrs, num_classes) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(model.parameters(), lr=lr, momentum=0.9) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1) # 训练模型 for epoch in range(num_epochs): print(f'Epoch {epoch}/{num_epochs - 1}') print('-' * 10) for phase in ['train', 'val']: if phase == 'train': model.train() else: model.eval() running_loss = 0.0 running_corrects = 0 for inputs, labels in dataloaders[phase]: optimizer.zero_grad() with torch.set_grad_enabled(phase == 'train'): outputs = model(inputs) _, preds = torch.max(outputs, 1) loss = criterion(outputs, labels) if phase == 'train': loss.backward() optimizer.step() running_loss += loss.item() * inputs.size(0) running_corrects += torch.sum(preds == labels.data) if phase == 'train': scheduler.step() epoch_loss = running_loss / dataset_sizes[phase] epoch_acc = running_corrects.double() / dataset_sizes[phase] print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}') print('Training complete') return model

import tkinter as tk from tkinter import ttk, messagebox, filedialog from PIL import Image, ImageTk from image_input_frame import ImageInputFrame from result_frame import ResultFrame from cv_functions import classify_image, detect_objects class CVApp: def __init__(self, root): self.root = root self.root.title("计算机视觉应用") self.class_names = ['猫', '狗'] self.model_path = 'model.pth' self.create_widgets() def create_widgets(self): self.image_input_frame = ImageInputFrame(self.root, self.process_image) self.image_input_frame.pack(pady=10, padx=10, fill="both", expand=True) function_frame = tk.LabelFrame(self.root, text="功能选择") function_frame.pack(pady=10, padx=10, fill="x") self.function_var = tk.StringVar() self.function_var.set("图像分类") tk.Radiobutton(function_frame, text="图像分类", variable=self.function_var, value="图像分类").grid(row=0, column=0, padx=5, pady=5) tk.Radiobutton(function_frame, text="目标检测", variable=self.function_var, value="目标检测").grid(row=0, column=1, padx=5, pady=5) self.result_frame = ResultFrame(self.root) self.result_frame.pack(pady=10, padx=10, fill="both", expand=True) self.output_image_label = tk.Label(self.root) self.output_image_label.pack(pady=10, padx=10, fill="both", expand=True) def process_image(self, image_path): function = self.function_var.get() try: if function == "图像分类": result = classify_image(image_path, self.model_path, self.class_names) self.result_frame.display_result(result) elif function == "目标检测": result_image = detect_objects(image_path, self.model_path, self.class_names) result_image = cv2.cvtColor(result_image, cv2.COLOR_BGR2RGB) result_image_pil = Image.fromarray(result_image) result_image_pil = result_image_pil.resize((400, 300), Image.LANCZOS) photo = ImageTk.PhotoImage(result_image_pil) self.output_image_label.configure(image=photo) self.output_image_label.image = photo else: raise ValueError("未知功能") except Exception as e: messagebox.showerror("错误", f"处理失败：{str(e)}") if __name__ == "__main__": root = tk.Tk() app = CVApp(root) root.mainloop()

计算机视觉基础与实战应用指南