PyTorch实战：从零实现图像分类（含完整代码与注释）

作者：rousong2025.09.19 17:05浏览量：0

简介：本文通过PyTorch框架实现一个完整的图像分类模型，涵盖数据加载、模型构建、训练与评估全流程，附有详细代码注释和关键步骤解析，适合初学者和开发者快速上手。

PyTorch实战：从零实现图像分类（含完整代码与注释）

摘要

本文以PyTorch框架为核心，详细讲解如何实现一个完整的图像分类模型。从数据准备、模型构建到训练与评估，覆盖深度学习图像分类任务的全流程。代码部分包含逐行注释，并解释关键设计决策，帮助读者理解PyTorch的实践方法。

一、技术背景与PyTorch优势

图像分类是计算机视觉的核心任务之一，其目标是将输入图像归类到预定义的类别中。PyTorch作为主流深度学习框架，具有动态计算图、易用API和强大社区支持等优势，尤其适合快速实验和模型迭代。

1.1 PyTorch核心特性

动态计算图：支持即时修改计算流程，便于调试和模型优化。
GPU加速：通过CUDA无缝调用GPU资源，提升训练效率。
模块化设计：提供nn.Module基类，简化模型定义和参数管理。

1.2 图像分类任务流程

数据准备：加载并预处理图像数据集。
模型构建：定义神经网络结构（如CNN）。
训练循环：前向传播、损失计算、反向传播和参数更新。
评估与预测：在测试集上验证模型性能。

二、完整代码实现与注释

以下代码实现一个基于CNN的图像分类模型，使用CIFAR-10数据集（包含10个类别的6万张32x32彩色图像）。

2.1 导入依赖库

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
import numpy as np
# 设置随机种子保证可复现性
torch.manual_seed(42)

注释：

torchvision提供数据集加载和图像变换工具。
DataLoader用于批量加载数据，支持多线程和shuffle。

2.2 数据加载与预处理

# 定义数据预处理流程
transform = transforms.Compose([
    transforms.ToTensor(),  # 将PIL图像或numpy数组转为Tensor，并缩放到[0,1]
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 归一化到[-1,1]
])
# 加载训练集和测试集
trainset = torchvision.datasets.CIFAR10(
    root='./data', train=True, download=True, transform=transform)
trainloader = DataLoader(trainset, batch_size=32, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(
    root='./data', train=False, download=True, transform=transform)
testloader = DataLoader(testset, batch_size=32, shuffle=False, num_workers=2)
# 类别名称
classes = ('plane', 'car', 'bird', 'cat', 'deer',
           'dog', 'frog', 'horse', 'ship', 'truck')

关键点：

Normalize使用均值和标准差对数据进行标准化，加速收敛。
batch_size需根据GPU内存调整，过大可能导致OOM错误。

2.3 定义CNN模型

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # 卷积层1：输入通道3（RGB），输出通道32，3x3卷积核
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        # 最大池化层：2x2窗口，步长2
        self.pool = nn.MaxPool2d(2, 2)
        # 全连接层
        self.fc1 = nn.Linear(64 * 8 * 8, 512)  # 输入尺寸需根据前层输出计算
        self.fc2 = nn.Linear(512, 10)  # 输出10个类别
        # Dropout层防止过拟合
        self.dropout = nn.Dropout(0.25)
    def forward(self, x):
        # 卷积层1 + ReLU激活 + 池化
        x = self.pool(torch.relu(self.conv1(x)))
        # 卷积层2 + ReLU激活 + 池化
        x = self.pool(torch.relu(self.conv2(x)))
        # 展平特征图
        x = x.view(-1, 64 * 8 * 8)
        # 全连接层 + Dropout
        x = self.dropout(torch.relu(self.fc1(x)))
        x = self.fc2(x)
        return x
# 初始化模型
model = CNN()

设计解析：

两次卷积+池化将32x32图像逐步降维为8x8特征图。
全连接层输入尺寸需通过(64, 8, 8)计算，避免维度不匹配错误。

2.4 定义损失函数与优化器

criterion = nn.CrossEntropyLoss()  # 交叉熵损失，适用于多分类
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器

选择依据：

交叉熵损失结合Softmax输出，直接优化类别概率分布。
Adam自适应调整学习率，适合大多数任务。

2.5 训练模型

def train_model(model, trainloader, criterion, optimizer, epochs=10):
    model.train()  # 设置为训练模式
    for epoch in range(epochs):
        running_loss = 0.0
        for i, (inputs, labels) in enumerate(trainloader, 0):
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            outputs = model(inputs)
            # 计算损失
            loss = criterion(outputs, labels)
            # 反向传播
            loss.backward()
            # 参数更新
            optimizer.step()
            running_loss += loss.item()
            if i % 100 == 99:  # 每100个batch打印一次
                print(f'Epoch {epoch + 1}, Batch {i + 1}, Loss: {running_loss / 100:.3f}')
                running_loss = 0.0
    print('Finished Training')
train_model(model, trainloader, criterion, optimizer)

注意事项：

每次迭代需调用zero_grad()清除历史梯度，避免累积。
训练模式（model.train()）会启用Dropout和BatchNorm。

2.6 测试模型

def test_model(model, testloader, classes):
    model.eval()  # 设置为评估模式
    correct = 0
    total = 0
    with torch.no_grad():  # 禁用梯度计算
        for images, labels in testloader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print(f'Accuracy on test set: {100 * correct / total:.2f}%')
test_model(model, testloader, classes)

关键操作：

model.eval()关闭Dropout和BatchNorm的随机性。
torch.no_grad()减少内存消耗，加速推理。

三、优化与扩展建议

数据增强：通过transforms.RandomHorizontalFlip()等增加数据多样性。
模型调优：尝试ResNet等更复杂的结构，或调整超参数（如学习率、batch_size）。
部署实践：使用torch.jit.trace将模型转换为TorchScript格式，便于部署到移动端或服务器。

四、总结

本文通过PyTorch实现了一个完整的图像分类流程，覆盖数据加载、模型定义、训练和评估。代码注释详细解释了每一步的设计意图，适合开发者快速掌握PyTorch的核心用法。实际应用中，可根据任务需求调整模型结构和超参数，进一步优化性能。”

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

PyTorch实战：从零实现图像分类（含完整代码与注释）

PyTorch实战：从零实现图像分类（含完整代码与注释）

摘要

一、技术背景与PyTorch优势

1.1 PyTorch核心特性

1.2 图像分类任务流程

二、完整代码实现与注释

2.1 导入依赖库

2.2 数据加载与预处理

2.3 定义CNN模型

2.4 定义损失函数与优化器

2.5 训练模型

2.6 测试模型

三、优化与扩展建议

四、总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者