基于PyTorch的图像分类全流程实现：代码+注释+深度解析

作者：demo2025.09.19 11:29浏览量：4

简介：本文详细讲解如何使用PyTorch框架实现完整的图像分类任务，包含数据加载、模型构建、训练与评估全流程代码，每行代码均附详细注释，适合PyTorch初学者及进阶开发者参考。

基于PyTorch的图像分类全流程实现：代码+注释+深度解析

一、引言

图像分类是计算机视觉的核心任务之一，PyTorch作为主流深度学习框架，提供了灵活高效的工具链。本文将通过一个完整的CIFAR-10分类案例，展示从数据准备到模型部署的全流程实现。

二、环境准备

# 环境配置
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
import numpy as np
# 检查GPU是否可用
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

关键点解析：

torch.device自动选择最优计算设备
建议始终添加设备检查，确保代码可移植性
CIFAR-10包含10个类别的6万张32x32彩色图像

三、数据准备与预处理

# 数据增强与归一化
transform_train = transforms.Compose([
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.RandomCrop(32, padding=4),  # 随机裁剪
    transforms.ToTensor(),  # 转换为Tensor
    transforms.Normalize((0.4914, 0.4822, 0.4465),  # 均值
                         (0.2023, 0.1994, 0.2010))  # 标准差
])
transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465),
                         (0.2023, 0.1994, 0.2010))
])
# 加载数据集
trainset = torchvision.datasets.CIFAR10(
    root='./data', train=True, download=True, transform=transform_train)
trainloader = DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(
    root='./data', train=False, download=True, transform=transform_test)
testloader = DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)
# 类别名称
classes = ('plane', 'car', 'bird', 'cat', 'deer',
           'dog', 'frog', 'horse', 'ship', 'truck')

数据增强策略：

随机水平翻转：概率0.5，增加数据多样性
随机裁剪：32x32区域，4像素填充
归一化参数：基于CIFAR-10数据集计算得到

DataLoader参数：

batch_size=128：平衡内存使用与训练效率
num_workers=2：多进程数据加载
shuffle=True：训练集打乱顺序

四、模型构建

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, padding=1)  # 保持尺寸
        self.bn1 = nn.BatchNorm2d(64)
        self.conv2 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(128)
        self.pool = nn.MaxPool2d(2, 2)  # 尺寸减半
        self.dropout = nn.Dropout(0.25)
        self.fc1 = nn.Linear(128 * 8 * 8, 512)  # 全连接层
        self.fc2 = nn.Linear(512, 10)  # 输出层
    def forward(self, x):
        x = self.pool(torch.relu(self.bn1(self.conv1(x))))  # 32x32 -> 16x16
        x = self.pool(torch.relu(self.bn2(self.conv2(x))))  # 16x16 -> 8x8
        x = x.view(-1, 128 * 8 * 8)  # 展平
        x = self.dropout(x)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x
# 初始化模型
net = CNN().to(device)

网络设计要点：

架构：Conv-BN-ReLU-Pool标准模块
批归一化：加速训练，提高稳定性
空间维度变化：32x32 → 16x16 → 8x8
Dropout率：0.25防止过拟合

五、训练流程

# 损失函数与优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001, weight_decay=1e-5)
# 训练参数
epochs = 20
train_loss_history = []
train_acc_history = []
test_acc_history = []
for epoch in range(epochs):
    # 训练阶段
    net.train()
    running_loss = 0.0
    correct = 0
    total = 0
    for i, (inputs, labels) in enumerate(trainloader, 0):
        inputs, labels = inputs.to(device), labels.to(device)
        # 梯度清零
        optimizer.zero_grad()
        # 前向传播
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        # 反向传播
        loss.backward()
        optimizer.step()
        # 统计信息
        running_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
    # 计算epoch统计量
    train_loss = running_loss / len(trainloader)
    train_acc = 100 * correct / total
    train_loss_history.append(train_loss)
    train_acc_history.append(train_acc)
    # 测试阶段
    net.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in testloader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = net(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    test_acc = 100 * correct / total
    test_acc_history.append(test_acc)
    # 打印进度
    print(f'Epoch {epoch+1}/{epochs}, '
          f'Train Loss: {train_loss:.3f}, '
          f'Train Acc: {train_acc:.2f}%, '
          f'Test Acc: {test_acc:.2f}%')

训练优化技巧：

学习率：0.001是常用初始值
L2正则化：weight_decay=1e-5防止过拟合
批量统计：每个epoch后计算完整数据集指标
模式切换：train()/eval()控制BN和Dropout行为

六、结果可视化与分析

# 绘制训练曲线
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(train_loss_history, label='Train Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss')
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(train_acc_history, label='Train Acc')
plt.plot(test_acc_history, label='Test Acc')
plt.xlabel('Epoch')
plt.ylabel('Accuracy (%)')
plt.title('Accuracy Comparison')
plt.legend()
plt.tight_layout()
plt.show()

分析要点：

损失曲线应单调下降
训练集与测试集准确率差距应<5%
若出现过拟合：增加数据增强或正则化
若收敛缓慢：尝试学习率调度或不同优化器

七、模型保存与加载

# 保存模型
torch.save({
    'model_state_dict': net.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'epoch': epoch,
}, 'cifar10_cnn.pth')
# 加载模型
def load_model(path):
    model = CNN().to(device)
    checkpoint = torch.load(path)
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    epoch = checkpoint['epoch']
    return model, optimizer, epoch
# 示例加载
# model, optimizer, epoch = load_model('cifar10_cnn.pth')

八、进阶优化建议

学习率调度：

scheduler = optim.lr_scheduler.ReduceLROnPlateau(
 optimizer, 'min', patience=3, factor=0.5)
# 在每个epoch后调用：scheduler.step(train_loss)

更先进的架构：

替换为ResNet18等预训练模型

net = torchvision.models.resnet18(pretrained=False, num_classes=10)

混合精度训练：

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast():
 outputs = net(inputs)
 loss = criterion(outputs, labels)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

九、完整代码整合

[此处可提供GitHub仓库链接或完整代码块]

十、总结

本文实现了完整的PyTorch图像分类流程，关键收获包括：

数据预处理与增强的最佳实践
CNN模型设计的核心原则
训练循环的完整实现细节
模型保存与加载的标准方法

建议读者：

先在小数据集上验证代码
逐步增加模型复杂度
密切关注训练/测试准确率差距
尝试不同的优化器和调度策略

通过本文的实践，读者应能掌握PyTorch进行图像分类的核心技能，并具备进一步优化和扩展的能力。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

基于PyTorch的图像分类全流程实现：代码+注释+深度解析

基于PyTorch的图像分类全流程实现：代码+注释+深度解析

一、引言

二、环境准备

三、数据准备与预处理

四、模型构建

五、训练流程

六、结果可视化与分析

七、模型保存与加载

八、进阶优化建议

九、完整代码整合

十、总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者