从零开始：使用PyTorch实现CIFAR-10图像分类+完整代码+逐行注释

作者：渣渣辉2025.09.26 18:46浏览量：16

简介：本文将详细介绍如何使用PyTorch框架实现一个完整的图像分类模型，包括数据加载、模型构建、训练过程和结果评估。通过CIFAR-10数据集的实战案例，帮助开发者掌握深度学习图像分类的核心技术。

引言

图像分类是计算机视觉领域的核心任务之一，PyTorch作为主流深度学习框架，提供了灵活高效的工具实现这一目标。本文将以CIFAR-10数据集为例，完整展示使用PyTorch实现图像分类的全过程，包含所有关键代码和详细注释。

一、环境准备与数据加载

1.1 安装必要库

# 基础环境要求
# Python 3.8+
# PyTorch 2.0+ (建议使用conda安装)
# torchvision (与PyTorch版本匹配)
# numpy, matplotlib等科学计算库

1.2 数据集加载与预处理

import torch
import torchvision
import torchvision.transforms as transforms
# 定义数据预处理流程
transform = transforms.Compose([
    transforms.ToTensor(),  # 将PIL图像转为Tensor，并归一化到[0,1]
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 标准化到[-1,1]
])
# 加载训练集和测试集
trainset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=True,
    download=True, 
    transform=transform
)
trainloader = torch.utils.data.DataLoader(
    trainset, 
    batch_size=32,
    shuffle=True, 
    num_workers=2
)
testset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=False,
    download=True, 
    transform=transform
)
testloader = torch.utils.data.DataLoader(
    testset, 
    batch_size=32,
    shuffle=False, 
    num_workers=2
)
# CIFAR-10类别标签
classes = ('plane', 'car', 'bird', 'cat', 'deer', 
           'dog', 'frog', 'horse', 'ship', 'truck')

关键点说明：

Compose将多个变换操作组合
Normalize使用均值0.5和标准差0.5进行标准化
DataLoader实现批量加载和并行数据读取

二、模型构建

2.1 定义CNN架构

import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 卷积层1：输入3通道，输出6通道，5x5卷积核
        self.conv1 = nn.Conv2d(3, 6, 5)
        # 池化层：2x2最大池化
        self.pool = nn.MaxPool2d(2, 2)
        # 卷积层2：输入6通道，输出16通道，5x5卷积核
        self.conv2 = nn.Conv2d(6, 16, 5)
        # 全连接层1：输入16*5*5（经过两次池化后尺寸），输出120
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        # 全连接层2：输入120，输出84
        self.fc2 = nn.Linear(120, 84)
        # 输出层：输入84，输出10（类别数）
        self.fc3 = nn.Linear(84, 10)
    def forward(self, x):
        # 第一层卷积+ReLU+池化
        x = self.pool(F.relu(self.conv1(x)))
        # 第二层卷积+ReLU+池化
        x = self.pool(F.relu(self.conv2(x)))
        # 展平操作
        x = x.view(-1, 16 * 5 * 5)
        # 全连接层+ReLU
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        # 输出层（无激活函数，配合CrossEntropyLoss）
        x = self.fc3(x)
        return x
# 实例化模型
net = Net()

架构设计说明：

输入尺寸：32x32x3（CIFAR-10原始尺寸）
经过两次2x2池化后尺寸变为5x5
使用ReLU激活函数避免梯度消失
输出层10个神经元对应10个类别

2.2 定义损失函数和优化器

import torch.optim as optim
# 交叉熵损失函数（自动处理softmax）
criterion = nn.CrossEntropyLoss()
# 随机梯度下降优化器，学习率0.001，动量0.9
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

三、模型训练

3.1 训练循环实现

def train_model(net, trainloader, criterion, optimizer, epochs=10):
    for epoch in range(epochs):  # 遍历所有epoch
        running_loss = 0.0
        correct = 0
        total = 0
        for i, data in enumerate(trainloader, 0):
            # 获取输入和标签
            inputs, labels = data
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            outputs = net(inputs)
            # 计算损失
            loss = criterion(outputs, labels)
            # 反向传播
            loss.backward()
            # 参数更新
            optimizer.step()
            # 统计信息
            running_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
            # 每200个batch打印一次
            if i % 200 == 199:
                print(f'Epoch {epoch + 1}, Batch {i + 1}, '
                      f'Loss: {running_loss / 200:.3f}')
                running_loss = 0.0
        # 每个epoch结束后打印准确率
        train_acc = 100 * correct / total
        print(f'Epoch {epoch + 1}, Training Accuracy: {train_acc:.2f}%')

3.2 执行训练

# 训练10个epoch
train_model(net, trainloader, criterion, optimizer, epochs=10)

训练技巧：

使用optimizer.zero_grad()清除历史梯度
采用小批量梯度下降（batch_size=32）
每个epoch后计算并打印准确率

四、模型评估

4.1 测试集评估

def evaluate_model(net, testloader):
    correct = 0
    total = 0
    class_correct = list(0. for i in range(10))
    class_total = list(0. for i in range(10))
    with torch.no_grad():  # 禁用梯度计算
        for data in testloader:
            images, labels = data
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
            # 统计各类别准确率
            c = (predicted == labels).squeeze()
            for i in range(len(labels)):
                label = labels[i]
                class_correct[label] += c[i].item()
                class_total[label] += 1
    # 计算总体准确率
    print(f'Accuracy on test set: {100 * correct / total:.2f}%')
    # 打印各类别准确率
    for i in range(10):
        print(f'Accuracy of {classes[i]}: '
              f'{100 * class_correct[i] / class_total[i]:.2f}%')
# 执行评估
evaluate_model(net, testloader)

评估要点：

使用torch.no_grad()减少内存消耗
计算总体准确率和各类别准确率
识别模型在哪些类别上表现不佳

五、模型优化建议

数据增强：添加随机裁剪、水平翻转等增强策略

transform_train = transforms.Compose([
 transforms.RandomHorizontalFlip(),
 transforms.RandomCrop(32, padding=4),
 transforms.ToTensor(),
 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

模型改进：

使用更深的网络结构（如ResNet）

添加Batch Normalization层

self.conv1 = nn.Sequential(
  nn.Conv2d(3, 6, 5),
  nn.BatchNorm2d(6),
  nn.ReLU()
)

训练策略优化：
- 采用学习率调度器
```
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)
```
- 使用更大的batch size（需调整学习率）

六、完整代码整合

将所有代码整合到一个脚本中，包含完整的训练和评估流程。建议添加以下功能：

模型保存与加载
```python
保存模型
PATH = ‘./cifar_net.pth’
torch.save(net.state_dict(), PATH)

加载模型

net = Net()
net.load_state_dict(torch.load(PATH))

- GPU支持检测
```python
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
net.to(device)
# 数据也需要移动到GPU
inputs, labels = inputs.to(device), labels.to(device)

七、性能对比与基准

在相同硬件环境下（如NVIDIA Tesla T4），不同配置的性能参考：
| 配置 | 训练时间（10epoch） | 测试准确率 |
|———-|—————————|—————-|
| 基础CNN | 8min | 62% |
| 添加BN层 | 9min | 68% |
| ResNet-18 | 15min | 85% |

八、常见问题解决

训练不收敛：
- 检查学习率是否过大（建议初始0.001）
- 确保数据标准化正确
GPU内存不足：
- 减小batch size
- 使用torch.cuda.empty_cache()清理缓存
过拟合问题：
- 添加Dropout层（nn.Dropout(p=0.5)）
- 增加L2正则化（weight_decay=0.001）

九、扩展应用

迁移学习：

# 加载预训练模型
model = torchvision.models.resnet18(pretrained=True)
# 修改最后一层
num_ftrs = model.fc.in_features
model.fc = nn.Linear(num_ftrs, 10)

部署到移动端：

使用TorchScript导出模型

traced_script_module = torch.jit.trace(net, example_input)
traced_script_module.save("model.pt")

十、总结与最佳实践

开发流程建议：
- 先在小数据集上验证模型结构
- 逐步增加模型复杂度
- 使用TensorBoard可视化训练过程
性能优化技巧：
- 混合精度训练（torch.cuda.amp）
- 使用DataParallel进行多GPU训练
生产环境注意事项：
- 模型版本管理
- 输入数据的预处理一致性
- 异常处理机制

本文提供的完整实现方案可作为图像分类任务的基准，开发者可根据具体需求进行调整和扩展。通过理解每个组件的工作原理，能够更好地应对实际项目中的各种挑战。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

从零开始：使用PyTorch实现CIFAR-10图像分类+完整代码+逐行注释

引言

一、环境准备与数据加载

1.1 安装必要库

1.2 数据集加载与预处理

二、模型构建

2.1 定义CNN架构

2.2 定义损失函数和优化器

三、模型训练

3.1 训练循环实现

3.2 执行训练

四、模型评估

4.1 测试集评估

五、模型优化建议

六、完整代码整合

保存模型

加载模型

七、性能对比与基准

八、常见问题解决

九、扩展应用

十、总结与最佳实践

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者