从零开始：使用PyTorch实现图像分类（含完整代码与注释）

作者：很菜不狗2025.09.19 11:28浏览量：17

简介：本文详细讲解如何使用PyTorch框架实现图像分类任务，包含数据加载、模型构建、训练与评估的全流程代码，并附有逐行注释说明，适合PyTorch初学者和进阶开发者参考。

使用PyTorch实现图像分类（全流程详解）

图像分类是计算机视觉的基础任务之一，PyTorch作为主流深度学习框架，提供了简洁高效的API支持。本文将通过完整的代码示例，从数据准备到模型部署，详细讲解如何使用PyTorch实现图像分类。

一、环境准备与依赖安装

首先需要安装PyTorch及相关依赖库。推荐使用conda或pip安装：

# 使用conda创建虚拟环境
conda create -n pytorch_img_cls python=3.8
conda activate pytorch_img_cls
# 安装PyTorch（根据CUDA版本选择）
pip install torch torchvision torchaudio
# 安装其他依赖
pip install numpy matplotlib tqdm

二、数据集准备与预处理

我们将使用CIFAR-10数据集（包含10个类别的6万张32x32彩色图像）作为示例。PyTorch的torchvision模块提供了便捷的数据加载方式：

import torch
import torchvision
import torchvision.transforms as transforms
# 定义数据预处理流程
transform = transforms.Compose([
    transforms.ToTensor(),  # 将PIL图像转换为Tensor，并归一化到[0,1]
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 标准化到[-1,1]
])
# 加载训练集和测试集
trainset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=True,
    download=True,  # 自动下载数据集
    transform=transform
)
testset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=False,
    download=True,
    transform=transform
)
# 创建数据加载器（支持批量加载和随机打乱）
batch_size = 32
trainloader = torch.utils.data.DataLoader(
    trainset, 
    batch_size=batch_size,
    shuffle=True,
    num_workers=2
)
testloader = torch.utils.data.DataLoader(
    testset, 
    batch_size=batch_size,
    shuffle=False,
    num_workers=2
)
# 类别名称
classes = ('plane', 'car', 'bird', 'cat', 'deer', 
           'dog', 'frog', 'horse', 'ship', 'truck')

关键点说明：

transforms.Compose：组合多个数据预处理操作
Normalize：使用(均值,标准差)参数进行标准化，这里使用[0.5,0.5,0.5]将像素值从[0,1]映射到[-1,1]
DataLoader：支持批量加载、随机打乱和多线程加载，num_workers建议设置为CPU核心数的一半

三、模型构建：CNN网络设计

我们将实现一个经典的CNN模型，包含卷积层、池化层和全连接层：

import torch.nn as nn
import torch.nn.functional as F
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # 卷积层1：输入通道3(RGB)，输出通道32，3x3卷积核
        self.conv1 = nn.Conv2d(3, 32, 3, padding=1)
        # 卷积层2：输入通道32，输出通道64，3x3卷积核
        self.conv2 = nn.Conv2d(32, 64, 3, padding=1)
        # 最大池化层：2x2窗口，步长2
        self.pool = nn.MaxPool2d(2, 2)
        # 全连接层1：输入64*8*8(经过两次池化后尺寸)，输出512
        self.fc1 = nn.Linear(64 * 8 * 8, 512)
        # 全连接层2：输入512，输出10(类别数)
        self.fc2 = nn.Linear(512, 10)
        # Dropout层：防止过拟合
        self.dropout = nn.Dropout(0.25)
    def forward(self, x):
        # 第一层卷积+ReLU+池化
        x = self.pool(F.relu(self.conv1(x)))
        # 第二层卷积+ReLU+池化
        x = self.pool(F.relu(self.conv2(x)))
        # 展平特征图
        x = x.view(-1, 64 * 8 * 8)
        # 全连接层+ReLU+Dropout
        x = self.dropout(F.relu(self.fc1(x)))
        # 输出层(不使用激活函数，因为CrossEntropyLoss包含Softmax)
        x = self.fc2(x)
        return x
# 初始化模型
model = CNN()
print(model)  # 打印模型结构

模型设计要点：

输入尺寸：CIFAR-10图像为32x32，经过两次2x2池化后变为8x8
通道数：从3(RGB)逐步增加到32→64，增强特征表达能力
激活函数：使用ReLU加速收敛
正则化：Dropout层随机丢弃25%的神经元

四、训练流程实现

完整的训练循环包含前向传播、损失计算、反向传播和参数更新：

import torch.optim as optim
from tqdm import tqdm  # 进度条库
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 设备配置(GPU加速)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.to(device)
# 训练参数
num_epochs = 10
for epoch in range(num_epochs):
    running_loss = 0.0
    correct = 0
    total = 0
    # 训练模式(启用Dropout和BatchNorm)
    model.train()
    # 使用tqdm显示进度条
    loop = tqdm(trainloader, desc=f'Epoch {epoch+1}/{num_epochs}')
    for i, (inputs, labels) in enumerate(loop):
        # 移动数据到设备
        inputs, labels = inputs.to(device), labels.to(device)
        # 梯度清零
        optimizer.zero_grad()
        # 前向传播
        outputs = model(inputs)
        # 计算损失
        loss = criterion(outputs, labels)
        # 反向传播
        loss.backward()
        # 更新参数
        optimizer.step()
        # 统计信息
        running_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
        # 更新进度条信息
        loop.set_postfix(loss=running_loss/(i+1), acc=100*correct/total)
    # 打印每个epoch的统计信息
    train_loss = running_loss / len(trainloader)
    train_acc = 100 * correct / total
    print(f'Epoch {epoch+1}, Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.2f}%')
    # 验证模式(禁用Dropout和BatchNorm的训练行为)
    model.eval()
    val_loss = 0.0
    correct = 0
    total = 0
    with torch.no_grad():  # 不计算梯度
        for inputs, labels in testloader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            val_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    val_loss = val_loss / len(testloader)
    val_acc = 100 * correct / total
    print(f'Epoch {epoch+1}, Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.2f}%')
print('训练完成')

训练技巧说明：

model.train()和model.eval()：切换模型模式，影响BatchNorm和Dropout的行为
学习率选择：Adam优化器通常使用0.001作为初始学习率
进度条：tqdm库提供可视化训练进度
设备选择：自动检测并使用GPU加速

五、模型评估与可视化

训练完成后，我们需要评估模型性能并可视化结果：

import matplotlib.pyplot as plt
import numpy as np
# 函数：显示一批图像及其预测结果
def imshow(img):
    img = img / 2 + 0.5  # 反归一化
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()
# 获取一个批次的图像和标签
dataiter = iter(testloader)
images, labels = next(dataiter)
images, labels = images.to(device), labels.to(device)
# 预测
outputs = model(images)
_, predicted = torch.max(outputs, 1)
# 显示图像和真实/预测标签
imshow(torchvision.utils.make_grid(images.cpu()))
print('真实标签:', ' '.join(f'{classes[labels[j]]}' for j in range(batch_size)))
print('预测标签:', ' '.join(f'{classes[predicted[j]]}' for j in range(batch_size)))
# 绘制训练曲线
def plot_metrics(train_losses, train_accs, val_losses, val_accs):
    plt.figure(figsize=(12, 4))
    plt.subplot(1, 2, 1)
    plt.plot(train_losses, label='Train Loss')
    plt.plot(val_losses, label='Val Loss')
    plt.xlabel('Epoch')
    plt.ylabel('Loss')
    plt.legend()
    plt.subplot(1, 2, 2)
    plt.plot(train_accs, label='Train Acc')
    plt.plot(val_accs, label='Val Acc')
    plt.xlabel('Epoch')
    plt.ylabel('Accuracy (%)')
    plt.legend()
    plt.tight_layout()
    plt.show()
# 这里需要在实际代码中收集各epoch的loss和acc
# 示例数据(实际应从训练过程中收集)
train_losses = [2.3, 1.8, 1.5, 1.2, 1.0, 0.9, 0.8, 0.7, 0.6, 0.5]
train_accs = [30, 45, 55, 65, 70, 75, 78, 80, 82, 84]
val_losses = [2.1, 1.7, 1.4, 1.1, 0.95, 0.85, 0.78, 0.72, 0.68, 0.65]
val_accs = [35, 50, 60, 68, 72, 76, 79, 81, 83, 85]
plot_metrics(train_losses, train_accs, val_losses, val_accs)

六、模型保存与加载

训练好的模型可以保存为.pth文件，方便后续使用：

# 保存模型
PATH = './cifar_net.pth'
torch.save(model.state_dict(), PATH)
# 加载模型
def load_model():
    # 重新初始化模型
    model = CNN()
    model.to(device)
    # 加载保存的权重
    model.load_state_dict(torch.load(PATH))
    # 设置为评估模式
    model.eval()
    return model
# 使用加载的模型进行预测
loaded_model = load_model()
# ... 进行预测的代码与之前相同

七、进阶优化建议

数据增强：在transforms中添加随机裁剪、水平翻转等操作提升模型泛化能力

transform_train = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

学习率调度：使用StepLR或ReduceLROnPlateau动态调整学习率

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)
# 在每个epoch后调用scheduler.step()

更先进的模型：尝试ResNet、EfficientNet等预训练模型

from torchvision.models import resnet18
model = resnet18(pretrained=False, num_classes=10)

分布式训练：使用torch.nn.DataParallel进行多GPU训练

if torch.cuda.device_count() > 1:
    print(f"使用 {torch.cuda.device_count()} 个GPU")
    model = nn.DataParallel(model)

八、完整代码整合

将上述所有部分整合为一个完整的可运行脚本：

# 完整代码见前文各部分，此处省略重复内容
# 建议将代码分为以下几个文件：
# 1. model.py (定义CNN类)
# 2. train.py (训练流程)
# 3. utils.py (辅助函数如imshow)
# 4. evaluate.py (模型评估)

九、总结与展望

本文详细介绍了使用PyTorch实现图像分类的完整流程，从数据加载到模型部署。关键要点包括：

数据预处理的重要性：标准化和增强操作显著影响模型性能
CNN架构设计：合理的卷积层、池化层和全连接层组合
训练技巧：学习率选择、优化器选择和正则化方法
评估与可视化：准确监控训练过程，及时发现过拟合/欠拟合

未来可以探索的方向包括：

使用Transformer架构（如ViT）进行图像分类
尝试半监督或自监督学习方法
部署模型到移动端或边缘设备

通过本文的学习，读者应该能够掌握PyTorch实现图像分类的核心技术，并能够根据实际需求调整模型结构和训练策略。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

从零开始：使用PyTorch实现图像分类（含完整代码与注释）

使用PyTorch实现图像分类（全流程详解）

一、环境准备与依赖安装

二、数据集准备与预处理

三、模型构建：CNN网络设计

四、训练流程实现

五、模型评估与可视化

六、模型保存与加载

七、进阶优化建议

八、完整代码整合

九、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者