PyTorch显存监控与查看：实用技巧与深度解析

作者：KAKAKA2025.09.25 19:18浏览量：2

简介：本文深入探讨PyTorch中监控与查看显存占用的多种方法，涵盖基础API、高级工具及实战建议，帮助开发者高效管理GPU资源，避免显存溢出问题。

PyTorch显存监控与查看：实用技巧与深度解析

在深度学习训练中，显存管理是决定模型能否顺利运行的关键因素。PyTorch作为主流框架，提供了多种监控显存占用的方法。本文将从基础API到高级工具，系统梳理PyTorch中显存监控的完整方案，帮助开发者精准掌握显存使用情况，避免因显存不足导致的训练中断。

一、基础方法：PyTorch原生API监控显存

1.1 `torch.cuda`模块核心函数

PyTorch通过torch.cuda模块提供了显存查询的基础接口，其中最常用的是memory_allocated()和max_memory_allocated()：

import torch
# 初始化张量触发显存分配
x = torch.randn(1000, 1000).cuda()
# 获取当前显存占用（字节）
current_mem = torch.cuda.memory_allocated()
print(f"当前显存占用: {current_mem / 1024**2:.2f} MB")
# 获取峰值显存占用
peak_mem = torch.cuda.max_memory_allocated()
print(f"峰值显存占用: {peak_mem / 1024**2:.2f} MB")

这两个函数分别返回当前进程占用的显存和历史峰值显存，单位为字节。通过除以1024**2可转换为MB单位，更符合日常使用习惯。

1.2 显存缓存区监控

PyTorch的显存管理包含缓存机制，可通过memory_reserved()和max_memory_reserved()监控：

reserved_mem = torch.cuda.memory_reserved()
print(f"缓存区显存: {reserved_mem / 1024**2:.2f} MB")

缓存区是PyTorch为优化内存分配预留的空间，理解其机制有助于诊断”显存未释放”的假象问题。

二、进阶工具：NVIDIA官方工具集成

2.1 `nvidia-smi`命令行工具

虽然不属于PyTorch，但nvidia-smi是系统级显存监控的标配工具：

nvidia-smi -l 1  # 每秒刷新一次

输出示例：

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     12345      C   python                          4523 MiB |
+-----------------------------------------------------------------------------+

通过PID可关联到具体Python进程，适合多任务环境下的显存监控。

2.2 PyTorch与NVIDIA工具的联动

结合subprocess调用nvidia-smi实现程序内监控：

import subprocess
def get_gpu_memory():
    result = subprocess.run(['nvidia-smi', '--query-gpu=memory.used', '--format=csv,noheader'], 
                           stdout=subprocess.PIPE)
    mem_mb = int(result.stdout.decode().strip())
    return mem_mb
print(f"系统级显存占用: {get_gpu_memory()} MB")

这种方法能获取整个GPU的显存使用情况，而不仅是当前PyTorch进程。

三、高级方案：可视化与自动化监控

3.1 PyTorch内存分析器

PyTorch 1.10+引入了torch.profiler，可详细分析显存分配：

from torch.profiler import profile, record_function, ProfilerActivity
with profile(activities=[ProfilerActivity.CUDA], record_shapes=True) as prof:
    with record_function("model_inference"):
        # 模型前向传播代码
        pass
print(prof.key_averages().table(sort_by="cuda_memory_usage", row_limit=10))

输出会显示各操作层的显存消耗，帮助定位内存热点。

3.2 实时监控仪表盘

使用psutil和matplotlib构建实时监控面板：

import psutil
import matplotlib.pyplot as plt
import time
def monitor_gpu_memory(duration=10):
    times = []
    memories = []
    start_time = time.time()
    while time.time() - start_time < duration:
        # 获取PyTorch显存占用
        pt_mem = torch.cuda.memory_allocated() / 1024**2
        # 获取系统GPU显存（需nvidia-smi）
        # 这里简化处理，实际需通过subprocess调用
        sys_mem = get_gpu_memory() / 1024  # 假设返回KB
        times.append(time.time() - start_time)
        memories.append((pt_mem, sys_mem/1024))  # 统一单位为MB
        time.sleep(0.5)
    # 绘制曲线
    plt.figure(figsize=(10, 5))
    pt_mems, sys_mems = zip(*memories)
    plt.plot(times, pt_mems, label='PyTorch显存')
    plt.plot(times, sys_mems, label='系统显存')
    plt.xlabel('时间(s)')
    plt.ylabel('显存占用(MB)')
    plt.legend()
    plt.show()
monitor_gpu_memory()

此方案可直观对比PyTorch占用与系统总显存的关系。

四、实战建议与常见问题

4.1 显存优化策略

梯度检查点：使用torch.utils.checkpoint减少中间激活显存

from torch.utils.checkpoint import checkpoint
def custom_forward(x):
    # 复杂计算
    return x
# 使用检查点
output = checkpoint(custom_forward, input_tensor)

混合精度训练：torch.cuda.amp自动管理FP16/FP32

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast():
    outputs = model(inputs)

4.2 常见问题诊断

显存碎片化：表现是总剩余显存足够但分配失败
- 解决方案：减小batch size或重启kernel

CUDA内存泄漏：显存占用随迭代持续增长

检查点：确保所有创建的张量都被正确释放

# 错误示例：未释放中间变量
def leaky_function():
  a = torch.randn(1000, 1000).cuda()
  b = a * 2  # b未释放
  return a

4.3 多GPU环境监控

在DDP模式下，需分别监控各GPU：

def print_gpu_memory():
    for i in range(torch.cuda.device_count()):
        torch.cuda.set_device(i)
        print(f"GPU {i}: 当前 {torch.cuda.memory_allocated()/1024**2:.2f}MB, "
              f"峰值 {torch.cuda.max_memory_allocated()/1024**2:.2f}MB")

五、最佳实践总结

训练前预估：使用torch.cuda.memory_stats()获取详细内存统计
```
print(torch.cuda.memory_stats())
```
监控频率控制：避免在训练循环中高频调用显存查询API

异常处理：捕获RuntimeError: CUDA out of memory并实现回退机制

try:
    outputs = model(inputs)
except RuntimeError as e:
    if "CUDA out of memory" in str(e):
        print("显存不足，尝试减小batch size")
        # 调整策略
    else:
        raise

通过系统掌握这些显存监控方法，开发者能够更高效地利用GPU资源，显著提升深度学习训练的稳定性和效率。实际项目中，建议结合多种监控手段，形成从代码层到系统层的完整观测体系。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

PyTorch显存监控与查看：实用技巧与深度解析

PyTorch显存监控与查看：实用技巧与深度解析

一、基础方法：PyTorch原生API监控显存

1.1 `torch.cuda`模块核心函数

1.2 显存缓存区监控

二、进阶工具：NVIDIA官方工具集成

2.1 `nvidia-smi`命令行工具

2.2 PyTorch与NVIDIA工具的联动

三、高级方案：可视化与自动化监控

3.1 PyTorch内存分析器

3.2 实时监控仪表盘

四、实战建议与常见问题

4.1 显存优化策略

4.2 常见问题诊断

4.3 多GPU环境监控

五、最佳实践总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

PyTorch显存监控与查看：实用技巧与深度解析

PyTorch显存监控与查看：实用技巧与深度解析

一、基础方法：PyTorch原生API监控显存

1.1 torch.cuda模块核心函数

1.2 显存缓存区监控

二、进阶工具：NVIDIA官方工具集成

2.1 nvidia-smi命令行工具

2.2 PyTorch与NVIDIA工具的联动

三、高级方案：可视化与自动化监控

3.1 PyTorch内存分析器

3.2 实时监控仪表盘

四、实战建议与常见问题

4.1 显存优化策略

4.2 常见问题诊断

4.3 多GPU环境监控

五、最佳实践总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

1.1 `torch.cuda`模块核心函数

2.1 `nvidia-smi`命令行工具