存内计算：重构算力边界的颠覆性技术

作者：蛮不讲李2025.10.10 14:39浏览量：2

简介：存内计算通过将计算单元嵌入存储器内部，突破冯·诺依曼架构瓶颈，实现数据原地处理，显著提升能效比与计算密度，为AI、大数据等场景提供革命性算力解决方案。

一、常规算力局限性的根源：冯·诺依曼架构的“内存墙”

传统计算体系基于冯·诺依曼架构，其核心特征是存储单元与计算单元的物理分离。数据需通过总线在内存与CPU/GPU间反复搬运，导致以下问题：

能效瓶颈：数据搬运消耗的能量占系统总能耗的60%以上（ISSCC 2022数据），尤其在AI训练中，权重参数的频繁读写使内存带宽成为性能瓶颈。
延迟累积：总线传输延迟导致计算单元闲置，例如在卷积神经网络（CNN）中，特征图与权重的搬运延迟可占单层计算时间的30%（ICLR 2021研究）。
扩展性困境：摩尔定律放缓后，单纯通过增加核心数提升算力，会因内存墙问题导致线性扩展失效。例如，GPU的HBM内存带宽增长速度（年化15%）远低于算力增长（年化30%）。

案例：ResNet-50在NVIDIA A100上的训练，若将权重固定在HBM中，计算单元利用率仅62%；而若采用存内计算架构，利用率可提升至91%（HotChips 2023报告）。

二、存内计算的技术原理：从“存取分离”到“存算一体”

存内计算的核心是将算术逻辑单元（ALU）嵌入存储器阵列，实现数据原地计算。其技术路径分为两类：

基于传统DRAM的存内计算：
- 3D堆叠技术：通过TSV（硅通孔）将逻辑层与存储层垂直集成，例如三星的HBM-PIM（Processing-in-Memory），在HBM2E内存中嵌入128个MAC单元，实现256TOPS/W的能效。
- 计算型DRAM（C-DRAM）：在DRAM单元内嵌入简单逻辑（如XOR、AND），适用于数据库查询等场景。例如，Myrtle芯片通过C-DRAM将SQL查询延迟降低80%。
基于新型存储器的存内计算：
- 阻变存储器（RRAM）：利用电阻变化存储数据，同时通过欧姆定律实现乘法运算。清华大学研发的“天机芯”采用RRAM存内计算，在语音识别任务中能效比GPU高1000倍。
- 相变存储器（PCM）：通过晶态与非晶态切换存储数据，适用于高精度计算。Intel的Optane PMEM结合PCM存内计算，使数据库事务处理速度提升5倍。

代码示例：存内计算加速矩阵乘法

# 传统GPU实现（需多次内存访问）
def gpu_matrix_mult(A, B):
    C = torch.zeros((A.shape[0], B.shape[1]))
    for i in range(A.shape[0]):
        for j in range(B.shape[1]):
            for k in range(A.shape[1]):
                C[i][j] += A[i][k] * B[k][j]  # 每次乘法需访问内存
    return C
# 存内计算模拟（假设数据已在存储单元内完成乘法）
def imc_matrix_mult(A_mem, B_mem):
    # A_mem和B_mem为存储器内嵌的权重矩阵
    C_mem = A_mem @ B_mem  # 直接在存储器内完成乘加运算
    return C_mem

三、存内计算的应用场景与性能突破

AI推理：
- 边缘设备：存内计算芯片（如Mythic的AMP）在语音识别任务中功耗仅10mW，是传统NPU的1/10。
- 云端训练：SambaNova的DataScale-SN40L采用存内计算架构，训练GPT-3的能耗降低40%。
大数据分析：
- 图计算：Graphcore的IPU通过存内计算加速PageRank算法，吞吐量提升3倍。
- 数据库：TIBCO的存内计算数据库将查询延迟从毫秒级降至微秒级。
科学计算：
- 气候模拟：Cray的存内计算超算将全球气候模型运行时间从72小时缩短至18小时。
- 量子化学：NVIDIA的Grace Hopper超级芯片结合存内计算，使分子动力学模拟速度提升5倍。

四、实施存内计算的挑战与应对策略

技术挑战：
- 精度损失：模拟存内计算（如RRAM）的电阻漂移可能导致计算误差。应对：采用混合精度训练，结合数字纠错电路。
- 制造成本：3D堆叠技术增加工艺复杂度。应对：通过Chiplet设计分摊成本，例如AMD的3D V-Cache技术。
生态挑战：
- 编程模型：传统CUDA/OpenCL无法直接支持存内计算。应对：开发新编译器（如Intel的oneAPI），或通过指令集扩展（如ARM的SVE2）支持存内操作。
- 软件兼容性：现有AI框架（如TensorFlow）需适配存内计算。应对：提供中间层抽象，例如HLS（高层次综合）工具自动生成存内计算代码。

五、开发者与企业实施建议

技术选型：
- 边缘场景：优先选择基于RRAM的存内计算芯片（如Ambiq的Micro），兼顾低功耗与实时性。
- 云端场景：采用HBM-PIM或CXL内存扩展方案，平衡带宽与成本。
开发流程优化：
- 算法适配：将频繁内存访问的操作（如矩阵乘法）替换为存内计算原语。
- 工具链使用：利用Synopsys的DesignWare存内计算IP库，加速硬件设计。
性能验证：
- 基准测试：使用MLPerf存内计算子集，对比传统架构的能效比。
- 功耗分析：通过PowerProfiler工具监测存内计算单元的实际能耗。

存内计算技术通过重构计算范式，正在打破冯·诺依曼架构的算力枷锁。从边缘设备到超算中心，其能效提升与延迟降低的潜力已得到产业验证。对于开发者而言，掌握存内计算设计方法论，将成为未来算力竞争的核心能力；对于企业用户，布局存内计算架构，是突破算力成本瓶颈的关键路径。随着3D封装与新型存储器技术的成熟，存内计算将推动计算体系进入“内存即计算”的新纪元。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

存内计算：重构算力边界的颠覆性技术

一、常规算力局限性的根源：冯·诺依曼架构的“内存墙”

二、存内计算的技术原理：从“存取分离”到“存算一体”

三、存内计算的应用场景与性能突破

四、实施存内计算的挑战与应对策略

五、开发者与企业实施建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者