【每日一题】从Micron最近会议发言看看未来AI/HPC对内存和SSD的技术需求
2025-02-17 16:00:00

我们一提到memory这个英文单词,大部分人就想到内存,脑海里就浮现出DDR或者DIMM内存条。实际上,我们提到的 memory(存储器) 广义上可以泛指两大类:内存(volatile memory)闪存(non-volatile memory),目前主要是NAND Flash,其实这里也可以包括一些新型NVM,感兴趣的可以看我之前的介绍《中国高校和企业在新型存储技术MRAM, ReRAM, FeRAM, PCM方面的研究总结》。

这两大类memory在用途和特性上有所不同。尽管大部分人对于内存和闪存都有了解,我们在介绍Micron会议发言前,还是先看一下两类存储器的简单区分和特点:

1. 内存(Volatile Memory)

特点

  • 易失性:断电后数据会丢失。

  • 读写速度快:通常用作计算机或设备的运行内存(如RAM)。

  • 用途:用于存储临时数据或运行中的程序。

常见类型
  • DRAM(动态随机存取存储器):如 DDR4、DDR5,用于 PC、服务器等的系统内存。

  • SRAM(静态随机存取存储器):速度更快,常用在缓存(如 CPU 的 L1/L2 缓存)。

  • HBM (High Bandwdith Memory):通常用于GPU

应用场景
  • 运行操作系统和应用程序。

  • 存储临时数据(如剪贴板内容)。

2. 闪存(Non-Volatile Memory)

特点

  • 非易失性:断电后数据不会丢失。
  • 读写速度较慢(相对内存):但近年来闪存速度提升很大,例如 NVMe SSD。
  • 用途:用于长期存储数据。
常见类型
  • NAND 闪存:用于 SSD、U 盘、存储卡等。

  • NOR 闪存:用于固件存储(如 BIOS)。

应用场景
  • 手机存储(ROM)、电脑硬盘(SSD)。

  • 嵌入式系统的程序存储(如微控制器中的固件)。

Memory 的狭义和广义理解
  • 狭义:在 IT 技术中,“memory”有时特指 RAM(内存),与 storage(存储设备)     区分开,例如内存条与硬盘的功能对比。

  • 广义:从存储器整体来看,“memory”可以包含内存和闪存,代表所有用于存储数据的设备。
对比总结

属性

内存(RAM)

闪存(Flash)

是否易失性

易失性

非易失性

存储时间

临时存储

长期存储

读写速度

快(纳秒级)

较慢(微秒级)

用途

运行程序

保存数据

如果你讨论的背景是硬件开发、大型模型训练或设备配置,可以根据具体上下文进一步细化内存和闪存的具体种类及其作用。

下面我们来看看美国Micron公司的Emanuele Confalonieri /Distinguished Member of the Technical Staff在2024/12月份的IEEE IEDM会议上的发言Memory Needs and Solutions for AI and HPC,这里做了一个简单总结方便大家参考。

1. 引言

随着人工智能(AI)和高性能计算(HPC)的快速发展,计算和内存需求呈指数级增长。AI模型的参数数量从数十亿增加到数万亿,训练这些模型所需的计算能力和内存容量也随之大幅提升。为了满足这些需求,CPUGPU和内存技术的协同发展变得至关重要。该Micron的发言探讨了AIHPC的未来发展对CPUGPU及内存技术的需求,并介绍Micron公司在这方面的技术路线图。

2. AIHPC的计算需求

AI模型的训练和推理需要大量的计算资源,尤其是在大规模并行计算环境中(目前deepseek蒸馏开源模型据说对于推理的资源要求下降不少另说)。以下是AIHPC领域的主要计算需求:

  • 计算性能AI模型的训练需要极高的计算性能,尤其是矩阵运算(如GEMMGEMVSpMV等)。HPLHigh Performance Linpack)和HPCGHigh Performance Conjugate Gradients)是衡量计算性能的常用基准测试。

  • 内存容量:随着模型参数数量的增加,内存容量需求也在急剧增长。例如,训练一个万亿参数的模型需要至少14TB的内存。
  • 内存带宽:高带宽内存(HBM)对于GPU的性能至关重要,尤其是在处理大规模矩阵运算时。内存带宽不足会成为系统性能的瓶颈。
  • 可靠性:在大规模并行计算环境中,单个GPU或内存模块的故障可能导致整个训练任务的中断。因此,内存的可靠性和错误纠正技术(如ECCChipkill等)变得尤为重要。
3. CPUGPU与内存技术的协同发展

为了满足AIHPC的需求,CPUGPU和内存技术需要协同发展。以下是各技术的发展趋势:

3.1 CPU与主内存(DDR5/DDR6/LP5

  • DDR5DDR5内存提供了比DDR4更高的带宽和更低的功耗,适合用于CPU的主内存。随着CPU核心数量的增加,DDR5的带宽和容量需求也在增加。

  • DDR6:未来的DDR6将进一步增加带宽和容量,支持更高密度的内存模块,满足AIHPC的内存需求。

  • LPDDR5(低功耗内存)LP5内存适用于移动设备和低功耗场景,能够在保持高性能的同时降低功耗。

3.2 GPU与高带宽内存(HBM4/HBM4e
  • HBM3/HBM3eHBM3提供了高达1.2TB/s的带宽,适合用于GPU的高性能计算。HBM3e将进一步增加带宽和容量,支持更大规模的AI模型训练。

  • HBM4/HBM4e:未来的HBM4将提供更高的带宽(预计1.65TB/s)和更大的容量(48GB),支持多GPU并行计算,满足万亿参数模型的训练需求。

3.3 内存扩展模块(CXL
  • CXL(Compute Express Link):CXL是一种新兴的内存扩展技术,允许CPU和GPU通过高速互连访问扩展的内存模块。CXL模块可以提供高达1TB的内存容量,适合用于大规模AI模型的训练和推理。

  • //* 对于这部分感兴趣的可以看我之前的一些介绍文章,可以添加saniffer公众号查询关键词"CXL",不限下面的文章:
3.4 固态盘(NVMe SSD)
  • NVMeNVMe SSD提供了极高的存储带宽和低延迟,适合用于AIHPC中的快速数据访问。随着AI模型的数据集越来越大,NVMe SSD将成为存储解决方案的重要组成部分。

4. Micron的技术路线图

Micron公司在Memory技术领域处于领先地位,以下是其在AIHPC领域的技术路线图:

4.1 高带宽内存(HBM4/HBM4e

  • HBM4Micron计划在2026年推出HBM4,提供1.65TB/s的带宽和48GB的容量,支持多GPU并行计算。

  • HBM4eHBM4e将进一步优化带宽和功耗,适合用于大规模AI模型的训练。

4.2 主内存(DDR5/DDR6/LP5
  • DDR5Micron已经推出了DDR5内存模块,支持高达67.2GB/s的带宽,适合用于高性能CPU

  • DDR6Micron正在研发DDR6内存,预计将在未来几年内推出,提供更高的带宽和容量。

  • LP5Micron的低功耗内存LP5适用于移动设备和低功耗场景,能够在保持高性能的同时降低功耗。

4.3 内存扩展模块(CXL
  • CXL模块Micron已经推出了CZ120 CXL模块,支持高达2TB的内存扩展。未来的CXL模块将支持更高的带宽和容量,适合用于大规模AI模型的训练。

4.4 快速存储解决方案(NVMe
  • NVMe SSDMicronNVMe SSD提供了极高的存储带宽和低延迟,适合用于AIHPC中的快速数据访问。

5. 未来发展方向

为了进一步提升AIHPC系统的性能,未来的发展方向包括:

  • 内存解耦:通过内存解耦技术,CPUGPU可以更灵活地访问内存资源,提升系统的整体性能。

  • 近内存计算:将计算任务移到内存附近,减少数据传输的延迟,提升计算效率。

  • 高级封装技术:通过3D封装和异构集成技术,进一步提升内存和计算单元的集成度,降低功耗并提升性能。

6. 结论

AIHPC的快速发展对计算和内存技术提出了更高的要求。CPUGPU和内存技术的协同发展是满足这些需求的关键。Micron公司通过其高带宽内存(HBM4/HBM4e)、主内存(DDR5/DDR6/LP5)、内存扩展模块(CXL)和快速存储解决方案(NVMe)等技术,为AIHPC提供了强大的内存支持。未来的内存解耦、近内存计算和高级封装技术将进一步推动AIHPC系统的发展。

参考文献

  • Emanuele Confalonieri, "Memory Needs and Solutions for AI and HPC," IEDM     2024 Short Course.

  •  

 

如果想了解memory测试,包括DDR5, HBM, CXL memory expansion card,NVMe SSD等,请参考《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver11.11》的相关章节。同时请关注我们公众号,我们将在2025年Q1增加更多PCIe Gen6的全球业内最新的发展情况,推出《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.0》。
如果你有其他任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请添加saniffer公众号留言,或致电021-50807071 / 13127856862,sales@saniffer.com。

图片