我们一提到memory这个英文单词,大部分人就想到内存,脑海里就浮现出DDR或者DIMM内存条。实际上,我们提到的 memory(存储器) 广义上可以泛指两大类:内存(volatile memory) 和 闪存(non-volatile memory),目前主要是NAND Flash,其实这里也可以包括一些新型NVM,感兴趣的可以看我之前的介绍《中国高校和企业在新型存储技术MRAM, ReRAM, FeRAM, PCM方面的研究总结》。
这两大类memory在用途和特性上有所不同。尽管大部分人对于内存和闪存都有了解,我们在介绍Micron会议发言前,还是先看一下两类存储器的简单区分和特点:
1. 内存(Volatile Memory)
特点
易失性:断电后数据会丢失。
读写速度快:通常用作计算机或设备的运行内存(如RAM)。
用途:用于存储临时数据或运行中的程序。
DRAM(动态随机存取存储器):如 DDR4、DDR5,用于 PC、服务器等的系统内存。
SRAM(静态随机存取存储器):速度更快,常用在缓存(如 CPU 的 L1/L2 缓存)。
HBM (High Bandwdith Memory):通常用于GPU
运行操作系统和应用程序。
存储临时数据(如剪贴板内容)。
特点
NAND 闪存:用于 SSD、U 盘、存储卡等。
NOR 闪存:用于固件存储(如 BIOS)。
手机存储(ROM)、电脑硬盘(SSD)。
嵌入式系统的程序存储(如微控制器中的固件)。
狭义:在 IT 技术中,“memory”有时特指 RAM(内存),与 storage(存储设备) 区分开,例如内存条与硬盘的功能对比。
属性 |
内存(RAM) |
闪存(Flash) |
是否易失性 |
易失性 |
非易失性 |
存储时间 |
临时存储 |
长期存储 |
读写速度 |
快(纳秒级) |
较慢(微秒级) |
用途 |
运行程序 |
保存数据 |
下面我们来看看美国Micron公司的Emanuele Confalonieri /Distinguished Member of the Technical Staff在2024/12月份的IEEE IEDM会议上的发言Memory Needs and Solutions for AI and HPC,这里做了一个简单总结方便大家参考。
1. 引言
随着人工智能(AI)和高性能计算(HPC)的快速发展,计算和内存需求呈指数级增长。AI模型的参数数量从数十亿增加到数万亿,训练这些模型所需的计算能力和内存容量也随之大幅提升。为了满足这些需求,CPU、GPU和内存技术的协同发展变得至关重要。该Micron的发言探讨了AI和HPC的未来发展对CPU、GPU及内存技术的需求,并介绍Micron公司在这方面的技术路线图。
2. AI与HPC的计算需求
AI模型的训练和推理需要大量的计算资源,尤其是在大规模并行计算环境中(目前deepseek蒸馏开源模型据说对于推理的资源要求下降不少另说)。以下是AI和HPC领域的主要计算需求:
计算性能:AI模型的训练需要极高的计算性能,尤其是矩阵运算(如GEMM、GEMV、SpMV等)。HPL(High Performance Linpack)和HPCG(High Performance Conjugate Gradients)是衡量计算性能的常用基准测试。
为了满足AI和HPC的需求,CPU、GPU和内存技术需要协同发展。以下是各技术的发展趋势:
3.1 CPU与主内存(DDR5/DDR6/LP5)
DDR5:DDR5内存提供了比DDR4更高的带宽和更低的功耗,适合用于CPU的主内存。随着CPU核心数量的增加,DDR5的带宽和容量需求也在增加。
DDR6:未来的DDR6将进一步增加带宽和容量,支持更高密度的内存模块,满足AI和HPC的内存需求。
LPDDR5(低功耗内存):LP5内存适用于移动设备和低功耗场景,能够在保持高性能的同时降低功耗。
HBM3/HBM3e:HBM3提供了高达1.2TB/s的带宽,适合用于GPU的高性能计算。HBM3e将进一步增加带宽和容量,支持更大规模的AI模型训练。
HBM4/HBM4e:未来的HBM4将提供更高的带宽(预计1.65TB/s)和更大的容量(48GB),支持多GPU并行计算,满足万亿参数模型的训练需求。
CXL(Compute Express Link):CXL是一种新兴的内存扩展技术,允许CPU和GPU通过高速互连访问扩展的内存模块。CXL模块可以提供高达1TB的内存容量,适合用于大规模AI模型的训练和推理。
NVMe:NVMe SSD提供了极高的存储带宽和低延迟,适合用于AI和HPC中的快速数据访问。随着AI模型的数据集越来越大,NVMe SSD将成为存储解决方案的重要组成部分。
Micron公司在Memory技术领域处于领先地位,以下是其在AI和HPC领域的技术路线图:
4.1 高带宽内存(HBM4/HBM4e)
HBM4:Micron计划在2026年推出HBM4,提供1.65TB/s的带宽和48GB的容量,支持多GPU并行计算。
HBM4e:HBM4e将进一步优化带宽和功耗,适合用于大规模AI模型的训练。
DDR5:Micron已经推出了DDR5内存模块,支持高达67.2GB/s的带宽,适合用于高性能CPU。
DDR6:Micron正在研发DDR6内存,预计将在未来几年内推出,提供更高的带宽和容量。
LP5:Micron的低功耗内存LP5适用于移动设备和低功耗场景,能够在保持高性能的同时降低功耗。
CXL模块:Micron已经推出了CZ120 CXL模块,支持高达2TB的内存扩展。未来的CXL模块将支持更高的带宽和容量,适合用于大规模AI模型的训练。
NVMe SSD:Micron的NVMe SSD提供了极高的存储带宽和低延迟,适合用于AI和HPC中的快速数据访问。
为了进一步提升AI和HPC系统的性能,未来的发展方向包括:
内存解耦:通过内存解耦技术,CPU和GPU可以更灵活地访问内存资源,提升系统的整体性能。
近内存计算:将计算任务移到内存附近,减少数据传输的延迟,提升计算效率。
高级封装技术:通过3D封装和异构集成技术,进一步提升内存和计算单元的集成度,降低功耗并提升性能。
AI和HPC的快速发展对计算和内存技术提出了更高的要求。CPU、GPU和内存技术的协同发展是满足这些需求的关键。Micron公司通过其高带宽内存(HBM4/HBM4e)、主内存(DDR5/DDR6/LP5)、内存扩展模块(CXL)和快速存储解决方案(NVMe)等技术,为AI和HPC提供了强大的内存支持。未来的内存解耦、近内存计算和高级封装技术将进一步推动AI和HPC系统的发展。
参考文献:
Emanuele Confalonieri, "Memory Needs and Solutions for AI and HPC," IEDM 2024 Short Course.