IEEE IEDM 2024年底在旧金山召开的会议上由TechInsight AI市场研究总监Anand Joshi做了专题“Evolution of AI Hardware: Past, Present and Future”。下面是对于没有时间或者机会参加本次会议的朋友提供的一个关键信息的总结,供大家参考。
Anand Joshi – AI硬件的演进:过去、现在与未来
1. 引言与议程 Anand Joshi 在IEDM 2024会议上详细探讨了AI硬件的发展历程,分析了过去的推动因素,当前的市场格局,以及未来的技术和市场趋势。他的演讲包括以下关键议题:
AI加速需求的驱动因素;
过去五年的变化;
AI用例的演变;
AI芯片市场细分;
生成式AI对AI芯片的影响;
当前市场领导者;
AI硬件的未来走向。
90年代,CPU性能的限制阻碍了神经网络的进步。映射数学模型到硬件(如矩阵运算)成为AI硬件发展的核心挑战。
随着神经网络复杂度和操作数量的快速增长,传统CPU无法满足这些需求,推动了GPU和ASIC等专用硬件的崛起。
GPU的崛起:GPU成为AI加速的核心,2023年GPU市场达到380亿美元,同比增长3倍。Nvidia的CUDA软件生态和硬件投资是其成功的关键。
ASIC的突破:尽管ASIC市场在2023年达到110亿美元,主要由超大规模数据中心(如Google TPU和亚马逊的Trainium)驱动,初创公司的贡献仍不足0.5%。
CPU的角色:尽管CPU在经典机器学习(如欺诈检测、推荐系统)中表现良好,但在现代深度学习和推理任务中面临瓶颈。
GPU:预计到2029年市场规模将达到2650亿美元,年复合增长率39%。Nvidia占据97%的市场份额,但AMD的MI300X正逐步蚕食市场份额。
ASIC:预计到2029年市场规模将达800亿美元,年复合增长率38%。主要应用于深度神经网络推理。
FPGA:市场份额小(预计2029年为4.8亿美元),主要用于低延迟应用,如语音识别和高频交易。
CPU:尽管在经典ML应用中仍有潜力,但在AI加速市场中份额逐渐被GPU和ASIC取代。
模型规模与硬件需求的爆炸性增长:从GPT-1(2018年,1.1亿参数)到GPT-4(2023年,18亿参数),模型复杂度呈指数级增长,对计算资源的需求也随之激增。
硬件升级:训练时间和计算能力需求的激增迫使硬件从V100(120 TFLOPS)升级到H100(1979 TFLOPS)等更高性能的芯片。
推理市场的开放性:尽管GPU在训练领域无可替代,推理市场尚未形成绝对的领导者,多个厂商(如Intel、AMD、Google TPU)正积极竞争。
Nvidia:凭借CUDA生态系统和硬件优势,Nvidia在GPU市场占据主导地位,预计将在未来继续保持领先。
Google TPU:六代TPU专注于内部工作负载,使Google成为数据中心第三大硅片公司。
初创公司的挑战:许多初创公司低估了软件生态系统的重要性,未能优化库和神经网络性能,导致市场表现不佳。
AI硬件的持续需求:随着LLM(大语言模型)如GPT-4的训练需求不断增加,对AI加速器的需求将持续增长。
推理与训练的分化:推理基础设施将继续优化成本效益比,而训练仍需依赖高性能GPU。
边缘市场的碎片化与机遇:边缘AI市场(如智能手机、自动驾驶、物联网)需求多样,为硬件厂商提供了新的增长机会。
AI芯片市场的爆炸性增长:过去五年AI芯片市场经历了显著的扩张,未来短期至中期内仍将保持强劲增长势头。
生成式AI推动下一波硬件革新:生成式AI的广泛应用对硬件性能提出更高要求,驱动硬件架构和市场的快速演进。
请关注我们公众号,我们将在2025年2月份增加更多全球业内针对计算、网络、存储技术最新的发展情况,推出《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.0》。