前几天看见一篇最近写的公众号文章《AI狂潮下的硅谷:高价GPU堆积如山,一如当年的共享自行车》,感兴趣的朋友可以找出来看看。后来凑巧和朋友聊天也聊到当前国内AI智算中心算力建设和租赁的情况,觉得这个行业是否也会和当年在国家倡导下一窝蜂投资多晶硅、共享经济以及电动车的情况一下,最终产能过剩导致一地鸡毛。
目前AI智算中心的高端GPU算力租赁据说已经出现困难,就是说空置率比较高,但是同时国内地方政府在中央建设“新质生产力”的号召下还在疯狂建设AI智算中心,特别是今年很多供应商提出了万卡互联的解决方案。以一个千卡的智算中心为例,一台英伟达H100服务器配置8块H100 GPU,成本当前价格大概235万人民币,千卡的话需要配置128台,不算任何其它费用,例如网络,存储,运维,机房建设等,仅128台H100服务器成本就超过3亿元人民币。另外,据说国内排名前六名的大模型公司的研发基本停止因为业务不赚钱,感觉未来因为需要训练AI大模型的需求也会受到很大的影响。所以我们本文简单预测一下未来几年国内AI智算中心算力租赁的发展阶段和最终情况,特别是在国内高端GPU资源供过于求的情况下,可能最终出现情况。
第一阶段:扩张过度与空置率上升
目前,许多地方政府,包括县市级政府,响应中央的“新质生产力”号召,大量建设AI智算中心。由于建设速度快、规模大,加上大模型公司的研发停止或减少,需求不足,导致高端GPU算力资源的空置率上升。这种供过于求的现象可能会持续一段时间,特别是租赁市场缺乏足够的实际需求来消化这些高端算力。
第二阶段:租赁价格下降与竞争加剧
随着算力空置率的上升,各个智算中心将不得不降低租赁价格以吸引客户。与此同时,一些中小型企业、初创公司可能会趁机以较低成本使用高端算力资源,推动AI应用的多样化(如中小规模的模型训练、行业垂直应用等)。然而,激烈的价格竞争将进一步压缩利润空间,使得一些资金不足或运营效率低的智算中心可能会面临财务困境。
第三阶段:需求多元化与服务整合
在价格下降的驱动下,算力需求可能会从传统的大模型训练转向更多元化的应用,包括边缘计算、实时数据分析、小型AI模型的训练以及推理场景。此时,一些智算中心可能会通过提供更加定制化的算力套餐和附加服务(如数据管理、存储优化、模型优化服务等)来增加竞争力。AI算力租赁的业务模式将向更精细化、服务导向型转变。
第四阶段:市场整合与淘汰
随着市场饱和和盈利压力增大,规模较小、缺乏差异化服务的智算中心将难以生存,市场将逐步整合。拥有资金和技术优势的大型AI智算中心或技术公司将通过兼并收购,进一步巩固市场地位。与此同时,市场将朝着少数几家拥有规模化算力、完善服务体系和稳定客户群的大公司集中。
最终情况:稳健但需求有限
最终,AI智算中心的算力租赁业务将趋于稳定,但需求可能仍会相对有限。尽管大模型训练需求减少,更多AI应用将依赖推理算力或边缘计算,而不是持续的大规模训练。这意味着智算中心的商业模式可能需要转型,以更多元的客户群体(如智能制造、自动驾驶、智慧城市等领域)为主要服务对象,并提供更广泛的解决方案,而不仅仅是高端GPU租赁。
整体而言,未来几年,AI智算中心行业的挑战在于如何平衡过剩的高端算力与实际需求之间的差距。
另外,目前的AI智算中心倾向于整理租赁,就像商务办公楼出租办公用房一样,总想出于管理和运维方便将房子租给一家大公司,例即,128台千卡集群整租给一个公司,但是随着竞争的加剧,未来的AI智算中心算力将不得不租给很多各种各样的小公司,这将非常考验运维能力。下面简单介绍一下目前业内有哪些技术可以将算力细分后租给小公司的。
我们上面提到,在AI智算中心内将算力租给各种规模不一的公司时,确实会面临运维管理和资源分配的挑战。为了应对这些问题,算力虚拟化成为一种关键的技术手段,可以更高效地将大规模GPU资源细分并提供给不同的用户群体。当前业内一些用于细分算力并租给小公司的技术和方案如下:
1. GPU 虚拟化技术
GPU虚拟化是将单台物理GPU分割成多个虚拟GPU(vGPU),从而允许多个租户共享同一块物理GPU资源。这些技术可以让小型公司只租用部分GPU算力,而不是整块GPU。常见的GPU虚拟化技术有:
NVIDIA vGPU(Virtual GPU):NVIDIA vGPU 技术允许将一台物理GPU分割成多个虚拟实例,支持多种工作负载,如AI推理、深度学习训练和图形渲染等。每个虚拟实例可以有不同的资源配置,适用于不同客户的需求。
2. 容器化技术
容器化是另一种用于细分算力并管理多租户环境的关键技术。通过将AI模型训练或推理任务打包到独立的容器中,智算中心可以灵活调度算力资源,满足不同租户的需求。以下是几种主要的容器技术:
Kubernetes + GPU Operator:Kubernetes是一种容器编排工具,允许智算中心自动化部署、扩展和管理容器化工作负载。通过结合NVIDIA GPU Operator,Kubernetes可以高效管理和分配GPU资源。
3. 多租户资源管理平台
为了高效管理多个租户的资源使用情况,业内还开发了多种专门为AI算力设计的资源管理平台。它们通过统一的界面和API,为租户提供细粒度的算力租赁,并允许租户根据需求动态调整资源配置。主要的管理平台包括:
Slurm:一种开源的高性能计算(HPC)任务调度器,广泛用于大型AI计算集群。Slurm支持灵活的资源分配,并且可以管理多个租户的工作负载调度。
智算中心还可以通过弹性算力服务的方式,按需提供算力资源。这种服务通常按秒或按分钟计费,适合小型公司或短期的AI任务需求。客户可以租用精确数量的CPU、内存、GPU等资源,避免了整卡租赁的浪费。这种模式常见于云计算平台,如:
AWS Lambda + GPU:Amazon的FaaS服务可以动态调用GPU算力进行任务处理,避免了客户长时间占用不必要的资源。
未来可能出现更多基于混合架构的算力细分方案。智算中心可以将部分计算任务分配到云端,而较低延迟的任务则分配到边缘计算设备中,形成云边协同的架构。这种方式可以优化资源利用,降低成本,并提供按需分配的算力。
总结
AI智算中心如果逐步从整租转向租赁小公司的模式,算力虚拟化、容器化、多租户管理平台、弹性算力服务等技术将成为关键。通过这些技术,智算中心能够细分和动态调度GPU算力,满足不同客户的需求,同时保持高效的运维能力和资源利用率。这一趋势将进一步推动AI算力的普及和多元化应用。
Saniffer汇总的白皮书ver11.11的最后一张章节,“17. 附录H:AI大模型训练/推理基础原理和底层硬件兼容性、稳定性诊断、分析和测试介绍”,对于AI智算中心碰到各种硬件的兼容性提出了各种主动的测试方案,以及问题诊断方案。
需要下载白皮书《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver11.11》,请到下面的百度网盘或者联系我们下载:
链接: https://pan.baidu.com/s/1gE2mazNvu92E3zzhzJMqKA?pwd=fguh
如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请添加saniffer公众号留言,或致电021-50807071 / 13127856862,sales@saniffer.com。