前面的文章讲述了Quarch在大模型训练/推理过程中针对GPU,网卡和SSD等硬件导入各种异常的测试,本篇文章进一步讲述一下可 编 程 电 源(简称PPM, Programmable Power Module)进行主动电压拉偏和功耗测试的例子。
Quarch的可编程电源模块(PPM)是一个强大的工具,用于精确控制和测量各种硬件组件的电源特性。这在AI训练和推理主机的硬件验证中尤为重要。以下是一些使用Quarch PPM对GPU、网卡和NVMe SSD进行电压拉偏和功耗测量的具体例子:
1.GPU动态电压缩放测试
场景:测试GPU在不同电压下的性能和稳定性。操作:
使用PPM逐步降低GPU核心电压,同时运行AI训练负载。
记录每个电压级别下的性能指标和功耗。测试目的:找到GPU的最佳工作电压,在保证稳定性的同时最大化能效。预期结果:随着电压降低,功耗应下降,直到达到临界点,性能开始明显下降或出现不稳定。
场景:测量网卡在不同负载下的功耗特性。操作:
使用PPM为网卡供电,同时逐步增加网络流量。
精确记录不同流量水平下的功耗数据。测试目的:分析网卡的功耗曲线,优化数据中心的散热和供电设计。预期结果:功耗应随流量增加而上升,但可能不是线性关系。可能会观察到功耗突增点。
场景:评估SSD对电压波动的耐受能力。操作:
使用PPM模拟电源纹波,在SSD正常工作电压周围小幅震荡。
逐步增加纹波幅度,直到观察到性能下降或错误。测试目的:验证SSD在非理想电源条件下的稳定性。预期结果:SSD应能在一定范围内的电压波动中正常工作,超过某个阈值后可能出现性能下降或错误。
场景:验证GPU的过载保护机制。操作:
使用PPM逐步增加GPU的供电电流,超过其额定值。
监控GPU的性能、温度和功耗。测试目的:测试GPU的过载保护功能是否正常工作。预期结果:GPU应在达到某个电流阈值时自动降频或关闭,以防止硬件损坏。
场景:分析多个组件(GPU、网卡、SSD)在高负载下的总体功耗。操作:
使用多个PPM同时为GPU、网卡和SSD供电。
运行综合AI工作负载,模拟训练和推理场景。
精确记录每个组件的功耗变化。测试目的:优化系统级功耗管理策略。预期结果:可以观察到不同组件间的功耗此消彼长,有助于设计更智能的功耗管理算法。
场景:研究SSD写入放大对功耗的影响。操作:
使用PPM精确测量SSD在不同写入模式下的功耗。
比较顺序写入和随机写入的功耗差异。测试目的:量化写入模式对SSD能效的影响。预期结果:随机写入通常会导致更高的功耗,可能观察到与写入放大因子相关的功耗增加。
场景:分析GPU频率与电压的最优配置。操作:
使用PPM精确控制GPU电压。
在不同电压下尝试不同的GPU频率设置。
记录每种配置下的性能和功耗。测试目的:找到性能和能效的最佳平衡点。预期结果:应能绘制出频率-电压-性能-功耗的关系图,帮助确定最佳工作点。
场景:测试网卡在低流量时的节能能力。操作:
使用PPM监控网卡在不同流量水平下的功耗。
特别关注低流量或空闲状态下的功耗。测试目的:验证网卡的低功耗模式是否有效。预期结果:在低流量或空闲状态下,应观察到显著的功耗下降。
场景:分析SSD热插拔过程中的功耗变化。操作:
使用PPM监控SSD的瞬时功耗。
模拟热插拔操作,记录功耗变化。测试目的:了解热插拔对系统功耗的影响,优化电源设计。预期结果:应观察到插入时的功耗尖峰,以及稳定后的功耗水平。
场景:研究GPU温度对功耗的影响。操作:
使用PPM精确测量GPU功耗。
同时监控GPU温度。
在不同环境温度下运行相同的AI负载。测试目的:量化温度对GPU能效的影响。预期结果:随着温度升高,相同负载下的功耗可能会增加,反映了散热效率对能耗的影响。
如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。