Quarch PPM可编程电源在大模型训练/推理过程中导入异常进行主动测试典型场景分析(三)
2024-07-12 10:00:00

前面的文章讲述了Quarch在大模型训练/推理过程中针对GPU,网卡和SSD等硬件导入各种异常的测试,本篇文章进一步讲述一下可 编 程 电 源(简称PPM, Programmable Power Module)进行主动电压拉偏和功耗测试的例子。

Quarch的可编程电源模块(PPM)是一个强大的工具,用于精确控制和测量各种硬件组件的电源特性。这在AI训练和推理主机的硬件验证中尤为重要。以下是一些使用Quarch PPM对GPU、网卡和NVMe SSD进行电压拉偏和功耗测量的具体例子:

1.GPU动态电压缩放测试

场景:测试GPU在不同电压下的性能和稳定性。操作:

  • 使用PPM逐步降低GPU核心电压,同时运行AI训练负载。

  • 记录每个电压级别下的性能指标和功耗。测试目的:找到GPU的最佳工作电压,在保证稳定性的同时最大化能效。预期结果:随着电压降低,功耗应下降,直到达到临界点,性能开始明显下降或出现不稳定。

2.网卡功耗曲线分析:

场景:测量网卡在不同负载下的功耗特性。操作:

  • 使用PPM为网卡供电,同时逐步增加网络流量。

  • 精确记录不同流量水平下的功耗数据。测试目的:分析网卡的功耗曲线,优化数据中心的散热和供电设计。预期结果:功耗应随流量增加而上升,但可能不是线性关系。可能会观察到功耗突增点。

3.NVMe SSD电压容忍度测试

场景:评估SSD对电压波动的耐受能力。操作:

  • 使用PPM模拟电源纹波,在SSD正常工作电压周围小幅震荡。

  • 逐步增加纹波幅度,直到观察到性能下降或错误。测试目的:验证SSD在非理想电源条件下的稳定性。预期结果:SSD应能在一定范围内的电压波动中正常工作,超过某个阈值后可能出现性能下降或错误。

4.GPU过载保护测试

场景:验证GPU的过载保护机制。操作:

  • 使用PPM逐步增加GPU的供电电流,超过其额定值。

  • 监控GPU的性能、温度和功耗。测试目的:测试GPU的过载保护功能是否正常工作。预期结果:GPU应在达到某个电流阈值时自动降频或关闭,以防止硬件损坏。

5.多设备功耗平衡测试

场景:分析多个组件(GPU、网卡、SSD)在高负载下的总体功耗。操作:

  • 使用多个PPM同时为GPU、网卡和SSD供电。

  • 运行综合AI工作负载,模拟训练和推理场景。

  • 精确记录每个组件的功耗变化。测试目的:优化系统级功耗管理策略。预期结果:可以观察到不同组件间的功耗此消彼长,有助于设计更智能的功耗管理算法。

6.SSD写入放大效应分析

场景:研究SSD写入放大对功耗的影响。操作:

  • 使用PPM精确测量SSD在不同写入模式下的功耗。

  • 比较顺序写入和随机写入的功耗差异。测试目的:量化写入模式对SSD能效的影响。预期结果:随机写入通常会导致更高的功耗,可能观察到与写入放大因子相关的功耗增加。

7.GPU频率与电压关系测试

场景:分析GPU频率与电压的最优配置。操作:

  • 使用PPM精确控制GPU电压。

  • 在不同电压下尝试不同的GPU频率设置。

  • 记录每种配置下的性能和功耗。测试目的:找到性能和能效的最佳平衡点。预期结果:应能绘制出频率-电压-性能-功耗的关系图,帮助确定最佳工作点。

8.网卡低功耗模式验证

场景:测试网卡在低流量时的节能能力。操作:

  • 使用PPM监控网卡在不同流量水平下的功耗。

  • 特别关注低流量或空闲状态下的功耗。测试目的:验证网卡的低功耗模式是否有效。预期结果:在低流量或空闲状态下,应观察到显著的功耗下降。

9.SSD热插拔功耗特性

场景:分析SSD热插拔过程中的功耗变化。操作:

  • 使用PPM监控SSD的瞬时功耗。

  • 模拟热插拔操作,记录功耗变化。测试目的:了解热插拔对系统功耗的影响,优化电源设计。预期结果:应观察到插入时的功耗尖峰,以及稳定后的功耗水平。

10.GPU温度与功耗关系分析

场景:研究GPU温度对功耗的影响。操作:

  • 使用PPM精确测量GPU功耗。

  • 同时监控GPU温度。

  • 在不同环境温度下运行相同的AI负载。测试目的:量化温度对GPU能效的影响。预期结果:随着温度升高,相同负载下的功耗可能会增加,反映了散热效率对能耗的影响。

这些测试示例展示了Quarch PPM在AI硬件验证中的强大功能。通过精确控制和测量电压、电流和功耗,工程师可以深入了解硬件组件在各种条件下的行为,优化系统设计,提高能效,并确保在极限条件下的可靠性。这对于构建高性能、高可靠性的AI训练和推理系统至关重要。PPM的高精度和可编程性使得复杂的电源特性分析成为可能,为AI硬件的开发和验证提供了宝贵的工具。

如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。