前面我们讲述了通过SerialTek PCIe Gen5 协 议分析仪进行问题诊断的例子,这些例子基本都是被动分析问题为主,就是等待问题出来以后接入PCIe analyzer进行问题诊断,我们今天举几个例子说明如何使用英国Quarch公司的故障注入卡以及可编程电源模块PPM来测试验证大模型训练/推理过程中中最常见的GPU和网卡的。
英国Quarch公司的故障注入卡是一种强大的工具,用于模拟各种硬件故障情况,以测试系统的健壮性和容错能力。在测试验证GPU和网卡时,这种工具可以帮助工程师模拟各种极端情况,确保系统在面对意外故障时能够正常运行。
Quarch公司的PPM(Programmable Power Module)可以进行电压拉偏和功耗测试。该可编程电源可以通过API或者GUI界面实现突然将电压输出降低到0,也可以模拟各种各样的电压异常和波动进行电压拉偏(同时也间接实现了电流的波动)。程序控制的最低粒度为1us,即你可以设置这1us内的电压输出为一个数值,然后设置下一个1us输出另外一个数值。下图的蓝色的盒子就是PPM,需要配合右侧的PCIe Gen5 x16插卡治具对于GPU, DPU网卡进行电压拉偏。
以下是一些使用Quarch故障注入卡和PPM测试GPU和网卡的具体例子:
1.GPU电源故障模拟:
测试场景:模拟GPU电源线路瞬时断开。操作:使用Quarch卡在GPU的PCIe电源线上注入短暂的断电故障。测试目的:验证系统是否能够正确检测到GPU故障,并迅速切换到备用GPU或优雅地降级运行。预期结果:系统应能快速识别故障GPU,将工作负载转移到其他GPU,不影响整体训练过程。
2.GPU过热保护测试:
测试场景:模拟GPU散热系统失效导致的过热情况。操作:使用Quarch PPM电压拉偏模块 + PCIe Gen5 x16治具逐步降低GPU供电电压,模拟过热保护机制触发的情况。测试目的:验证GPU的热保护机制是否正常工作,以及系统软件是否能正确响应。预期结果:GPU应在达到临界温度前自动降频或关闭,系统软件应能检测到这一状态并相应调整工作负载。
3.网卡链路故障测试:
测试场景:模拟网络电缆短暂断开或网卡端口故障。操作:使用Quarch故障注入卡在网卡的信号线上注入间歇性故障或完全断开。测试目的:测试分布式训练系统在面对网络故障时的恢复能力。预期结果:系统应能快速检测到网络故障,尝试重新建立连接,或切换到备用网络路径,确保训练过程不会因短暂的网络中断而完全停止。
4.PCIe带宽波动测试:
测试场景:模拟PCIe总线带宽不稳定的情况。操作:使用Quarch卡动态调整PCIe信号质量,造成带宽波动。测试目的:验证系统在PCIe性能不稳定时的适应能力。预期结果:系统应能动态调整数据传输策略,在带宽受限时优化关键数据的传输,保证训练过程的连续性。
5.多GPU系统容错性测试:
测试场景:在多GPU系统中模拟单个GPU完全失效。操作:使用Quarch卡完全切断某个GPU的PCIe连接。测试目的:测试系统在损失部分计算资源时的重新平衡能力。预期结果:系统应能迅速检测到GPU失效,重新分配任务到剩余的GPU,并相应调整训练参数(如批次大小),以继续训练过程。
6.网卡收到大量随机错误测试:
测试场景:模拟网卡收到大量错误。操作:使用Quarch卡在网卡的DMA传输中注入额外的信号毛刺,模拟主板信号不好的问题。测试目的:验证系统在面对网络风暴或异常流量时的处理能力。预期结果:网卡驱动应能正确处理这些错误情况,丢弃错包,并在PCIe发送DLLP NAK通知CPU端,不影响整体系统稳定性。
7.GPU-CPU通信延迟测试:
测试场景:模拟GPU和CPU之间的通信延迟增加。操作:使用Quarch卡在GPU的PCIe通信路径上引入额外的延迟(一般通过注入错误等间接手段达到延迟增加的目的)。测试目的:测试系统在面对增加的GPU-CPU通信延迟时的适应能力。预期结果:系统应能检测到延迟增加,并可能调整批处理策略或通信频率,以减少对整体性能的影响。
8.网卡固件升级容错测试:
测试场景:模拟网卡固件升级过程中的电源中断。操作:在模拟固件升级过程中,使用Quarch卡突然切断网卡电源。测试目的:验证网卡和系统在固件升级中断时的恢复能力。预期结果:网卡应能从备份固件启动,系统应能检测到升级失败并尝试恢复或回滚。
这些测试场景展示了Quarch故障注入卡在验证GPU和网卡可靠性方面的强大功能。通过模拟各种极端情况,工程师可以全面评估系统的健壮性,发现潜在的弱点,并优化系统设计以提高整体可靠性。这对于构建大规模AI训练集群尤为重要,因为在这种环境中,硬件故障的影响可能会被放大,导致严重的后果。通过全面的故障注入测试,可以大大提高系统的可靠性和可用性。
如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。