前面一篇文章我们重点探讨了Quarch在大模型训练/推理过程中针对GPU和网卡等卡类产品导入各种异常进行主动测试的典型场景分析,本篇文章我们重点看一下Quarch在大模型训练/推理过程中针对SSD导入各种异常进行主动测试典型场景分析。
Quarch的PCIe
5.0 U.2或EDSFF热插拔模块是一个强大的工具,用于测试和验证NVMe SSD在高性能计算环境中的行为,特别是在AI训练和推理主机中。以下是一些使用这些模块进行热插拔和故障注入测试的具体例子:
1.基本热插拔功能测试
场景:在AI训练过程中模拟SSD意外移除和重新插入。操作:
使用Quarch模块在训练过程中突然断开SSD连接。
等待几秒钟后重新连接SSD。测试目的:验证系统能否优雅地处理SSD的突然移除,以及在重新插入时能否正确识别并恢复使用。预期结果:系统应该能够检测到SSD移除,暂停相关I/O操作,在SSD重新插入后自动重新挂载并继续操作。
场景:在高强度写入操作中进行热插拔。操作:
启动大规模数据写入操作(如保存大型模型检查点)。
在写入过程中使用Quarch模块断开SSD连接几毫秒,然后重新连接。测试目的:验证系统在突发断连情况下的数据完整性保护机制。预期结果:系统应该能检测到写入中断,重新尝试失败的写操作,确保数据完整性不受影响。
场景:模拟SSD电源突然失效。操作:
使用Quarch模块在SSD处于繁忙状态时切断其电源线路。
几秒钟后恢复供电。测试目的:测试系统对SSD电源故障的响应和恢复能力。预期结果:系统应该能够立即检测到SSD离线,将I/O重定向到其他存储设备(如有),并在SSD恢复供电后重新初始化设备。
场景:模拟PCIe通道质量下降。操作:
使用Quarch模块逐步降低PCIe信号质量,引入错误和重试。测试目的:验证系统在PCIe链路不稳定情况下的性能降级和错误处理能力。预期结果:系统应该能够检测到PCIe链路质量下降,可能会降低传输速率,但应保持数据完整性和系统稳定性。
场景:模拟RAID或存储池中多个SSD同时故障。操作:
在配有多个SSD的系统中,使用多个Quarch模块同时断开两个或更多SSD的连接。测试目的:验证系统在面对多个存储设备同时失效时的恢复能力。预期结果:系统应该能够检测到多个SSD失效,启动数据重建过程(如果配置了RAID),并尝试从剩余的存储资源中恢复操作。
场景:模拟SSD响应延迟增加。操作:
使用Quarch模块在PCIe通信中引入额外的延迟。
逐步增加延迟,观察系统反应。测试目的:测试系统对存储延迟增加的适应能力,特别是在AI推理场景中。预期结果:系统应该能够检测到I/O延迟增加,可能会调整其I/O策略(如增加队列深度或批处理大小)以维持性能。
场景:模拟SSD带宽突然下降。操作:
使用Quarch模块限制PCIe链路的有效带宽。
在AI训练过程中动态改变可用带宽。测试目的:验证系统在存储带宽波动情况下的适应能力。预期结果:系统应该能够检测到带宽变化,调整数据预取策略,可能会重新平衡计算和I/O操作以最小化性能影响。
场景:模拟SSD固件升级过程中的意外中断。操作:
启动SSD固件升级过程。
使用Quarch模块在升级过程中短暂断开SSD连接。测试目的:验证SSD和系统在固件升级中断时的恢复能力。预期结果:SSD应该能够回滚到上一个稳定的固件版本,系统应该能够检测到升级失败并采取适当的恢复措施。
场景:评估热插拔对系统整体性能的影响。操作:
在进行标准AI训练或推理基准测试时,使用Quarch模块执行SSD的热插拔操作。测试目的:量化热插拔事件对AI工作负载性能的影响。预期结果:系统应该能够在热插拔事件期间维持一定水平的性能,可能会出现短暂的性能下降,但应该能迅速恢复。
通过这些测试,工程师可以全面评估AI训练和推理主机在面对各种NVMe SSD相关故障时的健壮性和性能特征。这些测试不仅有助于验证系统的容错能力,还能帮助优化存储子系统的配置,以提高整体系统的可靠性和性能。Quarch的PCIe 5.0 U.2或EDSFF热插拔模块提供了精确控制和模拟各种故障情况的能力,使得这些复杂的测试场景成为可能,从而帮助构建更加可靠和高效的AI基础设施。
如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
下载“PCIe5&6.0, CXL, NVMe, NAND, DDR5测试技术和工具白皮书Ver 10.2”,提取码: 4341