插卡类待测设备在测试过程中若直连host端,热插拔可能会损坏主板、CPU等,只能通过频繁开关机更换待测硬件插卡,为了提高测试效率,有客户提出了是否可以对待测的插卡进行热插拔自动化测试的需求,故拍摄本视频,介绍我们的热插拔方案。本视频内容包括:1、如何使用PCIe Switch卡搭建热插拔环境,实现插卡类设备热插拔;2、PCIe Switch卡结构与各部分功能的讲解;3、热插拔环境搭建成本。
本方案可同时对1~8个Gen5 X4 device(根据实际情况而定)进行测试,研发测试和产线批量测试中均可使用,测试Gen5 X16或其他device可以通过更换线缆实现。以下是详细阐述:
在硬件测试过程中,尤其是大规模生产线的测试,频繁更换硬件设备,如无线网卡、显卡、GPU卡、RAID卡、FC HBA卡等,通常需要多次开机和关机。这不仅浪费时间,还可能导致设备磨损,特别是在使用台式机或服务器时,开关机的时间周期较长,影响测试效率。为了提高效率并减少设备损耗,热插拔技术应运而生。
例如,生产线上的测试人员如果需要测试多张不同的插卡设备,传统方法要求先插卡、开机、运行测试、关机,再更换卡片,整个过程繁琐且低效。使用热插拔技术后,测试人员可以带电插拔设备,避免频繁开关机,大大提高了生产测试的效率。
PCIe Switch卡的作用
PCIe Switch卡是一种特殊的硬件设备,它能将多个设备连接到一个PCIe插槽,并支持在系统运行的情况下进行设备的热插拔。Switch卡通过对信号的隔离和转换,使得热插拔操作变得安全、可靠。
在实现热插拔时,Switch卡起到了信号转换和隔离的作用,确保即使设备被拔出或插入,主机依然可以正常工作。
延长线的使用
为了避免频繁插拔插槽带来的磨损,通常使用延长线来连接Switch卡和插卡设备。延长线的质量直接影响热插拔的稳定性,必须选择合适的延长线进行配合,确保信号传输的可靠性。
插卡操作流程
使用热插拔技术时,首先通过命令(如lspci)确认当前插入的设备。当更换设备时,插卡操作非常简单:拔出原设备,插入新设备,系统会立即识别新设备并进行相应的操作。
生产线测试:
在生产线上,特别是对于需要高频测试的硬件设备(如网卡、显卡、GPU卡等),热插拔可以极大提升测试效率。测试人员可以在不关闭电源的情况下,通过热插拔快速更换设备,避免了长时间的开关机操作。
数据中心和服务器环境:
在数据中心中,许多服务器和存储设备的硬件配置需要频繁变动。通过使用热插拔技术,可以在不中断系统的情况下更换存储卡、网络卡等设备,保证系统的高可用性和业务的连续性。
硬件开发与验证:
在硬件研发和验证阶段,热插拔技术帮助开发人员更方便地测试不同版本的硬件设备,验证设备兼容性和性能,减少测试周期,提升研发效率。
并非所有的主板都支持热插拔功能。即便使用了PCIe Switch卡,如果主板的BIOS不支持热插拔,插卡操作依然可能失败。因此,选择支持热插拔的主板是实现这一技术的首要条件。
服务器主板一般支持热插拔,而工作站级的主板可能需要特别挑选,某些BIOS版本支持热插拔,某些则不支持。
安装PCIe Switch卡
将PCIe Switch卡安装在支持的PCIe插槽中,并将设备通过延长线连接到Switch卡上。这样,Switch卡就可以在带电的状态下进行设备更换,而不会影响到主机的正常运行。
配置延长线和供电
为了确保热插拔的顺利进行,必须使用合适的延长线。如果设备功耗较高,可能还需要额外的供电支持。例如,对于GPU卡,可能需要额外的四芯供电线。
操作和测试
通过lspci等命令工具确认当前插入的设备,进行设备更换。更换后,系统会自动识别新设备并开始测试,测试人员无需关机即可快速进行硬件测试。
热插拔操作虽然方便,但频繁插拔设备可能会导致插槽的磨损,尤其是PCIe插槽的金手指部分。为了解决这一问题,建议使用延长线来避免直接插拔插槽,减少插槽的磨损。
信号质量
延长线的质量直接影响热插拔操作的稳定性。对于高频率的设备,必须选择信号传输质量较高的延长线,以确保设备的正常识别和稳定工作。
主板和BIOS的兼容性
如果主板的BIOS不支持热插拔,系统可能无法正确识别插拔后的设备。因此,选择支持热插拔的主板和BIOS至关重要。
设备功耗
高功耗设备(如GPU卡)需要额外的电源支持。在进行热插拔操作时,确保提供足够的电力支持,避免因供电不足导致设备无法正常工作。