我们知道,对于开发PCIe 6.0 EP外设芯片(例如网卡、GPU卡、AI加速卡、SSD控制器等)的公司来讲,在真正可用的PCIe 6.0 server面世之前,有的时候需要使用类似于SerialTek PCIe 6.0 tester/exerciser训练器模拟一个PCIe 6.0 RC(CPU端)来和自己的芯片验证卡进行建链以及通讯测试。我们经常会碰到一个问题,链路即便在模拟的CPU和待测卡之间建链到PCIe 6.0之后,但是链路不干净,就是有很多错误,link recovery, 或者大量的uncorrectable error,尤其是最后这个错误,一旦这个错误量较大,模拟的CPU和待测卡之间即便链路在PCIe 6.0 L0状态,但是双方通讯也经常会出现问题。
我们最近拍了一个实际调试的视频,来看使用SerialTek的PCIe 6.0训练器是如何将该该uncorrectable error通过自动化工具Kodiak Calibration软件自动调优到一个较好的状态的。由于是内部视频,我们这里只能简单讲述一下视频中用到的方法,感兴趣的朋友可以联系我们。下面的文字是根据视频梳理的一份现场复盘风格的总结供大家参考。对于下面提到的SerialCables PCIe 6.0 80-lane switch 插卡感兴趣的,可以在saniffer公众号查询关键搜寻我们从2025年中拍摄的大量手把手演示视频,例如下面这篇文章内部的高清视频,以及文章中第一段链接的之前的部分使用该PCIe 6.0 switch做各种测试的高清视频:
PCIe 6.0主机卡+Gen6 E3.S转接卡初次使用演示
我们之前做过很多期PCIe 6.0主机卡(也叫switch卡)的高清演示视频,感兴趣的可以查询一下Saniffer公众号往期文章,或者直接点击下面的链接,包括Gen6 Switch + Switch;Switch + CX-8(一)和(二);Switch + Quarch故障注入卡 + Switch;Switch + 0.3米延长线 + Switch卡等等;另外,我们也拍摄了如何使用Gen6 switch卡连接Gen6 SSD的几期视频,包括Gen6 switch + MCIO x8 转接2*EDSFF female connector;Gen6 switch + MCIO x8 to 2* MCIO x4 + Gen6 8盘位盘柜,等等。我们今天演示的是PCIe 6.0主机卡顶部的插槽加入一个Gen6 E3.S转接成金手指的转接卡来测试一个E3.S SSD。
这段视频的出发点其实很直接:
在
SerialTek Gen6 Tester 训练器 + SerialCables PCIe 6.0 80-lane switch 插卡的环境下,把PCIe 6.0链路从“能跑”调到“跑得干净、稳定”。
如果用一句更接地气的话来说:
👉 如何链路已经能上Gen6,但质量没有那么不理想,如何调优
视频里反复提到一个背景,其实挺关键:
所以当前测试的一个基本策略是:
👉 每个设备都需要单独调参数
👉 这点很真实:
Gen5以前很多时候“插上就能用”, Gen6基本是“每条链路都要调一遍”。
这一段其实是整个视频最有价值的地方之一。
在Gen6下,不再只看传统错误,而是重点关注:
含义也讲得很直白:
视频里举了一个例子:
这时候就意味着:
👉 链路虽然“跑起来了”,但质量明显不够好
👉 工程上可以这么理解:
能跑 ≠ 可用 能用 ≠ 稳定
Gen6的关键在“错误率是否可控”
进入实操阶段后,第一步就是:
👉 调 EQ Preset
流程非常典型:
反复多次,直到:
👉 成功稳定进入 Gen6 L0 状态
👉 这里的本质:
EQ参数决定链路“能不能被接收端正确解读”
除了EQ之外,还有一个更关键的调节入口:
👉 Interposer Settings
可以理解为:
使用方式有两种:
👉 这一层其实已经接近“信号层调优”
视频中也直接点出来了:
手动逐个参数去调,是一件非常麻烦的事情
原因很简单:
👉 所以实际工程里:
很少有人纯手调,一般都会借助工具,例如SerialTek的Kodiak Calibration软件或已有经验配置
整个调参过程,其实围绕一个非常朴素的目标:
👉 让链路变得更 clean
具体体现就是:
👉 可以简单理解为:
从“能跑” → “误码可控” → “长期稳定”
视频后半段给了一个很有工程价值的结论:
👉 调好的参数可以导出为JSON配置文件
然后:
👉 这一点很关键:
Gen6调试,不再是“个人经验”,而是“可复制资产”
把整段视频抽象一下,其实流程非常清晰:
(哪怕质量一般也没关系)
(重点看Uncorrectable)
(基础调优)
(深入调优)
(直到稳定进入L0)
(沉淀成果)
如果把这段内容放在当前PCIe 6.0阶段来看,可以得出一个比较现实的判断:
如果你正在做PCIe 6.0相关测试,这段演示其实在传递一个很实际的经验:
真正花时间的不是“把链路拉起来”,而是把它调到一个你敢长期跑业务、敢交付给客户的状态,而这件事,本质上就是在跟错误率和参数组合打交道。
链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。