logo
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 【高清视频】手把手教你使用如何构建PCIe 6.0链路进行RC和EP测试

    我们之前发布了一个PCIe 6.0 switch卡的高清视频,有些朋友希望更详细介绍一下,我们上周五拍了该视频,通过两块PCIe 6.0 switch串接在一起建链到非常稳定的PCIe 6.0 x16速率。通过该演示,我们可以看到该PCIe 6.0 switch卡既可以作为endpoint端,来对于CPU进行Gen6链路建链;也可以作为root complex端,来测试各类插卡、SSD一侧的链路建链。具体请直接参考下面的高清视频(建议电脑端打开可以更高清地看到屏幕命令行显示)。 SerialCables PCIe Gen6 x16 Switch卡产品演示详解总结文档 演示日期:2025年5月16日 一、概述 随着人工智能、大数据与高性能计算的快速发展,对PCIe高速互连的带宽与连接拓展能力提出了更高要求。为满足新一代服务器与存储系统对带宽的极致需求,Saniffer公司本次演示的Gen6 switch卡不仅具备高带宽(单向256GB/s)的优势,还支持多类型设备灵活接入与拓扑构建。本文基于现场演示视频,从结构设计、连接方式、电源管理、系统配置到软件操作,全方位解析此款Switch卡的核心功能与实际应用。 二、硬件外观与包装构成 该Switch卡的包装盒中包含以下内容: Switch卡本体 两个螺丝:用于固定挡板 一个金属挡板 导柱:建议使用以加强稳定性 Switch卡本身较重,在垂直插卡结构中,如未固定导柱,卡体可能因重力或上层叠卡而产生晃动,影响系统稳定性。 三、接口设计详解 1. 金手指与主连接口 底部金手指:支持PCIe Gen6 x16规格 主连接槽:卡顶部配备一个PCIe Gen6 x16插槽,供向上拓展使用 2. MCIO插槽 左右各两组     MCIO Gen6 x8 接口可连接Y型线缆,实现一拖二连接方式。 支持下面的Y型线缆转换: MCIO ⇌ EDSFF MCIO ⇌ U.2 每个x8口可支持连接两块x4速率的NVMe盘,最大支持8块设备同时接入 3. Type-C管理口 配备两个USB Type-C接口 上方为 管理口(用于控制与调试) 下方保留备用或其他用途,主要作为Broacom的SDB端口使用 4. 外部供电接口 位于卡的右下角 当卡载设备较多或持续运行时,推荐使用额外EPS-12V或ATX 12V电源辅助供电 四、电源配置与建议 1. 功耗分析 单卡空载功耗:约     60~70W Switch芯片本身:已占据 50~60W 若连接如U.2 NVMe设备,整体功耗可达 80W+ 标准PCIe插槽供电能力为 75W,可能出现 电压不足 或 系统不稳定 除了插槽电源外,使用4芯“AUX”电源至关重要,这样才能确保这些卡正常工作并避免对主板造成潜在损坏。 注意:此PCIe Gen6 switch卡需要至少 80W、最高 150W 的功率才能正常运行。需要通过 CN8 提供额外的电源来为此卡提供必要的额外功率。如果无法提供足够的额外功率,可能会损坏您的主板或者电源模块。标准 PCIe x16 主板插槽仅提供 75W 的功率。请查看您特定主板供应商的规格,了解您将要使用的任何特定 PCIe 插槽的供电功率详情。更多信息,请参阅用户手册。 2. 电源推荐方案 使用 大功率电源模块(建议 ≥ 1000W) 实测使用1250W模组非常稳定 曾使用500W常规电源导致10分钟烧毁案例,警示功率充裕的重要性 3. CPU供电与共享配置 通常电源模组配两条     4+4 Pin CPU供电线 可将其中一部分电源分给Switch卡使用 示例配置: 两组4+4线,一半供CPU(右半部分),一半供Switch(左半部分) 支持: 仅接一个4Pin:192W@16A 接两个4Pin:336W@28A 五、典型系统连接拓扑 演示环境基于开放式测试平台与服务器主板,搭建了如下多级连接架构: 底部 Switch (Bottom Switch) 金手指连接至主板PCIe槽位 作为EP端被主板识别 建链速率:PCIe Gen5 x16  (当前演示为PCIe Gen5 x16 CPU插槽) 中部设备 (待测产品/Retimer卡等) 通过x16插槽连接于Bottom Switch之上 接收来自Bottom Switch的Gen6信号 顶层 Switch (Top Switch) 插入中部设备,作为EP端连接 与Bottom Switch之间建链速率:Gen6 x16 向上连接终端设备(如NVMe U.2),建链为Gen5 x4 (演示为Gen5 SSD 此结构的最大特点在于模拟出一个完整的Gen6传输路径,适用于当前市场缺乏原生Gen6平台的测试开发需求。 六、使用场景与优势 1. 打造Gen6测试环境的唯一可行方案之一 由于原生Gen6主板(RC/EP)预计至2027-2028年才能大规模上市,现阶段工程研发人员面临无法获得真实测试平台的困境。 此Switch卡具备双角色特性(可模拟RC端或EP端),可通过两张卡搭建 Gen6信号路径,为: Retimer芯片测试 Signal integrity评估 NVMe SSD盘读写测试 模拟复杂拓扑 提供真实有效的环境支撑。 2. 灵活链路协商与状态识别 通过终端软件(如Tera Term)连接管理口后,可实时查看: 各端口建链状态(Gen5/Gen6) Golden Finger接口链路速率 下游端口速率状态(如Gen5 x4) 可精准识别协商失败或速率未达预期的连接(通过蓝灯闪烁状态) 七、LED指示灯说明 绿色灯:表示供电正常 蓝色灯:建链状态指示 常亮:速率达到预期,即Gen6 闪烁:未达预期(可能为Gen1~ Gen5种任意速度等) 不亮:建链失败,无法建链 红色灯: 若固件未加载,板卡右侧的红灯亮起表示错误(绿灯旁边) 板卡左侧的红灯亮起为热警告(如温度超过55℃),可忽略,不影响功能 八、软件界面操作演示 支持通过USB管理口 接入终端(无需额外驱动) 推荐使用 Tera Term 可同时打开多个终端窗口,分别控制每张Switch卡 可执行: link 状态读取 设备链路分析(lspci) NVMe 设备识别与确认 实测: Bottom Switch (金手指) → Gen5x16 Top Switch (金手指) → Gen6x16 NVMe 设备 → Gen5x4 说明链路整体可正常协商,满足Gen6信号透传的目标。 九、演示总结 SerialCables的PCIe Gen6 x16 Switch卡是一款专为前沿高性能计算与设备验证而设计的产品,其具备以下显著优势: 支持构建完整Gen6链路结构 双向RC/EP角色模拟 多设备接入与拓扑支持 兼容标准MCIO/U.2/EDSFF接口 高功率运行保障,适配多种服务器平台 管理便捷,终端软件即插即用 适用人群: 芯片厂商的信号链路验证 存储厂商的固件调试 主板制造商的互通性测试 数据中心前沿架构研究团队 如需进一步了解产品价格、交货周期或样卡申请,可联系销售团队或访问网站www.saniffer.cn或者参考下面的内容获取更多信息。 更多关于PCIe Gen6的测试工具和技术,请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。本视频演示的产品请参考章节5.1。 下载链接: 链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。    
    2025-05-20 10:01:11
  • 【每日一题】E3.S x8与PCIe x4金手指的直观对比

    很多人初次看到PCIe Gen5 E3.S X8接口的时候经常认成是PCIe x4金手指,原因在于前者接口也是突出板子本身,中间有个缺口将金手指分成两段,猛一看和PCIe x4金手指看起来及其相似。 本次演示通过对PCIe Gen5 E3.S X8 CXL 2.0 内存扩展模组以及另外一张PCIe x4插卡(转接卡)实物的展示与拆解,比较了它们在接口结构、电气设计、厚度和用途等方面的差异。 下面是视频里面的文字的简单总结,不想看视频的直接看这里。 一、设备介绍 左侧设备是一张支持 EDSFF E3.S x8 接口的模块,是 2X 厚度版本。 右侧设备是一张 M.2 转 PCIe Gen5 x4 的金手指转接卡,由 SerialCables 公司生产。 二、正面结构与接口基本信息 两者从正面来看外观类似。 但左边这张是 E3.S x8 CXL内存扩展模组,右边是 PCIe Gen5 x4金手指,接口结构完全不一样。 三、M.2 转接卡拆解展示 通过拆解右侧的转接卡,我们看到它的金手指包含以下部分: 一部分是供电部分; 一部分是信号部分。   四、E3.S 模块结构描述 左边的这张模块的信号是PCIe x8 结构,前半段是前 4 个lane,后半段是后 4 个lane。 它是一个 CXL Type 3 的模块。 五、厚度对比 两者从厚度上看也有明显差异: 右边的转接卡为单面封装; 左边的模块是双面封装,属于 2X (也叫2T)的厚度。 六、长度与插槽对齐展示 将两张卡对齐,左边 E3.S 的卡口和右边PCIe卡口位置差不多。 但可以看到: 左边的模块明显比右边的长; 插槽往下一对齐之后,左边的金手指还会多出一部分。 七、背面结构说明 将两张卡反过来看背面: 可以看到,E3.S 模块明显有两边扩展出去的结构; 整个模块会更厚。 八、总结陈述 通过对比可以看出,这两张卡的结构、电气接口都完全不同; 一个是 E3.S x8 接口,一个是 PCIe Gen5 x4; 它们虽然外观看上去差不多,但本质上完全不一样。 更多关于PCIe Gen6的测试工具和技术,请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。本视频演示的产品请参考章节"10.7.3  数据中心NVMe SSD和EDSFF前瞻"。 下载链接: 链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其它任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2025-05-19 13:58:20
  • 【高清视频】PCIe 6.0真实测试环境演示来了!

    Saniffer订购的业内首批PCIe Gen6 x16 PCIe Switch 卡今天已正式到货。在此前几篇文章中,我们已经就该产品进行过预热和介绍。感兴趣的可以自己在Saniffer公众号下面搜索查看,下面列出几篇仅供参考: 4月份,PCIe Gen6 x16测试环境来了! 业内首款同时支持PCIe 6.0 Host和Device的插卡视频介绍 PCIe 6.0实验室搭建环境的各色产品来了!   下面是我们今天下午拍摄的PCIe Gen6 x16演示环境的高清视频供参考。   下面是针对上述演示视频的总结,不想看视频可以直接看这里。 PCIe Gen6 x16 Switch 卡实物解析与串联演示总结 一、背景介绍 此次视频为实物演示,详细展示了该 Switch 卡的外观结构、接口配置、电源接法以及多卡串联使用的测试环境,本文对此进行全面梳理总结。 二、外观与结构解析 1. 散热与外壳 正面配有一个大尺寸主动式散热风扇; 搭配铝制散热鳍片,保障高速 PCIe 通道在满负载下的热稳定性; 背面为常规 PCB 元器件,无特殊结构。 2. 接口配置 主通道接口 一端为 PCIe Gen6 x16 金手指,用于插入主板; 另一端为 Gen6 x16 插槽,支持上级链路拓扑对接。 MCIO 扩展口 左右各配有     2 个 MCIO x8 接口,共 4 个; 每个 MCIO x8 接口均支持分接 2 条 x4 通道的存储设备(如 EDSFF 或 U.2 硬盘); 使用 1 分 2 的 Y 型线缆,总体最多支持     8 张 x4 SSD 并行接入。 电源接口 板上设计有一个 4pin EPS12V 电源接口; 正常情况下,单张卡可通过 PCIe 插槽供电,无需外接; 当两张卡串联使用时,需要为上层 Switch 卡通过 EPS12V 补充供电。 管理接口 板载的双针接口用于接出管理口; 可连接该PCIe Gen6卡提供的管理工具,实现链路状态查看、设备配置等操作。 三、电源注意事项 EPS12V 与 ATX12V 区分 供电接口虽然形状相似,但 EPS12V 和 ATX12V 电压稳定性与引脚定义不同; 视频中展示了如何从接口形状判断供电类型,建议务必使用 EPS12V 接头; 若主板除 CPU 外还有备用 EPS 接口,可直接引出供电线使用。 四、串联连接示范与链路结构说明 1. 板卡接入逻辑 演示服务器为 Gen5 主板; 第一张 Switch 卡插入主板 x16 插槽,作为 Root Complex (RC); 第二张 Switch 卡通过金手指插入第一张卡的 x16 插槽,作为 End Point (EP); 此类结构适用于多卡级联或中继拓扑测试场景。 2. 多角色切换 本卡支持在不同链路位置扮演 EP 或 RC; 视频中展示的连接方式为为: 主板(RC) → Switch 卡1(EP) → Switch 卡2(RC) → MCIO 接设备(EP) 3. Link 状态与灯光指示 板上绿色 LED 表示电源状态; 蓝色 LED 表示链路连接状态: 常亮:链路稳定; 闪烁:链路可能不稳定或未建立。 五、软件管理与链路确认 通过管理口连接至配置用 PC; 进入管理页面后可查看每个金手指的实际连接速率与宽度; 演示中链路确认为     PCIe Gen6 ×16全带宽接入,状态稳定。 六、总结与应用展望 我们今天演示的这款Gen6 x16 Switch 卡具备以下优势: 支持 PCIe 6.0 高速通道; 灵活的 RC/EP 模式切换; 可级联拓扑,适合多通道并发测试; 丰富的 MCIO 扩展能力,适配主流 EDSFF/U.2 设备; 配套管理接口及软件工具,便于部署和调试。 此类卡片非常适合用于: PCIe Gen6 SSD的验证环境; PCIe Gen6 CPU, GPU以及各类endpoint device芯片开发和验证 高性能计算平台(HPC)测试; PCIe通信链路压力测试; 大模型训练基础设施互联。 更多关于PCIe Gen6的测试工具和技术,请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。本视频演示的产品请参考章节5.1。 下载链接: 链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2025-05-16 10:25:01
  • UNH-IOL 实验室 和NVMe 测试平台及 Interact 工具到底是个啥东西?

    UNH IOL实验室是NVMe协会组织官方唯一授权的NVMe协议测试机构,全球各地的NVMe SSD controller和盘要送到该实验室进行测试。当然,在正式测试前,用户可以在自己实验室里面进行演练测试,参见下图,只有两种方式可以实现: 购买IOL Interact测试工具软件 如果用户已经购买SanBlaze公司的RM5/DT5 PCIe Gen5 NVMe SSD硬件设备,只要在之上购买一个IOL Interact测试软件license即可,并且可以实现更多底层的测试功能。 我们放大图片来看如下: Users have two  options for accessing versions of IOL INTERACT:the PC edition, ideal for  standard PC’s but without the ability to capture low-level PCIe bus trace data, or the SANBlaze edition, which is designed to operate  with the SBExpress-RM5 and SBExpress-DT5 test systems. With these options, you can confidently select the solution that best meets your testing needs. Saniffer是UNH IOL实验室在中国大陆的唯一合作伙伴,不仅可以协助用户进行IOL认证测试,也销售其测试软件,或者帮助客户购买年度会员身份。Saniffer也是SanBlaze,以及UNH IOL认证的SerialTek, Quarch等公司在国内的独家合作伙伴,感兴趣的可以通过本文底部的链接下载并参考《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》章节1.7.3 UNH IOL官方认证的SerialTek, SanBlaze, Quarch中国独家合作伙伴,或者直接看下图。 下面我们简单介绍一下UNH IOL实验室,其测试软件、认证服务等。感兴趣的可以直接观看下面录制的2024年底的视频介绍,我们添加了中、英文字幕方便大家参考。 一、机构背景与测试权威性 UNH-IOL(InterOperability Laboratory)是由美国新罕布什尔大学主导的中立第三方测试实验室,自2012年起就开始参与NVMe标准的制定与测试工具的开发。其核心职能包括: 为NVMe设备提供一致性(Conformance)测试和互操作性测试 与NVMe Express协会联合发布测试规范 管理和维护NVMe Integrators List(集成商列表) 自主开发并维护官方测试软件Interact 由于其独立性和长期技术积累,IOL在业内具有极高的权威性。其认证结果广泛被OEM厂商、服务器平台、云服务商所认可。 二、Interact 测试工具简介 Interact是由IOL自主研发、专用于NVMe测试的软件平台。主要功能包括: 1. 核心特性: 涵盖众多测试用例,覆盖从命令集到高级功能的多层次验证 每年发布两次新版本(测试计划更新) 提供图形界面(GUI)与命令行模式(CLI),满足研发与自动化需求 可生成详细日志、自动回放失败用例、导出压缩包进行问题追踪 2. 适用阶段: 固件开发验证 合规性预检查 认证送测准备 集成前自测 Interact 支持基于 JSON 文件选择测试集,自定义运行顺序、跳过特定用例,是目前最为灵活的官方测试平台之一。 三、测试流程及技术架构 1. 三阶段测试架构: IOL 与 NVMe 标准组织协作,将新功能测试纳入三阶段流程: 研发测试计划(Test Plan) ——  基于NVMe规格开发 社区验证阶段 (FYI测试) —— 多家供应商实现并测试,作为“可选项” 强制阶段 ——  进入集成商名单必须通过的测试 2. 测试运行方式: 运行方式 特点描述 GUI模式 适合新手及单次验证,提供测试分组、实时日志与图形展示 CLI - LDD 支持单用例调用、调试日志、自定义命名空间 CLI - Autorunner 批量运行测试套件,可结合JSON跳过指定测试或仅运行部分测试 3. 样品测试机制: 测试可选择: 寄送样品至 IOL 实验室进行预约测试(Reservation Test) 参加每年两次的Plugfest测试大会 或选择自行测试,仅购买软件授权(不加入Integrators List) 四、测试内容覆盖与升级路径 1. 支持功能: PCIe 协议通道验证 Namespace 管理、Queue操作、命令集完整性 Flex Placement(灵活数据布局) Persistent Event Log IOL驱动兼容性验证 OCP兼容测试 2. 用例分组: Interact提供四层级分组(包括测试子用例),可按需选择: 必测项(Required) 可选项(Optional) Demo用例(仅用于初次试用验证) 失败用例复测(Failed) 3. 常见版本支持: 五、IOL会员体系与权益 1. 基础会员权益(年费): 2.增值服务: 增加席位数(>10个并发测试系统) 提前预约测试窗口 私人定制脚本支持 六、自测试部署指南(Ubuntu环境) Interact 工具仅支持Ubuntu 20.04+,需要如下配置: 解压tar文件 → 运行      install.sh → 安装依赖与配置环境 导入License文件至指定目录 /manage 启动GUI / CLI 工具(运行命令或autorunner) 通过勾选测试组/命令行JSON文件执行测试 查看日志(log文件夹 & test_runs 目录),生成压缩包上传反馈 七、送测策略建议(针对国内厂商) 八、常见问题与解答 Q1:是否必须加入集成商名单? 答:非必须。可以仅用于内部测试、验证规范实现,不对外公布。 Q2:非会员可以送测吗? 答:可以,但费用较高,测试机会受限,不建议长期采用。具体联系Saniffer咨询。 Q3:是否支持OCP测试? 答:支持,但需单独预约,Interact目前未集成OCP测试用例。该测试目前唯一运行在SanBlaze平台。参见下图。 The OCP NVMe 1.0 & 2.0 testing will be performing these new use case tests against NVMe target devices using the SANBlaze VirtuaLUN NVMe test tool which compliments the existing set of tooling used for NVMe conformance. Manufacturers of NVMe SSDs, integrators as well as hyperscalers will have the peace of mind knowing their products will work in data center environments.     Q4:测试失败怎么办? 答:工具提供失败用例自动回放功能。可压缩log发回IOL,获得技术支持。 九、总结与展望 UNH-IOL 所建立的NVMe测试体系是全球范围内最具代表性的合规性验证平台之一。其所推出的Interact工具不仅在功能覆盖、日志追踪、运行灵活性方面做到精细化管理,也通过开放社区合作方式不断引入新测试内容。 对国内SSD、主控或服务器厂商而言: 掌握Interact的操作与送测流程是必修课 提前投入研发阶段自测将显著提升通过率 IOL认证已成为国际主流服务器平台采购中关键“通行证” 如需演示版、工具试用、预约测试等资源,欢迎联系UNH-IOL销售团队或中国合作伙伴Saniffer公司获取免费体验包,具体参见下面的联系方式。 更多这方面的问题分析,请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。参考章节1.7.3 UNH IOL官方认证的SerialTek, SanBlaze, Quarch中国独家合作伙伴。 下载链接: 链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2025-04-30 10:33:41
  • 举几个PCIe分析仪解决AI训练/推理过程中碰到的典型问题

    最近国外对中国禁售H20,国产GPU加速卡加速部署,其它较容易替代的一些产品包括网卡,NVMe SSD等也迎来了国产替代的机遇。下面是2025年4月中旬上海东方卫视新闻频道播放的新疆克拉玛依AI智算中心采用国产GPU的新闻。 不过,这也带来了服务器厂家在内部系统集成测试(SIT - System Integration Test)阶段,以及产品部署到数据中心机房后碰到各种稳定性的问题。下面的文章在去年写的AI训练/推理过程中碰到的典型问题如何分析和解决的基础上做了一些修订,仅供业内服务器厂家以及AI智算中心运维团队参考使用。 我们今天再举一些使用SerialTek公司PCIe协议分析仪解决大模型训练过程中使用的各种硬件,例如主机、网卡、GPU、AI加速卡,以及存储碰到的各种各样的问题的例子。 1.主机相关问题 例子1: CPU-GPU协同问题问题:在混合精度训练中,CPU-GPU协同效率低下。分析:使用PCIe分析仪监控CPU和GPU之间的数据传输。发现:CPU在处理FP32到FP16的转换时造成了PCIe总线的频繁小数据传输。解决:优化了数据转换算法,增加了批处理大小,减少了PCIe传输次数。结果:CPU-GPU协同效率提高30%,总体训练速度提升15%。 例子2: NUMA节点间通信问题问题:多插槽服务器在大模型训练时性能不及预期。分析:使用PCIe分析仪观察不同NUMA节点间的数据流动。发现:跨NUMA节点的PCIe通信造成了严重的延迟。解决:优化了NUMA亲和性设置,确保关键数据路径保持在同一NUMA节点内。结果:系统延迟降低20%,训练吞吐量提升约12%。 2.网卡相关问题 例子3: 分布式训练网络瓶颈问题:大规模分布式训练中,网络性能成为瓶颈。分析:使用PCIe分析仪检查高速网卡(如InfiniBand或100GbE)的PCIe行为。发现:网卡的PCIe配置不正确,运行在较低的链路速度上。解决:更新了网卡固件,正确配置了PCIe链路速度和宽度。结果:网络吞吐量提高40%,显著加快了分布式训练速度。 例子4: RDMA性能优化问题:使用RDMA进行节点间通信时,性能增益不明显。分析:PCIe分析仪显示RDMA操作导致了频繁的PCIe中断。发现:驱动程序配置不当,未充分利用PCIe中断调节功能。解决:优化了网卡驱动的中断合并设置,减少了PCIe总线负担。结果:RDMA通信延迟降低25%,分布式训练扩展性显著提高。 3.GPU相关问题 例子5: 多GPU系统PCIe带宽饱和问题:8-GPU系统中,扩展到更多GPU后性能提升不明显。分析:PCIe分析仪显示在所有GPU之间的全互联通信中,某些链路严重饱和。发现:PCIe拓扑结构不合理,导致某些GPU对之间的通信路径过长。解决:重新设计了PCIe交换机拓扑,优化了GPU放置策略。结果:GPU间通信带宽提高35%,8-GPU系统的训练速度提升20%。 例子6: GPU动态频率调节问题问题:长时间训练后,GPU性能逐渐下降。分析:PCIe分析仪结合GPU性能计数器,监控长时间训练过程。发现:由于功耗限制,GPU频率在高负载下逐渐降低,但PCIe通信未相应调整。解决:实现了动态PCIe链路状态管理,根据GPU频率实时调整PCIe链路状态。结果:在保持同等性能的情况下,系统功耗降低8%,热输出减少,GPU能够持续在高频率运行。 4.AI加速卡相关问题 例子7: AI加速卡与CPU内存同步问题问题:使用专用AI加速卡时,数据预处理阶段成为瓶颈。分析:PCIe分析仪显示加速卡与系统内存之间存在频繁的小数据传输。发现:加速卡的DMA引擎配置不当,未充分利用PCIe批量传输能力。解决:优化了加速卡驱动程序,改进了DMA策略,增加了传输批量大小。结果:预处理阶段性能提升40%,总训练时间减少15%。 例子8: 异构计算负载均衡问题:在GPU和AI加速卡混合系统中,负载分配不均。分析:使用PCIe分析仪监控不同类型设备的数据传输模式。发现:工作负载调度算法未考虑设备间的PCIe带宽差异。解决:实现了感知PCIe拓扑的动态负载均衡算法。结果:系统整体计算效率提高25%,充分发挥了异构硬件的优势。 5.存储系统相关问题 例子9: NVMe SSD队列深度优化问题:使用高速NVMe SSD阵列时,读取性能波动大。分析:PCIe分析仪显示SSD控制器的命令队列经常出现饱和。发现:默认的NVMe驱动队列深度设置不适合大模型训练的I/O模式。解决:增加了NVMe命令队列深度,优化了I/O调度算法。结果:存储系统IOPS提高30%,读取延迟降低20%,数据加载更加稳定。 例子10: 分布式文件系统PCIe优化问题:使用分布式文件系统(如Ceph)时,元数据操作成为瓶颈。分析:PCIe分析仪发现网络存储适配器处理小I/O请求效率低下。发现:网络存储适配器的中断处理机制导致大量的PCIe事务开销。解决:实现了中断合并和批处理机制,减少了PCIe事务次数。结果:元数据操作延迟降低50%,大规模数据集处理性能显著提升。 这些例子展示了PCIe分析仪在解决大模型训练中各种复杂硬件问题时的重要性。通过深入分析PCIe层面的行为,工程师能够识别出许多传统监控工具难以发现的性能瓶颈和兼容性问题。这不仅帮助优化了现有系统的性能,还为未来硬件设计和系统架构提供了宝贵的洞察。 在大语言模型等AI前沿领域,硬件性能往往被推到极限,PCIe作为关键的互连技术,其优化对于充分发挥系统潜力至关重要。PCIe分析仪等专业工具在这个过程中发挥着不可替代的作用,帮助研究人员和工程师构建更高效、更可靠的AI训练基础设施。 更多这方面的问题分析,请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。参考随后一个章节Chapter 17。 下载链接: 链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 请点击打开上面的图片,参考左边的目录页,Chapter 17列出了各种AI碰到的各种问题以及解决办法。 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。    
    2025-04-25 09:39:31
  • PCI SIG PCIe 6.x Pre-FYI第三次小规模测试小结

    PCI SIG第三次关于PCIe 6.0的小规模测试过去快一个月了,本次测试由SerialTek作为host,使用了SerialTek公司的PCIe 6.0 x16协议分析仪analyzer、训练器tester和Pre-FYI Gen6兼容性测试软件。下面是针对本次的Gen6小规模测试的一个简单英文说明。   The PCIe 6.x Preliminary FYI Workshop, hosted by Serialtek, is scheduled for March 24-28, 2025, in South San Francisco. This workshop is a pre-FYI event focused on the upcoming PCIe 6.x standard, providing attendees with an early look at its specifications and development.  前段时间一直没有腾出时间,今天我们简单总结一下。   PCIe 6.x Preliminary FYI Workshop 总结报告   主办单位:SerialTek时间地点:2025年3月24日至28日,美国加州南旧金山活动类型:Pre-FYI Workshop(非正式测试预演)标准版本:PCI Express 6.x(重点为 Gen 6.0 @ 64 GT/s)   一、基本概况   项目 数量 测试日程天数 4 天(Monday–Thursday) 参与厂商设备种类(匿名) 8 类不同设备 测试 TID(Test ID) 10 个独立 TID 测试单元 PCIe 6.0 相关测试条目 9 项明确为 Gen 6.0 @   64 GT/s     二、测试目标与核心关注点 本次 Workshop 以探索 PCIe 6.0 初步互通为主要目标,测试内容覆盖以下几个核心方向: ✅ PCIe 6.0 PHY 层链接训练(Link Training) ✅ Equalization(EQ)协商行为与稳定性 ✅ Device 与 Root Complex 间的 ACK/TLP 处理正确性 ✅ 支持 G5→G6 转换机制的状态迁移验证 ✅ 初步验证 Retimer / Switch / Compute Devices / Accelerator / SSD 控件设备等     三、主要发现与典型问题总结 ✅ 正常工作的案例 多个 x16 Accelerator 设备成功在 64 GT/s速率下完成链路建立; 某些设备的 EQ 测试在单独测试通道时表现良好; 部分设备能够自动协商 G5 → G6,进入目标状态。 ⚠️ 发现的问题类别   问题类型 示例说明 Link Training 不完整 / 中断 如“Link only trains to Gen5 or Gen1 under cold boot” ACK/TLP 不响应 如“NFM not working – Acks TLP but does not complete” EQ 跨通道失败 EQ 个别通道成功,合并多通道后失败 PLL未锁 / 不稳定 某些控制器在 Gen6 上频繁掉链或 PLL unlock 设备策略错误 “Device prefers G6 via G5 step”,可能导致性能回退或训练冗余 这些问题多数集中在 多通道 EQ 协调、链路稳定性、初期协议状态机实现差异,与 PCIe 6.x 的高数据速率和 PAM4 调制技术密切相关。   四、参与设备类型(匿名归类) x16 compute-only accelerator(多次出现) 控制器类 SoC Storage 控制器(可能为 SSD 或 RAID 控件) Root Complex 模拟器 Retimer/Switch 类型芯片(未显式出现但评论中提及)     五、组织与工具支持 测试平台由 SerialTek 提供主控/host侧接口; 使用自动化脚本与调试台记录测试窗口状态、TLP交互与链路训练日志; 未提及测试覆盖率或一致性等级,默认为 Pre-FYI 自愿测试性质。     六、结语与建议 本次 Workshop 成功完成了对 PCIe 6.x 多厂商设备的初步兼容性与链路特性探索,虽为非正式 FYI 测试,但结果显示出: 链路训练基本可达成 协议实现尚不一致 高频失效与 EQ 敏感度需重点优化 有对于PCI SIG前面两次PCI 6.0小规模测试总结感兴趣的朋友,可以下载我们4/12最新更新的白皮书12.1版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》,查找章节1.3。 下载链接: https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。    
    2025-04-24 17:43:07
  • 一颗PCIe/NVMe SSD从加电开始到正常工作在底层到底发生了哪些事情?

    当今的工作站,笔记本电脑大量使用PCIe/NVMe SSD,主要接口为M.2 SSD;服务器和存储系统则使用企业级PCIe/NVMe SSD,接口主要为U.2和E3.S。但是很多人开机后看到NVMe SSD,其实并不理解从开机到看到这个SSD到底经历了哪些东西。今天我们就沿着时间轴顺序逐步深入到底层,从一颗典型的 PCIe/NVMe SSD 插在电脑主板上、系统加电那一刻起,逐周期、逐模块地解释它是如何一步一步走向“可读写”的工作状态。这既包括 电源、电路、协议链路初始化,也包括控制器、固件、文件系统可见性 等一整套复杂的协同过程。 🧠背景设定 SSD类型:PCIe Gen5 x4 接口,支持 NVMe 1.4 或最新的2.0/2.1协议 主控平台:ARM Cortex-R 系列 + NAND 控制器 + DRAM + PMIC 主板 BIOS 支持 NVMe 引导 🔌阶段一:硬件加电 + 物理层启动(0–100ms) 1.1 电源路径建立 系统加电,主板通过 PCIe 插槽给 SSD 提供: 12V 主电(经 SSD 内部降压供 SoC、NAND、DRAM) 3.3V 辅助电(供控制器/电源管理上电) SSD 内部 PMIC(电源管理 IC) 按顺序拉高电源轨,比如: Vcore (1.0V) → 控制器 CPU/PLL Vddq (1.2–1.8V) → DRAM Vcc (3.3V) → NAND 点击放大上面的SerialTek PCIe 5.0协议分析仪抓取的上电时序,包括12V, 3.3V, PERST#, CLKREQ#以及参考时钟REFCLK在时间上面的先后关系。 1.2 Controller Boot ROM 执行 SSD 控制器从 内部 BootROM启动,执行 固件加载流程: 启动 SPI NOR Flash或 ROM 固化代码 初始化 DRAM/NAND 接口(DDR PHY、ONFI/NV-DDR) 检查 NAND BBT(坏块表)、FTL 映射结构 1.3 PCIe PHY 链路训练 控制器的PCIe PHY 初始化:完成 Link  Training and Status State Machine (LTSSM) 链接状态变更(LTSSM 状态机): Detect → Polling → Configuration → L0(Active) 协议链路建立后,PCIe Switch / Root Port 上检测到 新的Endpoint 设备,分配 Bus/Device/Function (BDF)地址 PCIe构建完整链路(如 Gen5 x4,32GT/s per lane) 🧬阶段二:枚举与 NVMe 初始化(100–500ms) 2.1 BIOS / UEFI 枚举 PCIe 设备 BIOS 扫描 PCIe 总线,读取 SSD 的 Configuration Space 识别设备为ClassCode = 01 08 02 (Mass Storage, Non-volatile      Memory) 如果支持 NVMe Boot,加载 UEFI NVMe Driver(或 Option ROM) 2.2 NVMe Admin Queue 建立 系统向 SSD 下发 Admin Queue 初始化命令: 创建 Submission / Completion 队列(SQ/CQ) 获取 Controller Identify 信息(如容量、队列数支持、命令集) SSD控制器在固件中分配 DRAM 地址,初始化 Admin Queue 元数据 2.3 Namespace 构建与启用 系统请求构建 namespace(NVMe 中一个命名空间即一块逻辑盘) 控制器对 NAND 做如下操作: 扫描块元信息、构建 L2P 映射表(Logical-to-Physical) 初始化 FTL(Flash Translation Layer) 如果使用 SLC Cache,配置好临时区域 确认 ready 后返回 Namespace ID + 可用大小 💽阶段三:OS 加载 + 文件系统挂载(500ms –2s) 3.1 操作系统加载 NVMe 驱动 Windows/Linux 加载 nvme 驱动模块 驱动通过 BAR0(Base Address Register)映射控制器的 MMIO 寄存器空间 3.2 OS 构建 IO 队列 OS设置多队列 IO(I/O Submission/Completion Queues) Linux常见 4/8/16 队列,对应 CPU 核心数 NVMe控制器分配 DRAM 缓冲区,映射 Host 地址空间 支持 MSI-X 中断,每个 Queue 可独立响应中断 → 高并发低延迟 3.3 扫描分区 + 文件系统识别 OS 读取 NVMe Namespace 的前几个 LBA: MBR / GPT → 分区表 ext4 / NTFS / APFS → 挂载文件系统 如果识别成功 → /dev/nvme0n1 或 C:\ 出现,用户可见 🧮阶段四:工作状态下的数据路径(Read/Write) 4.1 写入流程(例:NVMe Write Command) CPU → nvme_submit_io(): 填写 write 命令 + 数据地址 → SQ Entry → 控制器读 SQ Entry → DMA Host 数据到 DRAM → 写入 NAND(可能走 SLC 缓冲)→ CQ Entry 写入完成状态 → Host Poll CQ 或中断响应 控制器内部处理: L2P映射查找 → NAND 空块分配 ECC 编码(LDPC/BCH)→ NAND Page Program 元信息更新(Valid Bitmap、Mapping Table) 4.2 读取流程(例:NVMe Read Command) CPU → nvme_submit_io(): 填写 read 命令 + LBA → 控制器查 L2P → 发起 NAND Read → ECC 解码 → DMA 回 Host → CQ 更新 ⚙️补充模块(在 SSD 固件中完成) 功能模块 作用 FTL Flash Translation Layer:LBA ↔ PBA 映射,维护元数据、垃圾回收(GC) Wear Leveling 均衡擦写次数,延长寿命 Bad Block Management 跳过出错的 NAND 块(硬件   ECC + 表) Thermal Throttling 控制写入速率,防止温度过高 SLC Cache / pSLC 提高写入速度,动态转为 MLC/TLC ⌛时间线概览(近似) 时间 动作 0–20ms 电源建立 → 控制器 PMIC +   Reset 20–100ms Boot ROM 初始化   NAND/DRAM,PCIe PHY 链路训练 100–300ms BIOS UEFI PCIe 枚举,Option ROM 加载 300–500ms NVMe Admin Queue 建立,Namespace Ready 500ms – 2s OS 挂载驱动,构建 IO 队列,挂载文件系统 2s+ 可接受读写命令,进入稳定运行状态 ✅总结 一颗 PCIe/NVMe SSD 从通电到可工作,经历了: 电源初始化 → 控制器BootROM → PCIe 链路训练 → NVMe 枚举 →队列建立 → FTL 映射 → OS 驱动挂载 → 用户可读写 这个流程结合了硬件(PHY、PLL、Flash 电源)、协议(PCIe TLP/ACK, NVMe SQ/CQ)、控制器固件(FTL、Bad Block Table、Queue Manager)以及操作系统(UEFI、驱动、文件系统)多层次协同设计,使得用户最终看到的是“1秒内可读写”的高性能存储设备。 对于上述内容感兴趣的朋友,可以下载并且参考我们4/12最新更新的白皮书12.1版本的Chapter 10章节 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》。 下载链接: https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。    
    2025-04-23 17:39:52
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 16
    • 电话:(021)5080-7071; 131-2785-6862

      在这里输入描述
    • www.saniffer.cn

      在这里输入描述
    • 邮箱:sales@saniffer.com

      在这里输入描述
    • 地址:上海市浦东新区秋月路26号矽岸国际1号楼

      在这里输入描述

    关注微信公众号

    上海森弗信息技术有限公司 备案号:沪ICP备2024076352号-1

    版权所有 © 上海森弗信息技术有限公司 技术支持:竹子建站