——同时分析功耗与PCIe Sideband信号的工程级工具
在 AI服务器、GPU计算卡、NVMe SSD 和 PCIe Switch 等设备的验证过程中,工程师经常会遇到一些非常棘手的问题,例如:
很多时候这些问题并不是:
而是与 电源行为(Power Behavior) 密切相关。
例如:
传统工具(示波器 + 万用表)在这种场景下存在明显局限:
因此在服务器验证领域,出现了一类专门的设备:
PCIe 功耗分析工具
其中最典型、最专业的一类设备就是:
英国 Quarch 公司的 PAM(Power Analysis Module)
PAM 是 Power Analysis Module 的缩写。
它是一种 专门针对 PCIe 插卡设备的功耗分析模块。
其核心能力是:
在 PCIe 插卡与主机之间透明串接,实时监测:
视频中也展示了该设备的基本用途:
PAM 可以串接在 PCIe 插卡链路中间,对设备的电源行为和边带信号进行实时监控。
典型 PAM 系统结构如下:
Host Server
│
│ PCIe Slot
│
┌─────────────── ────┐
│ Quarch PCIe Fixture │
│ (AIC测试治具) │
└───────────────────┘
│
│ USB-C 控制
│
┌───────────────────┐
│ PAM 管理模块 │
│ Power Analysis │
└───────────────────┘
│
│ USB / Ethernet
│
控制电脑
Power Studio
系统由三部分组成:
负责:
用于插入:
视频中展示的是:
PCIe Gen5 x16 AIC Fixture。
用于:
这是 PAM 与传统电源分析工具最大的区别。
PAM 不仅可以监控:
电压 / 电流 / 功耗
还可以同时监控:
PCIe Sideband 信号
例如:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
这些信号在 PCIe链路初始化 中极为关键。
视频中就展示了:
可以同时监控:
这些信号在时间轴上同步显示。
这使工程师可以清晰看到:
Power 上电
↓
REFCLK stable
↓
PERST deassert
↓
PCIe LTSSM start
这种 Power + Sideband 同步分析能力,是服务器验证中非常关键的能力。
例如:
这些设备通常直接通过 PCIe slot 供电。
因此只需要:
PCIe AIC Fixture
即可完成测试。
现代 AI GPU 功耗已经非常惊人:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
视频中提到:
一些 GPU 卡甚至可能达到:
700W、1000W、1500W。
因此 GPU 通常需要:
额外外接供电
例如:
PAM 提供:
AUX power fixture
可以监控:
从而完整分析 GPU 的功耗行为。
Power Studio 是 Quarch PAM 的核心控制软件。
视频展示的版本为:
Power Studio v1.50。
软件主要功能包括:
Power Studio 支持非常高精度采样。
视频示例:
采样周期
1.024 ms
这意味着系统可以捕捉:
Power Studio 可以持续记录:
Voltage
Current
Power
Sideband
所有数据会写入电脑硬盘。
视频中也特别提醒:
默认情况下:
关闭软件时可能删除 trace。
因此建议:
修改设置为
Auto Save Recording
否则长时间测试数据可能丢失。
Power Studio 的分析界面类似示波器。
支持:
可从分钟级放大到毫秒级。
通过:
Cursor A
Cursor B
可测量:
例如视频示例:
Δtime = 5ms
Δvoltage = 2.5V
Δcurrent = 0.358A
Δpower = 2.5W
软件可以统计:
max
min
avg
例如:
12V voltage
12V current
12V power
随着 AI服务器功耗越来越高,PAM 的价值越来越明显。
BIOS启动后:
PCIe device missing
可能原因:
Power ramp slow
PERST timing error
REFCLK unstable
PAM 可以同时观察:
Power ramp
PERST
REFCLKOK
快速定位问题。
AI训练过程中:
CUDA error
GPU disappeared
可能原因:
GPU current spike
power transient
VRM instability
PAM 可记录 GPU 电流变化。
典型情况:
fio workload
SSD reset
可能原因:
12V droop
power spike
视频中演示的就是:
PCIe Switch card
通过 PAM 可以观察:
Switch power profile
PCIe initialization
服务器调试通常需要两类工具:
|
|
|
|---|---|
|
|
|
|
|
|
两者结合可以做到:
Protocol Event
↓
Power Behavior
例如:
PCIe FLR
↓
GPU power drop
这种联合分析能力在服务器验证中非常关键。
随着 GPU 功耗不断上升:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
服务器系统越来越复杂:
任何一个环节异常,都可能导致系统不稳定。
因此:
Power Analysis 已成为服务器验证的重要环节。
而 Quarch PAM 正是这一领域最专业的解决方案之一。
Quarch PAM 是一款面向 PCIe 插卡设备的 专业功耗分析工具。
其核心价值在于:
同时监控
Voltage
Current
Power
PCIe Sideband signals
这种 功耗 + PCIe信号同步分析能力 在服务器验证中极为重要。
PAM 已广泛应用于:
在 AI计算功耗不断增长的时代,PAM 正成为服务器工程师的重要调试利器。
链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。