我们很多购买了PAM(power analysys module)的客户最初的时候都被这个名称误导了,以为该PAM仅能分析功耗,实际上它的功能非常丰富,绝对不是普通示波器和逻辑分析仪可以做到的,例如它可以长时间记录、分析、回溯各类PCIe 总线的sideband边带信号,而监控这些信号对于我们分析很多故障和异常也非常有帮助。我们今天的视频先从插卡拍起来,后续看时间也拍摄一下针对PCIe/NVMe SSD的接口,包括U.2, M.2等接口形态的高清视频。
我们今天的高清视频从工程师视角,结合之前在Saniffer公众号中反复关注的几个主题以及官网上 PAM 与 Power Studio 的功能和技术指标,可以让你获得更多调试PCIe插卡的经验:
在 AI 服务器、GPU 计算卡、NVMe SSD、PCIe Switch 等设备中,功耗行为与系统稳定性高度相关:
常见问题包括:
这些问题很多时候并不是:
而是 电源行为异常:
例如:
传统工具(示波器 + 万用表)很难做到:
因此产生了一类专门设备:
PCIe 功耗分析设备
其中最典型的就是:
Quarch PAM(Power Analysis Module)
PAM = Power Analysis Module
核心用途:
实时监控 PCIe 插卡功耗与边带信号行为
根据视频说明:
PAM 会被 串接在 PCIe 插卡与主机之间,实现透明监控。
可记录:
例如:
典型系统由三部分组成:
Host Server
│
│PCIe
│
┌────────────────────┐
│ Quarch AIC Fixture │
│ (PCIe slot adapter)│
└────────────────────┘
│
│USB-C control
│
┌──────────────────┐
│ PAM Module │
│ (Power Analysis) │
└──────────────────┘
│
│USB / Ethernet
│
Control PC (Power Studio)
视频中也展示了:
例如:
直接使用:
PCIe 插卡治具
串接在:
Host slot
│
PAM Fixture
│
PCIe card
现代 GPU 功耗:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
视频中提到:
GPU 甚至可能达到:
700W / 1000W / 1500W
因此需要额外设备:
AUX power fixture
用于分析:
系统结构:
PCIe slot power
+
External GPU power
│
Fixture
│
PAM
PAM 主要监控四类信号:
例如:
12V slot
3.3V slot
Aux power
主要分析:
监测:
计算:
Power = Voltage × Current
可分析:
例如:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
这些信号对 PCIe link training 非常关键。
视频中示例:
监控
并与功耗变化同步显示。
Power Studio 是 PAM 的控制与分析软件。
视频演示的版本:
Power Studio v1.50
并识别设备:
QTL2312 PAM
QTL2983 Gen5 x16 AIC Fixture
可设置采样周期:
示例:
1.024 ms sampling
因此可以捕获:
Power Studio 可以:
持续记录功耗 trace。
默认行为:
recording saved to temp file
close software -> file deleted
因此建议修改设置:
auto-save trace
否则可能出现:
记录一天数据 → 关闭软件全部消失
软件支持多通道:
Voltage
Current
Power
Sideband
用户可以选择显示:
例如:
12V Voltage
12V Current
12V Power
PERST
REFCLKOK
类似示波器:
支持:
时间轴精度:
可查看毫秒级事件。
例如:
4 min 26 sec → 4 min 27 sec
软件支持:
Cursor A
Cursor B
可计算:
Δtime
Δvoltage
Δcurrent
Δpower
视频示例:
Δtime = 5 ms
Δvoltage = 2.5 V
Δcurrent = 0.358 A
Δpower = 2.5 W
这对于分析:
非常重要。
Power Studio 可以对选定时间窗口统计:
max
min
avg
例如:
12V voltage
12V current
sideband state
结合你之前经常研究的 PCIe debug,这个设备非常适合以下场景:
例如:
BIOS boot
PCIe device missing
可能原因:
PERST timing error
power ramp slow
REFCLK unstable
PAM 可以:
同时看到
Power ramp
PERST
REFCLKOK
AI inference server 常见问题:
GPU suddenly disappears
CUDA error
training crash
PAM 可记录:
GPU current spike
power limit event
VRM instability
典型情况:
fio workload
SSD suddenly reset
可能原因:
12V droop
power transient
视频中的 demo 就是:
PCIe Switch card
通过 PAM 分析:
switch power profile
link initialization
这是你之前经常问的问题。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
最强组合:
PCIe Analyzer
+
Quarch PAM
可以做到:
Protocol event
↓
Power spike
例如:
FLR event
GPU power drop
随着 AI GPU 功耗爆炸式增长:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
服务器电源问题越来越复杂。
常见现象:
AI training crash
GPU reset
PCIe retrain
这些都与:
power transient
power sequencing
相关。
因此:
Power analysis 正在成为服务器验证的必备工具。
Quarch PAM 是一套专门针对 PCIe 插卡功耗分析 的专业设备。
核心能力:
1 实时功耗监控
2 PCIe 边带信号分析
3 长时间 trace 记录
4 毫秒级事件分析
5 GPU / NVMe / Switch 功耗调试
在 AI服务器时代:
PAM 已成为:
GPU validation
PCIe debug
power integrity analysis
的重要工具。
链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。