技术专栏 - Saniffer - 业内最完整的总线协议分析/测试工具，PCIe/CXL/NVMe, SSD, SAS/SATA, FC, RapidIO, SRIO, NAND, DDR5/LPDDR5等等

目前实测唯一可达PCIe Gen5 x16速度的1米PCIe插槽延长线！！！
很多PCIe Gen5产品原型验证插卡较大，例如早期的FPGA开发验证卡，根本无法插入主机的PCIe Gen5 x16插槽，即便是工作站这种PC主板上面的立式的插槽。另外，服务器一般采用Riser升板将插槽调整到横向90度，对于一些稍微尺寸较大一点的插卡是根本无法插入的。如果想将PCIe Gen5 x16协议分析仪的x16 interposer插入插槽基本没有可能。上面的诸多场景都需要将PCIe Gen5 x16的插槽延申出来才方便插入各种板卡。但是，目前市场上几乎很难找到这类PCIe Gen5 x16的延长线。随附的延长线是我们前天刚从国外进口的延长线，测试完毕后发现信号非常好。下面的两端视频分别为插入该PCIe Gen5 x16延长线前后的链路的状态。这跟延长线也是目前我们测试国外市场上这么多线缆唯一可以达到PCIe Gen5 x16链路速度的延长线。我们这根gen5 x16延长线（上图）测试了一下可以工作在gen5。
2024-07-23 14:19:30
如何使用PCIe 5.0/6.0协议分析仪测试AI训练和推理硬件
我们本文将举一些例子说明如何使用SerialTek 公司的PCIe 5.0/6.0协议分析仪及其exerciser功能用于AI训练和推理硬件的诊断和测试。SerialTek的PCIe 5.0和6.0协议分析仪以及其exerciser功能确实可以用于多种机器学习硬件的诊断和测试任务。这些工具对于确保高性能计算系统的稳定性和效率至关重要。以下是一些可能的应用例子：1.GPU-主机通信分析：使用协议分析仪监测GPU与主机之间的PCIe通信，分析数据传输效率、延迟和带宽利用率。这对优化大规模训练任务的数据加载和模型参数同步非常重要。2.多GPU系统互连性能测试：利用exerciser功能模拟高负载的GPU间通信，测试PCIe交换机的性能和稳定性，确保在复杂的多GPU训练环境中能够维持高效的数据交换。3.NVMe存储性能分析：分析连接到PCIe总线的NVMe存储设备的性能，评估其在高速数据读写时的表现，这对于处理大规模数据集的训练任务尤为重要。4.DMA传输效率诊断：使用协议分析仪检查直接内存访问（DMA）传输的效率，优化CPU和加速器之间的数据移动，减少训练和推理过程中的延迟。5.电源管理和热性能测试：利用exerciser功能模拟不同的负载情况，测试系统在各种功耗水平下的性能和热管理效果，确保长时间训练任务的稳定性。6.错误注入和恢复测试：使用exerciser功能注入各种PCIe错误，测试系统的错误检测和恢复机制，验证在极端情况下训练任务的容错能力。7.推理加速器集成测试：分析专用AI推理加速器与主系统的PCIe通信，优化数据传输和指令下发的效率，提高推理吞吐量。8.系统扩展性验证：利用PCIe 5.0和6.0的高带宽特性，测试系统在添加更多GPU或其他加速器时的扩展性能，确保大规模并行训练的效率。9.低延迟推理系统优化：分析PCIe通信延迟，优化实时AI应用的数据路径，减少端到端推理延迟。10.异构计算环境性能调优：在包含CPU、GPU、FPGA等多种计算单元的系统中，分析各组件间的PCIe通信模式，优化任务调度和数据流。11.驱动程序和固件验证：使用协议分析仪验证GPU或其他AI加速器的驱动程序和固件更新，确保它们能够充分利用PCIe 5.0/6.0的新特性。12.内存-加速器数据传输优化：分析PCIe总线上的内存访问模式，优化AI模型参数的加载和更新过程，提高训练效率。这些诊断和测试任务可以帮助开发者和系统集成商构建更高效、更可靠的机器学习硬件平台，从而支持更复杂的AI模型训练和更快速的推理部署。下面我们简单介绍一下SerialTek公司的PCIe Gen6 analyzer和exerciser。SerialTek PCIe 6.0 / CXL 3.0 协议测试仪是一款功能强大的工具，专为测试和验证 PCI Express 和 CXL 技术而设计。它提供了广泛的功能来确保合规性、验证符合规范的行为以及优化设备和系统性能。以下是 SerialTek 测试仪的主要优点和功能：1.确保合规并验证质量：–验证 PCIe 认证测试套件 (CTS) 和 SerialTek 特定质量测试套件的一致性。–根据行业标准验证实施的稳健性和质量。2、主机和设备不可用时的接入测试：–使用测试仪进行早期测试和故障排除，克服对主机和设备的访问受限的挑战。3.解决具体问题：–将有问题的Trace转换为可重现的测试以进行故障排除。4.验证具体功能：–测试和验证数据对象启用 (DOE)、中断、显示启用 (IDE) 以及链路训练和状态机 (LTSSM) 状态转换等功能。5.手动测试和定制：–允许用户修改功能并执行有限的手动测试，例如发送特定的 TLP 或测试对格式错误的 TLP 的响应。6.早期性能测试：–在开发的各个阶段执行性能测试，以优化设备和系统性能。7.测试仪支持多种模式，包括一致性测试模式、–手动测试模式、环回模式、功能测试模式、Trace重放模式、性能测试模式和码型生成器模式。该测试仪确保在开发的每个阶段进行全面测试，使用详细的性能指标、测试结果分析和数据驱动的决策工具帮助识别性能瓶颈并优化数据传输速率。此外，SerialTek 测试仪（训练器）和Host Smart Fixture可以完全控制 PCIe Tx 参数。下图是平坦的响应（或多或少），显示了 SerialTek 测试仪对通道进行编程以创建默认“golden channel”的能力，完全符合 PCIe 规范的损耗要求。用户可以更改 Host Smart Fixture 的CTLE 预设，或选择预设的“stress”包以模拟符合 PCIe 6.0 电气参数的“channel loss”。这些应力包包括更多的控件，例如非常短和非常长的通道，以比定义的规范或以某些用户定义的方式对链路施加更大的压力。对于 CXL 合规性测试，测试仪遵循 CXL 规范中概述的指南，涵盖各个层，例如 CXL.io 和 CXL.cache 应用层/事务层测试、链路层测试、ARB/MUX、交换机测试和配置寄存器测试。此外，SerialTek 测试仪还提供全面的 PCIe 合规性套件，测试涵盖链路层、事务层和协议功能。手动模式允许用户模拟主机或设备环境、修改配置空间、更改 LTSSM 状态以及强制边带信号进行全面验证。此模式可以测试协议规范中定义的特定功能和行为。该测试仪提供用户友好的软件界面和脚本构建功能，允许用户创建定制的测试场景。为了优化性能，SerialTek测试仪通过基于 Web 的界面和灵活的 REST API 提供轻松的性能测试和自动化。它还提供真实世界的模拟功能来模拟各种场景和条件。该测试仪可确保在开发的每个阶段进行彻底的测试，帮助识别性能瓶颈并优化数据传输速率。它提供详细的性能指标、测试结果分析以及数据驱动的决策工具。使用 SerialTek PCIe 6.0 / CXL 3.0 协议测试系统体验您的技术的全部潜力，并为您的设备或系统实现卓越的性能和合规性。如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询，请添加点击左下角“阅读原文”留言，或者saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-23 10:00:00
详细剖析SerialTek PCIe Gen5 x16协议分析仪如何连接摩尔线程GPU进行大压力渲染分析
Intel Gen5 X16 Z90主板+SerialCables 延长线+ SerialCables Switch卡+摩尔线程GPU配合SerialTek Gen5 x16协议分析仪协议大压力渲染连接讲解本文以及随附视频非常适合下面的朋友阅读： 1. 希望了解SerialTek PCIe Gen5 x协议分析仪是如何串接在GPU卡链路中间进行双向数据据抓取的 2. 摩尔线程的GPU卡的链路质量，性能，以及如何通过渲染程序加载运算到GPU卡进行处理 3. SerialCables 公司的PCIe Gen5 x16延长线提供了业内最好的信号质量，提供了将各类PCIe Gen5插卡延长到主机（server, workstation, PC）插槽之外，例如服务器由于riser升板设计导致某些PCIe 5.0的插卡无法插入到插槽，这个时候就需要SI衰减非常好的延长线协助。我们后续还会拍摄一些简单、直观、明了地介绍PCIe Gen5/6 协议测试的视频，希望拍摄某些感兴趣的特定主题的朋友可以点击左下角的“阅读原文”留言说明。下面是本次使用的摩尔线程的Gen5 x16 GPU卡启动过程通过SerialTek Gen5 x16 协议分析仪抓取的trace文件的截图。如果想获得摩尔线程PCIe Gen5 x16 GPU卡启动过程的trace文件(2.1GB)，请添加点击左下角“阅读原文”留言，或者saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-22 10:54:45
PCIe Gen5 M.2 SSD批量端口测试方案简介
Saniffer推出的 PCIe Gen5 M.2 SSD 批量端口测试工具（NTB – NVMe Test Box）旨在应对当今高性能Gen5 M.2 SSD的测试需求，为SSD控制器和模组研发、测试以及生产测试人员提供一个高效、精准、全面的硬件测试平台。该套测试方案的主要特点如下： 1. 硬件平台提供如下端口配置单主机：8口Gen5 M.2 SSD 单主机：24口Gen5 M.2 SSD 说明：如果希望测试更多的Gen5 M.2 SSD，只需要根据测试端口数量计算购买相应数量的上述测试主机即可。 2. 购买和部署灵活、方便购买Turn-Key交钥匙测试方案内置商用PCIe/NVMe SSD测试软件，如SanBlaze等内置Ubantu Linux下面的商用NVMe SSD测试软件内置商用Windows版本NVMe SSD测试软件内置开源Windows版本NVMe SSD测试软件购买集成硬件平台，部署自己开发的测试脚本和测试用例。下面是针对该NTB测试方案的一个概述，以单主机 8口Gen5 M.2 SSD硬件平台为例介绍。方案概述 Saniffer 的 8xPCIe Gen5 M.2 SSD 测试方案集成了最新的 PCIe Gen5 技术，支持同时测试多达 8 个 M.2 接口的 SSD。这一测试平台具备高带宽、低延迟和多通道并行处理能力，能够显著提高测试效率和测试覆盖率。该方案主要由测试硬件、测试软件几部分组成。测试流程 1. 硬件准备提供的测试主板支持 8 个 PCIe Gen5 M.2 SSD插槽，基于Broadcom PCIe Gen5 Switch 芯片的M.2拓展板可以确保稳定的连接和高质量的电气信号。测试人员需将待测的 M.2 SSD 安装到对应的插槽中，确保每个 SSD 都牢固连接，并检查所有连接是否正常，然后将扩展板插入对应Gen5 x16插槽。 2. 软件设置提供的测试软件根据上述可选，例如SanBlaze。该软件具备友好的WebGUI用户界面和强大的功能，能够自动识别安装的 SSD 并生成详细的测试报告。测试人员需要根据具体测试需求，选择合适的测试项目和参数。例如，可以选择顺序读写测试、随机读写测试、耐久性测试、NVMe功能测试等。 3. 测试执行配置完成后，启动测试软件进行测试执行。测试软件会自动依次对指定 SSD 进行测试，并实时监控测试过程中的各项参数，包括传输速率、I/O 操作次数、延迟、功耗等，如果是测试功能，那么我们看到每项测试是pass，fail, warning或者skipped。测试数据会被实时记录，并在测试完成后生成详细的测试报告。 4. 数据分析测试完成后，测试人员可以通过数据分析工具对测试结果进行深入分析。Saniffer 提供的分析工具能够对测试数据进行可视化展示，并提供多种分析维度和指标。例如，可以比较不同 SSD 的性能差异，分析某一 SSD 在不同负载条件下的表现，以及评估 SSD 的长期可靠性等。 5. 报告生成数据分析完成后，生成最终的测试报告。报告包括测试概述、详细测试数据、分析结果和建议。测试人员可以根据报告内容，对 SSD 的性能和可靠性做出全面评估，并为后续的产品改进和优化提供依据。方案特点高性能：采用最新的 PCIe Gen5 技术，能够全面测试高速 SSD 的性能。多通道并行处理：支持同时测试多达 8 个 M.2 SSD，提高测试效率，节省测试时间。全面的测试项目：涵盖顺序读写、随机读写、耐久性、协议功能等多个测试项目，全面评估SSD 的各项性能指标。智能化测试管理：自动化测试流程，实时监控和记录测试数据，减少人为干预，确保测试结果的准确性和可靠性。强大的数据分析能力：提供丰富的数据分析工具和可视化展示，帮助测试人员深入理解测试结果，做出科学决策。结论 Saniffer公司8xPCIe Gen5 M.2 SSD 测试方案为存储设备制造商和研发人员提供了一个高效、精准、全面的测试平台。通过这一方案，用户能够更好地了解和评估 SSD 的性能和可靠性，为产品开发和优化提供有力支持。相信这一针对批量PCIe Gen5 M.2 SSD测试方案的推出，将推动存储行业技术的进一步发展和创新。下面是针对8xPCIe Gen5 M.2 SSD 测试硬件在Linux下面的一个简单的介绍视频，对于仅需要购买硬件平台自己部署测试脚本的用户非常方便。如果你有其他任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请添加saniffer公众号留言，或致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-22 10:00:00
AI大模型训练和推理Tutorial
本文将通过非常通俗易懂的语言讲述一下大模型训练和推理的基本过程和逻辑，从上层接口调用，进入神经网络训练，一直深入到底层架构，例如CUDA或者业内类似CUDA的框架，然后到驱动程序，GPU，GPU之间的交互为什么要用到nvlink这么高速的网络连接，以及为什么不用DDR5而要用HBM，还有和存储部件如NVMe SSD或者后台分布式存储系统之间的交互。我们将尽量使得没有接触过这些逻辑开发的人员可以清楚了解整个训练过程，以及训练完毕生成的文件到底是个什么东西，后面的推理应用如何加载这个文件来推理用户的问题。让我们从头开始,一步步深入:1.用户接口调用: 想象你在使用一个聊天机器人。当你发送一条消息时,这就是一次接口调用。你的消息会被送到后台的大模型系统中。2.进入神经网络: 你的消息会被转换成数字形式,就像把文字翻译成计算机能理解的语言。这些数字会被送入神经网络,神经网络就像是一个超级复杂的数学方程。3.深入到底层架构: 为了处理这个复杂的方程,我们需要非常强大的计算能力。这就是CUDA或类似框架发挥作用的地方。CUDA是NVIDIA开发的一种技术,允许程序员利用GPU(图形处理器)进行大规模并行计算。4.驱动程序和GPU: 驱动程序就像是计算机和GPU之间的翻译官。它把高级指令转换成GPU能理解的语言。GPU原本是为处理图形设计的,但它们也非常擅长进行大模型所需的并行计算。5.GPU之间的交互和NVLink: 训练大模型通常需要多个GPU协同工作。NVLink是一种高速连接技术,允许GPU之间快速交换大量数据。想象一下,如果GPU是厨师,NVLink就是他们之间传递食材的超快传送带。6.HBM vs DDR5: HBM(高带宽内存)比DDR5更适合大模型训练,因为它能提供更高的数据传输速度。这就像是给厨师们配备了更快的助手,能更快地递送所需的原料。7.存储系统交互: 训练过程中,模型需要从NVMe SSD或分布式存储系统中读取大量数据。这些存储系统就像是巨大的图书馆,存放着模型学习所需的所有"书籍"。8.训练过程: 在训练过程中,模型会反复学习大量数据,不断调整自己的"方程"以提高准确性。这就像是反复练习解题,直到熟能生巧。9.训练完成后的文件: 训练完成后,我们得到的是一个包含模型所有参数的大文件。这个文件就像是模型的"大脑",包含了它学到的所有知识和技能。10.推理应用: 当我们想使用这个训练好的模型时,推理应用会加载这个大文件。它就像是把模型的"大脑"装入一个新的身体。当用户提出问题时,推理应用会使用这个"大脑"来生成回答。总的来说,整个过程就像是培养一个超级学生。我们提供大量的学习材料(数据),使用强大的学习工具(GPU、高速网络、快速内存),经过长时间的学习(训练),最后得到一个知识渊博的"大脑"(模型文件)。这个"大脑"之后可以被用来回答各种问题或完成各种任务。我们再来看一下上述的描述中，消息从进入神经网络到离开神经网络，在神经网络内部的逻辑算法上大致经过了哪些步骤和处理过程:1.输入处理: 想象神经网络是一个复杂的迷宫。你的消息首先被转换成一串数字,就像给迷宫的入口贴上标签。2.词嵌入: 每个单词都被转换成一个特殊的数字序列,就像给迷宫中的每个物体赋予独特的颜色代码。3.位置编码: 系统会记住每个单词在句子中的位置,就像在迷宫中标记出每个物体的具体位置。4.自注意力机制: 这一步,系统会关注消息中的重要部分。想象成在迷宫中点亮某些特别重要的路径。5.前馈神经网络: 接下来,信息通过一系列复杂的数学运算,就像在迷宫中穿过各种机关和障碍。6.多层处理: 以上步骤会重复多次,每次都在更深的层次上理解信息。就像在迷宫中越走越深,逐渐揭示更多秘密。7.输出生成: 最后,系统会根据处理后的信息生成一个回应。这就像从迷宫的出口拿到一个宝藏。8.解码: 生成的数字序列被转换回人类可以理解的语言。就像把迷宫中获得的密码翻译成普通话。整个过程就像是你的消息在一个智能迷宫中穿梭,每一步都在增加理解和洞察,最终产生一个有意义的回应。这个过程是自动进行的,速度非常快,使得对话看起来像是实时进行的。那么，上述过程中，哪几个步骤必须要用到GPU参与计算？哪些步骤依靠CPU就可以了呢？让我们来具体分析一下：主要由CPU处理的步骤：1.输入处理： CPU可以高效地处理初始的文本到数字的转换。这个步骤计算量相对较小。2.词嵌入查找：虽然词嵌入的训练需要GPU，但查找已训练好的词嵌入通常可以由CPU完成，因为这基本上是一个内存查找操作。3.位置编码：这个步骤通常涉及简单的数学运算，CPU可以胜任。4.解码（输出处理）：将最终的数值结果转换回人类可读的文本，这个过程计算量较小，CPU可以处理。主要需要GPU参与的步骤：1.自注意力机制：这个步骤涉及大量的矩阵乘法运算，非常适合GPU的并行处理能力。2.前馈神经网络：同样涉及大规模的矩阵运算，GPU可以大大加速这个过程。3.多层处理：由于这是自注意力和前馈网络的重复，它也主要依赖GPU。需要注意的是：·在实际应用中，为了提高整体效率，即使是一些可以由CPU处理的步骤也可能被转移到GPU上，特别是在大规模推理时。·现代的深度学习框架（如PyTorch或TensorFlow）通常会自动处理CPU和GPU之间的任务分配，以优化性能。·对于非常大的模型，几乎所有步骤都可能在GPU上进行，以减少CPU和GPU之间的数据传输开销。总的来说，GPU主要用于计算密集型的任务，特别是涉及大规模矩阵运算的部分。CPU则更多地用于控制流程、数据预处理和后处理等任务。在实际应用中，两者往往协同工作，以达到最佳的性能和效率。有的朋友可能对于上述的这两个术语：自注意力机制，前馈神经网络不是很清楚，我们用通俗易懂的语言解释这两个术语。1.自注意力机制 (Self-Attention Mechanism)想象你在阅读一本复杂的小说。当你读到某个情节时,你会自然而然地回想起之前提到的相关信息,这helps你更好地理解当前的内容。自注意力机制就是模仿这个过程的。具体来说:·它让模型能够"关注"输入中的不同部分,并理解它们之间的关系。·就像你读书时会把重要的词句划上重点一样,自注意力机制会给输入中的每个部分分配不同的"重要性权重"。·这使得模型能够捕捉到长距离的依赖关系,比如在一个长句子中理解代词"它"指代的是什么。2.前馈神经网络 (Feedforward Neural Network)想象你在玩一个复杂的弹珠机。你在顶部放入一个弹珠(输入),然后它会通过一系列的坡道、弹簧和障碍物(神经元层),最终到达底部(输出)。具体来说:·前馈神经网络是最基本的神经网络类型。·信息总是朝一个方向流动,从输入层通过一个或多个隐藏层,最后到达输出层。·每一层都对前一层的输出进行一些数学运算和转换。·这个过程helps模型学习复杂的模式和特征。这两个组件在现代大语言模型中通常是这样工作的:1.自注意力机制首先处理输入,找出单词间的关系和重要性。2.然后,这个处理过的信息被送入前馈神经网络,进行更深层次的处理和特征提取。3.这两个步骤通常会重复多次,每次都在更抽象的层面上理解输入。简单来说,自注意力机制就像是一个聪明的阅读者,懂得抓住重点;而前馈神经网络则像是一个复杂的信息加工厂,能够从这些重点中提炼出更深层的含义。如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询，请添加点击左下角“阅读原文”留言，或者saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-19 10:00:00
PCIe Gen5 链路如何注入异常和故障？
在日常工作过程中，我们有时候会碰到有工程师想在PCIe链路注入一些问题，来验证接收端收到这些异常的时候是否可以可靠稳定地处理和响应。下面的视频向你详细演示介绍了业内主流公司是如何进行这类测试的，视频结尾你可以很清晰地看到我们是如何在一个好的链路上通过向CPU端注入问题从而模拟出来PCIe CE（correctable error)并且在Linux下面如何查看。我们从2020/2021开始的PCIe 5.0芯片、控制器和系统集成开发、验证这几年来发现，你不论验证CPU(RC端），还是卡/盘端（Endpoint端）的时候一般想在链路上导入下面的一些问题：模拟对端过来的信号不好这导致接收端会收到各种协议层错误，例如 code violation（不按照PCIe spec生成symbol)，bit error, CRC error等。这类需求一般较多，因为SI信号质量的的确确是PCIe 5.0的一大痛点。无论你自己这端CPU或者板卡做的再好，奈何不了对端过来的信号太差导致你的产品如果没有实现模拟过这类情况导致工作一段时间不稳定。应该具备可以调整参数，来模拟故障error 的多少，直至出现链路复位。参照下图。模拟对端由于产品设计或者虚焊导致的某些信号不稳定这类问题有的时候很难发现，尤其需要引起重视。一般情况是在链路中间控制某些信号针脚断掉，或者模拟非常快速地时断时通看对端待测产品是否稳定。这些问题很难通过使用真正的服务器主机或者板卡来模拟各种可能的问题，一般都是通过下述的这种逻辑来实现，下图是英国 Quarch公司的高速信号开关，可以控制任意Power, PCIe数据通道每个lane (TX, RX）的每一根差分信号，以及Sideband边带信号。模拟PCIe链路上某些sideband边带信号在正常工作过程中的异常操作我们之前碰到，有的卡在长时间运行过程中突然掉卡，分析后发现是由于被主机CPU端将PERST#拉低后导致控制器复位重置。所以，有的时候需要对于PCIe链路上一些常见的sideband信号进行拉高、拉低模拟测试。模拟快速掉电/上电这种一般是处于测试的需要，为了复现某些问题，需要对于PCIe插卡进行快速掉电/上电后，看 CPU能否重新扫描出device，然后继续进行测试从而最快地复现问题。模拟PCIe lane reversal反转或者lane 混乱这类模拟通常可以非常方便地通过SerialCable公司的一些套件实现，参见下图。这些套件串接在PCIe Gen5 x16插槽和板卡之间，实现lane 0~lane 15的全部反转，或者实现将lane 0~3依次和lane 4~7, 8~11, 12~15互换，上述两种情况都可以来验证，要么CPU，要么板卡控制器可以从这些混乱中可以正常协商通讯。之前也有工程师提出有没有协议层的故障注入手段呢？其实，在 PCIe Gen1/2时代是有的，从Gen3时代就没有公司开发此类产品，但是现在个别产品宣称支持该类故障注入，但是这类产品有几个大的缺陷：1）价格依附于协议分析仪，非常昂贵；2）产品单页宣传和实际使用存在较大的差异，实际使用可能直接导致系统死机、链路中断等，无法模拟现实环境中经常碰到的各种问题。从技术层面来讲，PCIe协议自从PCIe Gen3开始引入stream以后，协议分析仪很难再在链路中间导入错误或者问题。协议分析仪的 error injection的机制和实现是双向PCIe traffic必须流经其FPGA故障注入逻辑。工程师需要实现在该FPGA上设置策略，例如在endpoint -> CPU方向碰到一个特定的 packet（该packet作为触发条件），分析仪可以将这个packet的CRC改错然后再发送到对端。但是由于stream的导入，analyzer FPGA在收到一个start of stream symbol以后，必须等待end of stream symbol（无法预测一个stream到底多长，可能几十个TLP，或者几千个TLP），然后将整个stream留置在FPGA buffer，然后再来检查stream内部是否有用户定义的trigger packet，然后再来修改，最后再次生成stream，结果就是link down，因为处理时间太长，延迟太大导致link timeout。由于FPGA无法预测stream到底多长，内部含有多少TLP packet，很可能资源溢出无法处理。如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询，请添加点击左下角“阅读原文”留言，或者saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-18 15:26:48
使用SanBlaze硬件工具如何测试AI训练和推理的硬件的功能和性能指标
SANBlaze是美国一家专门提供存储和网络测试解决方案的公司，他们的设备在测试AI训练和推理硬件的功能和性能方面确实有许多应用。以下是一些使用SANBlaze设备进行AI硬件测试的具体例子：1.NVMe SSD性能测试设备：SANBlaze VirtuaLUN 场景：测试用于AI训练的高速NVMe存储性能，操作步骤：使用VirtuaLUN模拟多个NVMe主机，创建高负载环境配置不同的I/O模式（随机读写、顺序读写）和队列深度运行持续24小时的压力测试，模拟长时间AI训练过程监控IOPS、带宽和延迟指标可能发现的问题：在持续高负载下性能下降，可能指示散热或持续性能问题某些I/O模式下性能异常，可能需要优化固件或驱动2.网络适配器性能测试设备：SANBlaze Ethernet Tester 场景：测试用于分布式AI训练的高速网络适配器性能操作步骤：使用SanBlaze生成模拟NVMoF Initiator分布式训练的网络流量模式测试不同数据包大小和协议（如RDMA over Converged Ethernet, RoCE）运行长时间（如48小时）的持续性能测试监控吞吐量、延迟和数据包丢失率可能发现的问题：RDMA性能不符预期，可能需要调整网卡或交换机配置长时间运行后性能下降，可能存在固件或驱动问题3.存储系统故障注入测试设备：SANBlaze VirtuaLUN with Fault Injection 场景：测试AI系统对存储故障的恢复能力操作步骤：配置VirtuaLUN模拟训练数据集所在的存储系统,如FC SAN, iSCSI SAN, FCoE, NVMoF或者SAS存储系统在模拟的AI训练工作负载运行时注入各种故障（如延迟、丢包、断开连接）观察系统的响应和恢复能力测试不同级别的RAID或分布式存储配置可能发现的问题：某些故障情况下系统恢复时间过长数据一致性在故障后无法保证，需要改进错误恢复机制4.NVMe-oF（NVMe over Fabrics）性能测试设备：SANBlaze NVMe-oF Tester 场景：测试基于网络的NVMe存储在AI训练中的性能操作步骤：配置NVMe-oF Tester模拟远程NVMe存储测试不同网络协议（如RDMA、TCP）下的性能比较本地NVMe和NVMe-oF在AI工作负载下的性能差异分析延迟分布和带宽利用率可能发现的问题：网络延迟对AI训练性能的影响超出预期，可能需要调整缓存策略某些网络协议下性能不稳定，需要优化网络配置5.多协议存储系统测试设备：SANBlaze Multiprotocol Storage Tester 场景：测试混合存储环境（如NVMe、SAS、SATA）在AI工作负载下的性能操作步骤：使用Multiprotocol Storage Tester模拟包含不同类型存储的复杂环境运行模拟AI训练和推理的I/O模式分析不同存储类型的性能贡献和瓶颈测试存储分层和缓存策略的效果可能发现的问题：存储分层策略在AI工作负载下效率低下，需要特定优化某些存储类型成为明显瓶颈，可能需要调整系统架构这些例子展示了SANBlaze测试设备在AI训练和推理硬件测试中的多样化应用。通过这些测试，工程师可以：全面评估存储、网络和计算组件在AI工作负载下的性能和可靠性发现潜在的系统瓶颈和兼容性问题验证系统在极端条件和故障情况下的行为优化整体系统架构以提高AI训练和推理效率SANBlaze的测试设备提供了模拟复杂AI基础设施的能力，使得全面的系统级测试成为可能，这对于构建高性能、高可靠性的AI系统至关重要。如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询，请添加点击左下角“阅读原文”留言，或者saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2024-07-18 10:00:00

版权所有 © 上海森弗信息技术有限公司技术支持：竹子建站