这篇文章《读〈NAND闪存技术〉:从 Vt、disturb 到 SSD 系统约束》,里面有一句话非常值得 SSD、存储系统、硬件测试工程师反复咀嚼:很多 SSD 系统层的问题,本质上并不是从 FTL、ECC 或固件策略才开始的,而是早已埋在 NAND cell、阈值电压 Vt、隧穿氧化层、电子注入、读写扰动和 3D NAND 结构差异之中。
Seiichi Aritome 所著的 NAND Flash Memory Technologies,中文版《NAND闪存技术》,正是一本从器件底层解释 NAND 行为的书。它并不是一本 SSD 控制器开发手册,而更像一本帮助工程师理解“为什么 SSD 会有这些限制”的底层地图。书中覆盖 NAND 发展历史、cell 结构、读写擦原理、多位单元、scaling 挑战、可靠性、3D NAND 以及未来趋势等内容;作者在前言中也特别说明,这本书不仅面向 NAND 器件开发人员,也适合 NAND 用户、SSD 工程师、应用工程师、技术经理、新工程师和研究生阅读。
这也正是今天这篇文章想讨论的问题:当 NAND 已经进入 3D TLC / QLC 主流时代,尤其是 QLC 正在大量进入企业级 SSD、AI 存储、数据中心和消费级 M.2 SSD 市场时,我们如何用测试手段把 NAND 的“不可见特性”变成可测、可分析、可优化的数据?
NAND Flash 存储信息,本质上是通过 floating gate 或 charge trap 中的电荷改变 cell 的阈值电压 Vt。SLC 只需要区分 2 个状态,MLC 区分 4 个状态,TLC 区分 8 个状态,而 QLC 要区分 16 个状态。状态越多,单位容量越高,但每个状态之间的 read window margin 就越窄。
这就是为什么 QLC 容量大、成本低,但对 SSD controller、LDPC、读重试、读阈自适应、磨损均衡、数据保持和温度补偿提出更高要求。表面上看,SSD 工程师面对的是 RBER 上升、读延迟变长、读重试次数增加、性能 QoS 波动、寿命缩短;再往下看,其实是 Vt 分布在 P/E cycling、retention、read disturb、program disturb、温度变化和层间差异下发生了漂移。
换句话说,SSD 固件算法不是在管理一个理想的数字介质,而是在驯服一个持续漂移、老化、受温度影响的模拟物理系统。
过去十多年,NAND 从 SLC、MLC、TLC 走到 QLC,核心动力一直是降低 bit cost。3D NAND 又通过垂直堆叠继续提高容量密度。Aritome 书中也提到,3D NAND 的量产推动了基于 NAND 的高性能、低功耗 SSD 持续发展。
但是,QLC 的工程难度也非常现实。已有资料中总结得很直白:QLC NAND 的使用不仅出现在数据中心、云计算中心和 AI 智算中心,也会因为价格、良率和市场供需等因素进入普通 M.2 SSD;但 QLC 的 endurance、RBER 和可靠性压力,要求 SSD controller 厂商必须做更深入的 NAND 特性分析,否则容量和成本优势很容易被读写错误、性能波动和寿命问题抵消。
所以,QLC 时代真正关键的问题不是“能不能点亮 NAND”,而是:
能不能知道不同 P/E 次数后 Vt 分布如何移动? 能不能知道高温保持后 RBER 如何变化? 能不能知道 read disturb 在哪些 page、WL、layer、plane 上更明显? 能不能知道 2.4 GT/s 实速下 DQS timing margin 还剩多少? 能不能知道 P/E/read 操作的电流尖峰会不会影响 SSD 供电设计? 能不能把这些数据转化成 LDPC、read retry、media management、功耗策略和筛选策略?
这就是 NAND Characterization 的价值。
NplusT 是一家位于意大利的公司,成立于 2002 年,创始人为 Tamás Kerekes。公司长期聚焦非易失性存储测试、NAND user mode characterization、可靠性测试和 burn-in,并具备硬件、FPGA、嵌入式软件、数据库、统计分析和用户体验等研发能力。
NplusT 的 NanoCycler 被官方定义为 One Stop NAND Characterization 平台,目标是帮助高性能 SSD 和其他基于 NAND 的存储设备完成 NAND 探索、SSD 设计所需的核心数据提取,以及 NAND 器件在装配前的可靠性、功能和性能筛选。
它的价值可以概括成三句话:
第一,按真实应用速率测试 NAND。NanoCycler 支持最高 2.4 GT/s 的 at-speed characterization,让被测 NAND 在接近实际 SSD 应用的环境中运行。
第二,把错误学、功耗、时序和温度放在同一个平台里看。它支持 aging/endurance、retention、working window、RBER monitor、distribution analysis、optimal read conditions、DQS timing margin analysis、power profiling、timing characterization 等功能。
第三,用并行架构提高统计意义和测试效率。NanoCycler 每个 package 可以独立运行测试,在 test flow、温度、电压、频率等条件上互不影响;系统可从单 package 扩展到 84-site rack,多机还可级联并共享中央数据库。
如果把《NAND闪存技术》当作一本 NAND 机理地图,那么 NanoCycler 就像是一套把这些机理“落到实验数据”的工具。
书中强调多位单元需要 tight Vt distribution,因为 Vt 分布宽度直接决定 read window margin;NanoCycler 可做 distribution analysis、optimal read conditions、RBER monitor,用于分析不同状态分布、读阈选择和原始误码率变化。
书中把 P/E cycling、data retention、read disturb、program disturb、erratic over-program 等可靠性问题作为核心章节;NanoCycler 对应支持 aging/endurance、retention、disturb 相关测试和 error recovery flow trigger rates,帮助 SSD 团队将这些器件层退化机制转化为可量化指标。
书中讨论 3D NAND 带来的 RC delay、poly-Si channel、层间差异和功耗等新约束;NanoCycler 和 BarnieMAT 可以结合整页 bitmap、fail distribution per layer、topologic view of fails、Vt distribution、BER trend 等方式观察 3D NAND 在 layer、WL、page、block 维度上的差异。
这就形成了一条非常清晰的链路:
书中讲 Vt、disturb、retention、endurance、3D NAND 约束;NanoCycler 负责把这些现象测出来;BarnieMAT 负责把海量测试数据变成工程师看得懂、能决策的图。
对于 SSD controller 公司,NanoCycler 可用于 LDPC/ECC 算法优化、读阈策略、read retry 策略、media management 策略、坏块坏页筛选、QLC 适配和供应商 NAND 横向比较。
对于 SSD drive 厂商,它可用于来料评估、批次差异分析、温度/电压容限、实速接口 margin、功耗尖峰分析、失效复现和量产筛选策略制定。
对于高校和研究院所,它可以把 NAND 研究从“现象描述”推进到“可重复实验”:例如 RBER vs P/E cycle vs retention time vs temperature,层间差异、读扰模式、Vt shift、tail bit 位置追踪、3D NAND topology fail map 等。已有资料也明确指出,寿命期错误学、整页位图、0→1/1→0 错误方向分离,可以支撑 3D 层间与平面内差异、邻近耦合与读扰机制研究。
对于失效分析工程师,NanoCycler 的价值不只是“测坏了没有”,而是帮助回答:为什么坏?坏在哪个层?哪个 WL?哪个 page?是 retention 造成的,还是 disturb 造成的?是 NAND cell 本身的问题,还是接口 timing margin、供电尖峰、温度条件诱发的问题?
很多工程师谈 NAND 测试,第一反应是 BER、RBER、ECC、Vt distribution。但在现代 3D NAND 和高速 SSD 中,功耗和信号完整性同样关键。
NanoCycler 官方资料显示,它可以在每路电源上以 50 ns 采样率、1 mA 分辨率捕获功耗波形,并可统计长时间操作过程中的平均电流和峰值电流;同时,它还支持 1 ns edge placement、20 ns response time detection,以及 ps 级 DQS alignment window 信息。
这对于 SSD 硬件工程师很重要。因为 NAND 的 program、erase、read 操作会产生电流尖峰;多个 die、LUN、plane 并行操作时,尖峰可能叠加,进一步影响 PMIC、去耦、电源轨设计和整机稳定性。上传资料中也特别指出,理解 NAND timing 和 current profile 对于电源调节器设计、仿真、校准,以及避免电流尖峰对齐非常关键。
所以,一套真正有价值的 NAND Characterization 平台,不应该只看错误率,也要同时看:
RBER 怎么变; Vt 分布怎么移动; 读阈怎么选; 功耗尖峰在哪里; DQS window 还剩多少; 温度、电压、老化和并行操作会如何共同影响结果。
NAND 测试最大的难点之一,不是没有数据,而是数据太多。一个 NAND array 的数据天然带有空间结构:block、page、WL、BL、layer、plane、die、LUN。只看一串 CSV 或平均 BER,很多关键信息会被抹掉。
NplusT 的 BarnieMAT 正是为这类 array-based component 数据分析设计的软件。官方介绍中提到,BarnieMAT 可将大量测试数据转化为人脑可以理解的信息,提供图形化框架、快速 array processing、适配多级单元和 3D 结构、Python 自动化分析、API、Python library、remote control port 和 SDK 等能力。
它内置大量分析功能,包括 map-to-distribution、cell-by-cell differential map、fail count from multiple arrays、Vt average per wordline、block fail density、fail count per page、neighbor bit failure、distribution tail cell trace-back,以及 SQL-like table processing。展示能力则包括 array topologic view、2D/3D distribution、关键 cell 标记、实时分布统计和丰富图表。
在 NanoCycler + BarnieMAT 的组合里,NanoCycler 更像“显微镜 + 实验平台”,BarnieMAT 则像“数据解剖台”。前者把 NAND 的真实行为测出来,后者把这些行为以 Vt distribution、BER trend、fail map、layer distribution、read retry option analysis、power profile 等方式呈现出来。
如果你是 SSD 固件、硬件、验证、测试、失效分析工程师,或者是高校、研究院所从事存储、半导体、计算机系统研究的老师和学生,强烈建议读一读 Seiichi Aritome 的 NAND Flash Memory Technologies,或者中文版《NAND闪存技术》。
这本书最有价值的地方,不是教你某一个 SSD 算法,而是让你理解:为什么 NAND 必须按页写、按块擦;为什么 P/E cycling 会影响 retention 和 disturb;为什么 QLC 更依赖读阈优化和 ECC;为什么 3D NAND 不是简单叠层,而是引入了新的电气、工艺和可靠性约束。
读完这本书,再看 NanoCycler 这类 NAND Characterization 设备,会更容易明白:这不是一台“普通 NAND 测试仪”,而是一套把 NAND 器件物理、可靠性、SSD 算法和系统设计连接起来的研发平台。
今天的 NAND,尤其是 3D QLC NAND,已经不是“能读能写”就够了。真正的问题是:在高温、低温、老化、保持、读扰、写扰、高速接口、电源尖峰、多 die 并行和真实 SSD 工作负载下,它还能不能稳定、可预测、可管理?
这也是 NanoCycler 和 BarnieMAT 这类工具的价值所在:它们让 NAND 的 Vt、RBER、disturb、retention、endurance、timing margin、power profile 和 topology fail pattern 不再停留在论文、书本或经验判断中,而是变成可以测量、可以分析、可以指导产品决策的数据。
如果您正在从事 NAND Flash、3D NAND、QLC NAND、SSD controller、SSD 固件、LDPC/ECC、SSD 验证测试、来料筛选或失效分析相关工作,欢迎访问 saniffer.cn,或关注 Saniffer 公众号,留言交流 NanoCycler、BarnieMAT 以及 NAND Flash 特性测试解决方案。我们也欢迎高校、研究院所和企业研发中心一起探讨 NAND 测试、QLC 可靠性分析和 SSD 研发验证中的真实工程问题。
链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。