闪存系统性能优化方向集锦?AC timing? Cache? 多路并发?
创始人
2024-06-03 07:25:00
0

1. 从Flash系统的性能提升说起

从消费级产品到数据中心企业级场景,NAND Flash凭借其高性能、大容量、低功耗以及低成本等特性大受欢迎,是目前应用最为广泛的半导体非易失存储介质。为了满足业务场景越来越严苛的性能要求,人们想了许多方法来提升基于NAND Flash的系统性能,具体可分为以下几类:

图一 Flash系统性能提升概览

  1. 优化AC Timing,提升总线频率

优化AC Timing 和提升总线频率是两个东西, 不是说优化AC Timing 会提升总线频率。优化AC Timing 是。优化总线频率可以减少数据在总线上的传输时间,频率越高,单位时间内传输的数据量越多。

1.1 优化AC Timing

在满足可靠传输的基础上,提升NAND Flash总线频率,尽可能使用较小的时序参数进行操作。特别是在Page Size越来越大(2K 4K 8K 16KB)的情况下,优化时序参数从而减小数据在总线上的传输时间显得尤为重要,这也是过去二十多年来人们一直在持续努力的方向。

优化NAND AC timing 是改善闪存的内因,AC timing 是性能的根本决定因素。我们都知道SLC NAND 比 MLC NAND 快, MLC NAND 比TLC NAND 快,其中就是他们的AC Timing 差异。姚明打篮球,可以轻松抢篮板,首先根本因素是他的身高优势,其他的训练技巧是锦上添花。

NAND 本身的AC timing,有些是NAND 控制的时间, 如tRead, tPROG 作为使用者是无法修改的, 这不是闪存系统优化考虑的事情,这种事情交给原厂下一个产品优化吧。有写AC timing 是系统上层控制的, 如tWC, tRC。 对于任何一款已量产NAND, 我们看它的data sheet, 它的AC Timing 都有 Min 值, Ave 值, Max 值。 之所以有一个min ~ max 范围, 主要是物理时序总会有一个差异性,正态分布,不可能是同一个值。闪存器件允许 host 的值有一定区间, 是为了兼容更多的闪存主机系统。

作为闪存系统或者闪存控制器, 为了提高性能, 最取巧的方式就是使用min的AC timing

优化NAND AC timing ,可给闪存带来显著的性能提升。

  • 这种优化方式是最简单的, 成本最小的,尤其是还没有做过此优化的闪存系统而言, 只需要改下闪存控制系统的记时、记数设定,可能就完成这个优化了

  • 可以显著减少总的闪存操作(如Read, Write)时间.

  • 为交叉操作(Interleave)优化打下了基础

当Page Size 从2KB, 4KB增大到 16KB ,越来越大的时候, 这个就更明显。

尤其时对于Read 操作特别明下, 因为Read 操作数据传输时间比Read Busy tR 更长。

下面看下AC timing 优化的实际效果, 以tWC 为例。

对于一款NAND, 原来tWC min 是20ns, 如果闪存主控的tWC 设置没有用 min 值, 用了更大的值, 会对性能影响多大呢? 通过对大量闪存主控实验可得出下面结果。

说明:

tWC 从 20ns增长25ns, 4KB data 传入到 NAND page 103ns,SLC program 总的耗时增加了 7%, TLC program 耗时增加了 2%。

tWC 从 20ns增长30ns, 4KB data 传入到 NAND page 123ns,SLC program 总的耗时增加了 14%, TLC program 耗时增加了 4%。这个实验做的次数最多, 用了 3 款主控做实验。

tWC 从 20ns增长45ns, 4KB data 传入到 NAND page 185ns,SLC program 总的耗时增加了 35%, TLC program 耗时增加了 10%。

很明显, tWC 变大,增加了数据从主控传入NAND 的时间, 继而导致Program总的时间增加。给我们的启发就是, 在超过tWC 的min 范围内, 主控尽量使用较小的 tWC。

对于其他AC Timing 也是这个道理。可能你会觉得有的值本来就很小, 觉得没必要优化, 其实不然,只要这个AC timing 在读写中经常出现, 就不应被忽略, 应优化尽优化。

雪崩的时候, 没有一片雪花是无辜的

1.2 优化总线频率

减小数据在总线上的传输时间还有一个方向是提高IO总线频率。频率就是带宽, 家里用上网对带宽感受特别明显,百兆带宽升级到千兆带宽,那滋味可美了不是吗?

对于闪存IO总线,比如总线接口速率为200Mbps (100MHz)时,完成4KB数据传输需要大约40us,但将总线接口速率提升到1600Mbps (800MHz)时,完成4KB数据传输仅需要大约5us。国产SSD 致钛7100 各项评测跑分都超过三星之流,得益于它的闪存 2400Mbps 频率。

2. 使用Cache Read/Program

一般情况下,LUN(Logic Unit Number)是NAND Flash最小的逻辑操作单元,读/写操作是串行执行的,即一个读/写命令完成后,才能进行下一个读/写操作。Cache Read/Program允许用户在NAND Flash Array Busy时,同时在总线上进行读/写数据传输,从而提高流水效率。

图 Cache Read 性能比较[6]

可提升33%的读性能。

图 Cache Program 性能比较[6]

可提升9%的写入性能。

3. 多路并发技术

正是因为有了多路并发技术,才使得基于NAND Flash的固态存储产品能达到GB级别的读/写性能。

3.1多平面(Multi Plane)操作

因为一个Die里有多个plane, 每个Plane 有独立的Cache 缓冲区和 Data 缓冲区,允许用户并发读/写Die内的不同Plane。

实现原理和细节参考:

[深入理解SSD系列 闪存实战2.1.6] NAND FLASH 多平面读(Multi Plane Read)时序及原理_闪存交错读时序(Interleave Read)_元存储的博客-CSDN博客

[深入理解SSD系列 闪存实战2.1.8] NAND FLASH Multi Plane Program(写)操作_multi plane 为何能提高闪存速度_元存储的博客-CSDN博客

3.2 通道内交错(Interleave)并发

允许用户在满足一定约束的情况下,在通道内的不同CE或CE内的不同Die之间进行交织操作

3.3多通道(channel)同时并发

允许用户在不同的通道上并发执行独立的命令和数据操作;

图. 双通道配置示例

两个通道可以同时传输数据和读写NAND, 速度是通道数目的倍数。一般在SSD 中有 2 channel、4 Channle、8 Channel,以4 Channle较常见。通道数目越多, 越可以达到 PCIE 总线的极限速度。

可见,以上优化覆盖了NAND Flash基础时序/指令优化到系统级的综合优化,在实际应用中可以根据系统要求组合选用。

参考

  1. 必看“芯”知识 | NAND Flash接口的演进史,https://www.unionmem.com/news_detail-107-56.html

  1. ONFI spec:http://www.onfi.org/specifications

  1. 2022, Phison, NAND Flash 101: Flash Device Interfaces:https://phisonblog.com/nand-flash-101-flash-device-interfaces-2/

  1. 2021, 移动NAND闪存存储的演进: https://phisonblog.com/the-evolution-of-mobile-nand-flash-memory-storage-2/

  1. 芯片中的数学——均衡器EQ和它在高速外部总线中的应用:https://zhuanlan.zhihu.com/p/48343011

  1. Micron, Optimizing NAND Flash Performance 2008, https://www.docin.com/p-232060088.html

相关内容

热门资讯

122.(leaflet篇)l... 听老人家说:多看美女会长寿 地图之家总目录(订阅之前建议先查看该博客) 文章末尾处提供保证可运行...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
Vue使用pdf-lib为文件... 之前也写过两篇预览pdf的,但是没有加水印,这是链接:Vu...
PyQt5数据库开发1 4.1... 文章目录 前言 步骤/方法 1 使用windows身份登录 2 启用混合登录模式 3 允许远程连接服...
Android studio ... 解决 Android studio 出现“The emulator process for AVD ...
Linux基础命令大全(上) ♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维...
再谈解决“因为文件包含病毒或潜... 前面出了一篇博文专门来解决“因为文件包含病毒或潜在的垃圾软件”的问题,其中第二种方法有...
南京邮电大学通达学院2023c... 题目展示 一.问题描述 实验题目1 定义一个学生类,其中包括如下内容: (1)私有数据成员 ①年龄 ...
PageObject 六大原则 PageObject六大原则: 1.封装服务的方法 2.不要暴露页面的细节 3.通过r...
【Linux网络编程】01:S... Socket多进程 OVERVIEWSocket多进程1.Server2.Client3.bug&...
数据结构刷题(二十五):122... 1.122. 买卖股票的最佳时机 II思路:贪心。把利润分解为每天为单位的维度,然后收...
浏览器事件循环 事件循环 浏览器的进程模型 何为进程? 程序运行需要有它自己专属的内存空间࿰...
8个免费图片/照片压缩工具帮您... 继续查看一些最好的图像压缩工具,以提升用户体验和存储空间以及网站使用支持。 无数图像压...
计算机二级Python备考(2... 目录  一、选择题 1.在Python语言中: 2.知识点 二、基本操作题 1. j...
端电压 相电压 线电压 记得刚接触矢量控制的时候,拿到板子,就赶紧去测各种波形,结...
如何使用Python检测和识别... 车牌检测与识别技术用途广泛,可以用于道路系统、无票停车场、车辆门禁等。这项技术结合了计...
带环链表详解 目录 一、什么是环形链表 二、判断是否为环形链表 2.1 具体题目 2.2 具体思路 2.3 思路的...
【C语言进阶:刨根究底字符串函... 本节重点内容: 深入理解strcpy函数的使用学会strcpy函数的模拟实现⚡strc...
Django web开发(一)... 文章目录前端开发1.快速开发网站2.标签2.1 编码2.2 title2.3 标题2.4 div和s...