本文介绍的研究论文《Remap-SSD: Safely and Efficiently Exploiting SSD Address Remapping to Eliminate Duplicate Writes》由You Zhou、Qiulin Wu、Fei Wu(华中科技大学)、Hong Jiang(德克萨斯大学阿灵顿分校)、Jian Zhou和Changsheng Xie(华中科技大学)共同撰写,发表于2021年2月23日至25日举行的第19届USENIX文件与存储技术会议(FAST ‘21)。该研究旨在解决固态硬盘(SSD)中重复写入问题,提出了一种名为Remap-SSD的新型SSD设计,通过利用SSD地址重映射功能,显著提升SSD的性能和寿命。
在现代存储系统中,重复写入(Duplicate Writes)是一个普遍存在的问题,主要源于数据重复、日志记录(Journaling)和数据重定位等操作。随着基于NAND闪存的SSD广泛应用,这些重复写入会显著降低SSD的性能和寿命。尽管已有研究提出了利用SSD内部地址重映射功能来消除重复写入的创新方法,但这些方法存在一个关键问题:重映射操作会导致映射不一致性(Mapping Inconsistency),可能引发数据丢失。现有研究未能有效解决这一问题。
Remap-SSD的设计目标是通过提供一种安全且高效的方式,利用SSD地址重映射功能来减少重复写入。具体而言,Remap-SSD具有两个显著特点: 1. 重映射原语(Remap Primitive):允许主机软件和SSD固件以几乎零成本执行重复数据的逻辑写入。 2. 混合存储架构:采用小容量字节可寻址的非易失性内存(NVRAM)以日志结构方式持久化重映射元数据,并与闪存协同管理。
Remap-SSD的设计流程包括以下几个关键步骤: 1. 重映射原语的实现:Remap-SSD在固件层面提供了一个重映射原语,主机软件可以通过该原语执行数据页的复制或重定位操作,而无需进行实际的闪存写入。该原语的格式为remap(tgtlpn, srclpn, length, remapflag)
,其中tgtlpn
和srclpn
分别表示目标逻辑页号和源逻辑页号,length
表示重映射的长度,remapflag
表示是否在重映射后使源逻辑页失效。 2. 混合存储架构的设计:Remap-SSD采用了闪存和NVRAM的混合存储架构。闪存用于存储数据页,而NVRAM用于存储重映射元数据(RMM)。每当一个逻辑页被重映射时,相关的RMM条目会被写入NVRAM,以确保映射一致性。 3. 垃圾回收(GC)与电源故障恢复:Remap-SSD通过协同管理闪存和NVRAM来实现高效的垃圾回收和电源故障恢复。在GC操作中,SSD会选择包含最多无效页的超级块(Superblock)作为目标,并将有效数据页迁移到新的超级块中。在电源故障恢复过程中,SSD会通过扫描闪存和NVRAM中的元数据来恢复最新的逻辑到物理(L2P)映射表。
通过三个案例研究(SSD内部去重、SQLite日志记录和F2FS清理),研究团队验证了Remap-SSD的有效性。实验结果表明,Remap-SSD能够充分发挥地址重映射的潜力,显著提升SSD的性能和寿命。具体而言: 1. 性能提升:在去重场景中,Remap-SSD的性能比不进行去重的SSD提升了1.5到8.2倍。 2. 写入放大(Write Amplification)降低:Remap-SSD的写入放大率显著降低,尤其是在高重复数据比例的情况下,写入放大率降低了40.5%到80.4%。 3. 映射一致性保障:Remap-SSD通过NVRAM存储重映射元数据,确保了映射一致性,避免了数据丢失问题。
Remap-SSD的研究具有重要的科学和应用价值: 1. 科学价值:该研究首次提出了一种能够安全且高效利用SSD地址重映射功能的设计方案,解决了现有研究中未能有效处理的映射不一致性问题。 2. 应用价值:Remap-SSD的设计可以广泛应用于各种存储系统,特别是在需要频繁进行数据去重、日志记录和数据重定位的场景中,能够显著提升SSD的性能和寿命。
Remap-SSD通过引入重映射原语和混合存储架构,提供了一种安全、高效且可扩展的解决方案,能够充分利用SSD地址重映射功能来减少重复写入,从而显著提升SSD的性能和寿命。该研究为未来SSD设计提供了新的思路,具有广泛的应用前景。