人们通常会有一个错觉:在主存储系统里使用重复数据删除技术还太过超前,应用起来仍然有相当的风险。他们担忧的是:重复数据删除技术不能完整地操控数据,这对于整个系统性能有负面影响,而且使得一部分数据处于危险状态。
大多数重复数据删除解决方案可以修改数据,但是另一小部分则没有此功能。现在可用解决方案是系统快照,而与之相似的功能将在现代存储系统中应用。在这种方法情况下,主存储的重复数据删除并不影响性能,而且和快照技术一样安全。
当重复数据删除只是应用在备份空间,那么使用者不太会关心它是如何工作的,毕竟,这只是一份数据的副本。现在,重复数据删除正在“争上游”,应用于初级(非备份)的存储系统,因此它受到越来越多的关注。可以理解的是,在某些情况下,原始数据是唯一的副本,对于涉及这些数据的相关进程均有风险。但是,如果主存储器的重复数据删除技术基于相似的存储基础,且应用文件系统和快照管理,风险是不会比快照大的。这一基本存储单元被称为“限度”。
限度和限度管理
限度的定义是“一个或多个文件系统内相邻的区块,作为地址和长度的配对,以确定起始块地址以及限度的长度”[VxFS管理指南]提出。每个文件(和数据集)都是由限度描述的数据块集合而成的,限度管理可以确保读取、修改、保存或重读每一个文件或文件集。事实上,限度管理是文件系统和存储控制器每天工作的一个重要部分。
限度管理中,文件系统和存储控制器有一个良好的跟踪记录。文件系统和存储控制器管理的程度有一个良好的跟踪记录。两者都相当稳定,实际上,即使在最简单的电脑系统、操作系统、文件系统或存储控制器中,这个在后台里极其复杂的过程都被看成是理所当然的。在CPU、内存和I/O盛行的今天,存储系统不仅仅是管理元数据及对基本文件操作。例如快照,其涉及另一个用于文件系统和存储控制器的管理程度的抽象层。
快照
快照已成为一个非常普遍的应用,主要用来创建一个简单的记录,而不是对实际的数据进行复制。快照被广泛应用的原因有二:首先,它不需要很多的存储空间,速度更快;其次,它起的作用也是有目共睹的。快照提供数据复制的功能,同时也保存着原始备份。当一个数据被修改或删除,原始数据块也不能幸免,使用了快照可以将数据在一个磁盘快照保留区保存,快照提供了一个副本可以重新组装数据集。
快照是一个很好的应用例子,使用快照的用户们很信任地将数据交给限度管理。一个带有很多快照的大型文件也许有数以百计的限度,这表示原始数据块已被更改,不过它可以通过快照恢复到错误发生之前的数据。另一个例子,快照改变基础响应一系列的数据块,将它放在其他位置。用户们都对它很有信心。
重复数据删除
通过利用限度,重复数据删除现在可以以类似于快照的方式被添加到主存储系统。这也是一系列关于数据块和元数据查询系统,这个块在用户需要应用时,将重新组织数据的信息传给存储系统。快照在使用限度时可能出现已经被写入的数据,重复数据删除则不会。
像有些厂商的技术为防止任何性能影响,处理正常数据以外的数据存储流量。被称为“咨询服务”这一数据简化架构,用户首次可以通过检查自己的哈希表(更多元数据)来搜索是否有数据录入。如果它找到一个重复的部分,他会通知文件系统有可重复数据删除的文件,然后让该文件系统参考现有的数据块,决定是否删除。
对于重复数据删除技术的阅读,和快照一样,它扩展到映射用户到正确的数据段链,及时这些环节可能被其他文件共享。重要的是要注意此方法的数据并不是“重新水合”(重复数据删除过程相反),因为这样做会影响性能。相反,像快照一样利用限度树将数据映射到一起,这样结果是不会对性能造成影响。
可写快照/克隆
每一个重复数据删除文件不包括它自己“专用”的数据块,而现在还有另一个已经投入使用的主数据集技术。克隆,又被称为可写快照,使用共享数据块创建一个新的“原始”文件夹。和简单的快照不同,可写快照并不保持与副本或是原始数据模块的链接。比如一个新文件首先被写入到存储系统中,可写快照本身是唯一的副本,它可以定义为对一个现有的数据快进行单块限度的管理。
限度管理可以是一个复杂的过程,特别是在它快照和复制的应用上。但是它已经被几乎所有的存储平台和供应商证明,使用起来非常可靠。这些复杂的数据管理功能,预计将应用在任何规格大小的存储系统中。用户所需求的这些特点中,大部分系统都利用限度管理提供。
近十年来,重复数据删除技术已经被广泛使用。它已经成为主流备份数据,而现在,它将在主存储领域中应用得更加普遍。它利用限度管理,以一个类似快照或者更改基础复制的方式来实施,已经解决了将近20年。然而,在主存储上,在保持数据的完整性方面,重复删除数据仍然有上升的能力和空间。基于这些和其他相似之处,重复数据删除技术是值得信赖的,像这些厂商重复数据删除技术可以提供安全、可靠的初级存储(非备份)数据,而且这样做没有任何性能损失。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。