Gibson表示,为了尽量避免性能降级,一些RAID系统大大降低了对磁盘故障的恢复速率,而这导致数据丢失几率大幅度增加。
一个解决方案——90年代率先提出——就是校验散布(Parity Declustering)。
Gibson解释说,这项技术将一个本地运行的控制器和一些磁盘组成的RAID转变成为一个所有控制器和磁盘在存储池中采用并行算法的RAID。
通过池中数十到上百个独立磁盘阵列,校验散布技术可以让恢复时间提升数十到上百倍。而且,它还加快了运行速度,这样恢复流程给每个磁盘上正在运行的用户负载造成的影响就越来越小。
奇偶散布在RAID存储产品中很少见,但是Panasas并行文件系统提供了这项技术。有趣的是,谷歌Google File System中也提供了奇偶散布。
但是磁盘容量增长存在另外一个问题:不可读的扇区。磁盘的搭建是遵循一定规范的。其中之一就是不能太频繁地出现不可读的扇区——通常每10~100TB读取数据不能出现多于一个的不可读扇区。然而,随着磁盘容量增长,恢复过程中将有更多扇区被读取,出现多于一个不可读扇区的几率也开始增加。
Gibson表示:“通常在阵列中,如果磁盘故障恢复过程中丢失太多扇区,那么恢复将失败,整个卷变成离线状态,甚至可能丢失。”
一个可行的解决方案就是让冗余编码更强大,更加针对那些常用的故障——例如不可读磁盘扇区。
例如,RAID 6可以会遇到有两个故障磁盘,或者一个故障磁盘和一个不可读扇区。对这两个故障磁盘进行恢复的过程中肯定会出现不可读扇区。
抵消这种磁盘故障的方法之一就是向每个磁盘增加一个代码层,这样不可读取的扇区就能在本地恢复,而无需使用RAID系统。
Gibson表示,Panasas将其称之为垂直奇偶。采用垂直奇偶技术可以让RAID 5在出现不可读扇区的情况下恢复故障磁盘,让RAID 6恢复两个故障磁盘,使用这种方法是有必要的。
未来,磁盘和系统容量将越来越高,这将更加强调故障恢复。但是RAID可以升级解决所有这些问题。RAID的未来将依托于针对特定故障实例的代码、丢失数据重建过程中更多的并行技术和负载均衡。
来源:ZDnet
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。