双韧性 重复数据删除技术用还是不用

  重复数据删除技术并不是什么新鲜的技术,ZFS系统拥有重复数据删除功能已经有一段时间了,并且这项技术也可用于Linux平台下的Btrfs。同样值得考虑的是Opendedup,通过SDFS实现的重复数据删除功能在Windows和Linux上均可使用。

  对于重复数据删除技术理解理解起来非常简单,它本身是一项技术,可以允许在您的硬盘驱动器上只存储一份重复数据。从而节省了空间和潜在的超速文件写入。本质上说,它是单实例存储。重复数据删除可以在文件级、块级或字节级里运行并起作用。文件和数据块级是最常见的。

  速度支持

  这是可以做到同步(如写入发生)或异步的(作为一个在安静的时间预定作业。)

  同步重复数据删除需要消耗大量CPU运算能力。这么大的能耗使得高端文件服务器厂商总是吵着要用最快的Xeon处理器,并推动与研究利用GPGPU技术。

  这很容易想到原因,试着把一个5GB的文件压缩成Zip包所需要的时间。进而再把你的硬盘驱动器想象成一个0.5PB级的压缩包,而你需要10 Gb/s的读写速度。突发事件的处理能力非常重要。

  尽管这样,重复数据删除技术仍是一项关键技术。存储的需求不仅仅体现在对容量的需求迫切。更重要的是,当硬盘的容量增加了两倍的时候,网络I / O和磁盘速度并没有提高。

  这对于Raid重建时间和备份来说是存在巨大的潜在的灾难性。重复数据删除可以减少信息RAID或备份的数量,从而帮助以确保这些过程都发生在与业务需求相兼容的时限内。

  高风险业务

  这是假设你正在备份,重复数据删除技术会对完整的文件在数据块级别进行删除,并对这个事件的利弊都充分考虑一下吧。

  只对重删技术处理过的数据块进行备份,这就意味着更小的备份空间、更少的带宽,并且已备份的数据将不会再进行重复备份。但在另一方面,其明显减缓了恢复时间,并与整个备份介质联系在一起,不可分割。

  大多数人不会对进行重删之后删除的数据块进行备份,这对企业来说,存在很大的风险。备份介质出现一丝毫的损坏,那么整个备份介质上的数据都无法恢复。这就意味着企业需要很多的预算来保证带宽以每天都对未进行重删的数据进行备份。

  同时,你还必须考虑对未进行重删的数据进行备份所需要的存储I/O带宽,而不是存储在磁盘上所需的容量大小。磁盘上的数据量每天可能只增加了几十GB,而总存储I/O则迫使存储系统需要用几十TB的增加。

  注意跨度

  随着存储需求和供应之间的差距越来越大,重复数据删除技术将变得日益重要。但这并不会减少对网络带宽的需求,并还增加了额外的运算能力需求。

  我所期望的文件管理器,需要有两个高端的Xeon处理器和万兆以太网,并需要两个万兆以太网端口,以为提供MPIO(多路径IO管理)。

  文件管理器大小取决于其必须具备满足峰值需求的能力,必须支持快照、之前版本和其他一些有趣的功能,对于下一代存储所需要什么样的性能时,很头疼。但无论困难与否,必须花时间来研究。存储的成本和随之而来的网络带宽成本将会越来越高,我们当中很少有人能承担其突发错误后的代价。