存储分级策略:襄助海量数据的价值挖掘(下)

  保持数据的动态调整

  根据Paquet的研究,虽然用户希望能够随时随地访问数据,但是80%的非结构化数据在90天以后就不再被访问。

  分级对于降低成本是非常关键的。因为分级不仅仅意味着根据存储类型来进行(比如最重要的数据放在SSD上,而80%的非结构化数据放在磁带上),还要有一些位于二者之间的分级选项。Paquet建议如果数据不再使用,则应该移到低级别的存储上。

  “慢速的存储意味着较低的能耗。我们要找到更有效、更有管理性和更具逻辑性的工作方式。”Paquet说。

  然而,梳理应用并归档那些最不常用的信息正变得越来越复杂,尤其是当自动分级技术会假定所有数据都是关键性的时。

  而且,一位要求匿名的IT总监(来自于一家主流电器制造商)表示:“归档过程经常中断。我们通常会对数月长度的数据进行归档,如果软件故障导致了中断,我们不得不解决问题然后再把更长时间段的数据归档。”

  删除重复数据以达成更佳控制

  虽然归档方案不断的在改进,专家认为重复数据删除已经成为降低数据规模的标准思路。重复数据删除可以删去数据拷贝并对文本进行优化。音频和视频文件通常不能很好地进行重复数据删除,因为比如MP3和MP4文件等已经是经过压缩的。

  在科罗拉多公共安全署,Richey采用CommVault Systems Inc的Simpana产品来存储和归档超过40TB的数据,其中包括DNA记录和犯罪档案:“州警方就生成了7TB的数据,通过Simpana的重复数据删除服务,数据规模被压缩到了原来的60%。”

  “我们的数据在持续增长。我们是否汇集了过多数据?划分粒度是否太细?如何才能防止粒度过细?现在,我有三个正式成员全天专注在数据采集和报告生成的工作上。”Richey说。