存储分级策略：襄助海量数据的价值挖掘（下）_行业资讯_计算头条_中国计算网——工业互联网一站式服务平台—

　　保持数据的动态调整

　　根据Paquet的研究，虽然用户希望能够随时随地访问数据，但是80%的非结构化数据在90天以后就不再被访问。

　　分级对于降低成本是非常关键的。因为分级不仅仅意味着根据存储类型来进行(比如最重要的数据放在SSD上，而80%的非结构化数据放在磁带上)，还要有一些位于二者之间的分级选项。Paquet建议如果数据不再使用，则应该移到低级别的存储上。

　　“慢速的存储意味着较低的能耗。我们要找到更有效、更有管理性和更具逻辑性的工作方式。”Paquet说。

　　然而，梳理应用并归档那些最不常用的信息正变得越来越复杂，尤其是当自动分级技术会假定所有数据都是关键性的时。

　　而且，一位要求匿名的IT总监(来自于一家主流电器制造商)表示：“归档过程经常中断。我们通常会对数月长度的数据进行归档，如果软件故障导致了中断，我们不得不解决问题然后再把更长时间段的数据归档。”

　　删除重复数据以达成更佳控制

　　虽然归档方案不断的在改进，专家认为重复数据删除已经成为降低数据规模的标准思路。重复数据删除可以删去数据拷贝并对文本进行优化。音频和视频文件通常不能很好地进行重复数据删除，因为比如MP3和MP4文件等已经是经过压缩的。

　　在科罗拉多公共安全署，Richey采用CommVault Systems Inc的Simpana产品来存储和归档超过40TB的数据，其中包括DNA记录和犯罪档案：“州警方就生成了7TB的数据，通过Simpana的重复数据删除服务，数据规模被压缩到了原来的60%。”

　　“我们的数据在持续增长。我们是否汇集了过多数据？划分粒度是否太细？如何才能防止粒度过细？现在，我有三个正式成员全天专注在数据采集和报告生成的工作上。”Richey说。