
今天跟大家聊一下存储行业的一个新风口,叫第二存储,英文名为CDM,Copy Data Management。其实这就是对备份数据的管理。是FileStorm应用推广的三大方向之一。如果把应用数据的存储叫做主存储的话,备份数据就是第二存储。主数据因为要被经常用到,所以叫热数据。而备份数据不常用到,所以又叫冷数据。
冷数据备份在存储行业里面是最便宜的。比如亚马逊的两个存储服务。S3存储热数据,价格为每月每TB大概15美金,而亚马逊的Glacier冰川服务,顾名思义就知道是存冷数据,价格只有S3的1/10,可是亚马逊的冷数据备份基本上是零服务。公司数据系统管理员定期把热数据备份,这是一份费力不讨好的活儿。做好了没人知道,没做好,一旦需要使用备份文件还原不了,就是巨大的失职。实际上绝大部分的公司需要使用灾备数据的时候,能成功恢复的数据量很低,造成巨大的经济损失。所以,现在越来越多的公司会有意识的花钱去做好数据备份,并且购买备份服务。
也就是在这样的情况下,第二存储行业应运而生。去年美国在这个领域出现了三家独角兽公司:Cohercity,Actifio和Rubrick。根据国际数据组织IDC给出的数据,2018年数据存储的花费高达500亿美金。说明这个行业一片欣欣向荣。

根据对上面三家公司业务的分析,我们可以得出第二存储有下面的一些特点:
-
以分布式文件系统为基础来支撑PB级别的数据保存规模。这和大家知道的公有云以对象存储为基础,支撑ZB级规模还是不同。说明在现阶段在企业里面,文件系统还是比对象存储使用更广泛。
-
第二存储是scale-out的,一旦进入,这个客户就永远是你的,因为数据量太大,迁移的代价太高。因此,第二存储是一个比主存储更具有格局的产品。
-
由于定位是备份数据管理,因此,基本上都支持如下功能:
- 重删压缩,快照克隆
- 数据洞察,全局搜索
- 自动化和SLA策略驱动
- 支持私有云和公有云
- 大部分要求专用的存储设备形态,叫备份一体机,但也支持纯软件。部署的方式同时支持线下或者线上部署。
第二存储相对主存储来说更容易切入。但其实第二存储的技术门槛不低,尤其是在效率和自动化方面。在数据管理方面,除了备份和恢复的核心功能,还需要提供更多的服务。
为什么我们认为第二数据存储会是基于区块链实现的分布式存储领域的一个突破口呢?原因有如下几点:
- 分布式存储具备有天然的抗灾害能力。因为数据是分散存在全球各地,所以不会因为某一个地区的天灾而造成数据的丢失。
- 好的冷数据备份一定是用特殊的存储设备,如果以中心化的模式由一家采购所有的设备,就会是一个重资产投资,通过区块链实现加盟模式,可以把资金需求扩散。
- 数据对企业和对个人都很重要。数据的安全性和可用性是企业对存储的首要需求。相比热数据,企业更愿意将冷数据放到分布式存储这样的新兴平台上。冷数据处理好了,企业就会更愿意去尝试分布式存储在数据的快速传播方面的优势。

FileStorm在冷数据备份方面有哪些动作呢?首先在商业推广方面把这个做成我们主要的一个发展方向。并且不断开发数据快速备份和恢复的服务。现在跟我们在谈的项目涵盖有有行车记录仪数据,小区监控视频数据,以及分布式数据库备份数据。
第二,FileStorm不断与世界顶级硬件厂商合作,协助开发适合第二存储的硬件设备。近期的合作包括跟硬盘厂商希捷,芯片厂商英特尔等。
第三,FileStorm还将在大数据分析领域不断投入研发人力和物力,将零知识验证理论商业化,实现分布式数据分析,利用机器学习和深度学习等多种方式,把冷数据中埋藏的商业宝藏挖掘出来。
网友评论