随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。根据国际数据公司IDC发布的研究报告,2011年全球创建和复制的数据总量为1.8 ZB(约1.8万亿GB),预计全球数据量大约每2年翻一番,到2020年全球将达到35 ZB的数据信息量。近年来,大数据已经成为科技界和企业界关注的热点。2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。数据已经从简单的处理对象开始转变为一种基础性资源。
在国内,2012年中国计算机学会大数据专家委员会发布的《大数据热点问题和2013年发展趋势分析》提出了数据资源化的概念,指出数据将在企业、社会和国家层面成为重要的战略资源,信息技术的重心将由“T”(技术)切换到“I”(信息):应该通过建立数据共享联盟,开放数据,形成数据共享网络,以打破行业内数据事权限制,让数据可以重复使用,自由架构,支持利用数据进行创新。谷歌地球就是数据资源化的典型案例,基于空间信息将各类数据进行整合,并以服务的形式将数据提供给社会大众。目前数据资源化的成功案例还局限于谷歌等大型互联网公司内,然而,作为发展的大趋势,数据资源化将逐步扩展至国民经济的各个领域。但是,作为关系国计民生的水利行业,数据采用多点采集、分散处理和分布存储的方式,且使用往往与具体的水利应用相关联,因而具备类型杂、多事权等特性,形成信息孤岛,限制了数据的深层共享和可持续利用,制约了数据资源化的进程。
本节从水利大数据资源化的本质出发,总结多年来水利信息化实践经验,在介绍大数据基本概念的基础上,首先阐述水利大数据资源化之路,接着给出水利的数据资源化的技术路线,最后剖析资源化过程中的关键技术。

