6.3.1数据获取
大数据时代的特点之一是数据开始变得廉价,即收集数据的途径多种多样,成本相对低廉。通常来说,数据获取的手段有实验测量、计算机仿真与网络数据传输等。传统的数据获取方式以文件输入/输出为主。在移动互联网时代,基于网络的多源数据交换占据主流。数据获取的挑战主要有数据格式变换和异构异质数据的获取协议两部分。数据的多样性导致不同的数据语义表述,这些差异来自不同的安全要求、不同的用户类型、不同的数据格式、不同的数据来源。
数据获取协议作为一种通用的数据获取标准,在科研领域应用比较广泛。该协议通过定义基于网络的数据获取句法,以完善数据交换机制,维护、发展和提升数据获取效率。数据获取协议以文件为基础,提供数据格式、位置和数据组织的透明度,并以纯Web化的方式与网格FTP/FTP、HTTP、SRB、开放地理空间联盟、天文学等协议兼容。
经过数年发展,第二代数据获取协议DAP2已提供了一个与领域无关的网络数据获取协议,业已成为NASA/ESE标准,最新的DAP4提供了更多的数据类型和传输功能,以适用更广泛的环境,直接满足用户要求。
6.3.2数据预处理
在解决质量问题后,通常需要对数据集进行进一步的处理操作,以符合后续数据分析步骤要求。这一类操作通常被归为数据预处理步骤。常用的预处理操作有:
(1)合并
将两个以上的属性或对象合并为一个属性或对象。合并操作的效用包括:有效简化数据;改变数据尺度;减少数据的方差。
(2)采样
采样是统计学的基本方法,也是对数据进行选择的主要手段,在对数据的初步探索和最后的数据分析环节经常被采用。统计学家实施采样操作的根本原因是获取或处理全部数据集的代价太高,或者时间开销无法接受。如果采样结果大致具备原始数据的特征,那么这个采样是具有代表性的。最简单的随机采样可以按某种分布随机从数据集中等概率地选择数据项。当某个数据项被选中后,它可以继续保留在采样对象中,也可以在后继采样过程中被剔除。在前一种模式中,同一个数据项可能被多次选中。采样也可分层次进行:先将数据全集分为多份,然后在每份中随机采样。
(3)降维
维度越高,数据集在高维空间的分布越稀疏,从而减弱了数据集的密度和距离的定义对于数据聚类和离群值检测等操作的影响。将数据属性的维度降低,有助于解决维度灾难,减少数据处理的时间和内存消耗;可以更为有效地可视化数据;降低噪声或消除无关特征等。降维是数据挖掘的核心研究内容,常规的做法有主元分析、奇异值分解、局部结构保持的LLP、ISOMAP等方法。
(4)特征子集选择
从数据集中选择部分数据属性值可以消除冗余的特征、与任务无关的特征。特征子集选择可达到降维的效果,但不破坏原始的数据属性结构。特征子集选择的方法包括:暴力枚举法、特征重要性选择、压缩感知理论的稀疏表达方法等。
(5)特征生成
特征生成可以在原始数据集基础上构建新的能反映数据集重要信息的属性。三种常用的方法是:特征抽取、将数据应用到新空间、基于特征融合与特征变换的特征构造。
(6)离散化与二值化
将数据集根据其分布划分为若干个子类,形成对数据集的离散表达,称为离散化。将数据值映射为二值区间,是数据处理中的常见做法。将数据区间映射到[0,1]区间的方法称为归一化。属性变换将某个属性的所有可能值一一映射到另一个空间的做法称为属性变换,如指数变换、取绝对值等。标准化与归一化是两类特殊的属性变换,其中标准化将数据区间变换到某个统一的区间范围,归一化则变换到[0,1]区间。

