主要知识点:
1.金融大数据的质量问题
数据的准确性问题,导致不正确的数据有较多原因,如测量数据时出现的误差,数据输入时的错误等。
数据的完整性问题,不完整的数据是我们在收集数据时经常碰到的问题,其原因可能由多种,比如有些属性(如收入)收集较为困难,数据输入时的遗漏等。
数据的一致性问题其可能的原因可能是存在多个数据源,同样的数据的取值记录不同导致的不一致性等。
2.噪声和离群点
噪声是测量误差的随机部分,通常涉及值被扭曲或者加入了谬误的对象,比如金融时间序列里经常存在的随机噪声;而离群点是在某种意义上具有不同于数据集中其他大部分数据对象特征的数据对象,或者相对于该属性的典型值来说不寻常的属性值。比如对一个客户的消费记录进行数据收集,他通常的消费金额为1000元左右,突然出现一个10000元的消费,这就是离群点。
3.金融大数据预处理的主要任务和方法
数据清洗任务,数据清洗主要包括对不准确(噪声和异常点)、不完整(包含缺失值)、不相关、重复数据或格式错误的数据进行删除或修正处理。针对噪声问题,可以通过“光滑”(smoothing)处理去“光滑”数据,去掉噪声,通常采用的方法有两种,一种是回归分析(regression),即用一个函数拟合数据来达到“光滑”数据的目的,可以构建线性回归或者多元线性回归技术进行数据拟合,通过其他属性来预测一个属性的办法实现去噪目的;另一种是分箱(binning)技术,即通过考察数据中的“近邻”(即周围的值)来光滑有序数据值。针对离群点问题,一般采取聚类(clustering)的方法来进行数据清洗。针对缺失值问题,考虑到不同的缺失情况有不同的处理方式。假如面对的缺失值情况是缺失率较高且重要程度较低时,可以采用较为简单的删除策略,即删除含有缺失值的相应属性或者数据对象,不会对结果造成太大影响;当面对的缺失值情况是缺失率较少时,可以采用估计缺失值策略,此时当缺失值的重要程度较低时,可以采取简单有效的插值法,如采用均值、中位数等方法进行填补,当缺失值的重要程度较高时,可以采取建模技术,如采用回归技术等利用数据集其他属性对该缺失值进行预测。
数据集成任务,通过综合各数据源,将拥有不同结构、不同属性的数据整合归纳在一起,增强数据的准确性、一致性和可理解性,保证数据的高质量。第一个问题,不同数据源中的数据类型和格式可能不同,如对于同一个客户Blake,在不同数据源中的存储方式不同;第二个问题,数据的含义不同,比如对工资的记录,在不同数据源里,可能都采用“payment”字段,但有的数据源的含义可能是税前薪水,而有的是税后薪水,存在不匹配问题;第三个问题,数据的冗余性问题,例如对同一个客户,有多个邮件地址,导致不一致问题。那么针对这些问题,我们应该采取哪些相应的数据集成技术呢?针对第一个和第二个问题,可以在明确数据含义、形式和结构的基础上(如构建字段格式定义表)进行数据映射和语义映射,实现数据的有效集成。针对第三个问题,可以通过检测数据的相关性进行处理,一般来说,对于标称数据,可以采用卡方检验技术,通过统计量
的取值来判断不同字段间的关系,如果值越大,表示越相关;对于数值型数据,可以采用皮尔逊相关系数进行检验,通过相关系数或协方差值进行判断。
数据规约任务,数据规约通常用来解决数据集的规模庞大问题。一种最常用的技术源自于线性代数技术,将数据由高维空间投影到低维空间,主成分分析(即PCA)就是一种维规约技术。降低维度的另一种方法是属性子集选择方法,即消除不相关的和冗余的属性,仅使用原始数据总属性的一个子集。属性子集选择技术的目标是找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性得到的原分布:第一种是过滤方法,在数据挖掘算法运行前进行属性选择,因而是一种独立于数据挖掘任务的方法。第二种是包装方法,将目标数据挖掘算法作为黑盒去产生最佳子集组合,例如由空属性集开始,确定原始数据集的最好属性,并添加到规约集中,其后不断迭代产生最终子集。常见的方法有逐步向前选择,逐步向后删除等。第三种方法为嵌入方法,即将属性子集的选择作为数据挖掘算法的一部分,算法本身决定使用哪些属性和忽略哪些属性,在构造决策树算法中通常以这种方式运行。
数据变换任务,数据变换是将数据从一种格式或结构转换为另一种格式或结构的过程,以便于后续的信息挖掘。一般来说,有以下三种方式:第一种为特征创建,将原始的属性值映射到一个新的空间,从而揭示出重要的和有趣的特征。常见的技术有傅里叶变换,小波变换等。例如,在对金融时间序列数据进行挖掘时,通常伴随有周期模式和大量噪声,导致一些模式(pattern)很难被发掘,假如采用傅里叶变换,将原始时间序列数据转换成频率信息明显的表示,就能发掘相关模式;第二种为规范化处理,将属性数据按比例缩放,使之落到一个特定的小区间。常用的有最大-最小值变换,z-score方法等;第三种为离散化技术,将数值属性的原始值用区间属性或序数、标称属性替换。常见的方法有分箱法,相关分析方法等。

