第二节 数据清洗的流程与方法

一、数据分析
是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。
二、
定义数据清洗的策略和规则
根据数据分析出的数据源个数和数据源中的“脏”数据程度定义数据清洗策略和规则,并选择合适的数据清洗算法。
三、
寻并确定错误实例
包括自动检测属性错误和检测重复记录的算法。手工检测数据集中的属性错误需要花费大量的时间、精力以及物力,并且该过程本身很容易出错,所以需要使用高效的方法自动检测数据集中的属性错误,主要检测方法有基于统计的方法、聚类方法和关联规则方法。检测重复记录的算法可以对两个数据集或者一个合并后的数据集进行检测,从而确定同一个现实实体的重复记录,即匹配过程。检测重复记录的算法有基本的字段匹配算法、递归字段匹配算法等。
四、
纠正发现的错误
根据不同的“脏”数据存在形式的不同,执行相应的数据清洗和转换步骤解决原始数据源中存在的质量问题。需要注意的是,对原始数据源进行数据清洗时,应该将原始数据源进行备份,以防需要撤销清洗操作。
去除重复数据:重复数据对数据分析结果的准确性和可靠性产生负面影响。通过对数据集进行去重操作,可以确保每条数据都是独立的,避免重复计算或者对结果产生不必要的扭曲。
处理缺失值:缺失值是指数据中存在的空值或者未填写的字段。处理缺失值的方法可以是通过填充、删除或者插值等方式进行处理。常用的填充方法包括使用平均值、中位数、众数或者使用已有数据进行预测填充等。
处理异常值:异常值是指与大部分数据不符或者明显偏离数据集整体分布的数据点。异常值可能是由于错误输入、测量误差或者数据采集问题导致的。处理异常值的方法可以是删除、替换或者根据规则进行修正。删除异常值可能会导致数据量减少,因此需要谨慎处理。
格式统一化:数据集中可能存在不同格式的数据,例如日期格式、货币格式或者单位格式等。统一化数据格式可以提高数据的一致性和可比性。可以使用数据清洗工具或者编程语言对数据进行格式转换。
处理无效数据:无效数据是指不符合数据集定义或者不具备分析价值的数据。通过定义清晰的数据规则和数据逻辑,可以对无效数据进行筛选和剔除。
数据标准化:数据标准化是指将数据转化为一种统一的度量单位或者比例。通过数据标准化可以消除不同变量之间的量纲差异,提高数据分析的准确性和可靠性。常用的数据标准化方法包括最小-最大标准化、标准差标准化等。
五、干净数据回流
当数据被清洗后,干净的数据替代原始数据源中的“脏”数据,这样可以提高信息系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。

