数据清洗的实例
上一节
下一节
数据清洗的实例

在旅游大数据领域,数据清洗的实例包括但不限于:
去除非文本数据:如HTML标签、URL地址、广告内容、版权信息及个性签名等。
分词与特征提取:对于中文文本数据,需要进行分词工作,并将文本转化为一定格式的特征编码,以便后续分析。
停用词处理:去除文本中的无意义词,如标点符号、特殊符号、虚词等。
变形词处理:对中文词的变形进行识别和替换,如特殊符号替换、同音近型替换及简繁替换等。

