主要知识点
什么是数据挖掘?
作为一个多学科领域,关于数据挖掘有多种定义,较为经典的两个有:(1)数据挖掘是指从数据中提取隐藏的、以前未知的、潜在有用的信息的过程;(2)从大型数据中通过自动化或者半自动化的手段,发掘有用模式的过程。从视频中的游戏黄金矿工可以发现,黄金矿工是从矿山里挖掘出黄金和其他有用的东西,而数据挖掘可以视为从数据中挖掘有用的信息。因为数据挖掘可以用多种方法定义,因此它也有一些其他类似的名称,例如数据库中的知识发现(KDD)、知识抽取、模式发现、商业智能等。
“5V”大数据
大数据时代,大数据具备“5V”特点,即Volume(数据量大)、Variety(种类和来源多样化)、Value(数据价值秘密相对较低)、Velocity(数据增长数度快,处理速度快)、Veracity(数据的质量),因此,如何提取大数据价值显得至关重要。
日常大数据价值分析
如PPT图1所示的网页数据,在日常生活中通过点击链接会产生很多网页数据,那么对这些数据的分析可以产生个人标签,从而进行购物推荐等服务;PPT图2所示的是金融时序数据,那么通过对时序数据的挖掘和分析可以进行相关指数预测、量化投资等研究;PPT图3为消费记录数据,可以通过数据挖掘进行预警分析、异常检测分析等研究;PPT图4为健康检查信息,可以通过数据挖掘快速判断病情并获取相应诊疗方案等等,可以说,在日常生活和研究中都会碰到大数据,那么要想进行相关问题的解答和分析,就离不开数据挖掘技术,因此对数据挖掘技术的学习是非常重要的。
是不是生活中所有的事情都是数据挖掘的任务呢?
答案是否定的,不是所有的信息发现任务都是数据挖掘,例如查找含有关键字的网页,还有从手机里查询一个朋友的号码,这些都是通过信息检索系统的简单交互来完成的,并不属于有用的信息挖掘任务,因此简单的查询任务不属于数据挖掘。

