

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

竞技运动中的数据挖掘美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件来优化他们的战术组合。例如魔术队就因为研究了队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示,魔术队先发阵容中的两个后卫安佛尼·哈德卫和伯兰·绍在前两场中被评为-17分,即他俩在场上时本队输掉的分数比得到的分数多1 7分。而当哈德卫与替补后卫达利尔·阿姆斯创组合时,魔术队得分为+1 4分。在下一场中,魔术队增加了阿姆斯创的上场时间。结果阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。利用IBM的这个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被按得分、助攻、失误等统计分类。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。


数据挖掘是指从大量数据中提取或“挖掘”知识。主要有问题定义、数据采集、数据探索、数据预处理、模型挖掘、模型评价与部署6个步骤。数据挖掘的任务有关联规则、聚类分析、分类预测等。
(1)问题定义
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么,系统完成后能达到什么样的效果。因此我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。
(2)数据采集
在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部的企业数据。通过数据样本的精选,不但能减少数据处理量,节省系统资源,而且使我们想要寻找的规律性更加突显出来。
进行数据取样,一定要严把质量关。
(3)数据探索
对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。
(4)数据预处理
当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。由于采样数据中常常包含许多有噪声、不完整甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。那么如何对数据进行语出以改善数据质量,并最终达到完善数据挖掘结果的目的。
(5)模型挖掘
◇分类与预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
◇关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
◇聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(6)模型评价与部署
模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要根据业务对模型进行解释和应用。