数据挖掘的概念
数据挖掘(Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
数据挖掘的分类
(1) 根据数据库的类型分类
① 关系型数据挖掘
关系模型指的是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。
② 事务型数据挖掘
事务是访问并可能更新数据库中各种数据项的一个程序执行单元,一个事务的所有语句是一个整体,要么全部执行,要么全部不执行。
③ 面向对象型数据挖掘
每个实体都可以看做一个对象,面向对象的数据库就是基于面向对象的思想进行设计的数据库类型,它在传统数据库中引入了面向对象的概念,一直是复杂应用领域中的数据建模要求。
④ 对象—关系型数据挖掘
对象关系数据库基于对象—关系数据模型构造,这种模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型。
⑤ 数据仓库型数据挖掘
⑥ 空间数据库的数据挖掘
空间数据库是一种应用于地理空间数据处理与信息分析领域的具有工程性质的数据库,它所管理的对象主要是地理空间数据,包括空间数据和非空间数据。
⑦ 文本数据库的数据挖掘
文本数据库是包含对象的词的描述的数据库。
⑧ 多媒体数据库的数据挖掘
多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据、图像数据、视频数据、序列数据以及超文本数据等。
⑨ web数据挖掘
web数据挖掘是能将数据库技术与web技术很好地融合在一起,使数据库系统称为Web的重要有机组成部分的数据库,能够实现数据库与网络技术的无缝有机结合。
(2) 根据应用的分类
① 电信行业:恶意欠费和欺诈行为的分析
② 金融业:信用卡审批和管理以及金融诈骗检测等
③ 保险业:风险评估和保险欺诈分析
④ 商业:目标定位和调整商品布局
⑤ 制造业:优化制造流程
⑥ 体育界:运动员的技术分析
⑦ 天文学:天文图像分析
⑧ 交通运输:优化航班路线
数据挖掘的功能
概念描述:用来明确挖掘任务,对挖掘任务进行特征化和区分,即用简洁的、汇总的、明确的方式描述每个类和概念,如,对销售增加15%的产品的特征进行研究。
关联分析:找出存在于各个条目间的吸纳骨感型,而对记录进行操作。
分类和预测:对数据进行分类和预测,并通过对数据的分类找出描述和区分数据类或概念的模型,并使用模型预测类别,即未知的对象类。
聚类:对挖掘对象根据最大化类内的相似性和最小化类间的相似性原则进行聚类或分组。
检测:检测数据偏差。
演变分析:描述某一行为随时间变化的规律或趋势。
数据挖掘的流程

数据挖掘在电子商务中的应用
客户细分:根据客户指标进行分类,确定不同类型客户的行为模式,以便采取相应的营销措施,是企业利润最大化。
客户获得:通过数据挖掘技术,可以发现购买某商品的消费者学历、性别、职业、收入情况、购买动机,甚至可以发现不同的人在购买该商品的相关商品后多长时间有可能购买该商品,以及什么样的人会购买什么型号的该商品等。
客户保持:发掘哪些特征的客户有可能流失,这样挽留客户的措施将具有针对性,可以降低挽留客户的费用。
个性服务:网站根据客户历史购买记录发掘客户的特点,为客户自动提供购买建议。
交叉销售:简单说来,就是向拥有本公司A产品的客户推销本公司B产品。比如说某客户在你这儿购买一款游戏机,你可以销售充电器或者电池给他。数据挖掘能够分析出适合交叉销售的产品,增强交叉销售的有效性。
数据挖掘让汇丰银行盈利更多
金融信息化的过程中,购买设备、使用设备、开发业务流程等一系列的工作仍然只是一小部分;还有更多更加深度和细节的问题需要解决。本文介绍了美国汇丰银行的一个关于“数据挖掘”的应用带来的意想不到的收获,可谓是银行信息化的“他山之石”。
美国汇丰银行是HSBC集团成员之一,通过位于纽约的380个分支机构为140多万银行客户提供核算、投资、借贷和其它金融服务。美国汇丰银行资产为350亿美元。
他们面临的问题是,同一地区可能有多家银行设有分支机构,从而引起持续的竞争来吸引和保持附近的潜在客户。为保持高水平的客户获取和保持率,并维持可赢利性,银行经常要实现以下目标:1.扩展和现有客户的关系;2.控制营销费用以维持利润;3.用新的智能快速转移市场。
1.销售增加50%
“经常账户的存款中哪种个性特征和模型预示着客户可能会对高获利的投资感兴趣呢?这种购买行为过去曾发生过很多次,可以帮助我们预测未来的购买行为,如果知道从哪里去找的话。”Somma说,“用A公司对销售数据进行挖掘帮助我们揭开了统计关系,更重要的是,为我们说明了这些关系的力度,这样我们马上就能看到哪些是有意义的。这帮助我们在建立有效的营销策略时对我们的资源进行优化。”
事实是,传统的OLAP(线上分析处理)工具在解开最后至关重要的谜团方面不能很好地满足Somma的要求。
A公司帮助Somma指明了道路,Somma和银行各个产品部门的同事在用A公司建立的预测模型的基础上建立了成功的营销策略。根据报告,短短三年时间,银行的数个产品线销售提高了50%。
2.营销费用减少30%
通过更精确地定位于目标客户,美国汇丰银行不仅发现了对特定产品最有前景的客户,同时也节约了费用,因为免去了对不符合预测模型特征的客户的联系。
“没人希望淹没在不想要的产品信息中。通过用A公司进行数据挖掘,我们减少了对那些不符合特征的客户的打扰。”
3.适时营销战略
根据Somma的讲述,A公司不仅帮助他们发现新的商业机会,而且比许多竞争者做得更快。
“准备买CD(Certificate of Deposit存款证)的客户可以买我们的,也可以买附近另一家银行的。所以在这些情况下速度绝对是非常重要的。越快进行新的营销活动,效果就越好。A公司可以使效果和速度同时得到提高。”
“A公司同时提供了易用性和强大的统计分析功能,使我们可以快速地建立模型。A公司具备我们所需的分析深度和广度,而且,一旦模型建立好了,向产品线决策者发布也非常容易。你可以把逻辑展示给他们,而他们无需了解任何关于统计分析的知识就可以快速看到过去购买某一产品的客户和与他们类似的客户之间的关系。A公司模型帮助决策者清楚地看到机会,使他们可以快速、自信、果断地采取行动。”
“A公司是一个战略伙伴,它给了我们竞争优势,所以我们要和它一起工作。”
思考问题:
1.A公司的产品为汇丰银行解决了哪些问题?
2.结合案例分析,数据挖掘有哪些功能?
【资源列表】
1.数据挖掘研究院:http://www.chinakdd.com/index.html
2.CIO数据挖掘频道:http://www.ciotimes.com/bi/sjwj/
3.刘君强:《海量数据挖掘技术研究》,浙江工商大学出版社
4.吕晓玲:《数据挖掘:方法与应用》,中国人民大学出版社
Web数据挖掘相关指标定义
1.浏览量(PV):网站或店铺页面被点击一次,即被记为一次浏览(PV),一个用户多次点击或刷新同一个页面,会被记为多次浏览(PV),即使用户无意识或无意义的F5刷新页面。
2.访客数(UV):理论上指访问网站或店铺的独立人数,也就是web终端后对应的不同的受众总数,在实际计算过程中一般采用用户账户(ID),而实际过程中可能不同用户使用相同ID登录,也可能同一用户使用不同用户登录,因此可能有些误差。
3.访问人次:理论上指访问网站或店铺的总人次,也就是web终端后对应的不同的受众总数,在实际计算过程中一般采用用户账户(ID)在session未失效时记作一次访问,因此一个独立个人可能对一个网站或店铺产生多次访问。
4.回头客:有网站或店铺访问记录而未购买的客户称为访问回头客(属于潜在客户),有网站或店铺购买记录的客户称为购买回头客(实际客户)。
5.新访客:指此前从未登录访问过网站或店铺的客户,实际计算中一般采用三个月内未访问的用户(由于用户访问不一定登录了所以计算也会有误差)。
6.回头客比例:回头客(三个月内范围了网站或店铺)占访客数的比率,访问回头客比例=访问回头客数/访客数,购买回头客比例=购买回头客数/访客数。
7.访问深度:是指用户一次连续访问的网站或店铺页面数(即每次会话浏览的页面数)。
8.用户平均访问深度:平均访问深度即用户平均每次连续访问浏览的店铺页面数。用户平均访问深度=浏览量(PV)/ 访问人次;
9.页面停留时间:用户浏览网站或店铺某个页面花费的时间。计算方法:用户打开店铺下一个页面的时间点减去打开当前页面的时间点为该页面的停留时间(用户访问当前页面后没有下一个点击,则该页面无停留时间,不统计在内);
10.网站停留时间:理论上指用户离开网站的时间和访问网站第一个页面的登录时间差值,由于用户关闭网站最后一个访问页面的时间无法获取,因此采用用户在网站浏览最后一个页面的登录时间与第一个页面的登录时间的差值。也就是用户在网站所有页面停留时间的总和。
11.页面平均停留时间:访问网站或店铺的用户在网站访问的浏览量(PV)/用户的网站停留时间。
12.人均店内停留时间:网站访问人次总的停留时间/网站的浏览量(PV)。
13.登陆页面:用户从外部访问网站或店铺的第一个页面为登陆页面(Landing Page);
14.出站页面:用户每次访问网站或店铺时点击的最后一个页面为出店页面。
15.有效入站人次:用户从某个或某组登陆页面进入店铺,并访问两个或两个以上页面的总人次。
16.跳失人次:用户从某个或某组登陆页面进入网站或店铺,只访问一个页面就离开的总人次。
17.跳失率:用户从某个或某组登陆页面进入网站或店铺,只访问了一个页面就离开的访问人次占登陆页面访问人次的比例,跳失率=跳失人次/访问人次;
18.出站人次:用户从某个或某组出店页面离开店铺的总人次;
19.出站率:出站人次占页面浏览量的比率;出站率=出站人次/出站页面的总数。
20.搜索次数:用户搜索某个关键词的次数。
21.点击率:点击次数与展示次数的比例。
资料来源:http://blog.sina.com.cn/s/blog_6baa0c560100x3p9.html