-
1 知识点回顾
-
2 练习题及解析
-
3 章节自测

数据挖掘是指从大量数据中提取或“挖掘”知识。主要有问题定义、数据采集、数据探索、数据预处理、模型挖掘、模型评价与部署6个步骤。数据挖掘的任务有关联规则、聚类分析、分类预测等。
(1)问题定义
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么,系统完成后能达到什么样的效果。因此我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。

(2)数据采集
在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部的企业数据。通过数据样本的精选,不但能减少数据处理量,节省系统资源,而且使我们想要寻找的规律性更加突显出来。
进行数据取样,一定要严把质量关。
(3)数据探索
对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

(4)数据预处理
当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。由于采样数据中常常包含许多有噪声、不完整甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。那么如何对数据进行语出以改善数据质量,并最终达到完善数据挖掘结果的目的。
(5)模型挖掘
◇分类与预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
◇关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

◇聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(6)模型评价与部署
模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要根据业务对模型进行解释和应用。

数据的采集时数据分析挖掘的前提,如何取得准确可靠的数据是数据分析研究的重要内容之一。从数据本身来看,主要来源于两种渠道:一是来源于直接的调查和科学实验,我们称之为一手数据或直接数据,比如:普查、抽样调查的数据,或科学实验的数据;二是来源于现有的数据,我们称之为第二手数据或间接数据。比如,企业、或行业数据、国家公开的统计年鉴、或者广泛分布在各种报刊、杂志、图书、广播、电视、网络传媒中的各种数据。

在取得分析数据时,都有一些具体的数据收集方法,数据的收集方法归纳起来可分为访问法、报告法、观察法三大类。其中,访问法包括面谈、电话访问、座谈会、电脑辅助、个别深访等;报告法包括邮寄问卷、日至调查、留置调查等;观察法包括观察、跟踪、记录等方法。采集到的数据尽可能保证完整性、一致性、节约性、以及异常处理。


数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。
数据质量分析的主要任务是检查原始数据中是否存在脏数据、脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在日常的数据挖掘工作中,脏数据包括:
◇ 缺失值
◇ 异常值
◇ 不一致的值
◇ 重复数据及含有特殊符号(如#、¥、*)的数据
(1)缺失值分析
数据的却是主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。以下从缺失值产生的原因及影响等方面展开分析。
缺失值产生的原因
◇ 有些信息暂时无法获取,或者获取信息的代价太大
◇ 有些信息是被遗漏的,可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些人为因素而造成的,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障等非人为原因而丢失的。
◇ 属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对于一些对象来说某些属性值是不存在的,如一个未婚者的配偶姓名、一个无业者的固定收入等。

(2)异常值分析
异常值分析时检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加以剔除,会对分析结果带来不良的影响。
异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。常用以下三种方法:
◇ 简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如客户的年龄最大值为199岁,则该变量的取值存在着异常。
◇ 3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为极个别的小概率事件。
如果数据不服从正态分布,也可以用远离平均值的多少倍的标准差来描述。

◇ 箱形图分析
箱形图又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。
在一组观测数据中,Q1称为第一分位数,或下四分位数,表示全部观测值中有四分之一的数据取值比它小;Q2称为中位数,表示位置中位数,如果数据量个数为奇数,则中位数为位置中间的数,如果数据量个数为偶数,则中位数为位置中间的两个数的平均值。Q3称为第三份位数,或上四分位数,表示全部观测值中有四分之三的数据比它小。R=Q3-Q1的值被称为内距。表示中间50%的数据。
箱形图提供了识别异常值的一个标准,异常值通常被定义为小于Q1-1.5R或大于Q3+1.5R的值。

对数据进行质量分析后,接下来可以通过绘制图表、计算某些特征量等手段进行数据的特征分析,通常特征分析包括对比分析、贡献度分析、周期性分析、相关分析、分布分析和统计分析等。
(1)对比分析
对比分析时之把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢、以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,选择合适才能作出客观的评价,选择不合适,评价可能会得出错误的结论。
对比分析有两种形式:一是绝对数对比;另一个是相对数对比。
(2)贡献度分析
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称为20/80定律。同样的投入放在不同的地方会产生不同的效益。比如,对于一个公司来说,80%的利润常常来自于20%的最畅销的产品,而其他80%的产品只产生了20%的利润。
(3)周期性分析
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化的趋势。时间尺度相对较长的趋势有年度周期性趋势、季节周期性趋势、相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。
(4)相关分析
分析连续变量之间线性相关程度的强弱,并用适度的统计指标表示出来的过程称为相关分析。
◇直接绘制散点图
判断两个变量是否具有线性相关的最直观的方法就是绘制散点图,如下图所示。

◇绘制散点图矩阵
需要同时考虑多个变量间的相关关系时,一一绘制其简单散点图会是非麻烦。此时可利用散点图矩阵来同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。

◇ 计算相关系数
Pearson相关系数,一般用于分析两个连续变量之间的关系,其计算公式如下:
![]()
r 的取值范围在-1和1之间。当r > 0 时为正相关,r<0时为负相关。
|r|=1,表示完全线性相关,即函数关系
|r|=0,表示不存在线性相关关系
|r|≤0.3 为不存在线性相关
0.3<|r|≤0.5 为低度线性相关
0.5<|r|≤0.8 为显著线性相关
|r|>0.8 为高度线性相关

分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可作出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。
(1)定量数据的分布分析
对于定量、变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤:
①求极差
②决定组距与组数
③决定分点
④列出频率分布表
⑤绘制频率分布直方图

(2)定性数据的分布分析
对于定性变量,常常根据变量的分布类型来分组,可以采用饼图和条形图来描述定性变量的分布。饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比,条形图的宽度没有意义。


用统计指标对定量数据进行统计分析,常从集中趋势和离散趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量。使用最广泛的是均值和中位数;反映变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。
(1)算术平均数
算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算术平均数。
算术平均数的计算公式为:mean(x)=
=
,在EXCEL中可以用average函数。
加权平均数的计算公式为:mean(x)=
=![]()
(2)调和平均数
又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。调和平均数的计算公式为:
。在EXCEL中可以用HARMEAN函数。
加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是相同的,而仅有形式上的区别,即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。因而其计算公式为:
。
(3)几何平均数
几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。几何平均数也分为简单几何平均数和加权几何平均数两种形式。
计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是:
◇对比率、指数等进行平均;
◇计算平均发展速度;其中:样本数据非负,主要用于对数正态分布。
◇复利下的平均年利率;
◇连续作业的车间求产品的平均合格率。
几何平均数的公式为
,在EXCEL中,可以用GEOMEAN函数。
(4)位置平均数
◇众数:是样本观测值在频数分布表中频数最多的那一组的组中值。通俗地讲,出现次数最多的数就是众数,当然众数也可能有多个,甚至没有(所有数据出现的次数都一样)。在EXCEL中,可以用MODE.SNGL函数。
◇中程数:又称中列数,是一组统计数据值的最大值和最小值的平均数。
◇中位数:
又称中点数,中值。中数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用m0.5来表示中位数。当n为奇数时,
;当n为偶数时,
。在EXCEL中,可以用MEDIAN函数。
当测试数据的数量很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值。中位数近似值公式:

其中:
L1:中位数区间的下限
N:数据集数据个数
(∑freq)l:低于中位数区间的所有区间的频数和
freqmedian:中位数区间的频数
width:中位数区域的宽度

(1)极值与极差
数据集的最大值和最小值被统称为极值(极数)。极差又称范围误差或全距,以R表示,即最大值减最小值后所得之数据。极差对数据集的极端值非常敏感,他忽略了位于最大值和最小值之间的数据是如何分布的。在EXCEL中,最大值用max函数,最小值用min函数。
(2)四分位差
四分位差是第三份位数和第一分位数之差,期间包含了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明数据的变异程度越小。在EXCEL中,四分位数用QUARTILE函数、或PERCENTILE函数。
(3)平均差
平均差,英文为averagedeviation(A.D.)或mean deviation(M.D.),是一种平均离差,是总体所有单位与其算术平均数的离差绝对值的算术平均数。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。
平均差是反映各标志值与算术平均数之间的平均差异。平均差越大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。平均差的计算公式为:
![]()
(4)方差与标准差
标准差:是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。计算公式为:![]()
(5)离散系数
离散系数,又称为变异系数。是度量标准差相对于均值的离中趋势,计算公式为:
。
(6)描述统计工具
在EXCEL表中,可以用数据分析工具自动生成描述统计信息。如下图示例。

数据预处理是数据挖掘过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。数据预处理主要包括:数据清洗、数据集成、数据变换和数据归约。
(1)数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
缺失值的处理方法有三种,直接删除记录、数据插补和不处理。其中常用的数据插补方法有:均值或众数插补、固定值插补、最近邻插补、回归方法插补、拉格朗日插值法或牛顿插值法。

(2)数据集成
数据集成就是将来自多个数据源(如:数据库、文件等)数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常常会引起数据的不一致或冗余。例如:在一个数据库中一个顾客的身份编码为“custom_id”,而在另一个数据库则为“cust_id”。命名的不一致常常也会导致同一属性值的内容不同,如:在一个数据库中一个人的姓取“Bill”,而在另一个数据库中则取“B”。同样大量的数据冗余不仅会降低挖掘速度,而且也会误导挖掘进程。因此除了进行数据清洗之外,在数据集成中还需要注意消除数据的冗余。此外在完成数据集成之后,有时还需要进行数据清洗以便消除可能存在的数据冗余。

(3)数据变换
数据变换主要是对数据进行规范化处理,将数据转换为“适当的”形式,以适用于挖掘任务及算法的需求。
◇简单的函数变换:比如,某班级某次考试的成绩不理想,教师通常采用开方乘十处理。
◇规范化:基于距离的挖掘算法,如最近邻分类,需要对数据进行标准化处理,也就是将其缩至特定的范围之内,如:[0,10]。如:对于一个顾客信息数据库中的年龄属性或工资属性,由于工资属性的取值比年龄属性的取值要大许多,如果不进行规格化处理,基于工资属性的距离计算值显然将远超过基于年龄属性的距离计算值,这就意味着工资属性的作用在整个数据对象的距离计算中被错误地放大了。规范化的方法有:
最小最大规范法:![]()
零-均值规范法:![]()
小数定标规范法:![]()
◇连续属性的离散化:一些算法,如决策树ID3算法、关联规则Aprior算法等,均要求数据是标称型数据,这就需要将数值型数据离散化为标称型数据。离散化的方法有等宽分箱法、等频分箱法、聚类分箱法。

③聚类分箱法
现实中区分事物常常采用距离的方法,距离近,表示彼此之间是一类,距离远,表示彼此之间不是一类。现在样本数据容量为12,分成三箱,需要找到数和数之间第一大的距离,和第二大的距离。即92和204之间的距离为112;35和55之间的距离为20,故bin1={5,10,11,13,15}、bin2={35,50,55,72,92}、bin3={204、215}。

(4)数据归约
数据归约的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。数据归约的策略有属性归约和数值归约。属性归约,也叫维归约,即通过删除不相关的属性(或维)减少数据量。具体方法有合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析等。

数据分类是一个两步过程,第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库记录来构造模型。第二步,使用模型进行分类。
(1)朴素贝叶斯
朴素贝叶斯的思想是这样的:如果一个事物在一些属性条件发生的情况下,事物属于 A 的概率>属于 B 的概率,则判定事物属于 A。
通俗来说比如,你在街上看到一个黑人,我让你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?在你的脑海中,有这么一个判断流程:
① 这个人的肤色是黑色 <特征>
②黑色人种是非洲人的概率最高 <条件概率:黑色条件下是非洲人的概率>
③ 没有其他辅助信息的情况下,最好的判断就是非洲人。
这就是朴素贝叶斯的思想基础。
再扩展一下,假如在街上看到一个黑人讲英语,那我们是怎么去判断他来自于哪里?提取特征:
① 肤色:黑
②语言: 英语
③ 黑色人种来自非洲的概率: 80%
黑色人种来自于美国的概率:20%
④ 讲英语的人来自于非洲的概率:10%
讲英语的人来自于美国的概率:90%
在我们的自然思维方式中,就会这样判断:
这个人来自非洲的概率:80% * 10%= 0.08
这个人来自美国的概率:20% * 90%=0.18
我们的判断结果就是:此人来自美国!

贝叶斯定义与贝叶斯分类
贝叶斯的数学原理如下:![]()
朴素贝叶斯正式定义如下:
①设x={a1,a2,…,am}为一个待分类项,而每个a为x的一个属性。
②有类别集合C={y1,y2,…,yn}。如果n=2,就是分两类。
③ 计算P(y1|x),P(y2|x), … , P(yn|x)。
④如果P(yk|x) = max{P(y1|x), P(y2|x), … , P(yn|x)},则x∈yk
那么,现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
①找到一个已知分类的待分类项集合,这个集合叫训练样本集
② 统计得到在各类别下各特征属性的条件概率估计。
③ 如果各特征属性是条件独立的,则贝叶斯定理公式为:
,因为分母对于所有类别为常数,因此将分子最大化皆可。
可以看到,整个朴素贝叶斯分类分为三个阶段:
第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

(2)决策树
决策树的基本原理是采用概率论原理,用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。
通俗来说,决策树分类的思想类似于找对象。下面的对话场景:
女儿:多大年纪了? 母亲:26。
女儿:长的帅不帅? 母亲:挺帅的。
女儿:收入高不? 母亲:不算很高,中等情况。
女儿:是公务员不? 母亲:是,在税务局上班呢。
女儿:那好,我去见见。
这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑。

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果我们想预测一个连续的值而不是一个分类标号,怎么办?连续值的预测可以用回归统计技术建模。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析。例如,我们可能希望开发一个模型,预测具有10年工作经验的大学毕业生的工资,或一种给定价格的新产品的可能销售量。许多问题可以用线性回归解决,并且更多的可以对变量进行变换,使得非线性问题可以转换为线性的未来加以处理。

“什么是线性回归?”在线性回归中,数据用直线建模。线性回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)视为另一个随机变量X(称为预测变量)的线性函数,即Y=α+βX。其中假定Y的方差为常数,α和β是回归系数,分别表示直线在Y轴的截距和直线的斜率。给定s个样本,回归系数α和β可以用下式计算:
,
。其中,
是x1,x2,…,xs的平均值,而
是y1,y2,…,ys的平均值。

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。
聚类分析是一种重要的人类行为。早在孩提时代,一个人就通过不断地改进下意识中的聚类模式来学会如何区分猫和狗,或者动物和植物。聚类分析已经广泛地用在许多应用中,包括模式识别,数据分析,图像处理,以及市场研究。通过聚类,一个人能识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。
(1)距离与相似系数
距离是聚类分析常用的分类统计量。两个样品间的距离在【0,∞】之间,距离越小,两个样品越接近。在聚类分析中,最常用的距离如下:
◇ 绝对距离:![]()
◇ 欧氏距离: ![]()
◇ 明氏距离: ![]()
◇ 切氏距离:![]()
◇ 兰氏距离 ( Lance、Willims):![]()
◇ 马氏距离:
,其中:
,![]()
(2)分层聚类法
分层聚类法,又称为系统聚类法,或谱系聚类法,是聚类分析诸方法中用得最多的一种。它分为聚集法和分割法。聚集法的基本思想是:开始将样品各自作为一类,将最“靠近”的首先进行聚类,再将这个类和其他类中的最“靠近”的结合,这样继续合并直至所有对象都综合成一类或满足一个阈值条件为止。分割法正好相反,先将对象看成一大类,然后割成两类,使一类中的对象尽可能地“远离”另一类的对象;再将每一类继续这样分割下去,直至每个对象都自成一类或满足一个阈值条件为止。
分层聚类的具体方法有很多,最短距离法、最长距离法、中间距离法、重心法、类平均法、变差平方和法等等。我们这里以最短距离法为例。
最短距离法又称单一连接或最近邻连接。两个类之间的距离如果定义为两类中元素之间距离最小者(见下图),并依此逐次选择最“靠近”的聚集的方法叫最短距离法。

最短距离法中的类间距
类间距离d{1,2,3,4}{5,6,7}=min{d15,d16,d17,d25,d26,d27,d35,d36,d37,d45,d46,d47}=d37。

关联规则挖掘发现大量数据中项集之问有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交义购物和贱卖分析。
关联规则挖掘的一个典型例了是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包(和什么类型的面包)的可能性有多大?通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。

(1)相关概念:
设I={I1, I2,…,Im}是项的集合。
◇ 事务数据:任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,每一个事务有一个标识符,称作TID。
◇ 项集:项的集合称为项集。每一个TID都是项集。
◇ k-项集:包含k个项的项集称为k-项集,如:{面包,牛奶}就是一个2-项集。
◇ 关联规则:关联规则是形如A→B的蕴涵式,其中AÌI, BÌI,并且A∩B=Æ。

◇ 支持度s:规则AðB在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B(即,A和B二者)的百分比。它是概率s(AðB)=P(A∪B)。
◇ 置信度c:规则AðB在事务集D中成立,如果D中包含A的事务同时也包含B的百分比就是置信度c。confidence(AðB)=P(B|A)。
◇ 项集出现频率:是包含项集的事务数,简称项集的频率、支持度计数或计数。
◇ 频繁项集:如果项集满足最小支持度,则称它为频繁项集。频繁k-项集的集合通常记作Lk。
◇ 强规则:同时满足最小支持度阈值(min_ sup)和最小置信度阈值(min_conf)的规则称作强规则。

(2)关联规则挖掘步骤
“如何由大型数据库挖掘关联规则?”关联规则的挖掘是一个两步的过程:
◇ 找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样。
◇ 由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步最容易。挖掘关联规则的总体性能由第一步决定。
(3)Apriori算法
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。

(4)Apriori算法性质
◇ 连接:通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。
◇ 剪枝:如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。



