课程门户-章节详情

陈建

1 课程介绍
- 1.1 欢迎词
- 1.2 课程说明
- 1.3 课程设计
  - 1.3.1 学习目标
  - 1.3.2 学习内容
  - 1.3.3 学习活动
- 1.4 教师团队
- 1.5 先修知识及必备技能
  - 1.5.1 平台使用指南
  - 1.5.2 先修知识
  - 1.5.3 必备技能
2 第一章商务智能概述
- 2.1 1.1 商务智能的概念
- 2.2 1.2 商务智能的核心技术和框架
- 2.3 1.3 商务智能的组成要素
- 2.4 1.4 商务智能的分析流程
3 第二章数据仓库
- 3.1 2.1 数据仓库的概念
- 3.2 2.2 数据仓库系统开发概述
- 3.3 2.3 多维数据模型
- 3.4 2.4 OLAP
4 可视化混合式作业
- 4.1 可视化操作
5 第三章数据准备
- 5.1 3.1 讨论：数据准备好了么？
- 5.2 3.2 数据准备
- 5.3 3.3 数据类型及处理方式
- 5.4 3.4 数据准备主要步骤
6 第四章相关分析
- 6.1 4.1 相关分析基本概念
- 6.2 4.2 相关关系理论和实践
- 6.3 新建课程目录
7 第五章聚类分析
- 7.1 5.1 聚类分析i概念和内容
- 7.2 5.2 K-means 聚类算法
8 第六章回归分析
- 8.1 6.1 回归分析
- 8.2 6.2 一元线性回归
  - 8.2.1 6.3 回归分析中的梯度问题
- 8.3 6.4 逻辑回归
9 第七章分类分析
- 9.1 7.1 分类分析的原理
- 9.2 7.2 贝叶斯分类基本原理
- 9.3 7.3 决策树分类基本原理
- 9.4 7.4 神经网络分类基本原理
10 第八章关联分析
- 10.1 8.1 关联分析原理
- 10.2 8.2 关联分析的基本算法
11 第九章文本挖掘
- 11.1 9.1 文本挖掘的基本原理
- 11.2 9.2 文本挖掘流程与技术
- 11.3 9.3 中文分词方法
12 第十章大数据分析
- 12.1 10.1 大数据与云计算基本概念
- 12.2 10.2 Hadoop 基本概念
- 12.3 10.3 Spark 基本概念
13 第十一章社会网络
- 13.1 11.1 社会网络与博弈论
- 13.2 11.2 社会网络的基本问题
- 13.3 11.3 社会网络的基本原则
14 实验内容
- 14.1 数据挖掘实验一决策树
- 14.2 数据挖掘实验二 K-MEANS 聚类
- 14.3 数据挖掘实验三神经网络
- 14.4 数据挖掘实验四关联规则
- 14.5 rapidminer 操作视频示例
15 第十六单元
- 15.1 答辩及大作业提交

7.1 分类分析的原理

在一般情况下，分类数据（X,y）表示每条输入记录（或样本，实例），其中X表示属性的集合，也可以表示为特征集合（features），而y表示类别或目标属性（label/class）。X中的属性值可以是连续特征也可以是离散特征，而y中的值必须是有离散属性构成。若y中的值在某种情况下为连续值，若要使用分类分析中的方法，也必须将连续值通过数学方法将其转换为离散值。在这里需要注意的是，请读者们回忆第六章的回归算法中的目标属性一般为离散值。所以说，类别属性是离散还是连续，是一种考虑使用分类(classification)还是回归(regression)的一个关键特征。

如下所示，数据集通过样本集合来表示，而每条样本都由输入数据(features)和类别(label)来表示:

分类问题的示例数据集

年龄	工资	社保	地址	授权(label)
32	高	有	A区	否
22	低	无	A区	是
45	中	有	D区	是
65	高	有	C区	否
37	中	有	C区	是

在该表中，年龄、工资、社保、地址为样本集合的特征。所以在该样例中，一个样本有四个特征，授权与否为类别。读者注意到，在特征集中某些特征是连续性的，即在某一个区间或者无穷区间内该属性的取值可以是连续的，比如年龄。而另外的三个特征则为离散的，也就是取值不是连续的，工资的高低，社保的有无明显是不连续的。

那么分类方法是解决什么问题呢？我们假设有一个新的样本：年龄：41，工资：中，社保：无，地址：B区。我们怎么知道该样本属于哪种类别呢？（label）。

我们假设一个资深的风险管理员，一眼就能对一个新的客户进行正确分类的称为“经验丰富”，那么经验是从哪里来的呢？当然是长年累月的积累，从成千上万次的分类学习得来的。因此，我们的分类方法如果要达到资深风险管理员的水平，也需要有个学习的过程。

所以，分类方法基本上都需要有一个学习的过程，通过学习来获得一个函数（function）,通过完善好的这个函数，我们就可以对一个新的样本进行计算，并得到高准确度的分类结果。

分类的基本过程可以概述如下：首先从分好类，或者说贴好标签的样本中进行学习和训练，建立一个分类模型，然后对没有分类的数据进行分类。

分类方法主要包括贝叶斯分类、决策树分类和神经网络分类等。这些方法都是通过一个学习过程（learning process）来确定分类模型，并且能够较好地预测未知样本的标签分类。

图片预览