课程门户-章节详情

金融数据挖掘

冯国锋

1 Introduction 导论
- 1.1 What is data mining? 什么是数据挖掘？
- 1.2 How DM works in financial area？数据挖掘在金融领域是如何应用的？
2 Financial big data 金融大数据
- 2.1 What is data? 什么是数据？
- 2.2 Data preprocessing 数据预处理
- 2.3 Similarity and Dissimilarity of financial data 金融数据的相似性与相异性
3 Decision Tree Classifier with financial applications 决策树分类器与金融应用
- 3.1 Classification in financial scenario-basic concept and idea 分类算法与金融应用——基本概念与思想
- 3.2 Introduction to Decision Tree Classifier in Financial Scenario 决策树算法与金融应用——算法介绍
- 3.3 Methods for expressing attribute test conditions 属性测试条件划分方法
- 3.4 Measures of impurity in Decision Tree Classifier 决策树分类算法中结点纯度度量方法
- 3.5 A financial example to compute a Decision Tree 决策树分类器的构建案例
4 Rule-Based Classifier with Financial Applications基于规则的分类器与金融应用
- 4.1 Introduction to Rule-based Classifier in Financial Scenario 基于规则的分类器与金融应用——算法介绍
- 4.2 Direct Method for Rule Extraction in Rule-based Classifier 规则提取的直接方法
- 4.3 An Financial Example to Build Rule-based Classifier 基于规则的分类器的构建案例
5 Naive Bayes Classifier with Financial Applications 朴素贝叶斯分类器与金融应用
- 5.1 Introduction to Naive Bayes Classifier in Financial Scenario 朴素贝叶斯分类器与金融应用——算法介绍
- 5.2 A Financial Example to Build Naive Bayes Classifier 朴素贝叶斯分类器的构建案例
6 Bayesian Networks with Financial Applications 贝叶斯网络分类器与金融应用
- 6.1 Introduction to Bayesian Belief Networks in Financial Scenario 贝叶斯信念网络分类器与金融应用——算法介绍
- 6.2 A Financial Example of BBN 贝叶斯信念网络分类器案例
7 Financial Classification issues-Underfitting and Overfitting 分类算法在金融应用中的可能问题——拟合不足与过拟合
- 7.1 Underfitting and Overfitting (1) 拟合不足与过拟合(1)
- 7.2 Underfitting and Overfitting (2) 拟合不足与过拟合(2)
8 Fiancial Classification Evaluation-Model Evaluation and Comparison 分类算法在金融应用中的结果评估——模型评价与对比
- 8.1 Fiancial Classification Evaluation-Model Evaluation 分类算法在金融应用中的结果评估——模型结果评价
- 8.2 Fiancial Classification Evaluation-Model comparison 分类算法在金融应用中的结果评估——模型对比分析
9 Association Analysis with Financial Applications-Apriori Algorithm 关联分析与金融应用——Apriori算法
- 9.1 Association Analysis in Financial Scenario-basic concept and idea 关联分析与金融应用——基本概念与思想
- 9.2 Apriori Algorithm in Financial Scenario (1)-Introduction Apriori算法与金融应用——算法介绍
- 9.3 Apriori Algorithm in Financial Scenario (2)-Candidate Generation & Pruning Apriori算法与金融应用——候选生成与剪枝
- 9.4 Apriori Algorithm in Financial Scenario (3)-Hash Tree Apriori算法与金融应用——哈希树
- 9.5 Apriori Algorithm in Financial Scenario (4)-Rule Generation and Complexity Apriori算法与金融应用——规则生成与算法复杂度
10 Association Analysis with Financial Applications-FP Tree Algorithm 关联分析与金融应用——FP Tree算法
- 10.1 FP Tree Algorithm in Financial Scenario-Introduction FP Tree算法与金融应用——算法介绍
- 10.2 FP Tree Algorithm-A Financial Example FP Tree算法金融实例
11 Financial Association Analysis Evaluation 关联分析在金融应用中的结果评估
- 11.1 Financial Association Analysis-Evaluation (1) 关联分析在金融应用中的结果评估（1）
- 11.2 Financial Association Analysis-Evaluation (2) 关联分析在金融应用中的结果评估（2）
12 Cluster Analysis with Financial Applications-K-means Algorithm 聚类分析与金融应用——K-means算法
- 12.1 Cluster Analysis in Financial Scenario-basic concept and idea 聚类分析与金融应用——基本概念与思想
- 12.2 Introduction to K-means Algorithm in Financial Scenario K-means算法与金融应用——算法介绍与实例
13 Cluster Analysis with Financial Applications-Basic Hierarchical Clustering Algorithm 聚类分析与金融应用——基本层次聚类算法
- 13.1 Introduction to Basic Hierarchical Clustering Algorithm in Financial Scenario 基本层次聚类算法算法与金融应用——算法介绍
- 13.2 A Financial Example of Agglomerative Hierarchical Clustering Algorithm 凝聚层次聚类算法实例
14 Fiancial Cluster Analysis Evaluation 聚类分析在金融应用中的结果评估
- 14.1 Unsupervised Cluster Evaluation 无监督的聚类结果评估
- 14.2 Supervised Cluster Evaluation 有监督的聚类结果评估

What is data? 什么是数据？

数据集、数据对象和数据属性的关系

数据集一般看作数据对象和它们属性的集合。
数据对象有时也被称作记录，点，样本，实例等。例如在销售数据库中，数据对象可以是顾客或者商品。它是用一组刻画对象特性的属性来描述的，比如对顾客的刻画有性别、年龄、购买记录等属性。
属性的概念就为对象的性质或特性。它因对象而异，有时也被称作特征、维和变量等。例如性别、年龄、购买记录等。

2.属性与属性值的关系

同一个属性可以映射到不同的属性值。例如以属性年龄为例，属性值可以表示为具体的年岁如20岁等，也可以用高，中，低等表示。
不同的属性可以由同样的属性值表示。例如收入和年龄属性都可以用高，中，低表示。

3.数据集的类型

记录数据。其假定数据集是记录（数据对象）的汇集，每个记录包含固定的属性集，PPT里的P2P借贷数据集就是一个典型的记录数据。另一种较为常见的记录数据形式为数据矩阵，如果一个数据集中的所有数据对象都具有相同的数值属性集，则数据对象可以看作多维空间中的点（向量），其中每个维代表对象的一个不同属性。记录数据常见的形式还有事务数据，它是一种特殊类型的记录数据，其中每个记录（事务）涉及一系列的项。如一段时间内不同客户所购买的商品集合，每一条事务代表一个客户的购买记录（PPT表3）。
基于图的数据。第一种是图形能够捕获数据对象之间的联系。如PPT图1所示，不同字母代表不同的数据对象，字母之间的连线表示数据对象间存在关系。另外一种基于图的数据由具有图对象的数据表示，即数据对象本身就是一个图形，如股票走势的K线图（PPT图2），可以表示股票在一段时间内的走势，因此进行图形挖掘是数据挖掘的一个分支。
有序数据。其在属性上表现为有序的关系，常见的一种有序数据为时间序列数据，它的每条记录都是一个时间序列，即一段时间以来的测量序列，如股票指数的时序数据（PPT图3）。另外，有序数据还有一种常见的形式为序列数据，如词或字母的序列，它和时间序列数据的区别在于没有时间戳，如一段关于基因的序列表示就是较为典型的有序数据（PPT图4）。

4.数据属性的类型

标称属性。标称意味着和名称相关，标称属性的值只是一些不同的名字，因此标称属性提供的信息只能区分对象。例如婚姻状况的属性值，已婚，离异和单身表示三个不同的状态，并无其他多余的意义。标称属性里有一种特殊的情况，叫做二元属性（binary attribute），又称布尔属性，它只有两种状态（值），0和1，或者真假等，例如性别属性男和女，就是一个二元属性。另外，还需注意的一点是二元属性有对称和非对称之分，如果二元属性的两种状态具有同等价值并携带同等权重，就为对称的二元属性，如性别属性，如果二元属性的两种状态不具有同等价值和同等权重，就为非对称的二元属性，如信用卡欺诈问题，欺诈通常是少见的。同时，标称属性是一种定性属性。

序数属性。其可能的值之间具有有意义的序或者秩，但是这些相继值之间的差是未知的，因此，和标称属性相比，序数属性多了一个功能，它能够提供足够的信息确定对象的序。例如，对身高的评价，高，中和低，从这些值中可以区分哪个对象更高，但是高多少仍是未知的。另外，序数属性虽然能提供序的信息，但仍是一种描述，也是一种定性属性。
区间属性。其用相等的单位尺度度量，区间属性的值是有序的，可以为正、负和0，因此，除了可提供序的信息外，区间属性还能比较和定量值之间的差。值得注意的一点是，区间属性没有真正的零点。例如日历日期是没有真正的零点的，是区间属性。区间属性和序数属性相比，能够提供更多信息，即值之间的差是有意义的，因此，区间属性是一种定量属性。
比率属性。其和区间属性的区别在于它具有真正的零点，因此值的比率是有意义的。例如工资属性，可以说A对象的工资是B对象工资的3倍。和区间属性一样，比率属性也是定量属性。

主要知识点：

图片预览