课程门户-章节详情

金融数据挖掘

冯国锋

1 Introduction 导论
- 1.1 What is data mining? 什么是数据挖掘？
- 1.2 How DM works in financial area？数据挖掘在金融领域是如何应用的？
2 Financial big data 金融大数据
- 2.1 What is data? 什么是数据？
- 2.2 Data preprocessing 数据预处理
- 2.3 Similarity and Dissimilarity of financial data 金融数据的相似性与相异性
3 Decision Tree Classifier with financial applications 决策树分类器与金融应用
- 3.1 Classification in financial scenario-basic concept and idea 分类算法与金融应用——基本概念与思想
- 3.2 Introduction to Decision Tree Classifier in Financial Scenario 决策树算法与金融应用——算法介绍
- 3.3 Methods for expressing attribute test conditions 属性测试条件划分方法
- 3.4 Measures of impurity in Decision Tree Classifier 决策树分类算法中结点纯度度量方法
- 3.5 A financial example to compute a Decision Tree 决策树分类器的构建案例
4 Rule-Based Classifier with Financial Applications基于规则的分类器与金融应用
- 4.1 Introduction to Rule-based Classifier in Financial Scenario 基于规则的分类器与金融应用——算法介绍
- 4.2 Direct Method for Rule Extraction in Rule-based Classifier 规则提取的直接方法
- 4.3 An Financial Example to Build Rule-based Classifier 基于规则的分类器的构建案例
5 Naive Bayes Classifier with Financial Applications 朴素贝叶斯分类器与金融应用
- 5.1 Introduction to Naive Bayes Classifier in Financial Scenario 朴素贝叶斯分类器与金融应用——算法介绍
- 5.2 A Financial Example to Build Naive Bayes Classifier 朴素贝叶斯分类器的构建案例
6 Bayesian Networks with Financial Applications 贝叶斯网络分类器与金融应用
- 6.1 Introduction to Bayesian Belief Networks in Financial Scenario 贝叶斯信念网络分类器与金融应用——算法介绍
- 6.2 A Financial Example of BBN 贝叶斯信念网络分类器案例
7 Financial Classification issues-Underfitting and Overfitting 分类算法在金融应用中的可能问题——拟合不足与过拟合
- 7.1 Underfitting and Overfitting (1) 拟合不足与过拟合(1)
- 7.2 Underfitting and Overfitting (2) 拟合不足与过拟合(2)
8 Fiancial Classification Evaluation-Model Evaluation and Comparison 分类算法在金融应用中的结果评估——模型评价与对比
- 8.1 Fiancial Classification Evaluation-Model Evaluation 分类算法在金融应用中的结果评估——模型结果评价
- 8.2 Fiancial Classification Evaluation-Model comparison 分类算法在金融应用中的结果评估——模型对比分析
9 Association Analysis with Financial Applications-Apriori Algorithm 关联分析与金融应用——Apriori算法
- 9.1 Association Analysis in Financial Scenario-basic concept and idea 关联分析与金融应用——基本概念与思想
- 9.2 Apriori Algorithm in Financial Scenario (1)-Introduction Apriori算法与金融应用——算法介绍
- 9.3 Apriori Algorithm in Financial Scenario (2)-Candidate Generation & Pruning Apriori算法与金融应用——候选生成与剪枝
- 9.4 Apriori Algorithm in Financial Scenario (3)-Hash Tree Apriori算法与金融应用——哈希树
- 9.5 Apriori Algorithm in Financial Scenario (4)-Rule Generation and Complexity Apriori算法与金融应用——规则生成与算法复杂度
10 Association Analysis with Financial Applications-FP Tree Algorithm 关联分析与金融应用——FP Tree算法
- 10.1 FP Tree Algorithm in Financial Scenario-Introduction FP Tree算法与金融应用——算法介绍
- 10.2 FP Tree Algorithm-A Financial Example FP Tree算法金融实例
11 Financial Association Analysis Evaluation 关联分析在金融应用中的结果评估
- 11.1 Financial Association Analysis-Evaluation (1) 关联分析在金融应用中的结果评估（1）
- 11.2 Financial Association Analysis-Evaluation (2) 关联分析在金融应用中的结果评估（2）
12 Cluster Analysis with Financial Applications-K-means Algorithm 聚类分析与金融应用——K-means算法
- 12.1 Cluster Analysis in Financial Scenario-basic concept and idea 聚类分析与金融应用——基本概念与思想
- 12.2 Introduction to K-means Algorithm in Financial Scenario K-means算法与金融应用——算法介绍与实例
13 Cluster Analysis with Financial Applications-Basic Hierarchical Clustering Algorithm 聚类分析与金融应用——基本层次聚类算法
- 13.1 Introduction to Basic Hierarchical Clustering Algorithm in Financial Scenario 基本层次聚类算法算法与金融应用——算法介绍
- 13.2 A Financial Example of Agglomerative Hierarchical Clustering Algorithm 凝聚层次聚类算法实例
14 Fiancial Cluster Analysis Evaluation 聚类分析在金融应用中的结果评估
- 14.1 Unsupervised Cluster Evaluation 无监督的聚类结果评估
- 14.2 Supervised Cluster Evaluation 有监督的聚类结果评估

Methods for expressing attribute test conditions 属性测试条件划分方法

属性测试条件的表达方法

属性测试条件的表达一方面依赖于属性的类型，即针对标称、序数、区间和比率属性，表达方式具有相异性；另一方面依赖于划分路数的选择，即选择二元划分产生两条分枝，或者选择多路划分产生多条分枝。

标称属性：依据属性值的个数，选择二元或者多路划分，产生不同组合
序数属性：依据属性值的个数，选择二元或者多路划分，产生不同组合
连续属性：选择多路划分，可以使用离散化的策略进行划分，但需保证划分后的属性值范围互斥，且覆盖了包含数据集里的最小值和最大值之间的整个属性值范围；选择二元划分，可以选择最小和最大属性值之间的任何可能值用来构造比较测试。
2.如何决定最优划分？
Hunt算法中，理想情况下，分裂准则期待每个分支上的输出分区都尽可能的“纯”，即所有数据对象都属于同一个类别，即优先考虑将结点划分为更同质化的属性测试条件。如图所示，以属性Marital Status为例，多路划分中，最左边分枝产生的结果为3个类别为Yes的数据对象和2个类别为No的数据对象，纯度较低，杂质度较高；中间分枝产生的结果为0个类别为Yes的数据对象和3个类别为No的数据对象，纯度高，杂质度低；最右边分枝产生的结果为2个类别为Yes的数据对象和0个类别为No的数据对象，纯度高，杂质度低。

主要知识点：

属性测试条件的表达方法

2.如何决定最优划分？

图片预览