金融数据挖掘

冯国锋

目录

  • 1 Introduction 导论
    • 1.1 What is data mining? 什么是数据挖掘?
    • 1.2 How DM works in financial area?数据挖掘在金融领域是如何应用的?
  • 2 Financial big data 金融大数据
    • 2.1 What is data? 什么是数据?
    • 2.2 Data preprocessing 数据预处理
    • 2.3 Similarity and Dissimilarity of financial data 金融数据的相似性与相异性
  • 3 Decision Tree Classifier with financial applications 决策树分类器与金融应用
    • 3.1 Classification in financial scenario-basic concept and idea 分类算法与金融应用——基本概念与思想
    • 3.2 Introduction to Decision Tree Classifier in Financial Scenario 决策树算法与金融应用——算法介绍
    • 3.3 Methods for expressing attribute test conditions 属性测试条件划分方法
    • 3.4 Measures of impurity in Decision Tree Classifier 决策树分类算法中结点纯度度量方法
    • 3.5 A financial example to compute a Decision Tree 决策树分类器的构建案例
  • 4 Rule-Based Classifier with Financial Applications基于规则的分类器与金融应用
    • 4.1 Introduction to Rule-based Classifier in Financial Scenario 基于规则的分类器与金融应用——算法介绍
    • 4.2 Direct Method for Rule Extraction in Rule-based Classifier 规则提取的直接方法
    • 4.3 An Financial Example to Build Rule-based Classifier 基于规则的分类器的构建案例
  • 5 Naive Bayes Classifier with Financial Applications 朴素贝叶斯分类器与金融应用
    • 5.1 Introduction to Naive Bayes Classifier in Financial Scenario 朴素贝叶斯分类器与金融应用——算法介绍
    • 5.2 A Financial Example to Build Naive Bayes Classifier 朴素贝叶斯分类器的构建案例
  • 6 Bayesian Networks with Financial Applications 贝叶斯网络分类器与金融应用
    • 6.1 Introduction to Bayesian Belief Networks in Financial Scenario 贝叶斯信念网络分类器与金融应用——算法介绍
    • 6.2 A Financial Example of BBN 贝叶斯信念网络分类器案例
  • 7 Financial Classification issues-Underfitting and Overfitting 分类算法在金融应用中的可能问题——拟合不足与过拟合
    • 7.1 Underfitting and Overfitting (1) 拟合不足与过拟合(1)
    • 7.2 Underfitting and Overfitting (2) 拟合不足与过拟合(2)
  • 8 Fiancial Classification Evaluation-Model Evaluation and Comparison 分类算法在金融应用中的结果评估——模型评价与对比
    • 8.1 Fiancial Classification Evaluation-Model Evaluation 分类算法在金融应用中的结果评估——模型结果评价
    • 8.2 Fiancial Classification Evaluation-Model comparison 分类算法在金融应用中的结果评估——模型对比分析
  • 9 Association Analysis with Financial Applications-Apriori Algorithm 关联分析与金融应用——Apriori算法
    • 9.1 Association Analysis in Financial Scenario-basic concept and idea 关联分析与金融应用——基本概念与思想
    • 9.2 Apriori Algorithm in Financial Scenario (1)-Introduction Apriori算法与金融应用——算法介绍
    • 9.3 Apriori Algorithm in Financial Scenario (2)-Candidate Generation & Pruning Apriori算法与金融应用——候选生成与剪枝
    • 9.4 Apriori Algorithm in Financial Scenario (3)-Hash Tree Apriori算法与金融应用——哈希树
    • 9.5 Apriori Algorithm in Financial Scenario (4)-Rule Generation and Complexity Apriori算法与金融应用——规则生成与算法复杂度
  • 10 Association Analysis with Financial Applications-FP Tree Algorithm 关联分析与金融应用——FP Tree算法
    • 10.1 FP Tree Algorithm in Financial Scenario-Introduction FP Tree算法与金融应用——算法介绍
    • 10.2 FP Tree Algorithm-A Financial Example FP Tree算法金融实例
  • 11 Financial Association Analysis Evaluation 关联分析在金融应用中的结果评估
    • 11.1 Financial Association Analysis-Evaluation (1) 关联分析在金融应用中的结果评估(1)
    • 11.2 Financial Association Analysis-Evaluation (2) 关联分析在金融应用中的结果评估(2)
  • 12 Cluster Analysis with Financial Applications-K-means Algorithm 聚类分析与金融应用——K-means算法
    • 12.1 Cluster Analysis in Financial Scenario-basic concept and idea 聚类分析与金融应用——基本概念与思想
    • 12.2 Introduction to K-means Algorithm in Financial Scenario K-means算法与金融应用——算法介绍与实例
  • 13 Cluster Analysis with Financial Applications-Basic Hierarchical Clustering Algorithm 聚类分析与金融应用——基本层次聚类算法
    • 13.1 Introduction to Basic Hierarchical Clustering Algorithm in Financial Scenario 基本层次聚类算法算法与金融应用——算法介绍
    • 13.2 A Financial Example of Agglomerative Hierarchical Clustering Algorithm 凝聚层次聚类算法实例
  • 14 Fiancial Cluster Analysis Evaluation 聚类分析在金融应用中的结果评估
    • 14.1 Unsupervised Cluster Evaluation 无监督的聚类结果评估
    • 14.2 Supervised Cluster Evaluation 有监督的聚类结果评估
Introduction to Decision Tree Classifier in Financial Scenario 决策树算法与金融应用——算法介绍



主要知识点:


1. 决策树的结构

决策树是一种非参数的有监督学习方法,决策树分类器具有明显的树状结构,如下图所示,其主要包括:

  • 根结点,即决策树最顶层结点。图里面是Gender属性,可以发现根结点的属性是没有传入连接,但是包含零个或者多个传出连接。

  • 内部结点,如图中Marital Status和Income,此类结点的特点是每个结点只有一个传入连接,但是拥有两个或者更多的传出连接。

  • 叶结点,又被称为终端结点,一般以类标签表示,如图中的Yes和No结点,可以较为清楚的发现该类结点只有一个传入连接,并且没有传出连接

  • 根结点和内部结点都是非终端结点,非终端结点包含使用单个属性定义的属性测试条件,属性测试条件的每个可能结果都与该结点的一个子结点关联。以内部结点Income为例,该结点以Income这个属性来定义属性测试条件,该条件具有两个结果,<6000和>=6000,产生两个子结点。

2. 结合具体金融场景,决策树的构建过程(hunt算法)

Hunt算法是许多经典决策树算法如CART,ID3和C4.5等算法的基础,Hunt算法中,决策树是以递归的方式生长的(递归就是在程序运行的过程中调用自己,把一个大型复杂的问题层层转化为一个原问题相似的规模较小的问题来求解的过程)。结合如图所示的金融决策树,基于hunt算法将决策树的构造过程列示如下:


首先,该训练集包含10个数据对象,检查该训练集的数据对象是否为统一类别标签,可以发现该训练集包含3个类别为Yes的类别和7个类别为No的类别,因此不符合叶结点的要求,需要往下进行划分。假如此时选择Gender属性进行划分,运用属性测试条件Male和Female产生两个新的子结点,可以发现Gender=Female属性测试条件的子结点只包含4个类别为No的数据对象,没有类别为Yes的数据对象,因此该子结点变为叶结点,标签为No。另外一边Gender=Male属性测试条件的子结点包含3个类别为No的数据对象,3个类别为Yes的数据对象,确定为内部结点,需要进一步往下划分。假设此时选择Marital Status属性继续往下划分,运用属性测试条件MarriedSingle&Divorced产生两个新的子结点,可以发现Marital Status=Married属性测试条件的子结点只包含2个类别为No的数据对象,没有类别为Yes的数据对象,因此该子结点变为叶结点,标签为No。另外一边Marital Status=Single&Divorced属性测试条件的子结点包含1个类别为No的数据对象,3个类别为Yes的数据对象,确定为内部结点,需要进一步往下划分。假设此时选择Income属性继续往下划分,运用属性测试条件<6000>=6000产生两个新的子结点,可以发现Income<6000属性测试条件的子结点只包含3个类别为Yes的数据对象,没有类别为No的数据对象,因此该子结点变为叶结点标签为Yes另外一边Income>=6000属性测试条件的子结点只包含1个类别为No的数据对象,没有类别为Yes的数据对象,因此该子结点变为叶结点标签为No此时所有数据对象划分完毕,产生了最终决策树。

3.决策树构建过程中的主要问题及解决思路

  • 非终端结点是如何选择的?可以拆分为两个子问题:如何确定属性测试条件,以及如何度量属性测试条件划分后的结果好坏(即纯度)?解决思路:确定纯度度量指标。

  • 决策树什么时候能够终止划分?解决思路:第一种即与结点相关所有的数据对象具有相同的类别标签或者具有相同的属性值,可以终止划分;第二种即提前终止,此时即使叶点包含多个类别的数据对象,也停止划分