金融数据挖掘

冯国锋

目录

  • 1 Introduction 导论
    • 1.1 What is data mining? 什么是数据挖掘?
    • 1.2 How DM works in financial area?数据挖掘在金融领域是如何应用的?
  • 2 Financial big data 金融大数据
    • 2.1 What is data? 什么是数据?
    • 2.2 Data preprocessing 数据预处理
    • 2.3 Similarity and Dissimilarity of financial data 金融数据的相似性与相异性
  • 3 Decision Tree Classifier with financial applications 决策树分类器与金融应用
    • 3.1 Classification in financial scenario-basic concept and idea 分类算法与金融应用——基本概念与思想
    • 3.2 Introduction to Decision Tree Classifier in Financial Scenario 决策树算法与金融应用——算法介绍
    • 3.3 Methods for expressing attribute test conditions 属性测试条件划分方法
    • 3.4 Measures of impurity in Decision Tree Classifier 决策树分类算法中结点纯度度量方法
    • 3.5 A financial example to compute a Decision Tree 决策树分类器的构建案例
  • 4 Rule-Based Classifier with Financial Applications基于规则的分类器与金融应用
    • 4.1 Introduction to Rule-based Classifier in Financial Scenario 基于规则的分类器与金融应用——算法介绍
    • 4.2 Direct Method for Rule Extraction in Rule-based Classifier 规则提取的直接方法
    • 4.3 An Financial Example to Build Rule-based Classifier 基于规则的分类器的构建案例
  • 5 Naive Bayes Classifier with Financial Applications 朴素贝叶斯分类器与金融应用
    • 5.1 Introduction to Naive Bayes Classifier in Financial Scenario 朴素贝叶斯分类器与金融应用——算法介绍
    • 5.2 A Financial Example to Build Naive Bayes Classifier 朴素贝叶斯分类器的构建案例
  • 6 Bayesian Networks with Financial Applications 贝叶斯网络分类器与金融应用
    • 6.1 Introduction to Bayesian Belief Networks in Financial Scenario 贝叶斯信念网络分类器与金融应用——算法介绍
    • 6.2 A Financial Example of BBN 贝叶斯信念网络分类器案例
  • 7 Financial Classification issues-Underfitting and Overfitting 分类算法在金融应用中的可能问题——拟合不足与过拟合
    • 7.1 Underfitting and Overfitting (1) 拟合不足与过拟合(1)
    • 7.2 Underfitting and Overfitting (2) 拟合不足与过拟合(2)
  • 8 Fiancial Classification Evaluation-Model Evaluation and Comparison 分类算法在金融应用中的结果评估——模型评价与对比
    • 8.1 Fiancial Classification Evaluation-Model Evaluation 分类算法在金融应用中的结果评估——模型结果评价
    • 8.2 Fiancial Classification Evaluation-Model comparison 分类算法在金融应用中的结果评估——模型对比分析
  • 9 Association Analysis with Financial Applications-Apriori Algorithm 关联分析与金融应用——Apriori算法
    • 9.1 Association Analysis in Financial Scenario-basic concept and idea 关联分析与金融应用——基本概念与思想
    • 9.2 Apriori Algorithm in Financial Scenario (1)-Introduction Apriori算法与金融应用——算法介绍
    • 9.3 Apriori Algorithm in Financial Scenario (2)-Candidate Generation & Pruning Apriori算法与金融应用——候选生成与剪枝
    • 9.4 Apriori Algorithm in Financial Scenario (3)-Hash Tree Apriori算法与金融应用——哈希树
    • 9.5 Apriori Algorithm in Financial Scenario (4)-Rule Generation and Complexity Apriori算法与金融应用——规则生成与算法复杂度
  • 10 Association Analysis with Financial Applications-FP Tree Algorithm 关联分析与金融应用——FP Tree算法
    • 10.1 FP Tree Algorithm in Financial Scenario-Introduction FP Tree算法与金融应用——算法介绍
    • 10.2 FP Tree Algorithm-A Financial Example FP Tree算法金融实例
  • 11 Financial Association Analysis Evaluation 关联分析在金融应用中的结果评估
    • 11.1 Financial Association Analysis-Evaluation (1) 关联分析在金融应用中的结果评估(1)
    • 11.2 Financial Association Analysis-Evaluation (2) 关联分析在金融应用中的结果评估(2)
  • 12 Cluster Analysis with Financial Applications-K-means Algorithm 聚类分析与金融应用——K-means算法
    • 12.1 Cluster Analysis in Financial Scenario-basic concept and idea 聚类分析与金融应用——基本概念与思想
    • 12.2 Introduction to K-means Algorithm in Financial Scenario K-means算法与金融应用——算法介绍与实例
  • 13 Cluster Analysis with Financial Applications-Basic Hierarchical Clustering Algorithm 聚类分析与金融应用——基本层次聚类算法
    • 13.1 Introduction to Basic Hierarchical Clustering Algorithm in Financial Scenario 基本层次聚类算法算法与金融应用——算法介绍
    • 13.2 A Financial Example of Agglomerative Hierarchical Clustering Algorithm 凝聚层次聚类算法实例
  • 14 Fiancial Cluster Analysis Evaluation 聚类分析在金融应用中的结果评估
    • 14.1 Unsupervised Cluster Evaluation 无监督的聚类结果评估
    • 14.2 Supervised Cluster Evaluation 有监督的聚类结果评估
Underfitting and Overfitting (1) 拟合不足与过拟合(1)



主要知识点:


1.分类误差相关术语

  • 训练误差,表示的是模型在训练集上的误差

  • 测试误差,表示的是模型在测试集上的误差

  • 泛化误差,也叫样本外误差,是指模型在未知记录上的期望误差,即在训练集上没见过的数据的错分样本比率

2.拟合不足和过拟合

  • 拟合不足常常在模型学习能力较弱,而数据复杂度较高的情况出现。此时模型由于学习能力不足,无法学习到数据集中的“一般规律”,因而导致泛化能力弱。

  • 过拟合常常在模型学习能力过强的情况中出现,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是“一般规律”,同样这种情况也会导致模型泛化能力下降。

3. 偏差和方差

  • 偏差是指预测结果与真实值之间的差异,通常是指某个模型输出的样本误差。

  • 方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异,是衡量预测值之间的离散程度。

  • 偏差越大时,预测值和真实值差距越大。方差越大时,预测值的离散程度越高。

4.偏差、方差和拟合不足与过拟合的关系

当模型过于简单时,呈现低方差高偏差,模型只学到简单规律,对样本区分能力差,模型拟合不足;当模型过于复杂时,呈现高方差低偏差,模型对训练样本学习的太好,而对新的数据表现差,模型过拟合。

5.模型拟合不足和过拟合产生的主要原因

  • 拟合不足产生的原因:第一个原因,模型的复杂度太低,第二个原因,数据的特征太少。这样都会导致模型的学习能力不足,无法学习到数据集中的一般规律,也无法捕捉到属性和类别之间的真实关系。

  • 过拟合产生的原因:第一个,噪声影响,样本噪音的干扰会使模型将部分噪音认为是特征从而扰乱了分类规则;第二个,缺乏样本数据,建模样本选取有误的情况下,样本数量太少,会导致选取的样本数据不足以产生合适的分类规则;第三个,复杂的目标和样本不足,数量不够的情况下,如果目标函数是50次,我们用2次和10次的模型去拟合这些数据,会导致过拟合,而且2次的效果会更佳。当目标函数模型很复杂的时候,数据量小的话这些数据就相当于噪声,这也是过拟合的一种情况;第四个,模型过度复杂,过于复杂的模型会导致其不能捕捉到属性和类别之间的本质关系。