主要知识点
数据挖掘的主要任务
一般而言,数据挖掘的任务可以分为两大类,第一类为预测性任务,这些任务的目标是通过其他属性的值预测特定属性的值,被预测的属性一般称为目标变量或因变量,而用来做预测的属性被称为解释变量或者自变量,回归问题和后面要学习的分类问题都属于预测性任务。第二类为描述性任务,这类任务的目标是刻画数据中潜在联系的模式,如关联性等,后面要学习的聚类和关联分析都属于描述性任务。
2. 分类分析在金融领域的可能应用场景
可能应用场景1:市场推广领域,例如预测一个顾客是否会购买某一个新的产品。针对这样一个目标问题,如何运用分类去解决?首先需要一个训练集去得到分类模型,那么此时通过选取过去类似产品的销售数据作为训练集,那么相应的特征属性可以包括顾客的基本特征、生活方式以及工作相关特征,如年龄、性别、从事工作的类型、收入、婚姻状况等会影响到类别标签的诸多特征。那么由于这些训练集里顾客是否购买该产品的标签买或者不买是已知的,那么就可以运用相关分类算法(如决策树等)去构建一个分类模型,最后将该模型用于预测顾客是否会购买新的产品,得出最终结论。
可能应用场景2:预测股票涨跌趋势。针对该目标问题,如何运用分类去解决?首先同样需要一个训练集去得到分类模型,那么此时可选取该股票的历史数据作为训练集,可引入的特征包括历史收盘价、开盘价、最高价、成交量等会影响到类别标签的诸多特征,那么由于这些训练集里股票涨跌标签是已知的,就可以运用相关分类算法去构建一个分类模型,最后将该模型用于预测股票在下个周期的趋势,得出最终结论。
可能应用场景3:预测信用交易里的违约问题。针对该目标问题,如何运用分类去解决?首先需要一个训练集去得到分类模型,可选取历史信用交易数据作为训练集,可引入的特征包括借款人、年龄、性别、婚姻状况、收入、平台认定情况等会影响到类别标签的诸多特征,由于这些训练集里该信用交易是否违约的标签是已知的,可以运用相关分类算法去构建一个分类模型,最后将该模型用于预测股票在新的信用交易是否会是违约,得出最终结论。
3. 关联分析在金融领域的可能应用场景
一个典型的金融应用场景就是银行产品的营销领域,例如如何识别诸多客户都会购买的理财产品。针对该目标问题,如何运用关联分析去解决?首先需要收集各银行网点的理财产品销售记录,然后通过相应的关联分析算法如Apriori算法去发现理财产品之间的强关联规则,为后续交叉销售提供参考。
4.聚类分析在金融领域的可能应用场景
一个典型的应用场景就是银行客户的划分,例如如何将银行客户划分为高价值客户,成长期客户与一般客户等。针对此目标问题,如何运用聚类分析去解决?首先需要收集银行客户购买产品记录、银行客户基本特征以及生活方式等相关属性,运用聚类算法将具有相似特征的客户聚在一个簇里,不相似的客户放在不同的簇里,最后依据不同簇的客户的购买模式去度量聚类划分的质量,为后期客户管理、产品推荐提供参考。

