目录

  • 1 第一章 大数据及其应用
    • 1.1 课程介绍及考核要求
    • 1.2 课程PPT
    • 1.3 应实践拓展
    • 1.4 章节测试
    • 1.5 weka软件下载
  • 2 第二章 分类算法
    • 2.1 课程PPT
    • 2.2 应实践拓展
    • 2.3 Weka数据预测
    • 2.4 章节测试
  • 3 第三章 聚类算法
    • 3.1 课程PPT
    • 3.2 应实践拓展
    • 3.3 章节测试
  • 4 第四章 网络分析
    • 4.1 课程PPT
    • 4.2 应实践拓展
    • 4.3 章节测试
  • 5 第五章 购物篮算法
    • 5.1 课程PPT
    • 5.2 应实践拓展
    • 5.3 章节测试
  • 6 第六章 神经网络
    • 6.1 课程PPT
    • 6.2 应实践拓展
    • 6.3 章节测试
  • 7 第七章 如何领导数据分析团队
    • 7.1 课程PPT
    • 7.2 应实践拓展
    • 7.3 章节测试
  • 8 期末考核及安排
    • 8.1 期末考核安排
    • 8.2 Weka软件自带数据集
    • 8.3 UCL数据集
    • 8.4 其它数据集
应实践拓展

数据来源:

数据来源于中国一家著名的P2P公司的借款记录。

数据内容:

包括借款人的特征、网络行为、学历以及第三方数据等全面信息。

通过数据集的多个变量预测借款人的信贷违约风险。

时间跨度为1年。

变量含义

本数据包含字段较多,仅展示变量所属类别,字段名称以数字代码展示。

User Info_*:借款人特征字段

变量含义: 借款人外貌特征对违约率的影响

Weblog Info_*:Info网络行为字段

变量含义: 使用网络次数多少对违约率的影响 

Education_ Info *:学历学籍字段

变量含义: 学历学籍程度高低对违约率的影响

ThirdParty_ Info_PeriodN_*:使用第三方数据时间N字段

变量含义: 使用第三方数据时间长短对违约率的影响

SocialNetwork _*:社交网络字段

变量含义: 社交网络行为及活跃程度对违约率的影响

target为目标变量,0表示借款人没有违约风险,1表示借款人存在违约风险。