课程门户-章节详情

邓强等

应实践拓展

数据来源：

数据来源于中国一家著名的P2P公司的借款记录。

数据内容：

包括借款人的特征、网络行为、学历以及第三方数据等全面信息。

通过数据集的多个变量预测借款人的信贷违约风险。

时间跨度为1年。

变量含义

本数据包含字段较多，仅展示变量所属类别，字段名称以数字代码展示。

User Info_*:借款人特征字段

变量含义: 借款人外貌特征对违约率的影响

Weblog Info_*:Info网络行为字段

变量含义: 使用网络次数多少对违约率的影响

Education_ Info *:学历学籍字段

变量含义: 学历学籍程度高低对违约率的影响

ThirdParty_ Info_PeriodN_*:使用第三方数据时间N字段

变量含义: 使用第三方数据时间长短对违约率的影响

SocialNetwork _*:社交网络字段

变量含义: 社交网络行为及活跃程度对违约率的影响

target为目标变量，0表示借款人没有违约风险，1表示借款人存在违约风险。