贷款数据调研怎么写?
先介绍背景:某互联网金融公司,通过收集和加工外部数据源为内部风控提供数据支持 研究对象及目标:以借贷交易行为作为研究对象,以欺诈率(即贷后逾期还款率)作为主要研究指标。通过对历史数据的处理和分析构建风险模型来预测单笔借贷的违约概率。同时结合业务部门上报的违约原因进行分类统计,为业务部门改进催收策略提供数据支持。
1.采集数据 数据来源于公司自有的在线数据采集平台。该平台实现了对第三方数据的实时接入、清洗和处理,日处理数据达到千万级别。本调研使用的数据来源于该平台对某个细分市场(如大学生借款)的采集。具体字段包括:用户ID、登录IP地址、登录时间、借款金额、借款期限、借款人学历、借款人学校等20余个字段。 需要注意的是,在进行机器学习或者分类问题时,需要将特征值进行归一化处理,即用同样的方法去量度每个特征值,从而确保不同特征值对于问题的重要性具有可比性。
2.数据清洗 和大多数大数据项目一样,在应用之前需要对数据进行清洗,过滤掉异常数据和错误的数据。 本项目中的异常数据主要是判断错误(如将借款人的身份证号识别错误)和虚假数据(如申请人填写的联系人姓名为“张三”)。由于数据规模巨大,我们没有对所有数据做人工的审核;而是基于机器学习的思想,使用样本数据集来完成对异常数据的过滤。 在实际项目中,我们首先选取了3%的样本来完成对正常数据集的筛选,然后对剩下的97%的数据做归一化处理。
3.数据挖掘与分析 本项目涉及的数据量较大,且包括数值型数据和类别型数据。因此我们需要首先对数据进行简单的探索性数据分析。
在对数据做了基本的描述性统计之后,我们发现,影响违约率最重要的几个特征是借款余额、借款期限、申请人学历和学校名称。我们还注意到,虽然“申请人学校”这一特征在均值上呈现较大的差异,但通过卡方检验可以发现,不同学校类型的借贷申请人其违约率并没有显著的差别,因此我们最终放弃了“学校类型”这个特征。 最终确定的特征值为:借款余额、借款期限、申请人性别、申请人年龄、申请人学历、申请人手机号长度、申请人工作单位名称、申请人电子邮箱、申请人居住城市、申请提交日期。