P2P网络借贷借款人信用风险预测分析

来源: 未知 作者:paper 发布时间: 2020-03-29 18:05
论文地区:中国 论文语言:中文 论文类型:经济论文
摘要当下,互联网金融经过蓬勃发展,已呈现出多种多样的业务模式和运行机制。 但互联网金融发展的同时也引发了信用风险和用户欺诈等问题。P2P网贷作为互 联网金融的突出代表,其
摘要
当下,互联网金融经过蓬勃发展,已呈现出多种多样的业务模式和运行机制。 但互联网金融发展的同时也引发了信用风险和用户欺诈等问题。P2P网贷作为互 联网金融的突出代表,其所面临的信用风险尤为突出,故急需通过建立信用评分 体系预测借款人逾期/违约倾向从而提高P2P网贷对其信用风险的控制水平。这 对未来互联网金融业可持续健康发展也具有重大意义。然而,现实生活中这些天 然带有多重数据源、超高维、稀疏等特点的复杂性数据也远远超出了线性回归或 Logistic回归等线性模型所能处理的能力范围,这对传统风控提出了巨大的挑战。 随着个人信息和各种行为数据的逐步完善,采用大数据挖掘技术预测个人未来的 信用表现日益成为主流方法。如何在充分利用大数据的同时提高风控水平,正是 传统风控转型为大数据风控的关键。本文基于这些挑战进行P2P网络借贷借款 人信用风险预测分析。具体工作内容如下:
1.数据获取与数据集预处理。本文对获得的P2P网贷行业部分借款人脱敏 化的个人基本信息数据和信用记录数据集做预处理,完成数据清理工作如:剔 除异常数据、缺失值填充等。
2.特征工程。在前期准备工作中重点对数据特征做处理,比如:特征变量 衍生、定性变量On.hot编码、定量变量Min-max标准化处理等,接着对借款 人相关信息做描述性统计分析。完成特征选择与最终变量汇总,并根据宏观环 境对特征变量进行监控,后续作为模型参数阀值调整参照对象。
3.集成学习模型构建。构建随机森林、GBDT、XGBoost和模型Stacking, 输出特征重要性图并将这些模型进行结果比较和效果评价。
4.建立信用评分模型体系。选择效果最优的GBDT和评分卡模型结合起来 形成信用评分模型体系。
本文得出如下结论:1.通过前期特征工程处理,得出借款人用户画像;2.在 P2P网贷借款人信用违约情况分类预测模型中,通过比较随机森林,GBDT, XGBoost和模型Stacking发现以上模型的准确率都在85%以上,具有较好的预 测分类准确性,其中GBDT分类准确率最高;3.四个模型的AUC值也均超过了 80%,说明4个模型在信用风险预测上都具有良好表现;4.本文还借助GBDT 模型搭建评分卡,相比较单独使用GBDT或传统评分卡模型具有更高区分性能, 也避免黑箱问题。最终根据模型结果并结合大数据背景,对社会信用评分体系建 立、信用风险预测模型应用和互联网金融监管三大方面提出展望与建议。
摘要 I
Abstract II
1绪论 1
1.1研究背景与意义 1
1.1.1研究背景 1
1.1.2研究意义 4
1.2研究综述 5
1.2.1P2P网络借贷相关研究 5
1.2.2信用风险相关研究 5
2P2P网络借贷基础及信用风险模型相关介绍 12
2.1P2P网络借贷基础知识 12
2.1.1P2P网络借贷概念 12
2.1.2P2P网络借贷平台运营模式 12
3P2P网络借贷借款人数据集预处理和特征工程 22
3.1数据集预处理 22
3.1.1原始数据集划分与连接 22
4P2P网贷借款人信用风险预测结果分析和模型评价 34
4.1P2P网络借款人信用风险模型构建与结果分析 34
4.1.1类别不均衡SMOTE处理 34
4.1.2随机森林 35
4.1.3GBDT 36
5结论与展望 45
5.1研究结论 45
参考文献 48
1绪论
构建P2P网贷借款人信用风险预测模型从而对P2P网贷信用风险进行把握 并提高风险控制水平是当下互联网金融业急需解决的一大问题。本章主要从以 下四个部分展开:研究背景与意义;研究综述;研究思路与研究框架;创新之 处。
1.1研究背景与意义
本文从研究的背景展开,引出问题并就研究的意义进行简单阐述。从P2P网 贷行业发展的过程及现状方面进行背景介绍,引出现在我国P2P网贷行业发展 的不良情况及风险问题,从理论与实践两个层面阐述研究意义。
1.1.1研究背景
随着社会经济、互联网行业的发展,互联网金融更是发展迅速,P2P网贷行 业更是互联网金融领域的一个代表。监管机构、网贷平台、借款人和出借人是P2P 网贷行业的四个重要组成部分。其中网贷平台就类似于传统金融的银行一角色并 充当信用中介。
P2P网贷前身最早起源于孟加拉国,由尤努斯1976年提出,运营模式为:借 款人可无需抵押但要承担较高借款利率,同时用稍高存款利息来吸引出借人投资。 这样的模式弥补了传统银行业务的边际,起到了牵线搭桥的作用,再后来随着计 算机和互联网的普及而在全世界范围内高速发展也就进化成了现在的P2P网贷 平台。
英国的Zopa公司作为P2P网贷的先锋者于2005年首创,而两年后P2P网 贷则在中国出现。2007年8月,拍拍贷成立,其是中国首家P2P (个人对个人) 纯信用无担保的网络借贷平台,P2P网贷平台本身一般不参与借贷款交易活动, 更多做的是信息撮合匹配、服务和工具支持等一些网贷交易辅助功能。
区别于传统银行的经营方式,P2P网贷平台不吸纳负债资产,而是通过互联 网信息网络为供需双方进行牵线搭桥的直接交易的中介平台,打破了借贷需求信 息不对称,提高了效率,降低了信贷成本,补充了传统金融的不足。
自我国第一家P2P网络贷款平台拍拍贷成立以来,网贷行业度过了快速发 展时期。正因为个人和微企业涌现出广大的资金需求,而P2P网贷行业刚好填补
了这一需求缺口,为需求方提供高效便利的线上融资服务,大大解决了金融借贷 方面供需不平衡问题。2011年,P2P网贷行业进入快速成长时期。同年8月23 日,中国银行监督管理委员会发布相关通知,对P2P网络借贷提出7大问题和 风险。然而,中国银行监督管理委员会并没有将这一新生事物认定为非法,而是 保持一种“不支持,不禁止'‘的态度。客观上对P2P网络借贷的普及发展起到推动 作用。2012年,我国P2P网贷平台进入了爆发增长期。2013年之后P2P网贷更 呈现出井喷状增长,几乎每天都有新的P2P网贷平台成立。
特别是2015年李克强总理在我国政府工作报告中提出要大力发展“互联网尸 后,作为互联网金融的代表P2P网贷行业也得以受益,发展越来越快。在2017 年7月P2P网贷行业出现历史成交量最高峰值:2536.78亿元。但经历过交易量 峰值后P2P网贷行业发展开始有逐渐下降趋势。由中国P2P网贷行业历史成交 额如图1.1可以看出,截至2017年9月份以前,P2P网贷行业成交额都是波动 性稳步上升的。

2017年我国P2P网贷行业成交额达到历史巅峰后出现波动下跌趋势,P2P 网贷平台行业快速增长和发展的风险也逐步显现。特别是2018年6月末至8月 期间,出现了许多网贷平台“暴雷'啲现象,使得P2P网贷行业发展岌岌可危。也 是我国P2P网贷行业发展进程中较为黑暗的一段时间。截至2018年5月,P2P 网贷平台暴雷之前,曾经出现过的网贷平台近6000家,正常运行的平台2000家 左右。2018年夏季自6月1日到7月12日的这短短42天时间里,经统计全国 范围内已有108家P2P平台相继爆雷,相当于每天有2.6家公司“出事J截止到 2018年10月,根据网贷之家数据统计显示,我国目前正常运营的P2P网络贷款 平台还有1240家,其中历史累计问题平台有2547家,历史累计转型及停业的平 台有2636家。由此可见,P2P网贷行业较高收益的同时,也对应着较高风险。 P2P网贷行业的2018年的雷暴风暴主要是是由监管、风控能力、互联网金融技 术和运营模式的不成熟,外加近期特殊的经济贸易国情多种因素共同导致的。随 着P2P网贷行业整改和国家相应的监督管理制度逐步完善,预计我国P2P网贷 行业在一到两年内将会逐渐自行恢复,并且其平台的抗风险能力也会相应增强。
不可否认的是,目前我们国家P2P网贷行业的发展还不成熟,再加上我国 P2P网贷平台和P2P网贷行业的信息披露机制仍不完善,目前我国P2P网贷行 业仍然面临着一系列风险问题。
但是对于我国P2P网贷行业来说其面临的风险主要来自两个方面,分别是 外部环境和内部环境。本文主要针对内部环境展开分析。
对于外部环境因素来说有两点根本问题:1.P2P网贷行业缺乏准入门槛,应 杜绝诈骗性P2P平台;2. P2P网贷行业相关业务的监管督促欠缺,这样导致了大 量问题平台的存在,更容易催生P2P网贷行业泡沫经济。就外部环境而言,自 2014年开始,政府监管部门对P2P网贷行业的监管措施也慢慢展开。陆续颁布 一系列管理办法和指引文件,如2017年7月14日至15日,第五次全国金融工 作会议召开,会议明确了三项任务:“坚持发展服务实体经济、防控和控制金融 风险、进一步加强深化金融改革S按照会议精神,2017年12月8日,P2P网络 借贷风险专项整治工作领导小组办公室发布——关于P2P网络借贷风险重建验 收工作与专项整治整改的通知。相信经历过此次互联网金融P2P市场的暴雷冲 击后,整个P2P网贷行业将重新洗牌。再加上外在监管备案整顿,P2P网贷行业 的外部潜在风险将大大减弱。
对于内部环境因素而言,主要来自于借款人的信用风险因素。这也是导致正 常运行的P2P网贷平台发展时所面临风险的根本原因。借款人违约/逾期行为和 用户欺诈等问题将直接导致P2P网贷平台资金链断裂,造成无法挽回的损失,严 重影响到P2P网贷行业的可持续发展。所以在互联网金融蓬勃兴起的背景下,如 果能准确迅速的识别出P2P网贷中借款人的信用风险,从而规避这类高风险,这 对降低P2P网贷平台的坏账率和提高P2P网贷行业的抗风险能力有不容忽视的 作用。
基于以上背景的前提下,本文借助大数据分析技术主要从借款人的信用风险 方面进行分析,运用数据挖掘等方法结合P2P网贷平台借款人信用风险特点和 特征进行研究。利用P2P网贷行业借款人数据,完成清洗数据、特征工程,构造 模型变量,建立预测集成学习模型、结果评估等步骤后。最终对P2P网贷行业借 款人逾期/违约行为的预测推断。针对我国P2P网贷借款人信用风险做出准确识 别和判断后可以有效降低P2P网贷的内部环境风险,为未来P2P网贷行业长远 发展奠定坚实根基。
1.1.2研究意义
虽然P2P网贷行业迅速发展,但也存在着重大风险问题。高利率的庞氏骗 局、虚假投标、平台自我推销、洗钱、挪用资金、理财业绩造假和跑路等仍然在 继续发生。平台逾期还款或消失的消息屡屡发生,给投资方造成巨大损失,甚至 引发信任危机。目前,信用风险是P2P网贷面临的最大风险。为降低信用风险可 从借款人信用风险因素分析和信用风险预测分析着手。目前,互联网金融行业存 在几十种借款人信用风险评估的指标,但除了特定于针对借款人个人信息的指标 相同外,不同的P2P网贷平台行业采用的信用指标并不完全相同,给出的结论也 不相同。关于借款人信用评估标准的基本指标的相关资料报告少之又少。以至于 无法依靠使用基本信用风险相关指标,来说明评估的全面性、多功能性和可信度。 其次P2P网贷作为新型互联网金融行业的一个缩影,与传统的网贷交易模式和 借贷业务模式不同,P2P网贷借款人的数据信息多元化、特征信息复杂多样、业 务数据量庞大,导致建模前期数据预处理和特征工程较为繁琐。但是,对P2P网 贷平台和出借人而言,当借款人不能如期偿还借款或恶意拖欠均将会给出借人带 来严重的经济损失。因此,通过建立借款人逾期/违约行为预测分类模型,从而识 别出借款人信用风险对P2P网贷平台借贷业务稳定运营至关重要。
从理论意义上,在依托大数据时代背景下。首先,本文根据我国基本经济国 情和P2P网贷行业的数据信息特点,通过研究总结归纳模型方法,最终选择用集 成学习方法里的模型如随机森林、GBDT、XGBoost等多个模型建模分析。有别 于以往研究中多数学者偏向于使用Logistic回归、神经网络等经典模型对信用风 险问题做分析及预测。其次,本文还尝试了模型融合方法中的Stacking在P2P网 络借贷借款人信用风险预测的应用。最后,尝试将集成学习模型和评分卡结合起 来建立信用评分体系,丰富并拓宽了数据挖掘技术与方法在互联网金融领域的研 究。
从实践意义上,基于海量丰富的P2P网贷平台借款人的互联网信用数据,采 用数据挖掘知识和方法,通过计算P2P网贷平台借款人借款逾期/违约行为的倾 向概率,从而构建借款人信用风险预测模型,帮助P2P网贷平台梳理出对借款人 未来逾期/违约有重大影响的变量。首先,对P2P网贷平台而言能够更加准确地 预测借款人未来的信用表现,提高P2P网贷平台操作的效率,降低其授信成本, 精确估算P2P网贷平台信贷交易的信用风险;为P2P整个网贷平台制定审批规 则和优化借款人信用风险,完善客户分类预测模型提供一些建议,最终可使P2P 网贷平台更好跟快的发展。其次,对于P2P网贷平台出借方而言,通过构建借款 人信用风险预测模,识别出借款人信用风险。可以有效并直接的减少出借人的投 资风险,保障出借人的应得收益和合法权益。最后,针对外部监管而言,P2P网 贷平台通过控制好自身平台内部借款人信用风险后,有利于国家和政府更好的展 开外部环境的监管工作。
1.2研究综述
P2P网络借贷相关研究、信用风险相关研究及国内外P2P网络借贷相关研 究信用风险相关研究在下文以三个方面层层递进进行阐述。包括定性和定量分 析两个方面。
1.2.1 P2P网络借贷相关研究
针对P2P网络借贷行业方面的研究有许多,主要为定性研究。
Akerlof(2007)[1]认为P2P网络借贷会导致信息不对称、逆向选择和信用风 险问题。
吴晓光,曹一(2011)0通过过定性分析,比较国内与国外P2P网贷发展情况 并总结P2P网贷发展的积极意义。针对P2P网贷业所面临的不同风险的来源问 题进行总结,如资金转账方式、用户与借款原因审核机制、借款使用用途等。
王紫薇,袁中华,钟鑫(2012)⑶以拍拍贷与宜人贷作为实证案例对,P2P网 络借贷的运营模式进行总结。并提出如下建议:一构建P2P网络借贷信用征信体 系;二发展“网贷+保险"新模式;三发挥政府监管与引导作用。
叶湘榕(2014)⑷指出我国不同商业模式下P2P借贷之间的共性与特有风险, 并针对P2P借贷行业进行具体监管分析。最后提出对我国P2P借贷行业相关监 督建议:加强平台自律、增强P2P网络借贷行业金融创新能力、根据不同商业模 式下的P2P借贷实行针对监管等措施方案。
1.2.2信用风险相关研究
信用风险的相关研究有风险评估度量、信用风险因素实证分析等。
Jin和F reedman (2008)⑸认为借款人会故意隐瞒对自己借款行为不利的信息, 变相增加信息不对称性从而导致逆向选择。提出网贷平台加强审核机制将会有助 于风险控制。本文通过研究P2P网贷借款人信用风险识别,从而可以更具针对性 的进行信息审核工作。
严莲(2016)⑹通过深入剖析互联网金融信用风险预测相关理论,运用随机森 分类模型判断并评估信用卡信用风险。最后从平台自身、外在监管环境等提出相 应监管措施。
王圆圆(2017)⑺以信息不对称理论为基础,从信用风险识别角度,构建借贷 双方信号传递博弈模型并在分离均衡条件下得出信用风险评估结果。
1.2.3国内外P2P网络借贷信用风险相关研究
(一)国外文献:
国外对于P2P网络借贷的研究较为全面,从理论和实证方面都存在不少研 究,主要包括P2P网贷的影响因素、借款人的信用行为表现、平台风险等方面。
Herzenstein和Andrews (2008)⑻等学者通过研究Prosper网站数据发现:借 款人的经济收入和支出等财务因素要大于借款人不同外貌、种族、肤色、性别、 年龄等个人基本信息因素对借款人逾期/违约行为的影响。
Sufi (2007)[9]与Michael Klafft (2008)[10]认为与传统金融市场一样,互联网 金融P2P网贷行业也存在信息不对称。
Michaels J(2012)[n吩析了 Prosper网站上用户的交易数据,发现网络借贷平 台缺乏责任担当,网络借贷市场一旦降低平台有效性与运行稳定性,则会让借贷 市场面临较大风险。
Lin (2013)2通过爬取Prosper和Lending Club等平台成交信息发现借款人 信息的透明度以及信用行为是P2P网贷中两个风险控制的重要因素。Lin还指出 通过政府征信机构增加借款人信息的公开透明度,能够降低P2P网贷平台的坏 账损失率。实证地研究了 P2P网贷信用风险的影响因素。
Emekter和Tu (2015)[13]通过抓取国外Lending Club上的历史交易数据。通 过统计方法,建立Logistic回归模型来预测信用风险,实证结果表明借款人的和 信用评分对借款人的逾期/违约行为有较显著影响。
Ajay Byanjankar(2017)[14]认为P2P网贷随着经济的高速增长,由于借款人 无抵押贷款、信息不对称以及缺乏借款人信用信息,其面临的信用风险也很高。 因此,对P2P网贷中借款人信用风险进行分析是十分必要的。并指出传统的信用 评分模型只能将借款人分为好的和坏的两类,但无法确定违约的时机。进而提出 了一种生存分析方法来预测不同时期P2P网贷借款人的逾期/违约概率,对生存 分析结果用神经网络进行分类。
Jackson J. Mi,Tianxiao Hu 和 Luke Deer(2018)[15]认为随着 P2P 贷款业务的快 速发展,不同的P2P借贷平台纷纷发布一系列借款人资信评级系统。然而,这些 评级体系能否真正反映借款人的信用度和信用风险尚不确定。通过分析信用等级 与CPLP用户分布的差异,以评价信用等级是否能真实反映借款人的信用状况。 并使用软因素建立了一个模型,可以找到可能违约的借款人。最终根据研究结果, 提出了构建和完善P2P借贷平台风险控制的策略。
(二)国内文献:
国内对于P2P网贷信用风险的研究起步相对国外较晚,主要研究集中在两 类:一是定性讨论分析我国P2P网贷的发展现状、平台风险管理。
刘丽丽(2013)[⑹根据我国P2P网络借贷行业交易方式灵活、受众面广泛、收 益率高等特点,提出其可能所面临的诸多风险,女口:信息不对称和缺乏信用评级 制度等所引发的信用风险;P2P网贷平台挪用资金,缺乏第三方资金托管导致的 操作风险等。最后提出完善P2P网贷行业的监管机制、规范法律条文并明确P2P 网贷法律地位等外在防范猎施。
此外,有研究表明P2P网贷的信息不对称问题会导致更多风险问题。
王会娟、廖理(2014)2]针对P2P网贷平台”人人贷啲真实数据,基于信息 不对称理论,研究P2P网贷平台的信用认证机制对信用风险的影响。研究发现 丰富和完善多层次信用评级指标、规范与健全线上线下信用评级方式等可缓解 信息不对称引发的风险问题。
柏传平(2017)阴对P2P网贷发展历程与风险管理相关国内外研究结论与成 果进行归纳总结,结合我国P2P网贷行业发展所遇到的问题与困境,从内外因素 分析分析风险的主要来源。结合我国最新监管政策与趋势,并借鉴国外风险监管 策略,提出建立P2P网贷平台自身风险控制体系,实现网贷平台与征信系统相互 信息共享与披露制度、加强P2P网贷评级制度和提高对借款人信用审核等方面 的P2P网贷行业信用风险监管措施。
祝韻(2017)[19]针对P2P网贷平台的风险提出相应的管理对策及建议,如构建 以大数据为中心的互联网金融风控体系、建立有效的数据搜集及分析系统、利用 数据挖掘技术定位目标客户、全面风险管理等。
另一类研究则是定量研究。
吴小英、鞠颖(2012尸0]使用“最小二乘Prosper平台的交易数据构建线性 回归模型。研究了借款金额、借款利用率、利率等对于借款人借款成功率的影响。
李从刚(2015)0】提出信用风险评估指标体系,并利用Lending Club的历史交 易数据,基于BP神经网络模型,构建P2P网贷借款人信用风险预测分类器。
宋丽平,张利坤和徐讳(2015)3首先通过定性分析P2P网络借贷个人信用风 险影响因素。然后,通过抓取人人贷平台的历史交易数据,并从中选取借款人信 息作为研究对象,构建了基于BP算法的神经网络模型。最后对P2P网络借贷个 人信用等级进行预测。
陈启伟、王伟(2018)3针对信贷风险研究中样本类别不均衡问题,提出一种 基于Ext-GBDT集成的类别不均衡信用不均评分模型,并与决策树、支持向量机、 随机森林等模型进行对比,最后用坏账率和KS值验证了实际应用中该模型的有 效性与可行性。
针对P2P网贷行业内部环境因素借款人信用风险而言。近几年来,依托于我 国互联网金融行业发展迅速,我国P2P网贷也高速扩张。但与此同时,由于P2P 网贷行业在我国发展历史不长,导致其发展初期缺乏相关经验。为争夺市场资源, 各大P2P网络贷款平台盲目扩大成交额和成交量,忽视了潜在的P2P网贷借款 人信用风险,因此导致P2P网贷平台信用逾期/违约问题也日益严重。
综上所述,当前国内的P2P网贷行业的信息披露机制仍不完善,依旧存在信 息不对称等问题,P2P网贷借款人相关的详细数据也难以准确完整的获得。因此 国内对P2P网贷的信用风险的定量研究较为缺乏。庞大的数据如P2P网贷平台 的交易数据、借款人个人及小微企业信用数据等,往往没有得到合理有效的利用, 只是堆积到后端数据库或者数据仓库中,这造成了极大的数据资源浪费。大多数 国内学者仅从定性角度研究我国互联网借贷的信用风险,或抓取国外的Lending Club, Prosper等平台数据来实证分析。如何准确预测出我国P2P网贷借款人信 用风险,将借贷平台面临的借款人信用风险水平降到最低,从而较少P2P网贷平 台的坏账资本,进而提升P2P网贷行业发展水平将是目前我国P2P网贷行业急 需解决的问题。
另外,大数据时代的到来逐步完善了互联网信息化技术,互联网金融机构能 够突破时间和地域的约束,简化借贷流程。为互联网上资金闲余的出借人和有融 资需要的借款人提供更方便快捷的金融双向服务。加快业务处理速度,给用户带 来更好的金融服务体验。但是,如何利用大数据相关技术和方法更好的获取、处 理和分析P2P网络贷款平台借款人相关数据,优化借款人信用风险预测模型并 使P2P网贷平台及时调整平台审核规则,从而降低借款人逾期/违约风险,以保 证P2P网贷行业健康平稳发展将是本文所重点研究的内容。目前我国正处于一 个大数据时代,我们可以充分利用大数据的优势来完善P2P网络借贷行业的风 险管理体系,将数据挖掘技术引入到P2P网贷平台的风险分析与管理之中。如果 对P2P网贷平台个人借款人的未来逾期/违约概率、欺诈倾向做出量化估计,则 可进一步揭示P2P网贷风险,从而改善P2P网贷风险管理水平。
2P2P网络借贷基础及信用风险模型相关介绍
2.1P2P网络借贷基础知识
主要分三个层次介绍P2P网络借贷。分别为:P2P网络借贷的基本概念, 平台运营模式以及P2P网络借贷的特点。从多元化、多层次的角度简单基础的 对P2P网络借贷的知识体系进行梳理。
2.1.1P2P网络借贷概念
在线网络借贷即P2P网贷一般是指借贷交易过程中,资金变动、资料提交与 审核、手续办理、签订合同等全部通过网络途径来实现的借贷行为。其中P2P网 贷平台,相当于起到一个“媒人''中介平台的作用,目的是为了撮合有投资要求的 出借方和有筹资需求的借款人之间的借贷交易行为。P2P网贷作为互联网金融领 域重要的组成部分,它是伴随着互联网技术的飞速发展和民间借贷的兴起而逐渐 结合形成的一种金融创新模式,也是未来金融服务行业的发展趋势。
2.1.2P2P网络借贷平台运营模式
我国P2P网贷行业主要有两种主要发展经营模式,一种是纯线上借贷交易 模式,代表平台有:拍拍贷,一种是线上线下借贷交易模式代表平台有陆金所、 宜人贷等。如下图

图2.1 P2P网贷运营模式图
来源:《2017-2022年中国P2P网贷行业深度度调研及投资前景预测报告》
此外还有P2N模式、风险储备金模式、P2P+供应链金融合作模式三种经营模 式。
2.1.3 P2P网络借贷的特点
相比于传统金融行业,P2P网络借贷在借款对象上主要面向个人及小微企业; 借款利息方面具有较高收益等特点。如下图2.2所示,但高收益的同时也相对应 着各种风险。信用风险问题是P2P网贷所面临的主要风险,其主要来源于借款人 一方。

2.2信用风险预测集成学习模型
除了传统的统计模型Logistic回归外,近年来许多模型被应用在信用风险预 测上,诸如Decision trees, SVM,聚类分析,k ■近邻方法,简单神经网络等。在 以上的模型中,简单神经网络通常具有更好的效果,但是作为黑箱系统,它的可 解释性大大降低。神经网络的模型不足之处SVM可以克服,其中包括小样本数 据下模型泛化能力不足和结构选择的问题。但是,对于高维不饱和海量数据时, 以上这些模型存在不能自动化进行特征变量选择和融合,因此准确率会受到一定 影响,与维度无关。并且,异常数据点的存在也会对分类结果产生十分严重的负 影响。对于Logistic回归模型来说特征组合非常关键,但只能通过人工经验,耗 时耗力,并且效果不一定得到提升。当前国内银行等信贷系统的主流信用评估模 型主要是参考美国FICO公司的评信用分体系,其核心是Logistic回归算法。 该算法的特点在于简单易部署,得到的结果为概率值,可以人为Cutoff,训练速 度快,算法可分布。最重要的在于Logistic回归模型的结果直观更便于理解,可 以与人的直观感受相结合从而评估模型效果。但是不足之处在于:Logistic模型 常用于解决线性问题,生活中大多数数据都是非线性的,如果特征出现多重共线 性的问题,会降低预测准确率;另外,如果特征的解释性不足,特别是当数据量 较大,而特征变量较少的时候,采用Logistic回归模型往往得不到理想的效果。 因此Logistic模型要取得较好的效果,必须在前期数据特征变量选择和处理中 花费大量时间与精力。考虑到我国基本国情以及互联网信用数据的特点,本文认 为一些基于集成学习的机器学习算法,比如随机森林,GBDT, XGBoost更为 适合。而且集成学习结合了不同的基线预测,因此,它们的性能至少等同于最 佳基线模型。使最终模型不光性能得以提升而且使用边际成本降低。
集成学习方法结合了多种机器学习模型的预测结果,以实现单个模型无法比 拟的精确度。大致可将它分为:机器学习元算法和模型融合两类。根据机器学 习元算法之间相互存在的方式,可分为Bagging (装袋法)和Boosting (提升法) 两大类:Bagging的基学习器相互之间可同时对样本随机采样并生成个体学习器, 不存在依赖关系;而Boosting的学习器之间是递进关系,下一轮训练目标是拟合 上个学习器的残差,所以存在依赖关系。
3P2P网络借贷借款人数据集预处理和特征工程
3.1数据集预处理
本文首先对获取到的多个csv格式的数据集进行初步整理,为下文特征工 程变量处理做准备。数据集预处理工作主要包括以下两个方面:1.原始数据集 的划分与连接;2.数据缺失值剔除及填充。
3.1.1原始数据集划分与连接
本文通过运用MySQL, R, Python软件,以京东万象数据平台用某P2P机构 借款人个人信息和历史信用行为数据作为原始数据,将是否逾期/违约作因变 量。
本文共获得了 30000条借款人的个人信息及信用记录。其中共7个数据 表,包含1个个人信息表和6个信用记录表。具体数据列表如下,所有表可用 report ID作为主键连接到基础信息表。
4P2P网贷借款人信用风险预测结果分析和模型评价
4.1P2P网络借款人信用风险模型构建与结果分析
本文在P2P网络借款人信用风险模型构建上,首先对本文所获取的不平衡 数据集做平衡化处理,接着将上文所提取的特征变量(自变量)及因变量Y的数 据集以8: 2的比例划分为训练集和测试集;其次通过构建随机森林,GBDT, XGBoost和模型Stacking等集成学习模型,比较以上分类预测模型的结果;最 后将结果表现较好的GBDT模型和评分卡结合起来,得到数据测试集样本评分 卡排序表。
4.1.1类别不均衡SMOTE处理
本文数据集中,逾期/违约借款人的样本量只占总体样本6.25%,属于非平衡 样本。如果采用误判率作为评估模型的效果,在本文的数据下可能出现较大的风 险,无法客观真实的得到有价值的模型。一方面,预测的结果可能集中在较小的 概率上,对于阀值的选择过于敏感。另一方面,假设将所有的测试样本预测为不 逾期/违约,则模型的准确率也高达93%以上,这种判断明显是没有意义的。因 此只有解决这一不平衡数据问题,才能使用模型评估方法来比较模型效果。解决 不平衡问题主要有上米样米样、欠米样和SMOTE算法三种方法。上米样通过大 规模复制大量小群体样本,将容易影响模型的泛化能力;欠采样方法牺牲许多样 本数据信息,不利于模型的优化;SMOTE即合成少数类过采样技术。是基于随 机过采样算法的改进方案,可以缓解模型过拟合的问题,并改善集成学习模型得 到的样本数据过于片面而不够泛化。
针对本文出现的不均衡数据问题,SMOTE算法的基本思想是基于少量样本 人工合成新样本添加到数据集中。SMOTE算法的基本思想是依据两类样本在p 维空间上分布特征,找出小类样本的分布空间,最终在小类样本与小类样本之间 生成新的小类样本。算法流程如下:
1,以欧氏距离为标准,对于少量样本类别中每一个样本$x$,计算它到少 数类样本集$S_min$中所有样本的距离,并获得到其k近邻。
2,根据样本不平衡比设置采样率,以确定采样倍率$N$。
3,每个少数类样本$><$,从其k近邻中随机选择,假设选择的近邻为
$\方/{兀}$。
对每个随机选出的近邻$\力加{兀}$,按照如下的公式构建新的样本。

5结论与展望
5.1研究结论
P2P网贷行业所面临的风险问题日益凸显,亟需广泛重视。风险控制的核心 是加强对P2P网贷内部借款人信用风险的预测估量能力。本文先重点进行特征 工程处理再主要借助集成学习模型和方法对我国P2P网贷借款人数据进行信用 风险分类预测。通过揭示信用风险从而进一步利于P2P网贷平台稳定业务运营 及其未来可持续发展。
首先通过对国内外学者们相关模型研究文献进行归纳,总结P2P网贷平台 借款人信用逾期/违约预测模型应用上常用的理论与方法。再结合我国实际情况, 利用P2P网贷借款人相关数据,最终选取集成学习模型随机森林,XGBoost, GBDT和模型Stacking等进行实证对比分析,并将GBDT模型和评分卡模型结 合。通过比较以上预测模型,本文得出如下结论;在P2P网贷借款人信用逾期/ 违约行为分类预测模型中,通过比较随机森林,GBDT, XGBoost和模型Stacking 发现以上模型的准确率都在85%以上,都具有较好的预测分类准确性,其中 GBDT模型结果最好;其次四个模型的AUC值也均超过了 80%,说明4个集成 学习类模型在本文的P2P借款人信用风险预测上都具有良好表现。本文还借助 GBDT模型搭建出评分卡,相比较以往使用传统评分卡模型在算法效率方面得到 了提升,更具有高性能;集成学习模型与评分卡模型相结合使得模型具有高解释 性和可读性。实证分析还得出:1.地域字段如PROVINCE_ huabei (华北), PROVINCE_dongbei(东北)等P2P网贷借款人逾期/违约情况有显著性的影响, 证明地域性因素确实能影响个人的消费习惯和信用情况。2.信用记录字段中如: sum/LOANCARD COUNT (借款总额度),sum/CREDIT_LIMIT (信贷总限额), sum/ACCOUNT COUNT (账户总账户数),jishu/query reason (查询原因)等, 是信用记录数据中对P2P网贷借款人逾期/违约预测情况贡献较大的特征变量。
3. SALARY (收入),FUND(公积金),Gender (性别)等对最终预测分类情况也 有较大影响。4. EDU_masters (硕士及以上学历)和MARRY others (婚姻状态 为其他)则对借款人逾期/违约行为贡献最低。
在特征工程构建与模型参数调整时,将宏观因素考虑进来,根据不同时间逾 期/违约率变化的特征,结合美林时钟理论,本文将经济周期划分为四个阶段,分 别为:衰退、复苏、过热和滞涨。利用历史统计规律,对参数阈值进行不同程度 上的调节。最终使得训练出来的模型具有更好的预测分类性和精准率。
本文通过创新将机器学习方法之集成学习模型和评分卡相结合,将GBDT模 型与信用评分卡应用到P2P网贷借款人逾期/违约行为二分类预测中。不仅丰富 了互联网金融行业信用风险预测分类方法,也扩宽了集成学习模型结合信用评分 卡在互联网金融的P2P网贷行业方面的应用,使风险建模系统多元化。
5.2研究展望
基于大数据技术的逐步完善和优化的背景条件,针对本文研究中存在的局 限和不足,下面对我国社会信用评分体系建立、信用风险预测模型应用和互联 网金融监管三大方面提出展望与建议。
一、大数据背景下,建立信用评分体系社会
由于我国的P2P网络贷款行业发展起步比较晚,再加上P2P网络贷款平台 发展参差不齐、借款人的信用信息不对称性等问题,很难对借款人的信用风险进 行有效的预测估量和把控,进而形成真实有效的信用评分体系。所以在大数据背 景下我们应当借助互联网信息的优势,不应当局限于个人金融交易行为进行信用 评分,还可涉及其社交关系行为与虚拟网络行为等,形成一个覆盖全局的信用评 分体系,从而建立高效、有序的信用评分体系社会。
数据来源和数据质量作为建立信用评分体系的基础,在构建信用评分体系社 会中应当借助大数据技术提升数据质量与水平。由于本文所研究的数据信息涉及 个人隐私与各部门机构数据信息不共享,导致缺乏高质量与多数据源的数据;其 次虽然本文已获得丰富丰富的特征变量且跟信用风险因素紧密相连,但从多维度 角度考虑,本文所获得的数据特征信息还远远不够。相信随着区块链分布式数据 库技术的迅速发展,未来数据库信息将越来越完善与丰富。
二、 大数据背景下,信用风险预测模型应用
大数据背景下随着各行各业机器学习模型的需求不断增加,传统互联网金融 业的信用风险预测模型也面临着挑战。本文通过集成学习方法结合评分卡建立信 用风险预测模型,使模型结果兼具高效率性与直观性。在信用风险预测模型应用 中应当结合我国实际经济发展背景、P2P网络借款人信用风险发展现状与特点等 对模型特征变量选择、模型调试与结果输出等要点进行合理建模。
本文虽通过多个集成学习模型来尝试提高对P2P网络贷款客户信用违约分 类预测性能。但模型选择和结果分析仍不够全面,因为随着互联网信息技术与计 算机技术在大数据背景下快速发展,越来越多的优秀模型和算法也在涌现,在做 好特征工程的前提下,应当结合实际情况择优选择更高效率的模型和算法。
三、 大数据环境下互联网金融监管的完善
在当下互联网金融已蓬勃发展的时机下,以P2P网贷借款人信用风险评估 为切入点,根据信用风险预测结果相关政府部门和组织可以有针对性地采用多层 次、多级别、多元化的协调监管。本文通过研究P2P网贷信用风险内部因素预测 借款人的逾期/违约行为,能使外在监管更加具有针对性。
在大数据背景下,随着云计算技术、大数据挖掘技术以及信息通讯技术早已 广泛应用与互联网金融中,可通过云计算、人工智能等科技手段优化互联网金融 监管,不仅令监管更具高效性和低成本性,也可以使风控监管体系更加完善与健 全。

参考文献
[1] Akerlof C.R Townsend. Selection into and Across Credit Contracts: Theory and Field Research [J]. Journal of Econometrics Forthcoming,2007,136(2):
665-698.
[2] 吴晓光,曹一.论加强P2P网络借贷平台的监管[J].南方金融,2011⑷:22-24.
[3] 王紫薇.中国P2P网络小额信贷运营模式研究——基于“拍拍贷J “宜农贷啪勺 案例分析[J]新金融,2012(2):13-14.
[4] 叶湘榕.P2P借贷的模式风险与监管研究[J].金融监管研究,2014⑶:71-82.
[5] Freedman SM ,Jin GZ.Do Social Networks Solve Information Problems for Peer-to-Peer Lending? Evidencefrom Prosper.com[J].Electronic Journal, 2008 (8).
[6] 严莲.商业银信用卡信用风险评估研究[D].安徽大学,2016.
[7] 王园园.基于Logistic模型的我国P2P网贷信用风险识别研究[D]冻华大学, 2017.
[8] Herzenstein M,Andrews R L,Dholakia U M. The Democratization of Personal Consumer Loans Determinants of Succession Online Peer-to-Peer Len ding Communities[EB/OL]. https://www.researchgate.net/publication/276267266,2008-10-16/2017-01 -09.
[9] Sufi A.Information asymmetry and financing arrangements: evidence from syndicated loans[J] .Journal of Finance,2007,62( 2):23-29.