山西财经大学赵海霞主持的中国商业统计学会规划课题《非平衡数据下网络借贷违约预测的统计建模与应用》(课题编号:2021STY14),最终成果为研究报告。课题组成员:武建、郑璐璐、郭舒玲、刘昕宇。
一 研究背景
随着计算机技术的发展,数据的采集与存储技术不断进步,人们获得数据也会变得越来越容易,对数据进行统计分析几乎已经遍布所有学科。在获得数据变得更加容易的同时,除了数据量的增加,数据的结构也变得更加复杂化,在对数据进行学习的过程中,这就使得我们常用的机器学习方法经常会遇到一些新的问题和挑战。不平衡的数据集便是我们经常会遇到的一类问题,在该类数据集中往往存在样本量差距较大的类别,即某一类的样本量要远远小于其它类别的样本量。
不平衡数据集复杂的结构特征使得不平衡学习的研究不断深入。类别间的分布不平衡并不是影响分类效果的主要因素,在对不平衡数据进行分类时,不平衡数据集固有的结构特征往往才是影响分类的关键因素。如不同类别间存在样本重叠导致决策边界的难以确定;稀有样本的存在,由于缺失代表性的数据,在分类的过程中难于识别,且容易将稀有数据与噪音数据混淆;小析取项导致的类内不平衡,使得分类模型不能有效地学习到子簇的规则等。当不平衡数据集中存在这些复杂的结构特征时,尤其是存在于少数类样本时,将会导致少数类样本的识别困难,严重地影响到分类模型的整体性能。
在数据不平衡问题的研究中,传统分类模型的局限性和分类任务本身具有的非均衡性是两个主要突出的特性。无论利用数据预处理的研究策略,还是采用算法层面的处理方法,都无法绝对地保证分类模型对少数类样本的分类精度。因此,如何提高传统分类模型在数据不平衡问题中的分类性能,同时使得少数类样本和多数类样本的分类效果都得到相应的改善,是目前关于不平衡数据分类研究中的关键问题。
随着具有复杂结构特征的不平衡数据集的不断涌现,使得不平衡数据分类问题面临的挑战越来越严峻,而关于不平衡数据集结构特征的分析,从数据本质出发探讨造成分类困难的因素研究还很不足。因此,在面对不平衡数据的分类时,在考虑类别间不平衡的同时,更应从数据集的结构特征和类别间的不平衡形式出发,针对具体的情况提出合理的解决方案,才能够有效地避免不平衡数据学习过程中造成的弊端,同时也可以改善传统机器学习分类模型在不平衡问题中的局限性。
基于重抽样技术的不平衡数据分类方法,由于其处于数据的预处理阶段,对分类过程中的分类模型不做要求,因此具有较强的适应性。目前关于重抽样策略的研究虽然较多,但大都集中在类别不均衡和整体的不平衡率层面,由于不平衡数据结构的复杂性和多样性,还需要具体结合数据的分布信息更加深化和细化对重抽样方法的研究,唯有如此才能够在信息爆炸的时代,使得通过重抽样技术提高不平衡学习的性能。
二 研究内容
课题的主要研究内容包括以下几个部分:
第一部分为导论,主要介绍了研究的背景和意义,本课题研究的结构和主要内容以及研究方法,对进一步研究梳理了框架,奠定了基础。
第二部分是对具有类别重叠的不平衡数据分类研究。针对数据不平衡问题中常见的类别重叠,经常导致分类模型性能下降的问题,该部分内容主要对此类中的二分类问题进行研究。在分析少数类样本结构特征的基础上,确定数据分布中的重叠区域;基于正类样本和负类样本所含信息的不同重要程度,研究对重叠区域两类样本有效的重抽样方法,提高模型对重叠区域正类样本的识别。将深度学习中的CGAN模型引入分类研究中,在对数据集进行结构特征分析的基础上,主要包括对负类样本的欠抽样和对正类样本的过抽样。基于训练的CGAN模型对正类样本进行过抽样,提高正类样本信息对模型分类效果的影响,克服了以往常用的过抽样方法均从样本点的局部邻域出发的缺陷。
第三部分是关于网络借贷领域违约预测的应用研究。由于P2P网络借贷不受传统金融业务的限制,这就使得借贷人更容易对信息进行虚假填报,而平台受限于精确核对的成本,只能根据传统的风险分析框架来进行违约预测的研究,势必会造成风险控制的失效,导致投资者的利益受损。因此本课题主要针对在网络借贷业务中用户违约的情况,对违约用户的违约行为进行研究,结合网络借贷数据的类别重叠以及高维性的结构特点,运用机器学习算法进行违约用户的有效甄别和违约预测的研究,从特征选择和所研究的平衡性处理方法层面,对借贷用户的违约可能性进行预测研究,以期对网络借贷平台和P2P网络借贷行业的健康发展提供有益的参考和帮助。
三 研究展望
对具有复杂结构特征的不平衡数据分类问题建立预测模型,对未知对象提供准确的分类预测,可以帮助人们在海量、复杂结构的数据中,自动识别数据所属的类别,提高不平衡数据的分类效果,在生物医学研究,客户流失检测、金融欺诈检测、电信管理等领域均具有重要的现实意义。虽然本课题对于数据不平衡问题的研究取得了一定的成果,但是关于不平衡学习问题的研究仍很不足,还有许多的研究工作需要进行。
在实际的不平衡数据分类中,很多情形下通常伴随有数据高维的特性,使得数据结构变得更加复杂,例如互联网的交易数据、文本数据、图像数据、基因表达数据等,这些数据的维数通常会达到成千上万维,甚至更高。在对此类高维不平衡数据进行分类研究时,面对具有的高噪音、冗余性等特点,无论是再抽样技术还是算法层面的技术改进,使得传统分类算法都无法得到理想的分类结果,甚至容易产生维数灾难和过拟合现象。因此,对具有高维特征以及分布不平衡特点的高维数据,进行有效的分析和挖掘逐渐成为数据挖掘领域的研究热点和亟待解决的问题。后续工作中可结合高维数据的结构特征,尤其是少数类样本的结构分析,立足于对高维不平衡数据的特征选择进行研究,选取对分类效果有较强影响的特征,并结合有效的重抽样方法对数据进行合理的平衡性处理,以提高对高维不平衡数据的分类能力。
关注市调大赛
官方公众号
关注学会官方公众号
关注市调大赛
官方抖音账号
京公网安备 11010202009853号
技术支持:煜嘉科技