弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。
此次峰会由中国计算机学会主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
在大会第三日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上,展望他们眼中的「AI金融新十年」。
华尔街知名建模和风控专家黄又钢参加了此次会议,他曾任摩根大通执行董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维,今年回国与金融界顶尖技术大牛王强博士联合创立了弘犀智能科技有限公司,出任首席风控官。
以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己在风控实践中的一些心得体会。
黄又钢认为,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要关心和全力解决。但和上市的公司相比,这类企业信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题,除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出。
在现场,黄又钢主要介绍了集成算法,降维算法、聚类算法和决策树算法。他指出,现在弘犀智能建任何模型一定是“双轨模型”, 即两个算法同时进行。
此外,黄又钢还解释了实操“双轨”建模中的几大过程,详细讲述了人群分类在建模中的重要性,分享了算法探索与创新方面的两个思路。
以下为黄又钢演讲全文,雷锋网AI金融评论做了不改变原意的整理(关注《AI金融评论》公众号,发送关键词“黄又钢”,获取他的演讲PPT。):
首先,感谢雷锋网提供这样的平台。
在美国,这样的机会不是很多,各行业封闭得很厉害。能够有平台互相交流,特别是看到有这么多年轻的朋友在这里听,真的很好。
我今天的主题是《小微贷款风险模型中的算法探索》。首先,我想谈谈股市和信贷谁更难这个问题。
股市VS信贷,谁更难?
从人才角度,信贷行业急需人才。
股票市场比较容易吸引人眼球,高大上的人都选择去那儿。不光是中国,美国更是如此,华尔街吸引了全球最高端的人才。
但是,如果有人选择信用贷款,特别是到小微贷款这个行业,给大家的感觉像是无奈之举。
而且,两者都是在处理非常复杂的问题,股票市场需要需要考虑几千家上市公司和几千万散户的博弈,而小微贷款也需要考虑到几千万家企业。
如何判断一家企业的信用、以什么样的利率贷款给企业、如何贷款后收到还款,这些都是非常复杂的问题,需要人才,尤其是顶尖人才去分析。
从数据层面,信贷比股票市场更难,信贷行业更需要标准和规范和确切的数据。
股票市场上,每家公司必须有财报,它的格式和框架是一致的。财报的数据是标准的、业绩等信息发布的时间和周期是确定的,我们可以确切的得到股票市场里的许多重要信息。
和上市的公司相比,小微企业的信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题。
在股票市场,我们要关注两件事:价格和数量。什么价格买?高价买,还是低价买?买多少数量?1千股还是1万股?
而在信用贷款行业中,我们需要关注它的四个维度:
一是风险程度,我要判断你这个人是否靠谱;二是给你放贷,我给你多少利息,价格是高是低;三是我给你多少钱,借你1000元、1万元还是300万元;四是期限,我是按天、按月计算还是按年计算?
在我国,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要持续关心和全力解决的。
2006年,诺贝尔和平奖给了孟加拉国的经济学家,当时我在花旗银行,听到这个故事非常感动。经济学家真正去底层考察和生活,把27美元借给40多人,每人几毛钱、几美分地贷,这很难得。
当时花旗银行没有小微贷款,也没有普惠的概念。我直接找到我老板,我问他看和平奖了吗?他说看了。我问他花旗银行怎么没有普惠性的东西?他耸了耸肩,没搭理我。我问我们能否做这样的事情,他回答我“做好你的工作就行了,别管那么多闲事”。
美国的银行在为富人服务,他们并不关心底下的中小企业。而在中国,国家真的会把钱倾斜到中小企业身上。
机器学习算法概述
机器学习是AI的分支,现在机器学习有非常成熟的算法。我很喜欢这个图片,虽然这张并不是最新的图片。
它列出的算法比较规范、有条理性。深度学习、集成算法、神经网络、正则化算法、规则算法、回归算法、贝叶斯算法、决策树算法、降维算法、实例算法、聚类算法,这些算法十几年前就有了,有些仍在不断更新。
如果一个人想做机器学习,至少要懂每个算法的原理,这些算法背后的逻辑是什么?其底层数据是怎么回事?
我今天主要介绍集成算法、降维算法、聚类算法和决策树算法。每个算法都有实实在在的应用和意义,不是为了算法而算法。
如何应用算法?我们现在做任何模型一定是两个算法同时进行,既要做传统模型回归算法,也要做机器学习算法。传统模型主要指的是回归算法(LR),取决于应用场景。机器学习模型,我们主要指的是XGB,集成随机树的算法。
经典风控领域全都是以回归模型为主导。原因在于其稳定性好,可解释性非常强。
在美国,机器学习在任何信贷场景都不能落地,也不能使用,原因在于我们无法解释底层拒绝贷款申请的原因是什么。由于不能解释,在美国的法规下就不能应用。所以机器学习只能在底层,我们分析团队、模型团队可以高大上地玩,但只能玩而已,真正实战一律不许用。
在中国,我们不仅玩,还有机会可以使用。至少从法规层面,我们还没有严格要求拒绝一个贷款必须跟企业或者客户解释理由。
实操“双轨”建模有几大过程:一是预测能力的比较; 二是变量维度的判断;三是对比同一个观测值,如何交叉使用;四是策略应用,即如何使用这个模型。
如何使用这两个模型?我们可以将数据集分为两类(路径):一类是传统模型,另一类是机器学习模型。
建完模型一定要有预测能力,假如用KS表述模型的准确率,你可以通过ROC、AUC等统计控制。
假如我们用(统计)变量(做评估),不管(使用)哪个统计变量一定有好坏的比较。机器学习好或者不好的比较,首先是评测模型的层面。
有了模型层面的比较后,(谈)模型一定会牵扯具体的特征值或者变量。
它用哪些变量,在变量的层面上我们也进行比较。真正实际应用的是特征(变量),关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少?10个维度还是20个维度?机器学习的维度到底是多少?都是我们需要考虑的。
由于传统模型回归算法的局限性,它是线性(关系)的,维度一般在10~30个变量。而机器学习在准确性等方面比传统模型要好;
在变量层面,总体来说机器学习完全没有概念和业务场景的限制,可以按照数据结构往下走,使用的变量相对较多。比如XGboost有一两百个变量是常态,三五百个变量也是常态。
我们比较两个模型时,在变量维度之间要做一个比较。
一般来讲我们建回归模型,在处理变量时,我们做了数据本身的转换,可以在变量维度上做聚类分析,控制变量维度。假定回归有20个变量,回归模型一般就(代表)有20个维度。
虽然机器学习的变量很多,但是我们至少可以判断维度上是不是有问题。
而每个观测值的评分,也是需要具体比较的。如果评分一致,我可以确定这个企业的评分比较准确。但是,如果两个评分出现差异怎么办?如一家企业用传统模型测出720分,用机器学习测出来可能只有600分。
(也即)回归模型说这个人风险低,机器学习说这个人风险高,那我们如何决策?这是我们后端策略上要解决的问题。
综上所述,每一个评分的好坏,可以通过三个层面的比较:模型层面、变量层面、观测者层面。
人群分类是建模中十分重要的环节。如图示,这里有多个子人群。如果我能把人群打开,按照其实际状态,分为红、绿、黄等图中标注的群体,在每一个人群上做独立的测试,可能会做出更好的预测。
这是人群分类的基本点。任何人群可能会存在不同的子人群中。每个子人群可能会有其独立的特征和趋势。问题是我们能否找到这样的趋势和特征。
而前提条件是我们能否把人群分开,每个人(建模师)的经验不同所以做到的程度不同。
决策树算法和聚类算法是人群分类中常用的两个算法。决策树算法,是用树的方法把底下人群分为几个叶子,每个叶子为一个子人群。
聚类算法,是以每个观测点(如企业)的相似性为基础,将相似的企业分为一类。“相似性”是由统计学上的距离来决定的。从机器学习角度分为有监督学习和无监督学习。有监督,指的是知道Y是什么,在有Y标签的前提下进行训练。无监督,指的是不知道Y,只知道X变量。决策树算法是有监督算法的一种,而聚类算法是无监督算法的一种。
这两种算法都非常有用。
目前的算法变量越多,计算量越大,信息多了可以做更好的事情,信息多了可以分析各个层面,可能会有更好的结果,所以我们引入特征变量端。
但是,在实际的统计分析上并非如此,信息多了可能会带来更多的噪音,当你无法区分噪音和有效数值时,你可能把噪音当做有用的。
变量越多,算力肯定很沉重,如果我们涉及几千万人,算法用到几百棵树的时候,我们算力的时间不是按小时、分钟,可能是按天计算。
特征少自然最好,我们能判断我们的特征是否是真的重要特征。我有5万个变量、1万个变量,过程中我选出20个变量,这20个变量是不是真正的主要变量?
在1000个、10000个变量里如何选择20个你认为关键的,这是我们算法上要解决的问题。
人群分类实际操作的第一步,是构造分类。
我们从模型数据中判断,最上面的分支我们不做任何人群分类,全体人群做回归模型。出来的20个变量、30个变量,我们暂时判定经过一个算法(如LR),这20个变量是主要的变量、主要的特征。
我把这个主要特征应用到后面的人群分类,通过回归模型判断主要特征。
在此之后做人群分类,不管任何时候,数据驱动一定是我们的方法之一。
人的经验(业务经验)一定有意义,人(的经验)和数据驱动永远是相辅相成的。如果你只靠机器学习做所有决策,不能说绝对不对,但可能走到比较危险的地方。
从算法层面,我用两类算法,监督和无监督。
在特征变量上,我给出两个的维度(主要变量和全量变量),主要变量可以方便我们快速有效地分类。而全量变量可以全面考查各方面的信息。
第二步是比较评估,我们用两个算法,决策树和
Cluster(聚类算法),及在特征变量上两个维度,那麽我们一起构成4个人群分类的方法。决策树用关键(主要)变量(ST2),SK1用聚类算法用全量变量。说是4个方法 (4个圈), 可是每个圈可以是非常复杂的东西。
假定用决策树,如果特征有2000个变量,这个树可以长到几百个,非常容易。
决策树要对着2000个变量找树,统计上可以做限制。每一层分多少?叶子最多是多少?分多少层?有2000个变量足够你找几百棵树,在几百棵树下,至少有几百个子集。
你用聚类也可以做很多的聚类人群。
在做了决策树等4个方法后,怎么知道哪个人群分类的方法就是好的呢?
我们最终谈的是预期模型和预测。在一个方法中可能出了200个子集,在另一个方法中出了40个子集。每一个子集要建模型,重新合起来,直到可以判断总人群到底是好还是不好。
这四个方法,上面有一个LR模型,这是主模型,合到最后是5个模型。这5个模型之间的KS预测值谁好谁坏,可以判断最终的效果。
不管分成多少个子集,我们最终要回归到总人群上比较,才能证明哪个方法好还是不好。
如果一个决策树分为300个人群,那麽就会有300个模型,再加上总量的一个模型,就是301个模型。任何一个方法底层意味着几百个模型。
人群分类的概念听起来非常简单,实际操作相当复杂。最终的结果有明确的评判好坏的标准,一是算法层面,二是参数层面,最终的效果必须汇总到整体后才可以评判。
算法及应用的探索
前面谈到如何分类人群,最后我们讲一讲算法的探索。
我回到中国学到一个词叫混搭,衣服、鞋子都可以混搭,我的女儿告诉我她左脚穿红袜子,右脚穿蓝袜子,这就是混搭。
混搭的概念在统计里早就应用到。比如两种算法相互匹配,两种算法相互兼容,两种算法相互嵌入,就可能做新的算法。
如何做回归算法和集成随机决策树算法二者之间的交互?
我们可以先训练LR模型,然后分箱(分层),分箱后每个点之间一定有误差值。在误差值的基础上,哪个层面的误差值最大,就在哪个层面直接插入XGboost。用 XGboost在这一层上单独进行计算以减小预测误差。至于如何使用,是属于技术上的问题了。
算法探索与创新方面有两个思路。
一是在单一算法层面,从数学角度和(或)计算机角度,产生新的突破。
二是两种(或多种)算法的相互嵌入和混搭形成新的算法。比如XGboost的算法就是这样混搭出来的。从实际应用的层面,“匹配”可能会更快地实现突破, 即现成的算法匹配特定的人群和特定的特征,就可能产生非常成功的应用,比如CNN算法在图像识别上的应用效果就是一个事例。
未来的方向是“算法+人群+特征”,也即,算法的突破,人群的细分,数据的深挖,及相互之间适当的匹配都可能产生革命性的突破。
关于 CCF-GAIR 2020 AI金融专场
「AI金融专场」是CCF-GAIR 2020最受关注的主题论坛之一,其余5位嘉宾分别是:国际人工智能联合会首位华人理事会主席杨强、平安集团首席科学家肖京、京东数字科技集团副总裁程建波、移卡集团副总裁奚少杰、统计学诺贝尔-COPSS总统奖得主范剑青。
「AI金融专场」除了拥有业内最顶尖的阵容外,每年都会吸引中国及欧美地区众多AI金融专家到场。在上一届论坛中,加拿大工程院院士、Citadel首席人工智能官邓力博士,加拿大工程院院士凌晓峰教授等多位重量级人物来到现场学习交流。
而在今年,包括黄铠、刘江川、王强等十多位IEEE Fellow以及各大金融机构的首席信息官/科学家来到现场,共同促进AI金融的产学融合与商业应用。(雷锋网雷锋网)