我亲历的数据安全To B格局大变化
这一期,是一位数据公司高管的故事。近年来,他所亲历的数据安全行业To B格局剧变,到底“变”在哪里?
从去年到现在,大数据行业经历了翻天覆地的变化。身为行业的其中一员,我感触颇深。去年底,始于同盾等公司被查的大数据风波,也是行业“剧变”的开始。
去年10月12日,北京银保监局发布了《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》,对辖区内的银行与科技公司机构合作业务进行了详细的规范,明确“不得将贷款‘三查’、风险控制等核心业务环节外包给合作机构;不得仅根据合作机构提供的数据或信用评分直接作出授信决策;不得因引入保证保险、回购承诺等风险缓释措施而放松风险管控”。
这一波针对大数据的监管风波之后,无论是机构需求,还是数据公司本身的业务重心,都出现了很大的变化,“数据荒”出现了。
什么是“数据荒”?数据就在那里,却很难用起来。很多数据公司开始担忧以前“卖数据”存在的合规风险,与此同时,我们也清晰地感受到,所有的银行机构开始忌讳数据出库的建模方式。尤其是随着5G的普及,国内的互联网数据应该会以指数级的增速增长,数据的客观存在与数据孤岛效应成为一个矛盾。与此同时,很多金融机构的贷款业务都有KPI,不可能不放贷,也不可能不用数据,但数据使用的安全边界却依然不明晰,不知道如何使用数据才是符合要求的:既要用,又担心。
所以,这既是“数据荒”,也是“数据慌”。
基于此,在数据安全领域,银行等金融机构的合作意愿相比以往表现得强烈,需求也更加明确。过去,银行似乎在数据的采购与业务建模上“以结果为导向”,关注的是哪家数据能解决风控中的实际问题。比如银行和金融科技公司的联合放贷,银行侧更多地是关心数据风控的效果。
但今年以来,由于国家对数据安全的法律法规更加明确,一大部分数据公司被监管整改,数据市场过去比较暴力的输出方式逐渐被淘汰。银行侧由于内部数据监管更加严格,不存在任何样本出库的可能性。这种变化倒逼数据市场催热了联邦学习、边缘计算等安全计算技术,越来越多巨头在安全计算领域的投入也在加大。
银行对数据安全的要求非常明确,银行的用户数据不能出门,银行去查询第三方数据的时候最好拒绝用户ID被缓存,银行对合作数据源要求一手合规。从银行机构内部来看,数据安全类的合作也正经历着“风格切换”:城商行表现“激进”,国有银行正在“下沉”。换句话说,城商行股份制银行则能更快地接受安全计算技术并付之于实际业务,国有银行目前普遍处于立项科研阶段。
具体到业务类型来看,银行等金融机构对数据安全需求最多的是风控和营销。
营销,用户运营是对银行储蓄卡、信用卡、理财、贷款等业务场景的用户进行量化分析,并作出运营决策,围绕着以ABTEST为核心的运营思路,不断优化运营方案,最终达到降本提效。银行依赖于外部的数据进行用户兴趣偏好的刻画,比如支付维度数据、SDK行为数据、电商数据等。
风控,风控评分是对银行信用卡、贷款等业务场景进行大数据智能风控,通过与多方数据进行联合建模,建立用户信用评分卡与质量评估模型,提升信贷客群的信用评估能力,最终降低信贷业务的坏账率。比如小微企业贷,就涉及到外部的税务发票、水电费数据等。
传统的方式是API将需要的数据从数据源那边调用到银行端,问题是去查询存在被恶意缓存用户ID的隐患,另一个问题是采购标签如果是脱敏的太多,意味着价值越低(数据源也开始忌讳直接输出原始标签)。目前,联邦学习等隐私计算解决方案之所以流行,就是可以保证双方数据不泄露,最大化地联合多方数据源进行模型训练,保证了双方数据的安全性。
实际上,要彻底解决行业的数据安全问题,需要双管齐下。首先,要有完善的法律法规,然后,剩下的问题都可以交给科技。
近日,《数据安全法(草案)》已经比较明确规定了数据合规使用的边界,我相信未来关于数据安全的法律环境会更完善。而从科技公司未来的发展来看,我建议可以更多地考虑从技术上去解决使用数据过程中同时能保护数据安全的问题,比如目前比较被公认的隐私计算技术,市场上已有这些技术在信贷业务的落地应用。
我们,相当于是数据孤岛之间的桥梁“建筑师”。
未来,我认为在数据安全领域,To B科技服务也会经历“萌芽、迅速繁殖、泡沫、淘汰、慢牛”的生命周期。而目前的安全计算,还在萌芽过度到迅速繁殖的阶段,我们可以看到越来越多的科技公司参与到这条赛道,应用的领域也比较集中,主要在风控和营销等。
在这个阶段,更艰巨的突破是技术和产品打磨上。改变以往比较暴力的数据行业模式,我觉得未来整个数据行业的价值会从“拷贝贬值”变成“越用越值钱”。相应的,这个行业能存活下来的企业,未来寡头效应也会更明显,估值也会很高。