阿里商业评论 | 网络结构:互联网征信的数据核心

来源: 王汉生   分类: 微金融   时间: 2014-09-04 15:53   阅读:4261次


本文首发于《阿里商业评论》,本期为《阿里商业评论》特刊。

作者:王汉生:北京大学光华光华管理学院商务统计与经济计量系副系主任,教授

【背景介绍】

互联网金融势不可挡!阿里巴巴的余额宝已经成功地证明了这一点。互联网技术和金融产品的高度结合,将过去只适合于高大上的金融理财,瞬间推向了4900万互联网普通用户,产生了2500亿的基金规模,将名不见经传的天宏基金推上了国内第一大基金管理公司的宝座。那么,下一个互联网金融的引爆点在哪里?

2014年3月11日,这也许是互联网金融非常值得纪念的一天。就在这一天,两个互联网巨头,阿里巴巴和腾讯,几乎同时宣布将同中信银行合作,推出各自的网络信用卡。首批发卡规模均是100万张。阿里巴巴的网络信用卡将在支付宝钱包内亮相,而腾讯的网络信用卡将和微信捆绑。该消息在行业内激起了巨大的反响,一场由移动互联网引发的信用卡革命似乎正在悄然发生。为此,有人大声喝彩,说这是金融与技术的强强联合,移动互联网将为传统银行带来海量的用户资源,可以极大地扩充传统银行信用卡的使用群,快速、海量、低成本地提高客户数量和发卡数量,将动作慢的竞争对手甩在后面。但是,也有人非常担忧,说这是引狼入室。最近刚刚批准了5家民营银行,其中就包括阿里巴巴和腾讯。一旦互联网巨头具备了银行资质,熟悉了信用卡业务,当他们甩掉传统银行,怎么办?

不管怎样,几乎没有人质疑网络信用卡的巨大潜力。不管最终的胜利者是谁,它必须具备一个重要能力,那就是:能对海量的潜在用户,做出快速准确的信用评级。“快速”是第一个关键词。快速决定了用户体验。如果不能快速评级,还沿用过去人工评级的老路,想达到快速扩张是不可能的。此外,网络信用卡的授信额度很低,最低能到200元,甚至50元。这种低授信额度的信用卡带给银行的收益一定是很低的,而且传统授信模式的高成本也无法支持。但是,仅仅快速是不可以的。如果为了追求快速授信而盲目发放信用卡,就必然会产生大量坏账,而且这些坏账分散在海量的账户名下,难以追究。因此,“准确”是第二个关键词。那么,怎样才能达到快速并且准确的目的呢?答案很简单,通过准确有效的统计模型,将用户数据自动转换为准确的信用评分。

【数据基础】

要建立准确有效的信用评级模型,需要什么样的数据基础?首先,巧妇难为无米之炊。要建立数据模型,必须要有训练数据。所谓训练数据,就是要有这样一批样本,对样本中的每一个用户,他的信用好坏是我们事先知道的,不需要评估的。典型的情形是什么呢?在我们现有的信用卡用户中找出一部分合理的样本,然后根据每个样本过去的表现,把他们标注为“好人”或者“坏蛋”。一个典型的坏蛋形象是那些逾期(例如:30天)赖账不还的用户。具体来说,对于一个给定的样本i,我们定义一个0-1变量Y_i。如果样本i是“好人”,定义Y_i=0,否则样本i是“坏蛋”,定义Y_i=1。在统计学理论中,我们称Y_i为因变量(Dependent Variable),或者也叫做响应变量(Response)。而统计分析的目标,就是要区分“好人”和“坏蛋”。那靠什么来识别呢?如果无法做到100%准确的识别,能否估算出一个样本是“坏蛋”的概率?而该概率就是信用评级的数据基础。由此可见,因变量Y_i的获得是建立准确有效的信用评级体系最核心的数据基础。如果在训练样本中,无法观察到很多个体的“坏蛋”行为,信用评级是无从谈起的。那么,在行业中,Y_i都掌握在谁的手上呢?显然,在银行手里。虽然我们可以从很多不同的角度去佐证一个人是否是“坏蛋”,例如:淘宝上的信用记录、京东的购买记录、收入、职业等。但是,这些都是侧面的佐证,都不是直接证据。最直接最相关的证据就是消费者过去的信用卡使用记录Y_i,即他过去是“好人”还是“坏蛋”,而这些数据握在银行手里。对于任何希望涉猎网络信用卡领域的互联网企业而言,这是最重要的数据短板。因此,寻找一个银行合作伙伴(例如:中信),意义重大。

但仅有因变量Y_i是不够的。因变量Y_i帮助我们把用户分成两组:“好人”和“坏蛋”。接下来,我们要找出他们之间系统性的区别。是不是“好人”中,女性更多男性更少?如果是,那么性别将成为一个重要的影响信用评级的指标。否则,信用评级同性别无关。是不是“好人”中胖子更多瘦子更少?如果是,那么体重就是一个重要指标。当然,这些都是开玩笑。在实际应用中,用户的收入状况、婚姻状况、职业、年龄、居住地区、过去的消费信贷情况等都是描述个体的重要指标。这些指标描述了个体和个体之间的差异,可以帮助我们解释为什么有的人是“好人”,而有的人是“坏蛋”。我们把这些指标通过一个p 维向量 X_i=(X_i1,⋯,X_ip )'∈R^p记录下来。这个向量就是用来解释因变量Y_i的,因此叫做解释变量(Explanatory Variable),也被叫做预测变量(Predictor)。而统计模型的任务,就是要建立一个从X_i出发,到 P(Y_i=1)结束的函数关系,即:

其中P(Y_i=1)表示样本i是“坏蛋”的概率。 f(∙)  可以是任意一种合理的函数形式,可能简单,也可能复杂,这取决于具体的分析方法(例如:逻辑回归、决策树、支撑向量机、随机森林等),但是基本理念一致。那么,人们不禁要问:X_i在谁的手里呢?

人口统计特征(例如:性别、年龄等)常常是〖 X〗_i 的一部分。由于开办银行业务时,人们必须向银行提交一些必要材料,这其中经常包含身份证复印件,因此,银行对这些数据的掌握是有先天优势的。但是,这不是一个了不起的壁垒。如果愿意,互联网企业也可以通过适当的方式(例如:高级会员),要求对方提供相应材料。因此,互联网企业也掌握一部分此类数据。除此之外还有什么呢?〖 X〗_i的另外一个重要组成就是消费者的消费数据。例如:某用户在什么时间,什么地点,购买了什么东西,花费了多少金额。此类数据,银行和电商各自都有一些。银行有跨电商平台,甚至线下的消费数据,可以精确到店家,但是常常对具体消费内容不清楚(例如:在苏宁易购,消费5000元,但是具体购买什么不清楚)。电商有非常详细的消费记录,因此对每一个消费者的具体购买内容,甚至潜在购买内容(例如:购物车收藏)都非常清楚。但是,电商的缺点是:只能够看到自己平台上的消费数据,看不到其他平台上的消费数据(例如:苏宁易购知道一个消费者在苏宁易购的消费,但是不知道他在京东的消费如何)。当然,类似的限制银行也有,一个银行只能看到用户在自己银行的消费数据,但是看不到在其他银行的消费数据。除此以外,互联网企业往往还可以看到丰富的个体文本信息(例如:一个QQ用户在微信朋友圈对某产品的评价),以及其他类似的非结构数据。这是传统银行所不擅长,甚至不具备的。因此,关于解释性变量〖 X〗_i的这部分内容,互联网巨头和银行之间互相补充,都无法形成绝对的优势。

综上所述,可以想象,在双方都有 Y_i 的情况下,互联网巨头和银行可以各自按照自己所具备的〖 X〗_i 来构建函数 f(∙),进而形成信用评级机制。但正如前面所说,在目前的情况下,银行对 Y_i  的把控有绝对的优势,而在〖 X〗_i 上和互联网企业各有千秋。那么,互联网企业到底有什么核心优势呢?

【网络结构数据】

对于一个普通的互联网企业,可能真的没有任何优势可言。但是,对于以社交见长的企业(例如:微博、微信),我认为有一个极其宝贵的数据资源,就是社交网络的结构数据,或者简称:网络结构(Network Structure)。什么是网络结构?网络结构就是对一个社交网络中个体之间关注以及被关注关系的描述。具体而言,假设有一个包含N个节点(Node)的网络(例如:微博网络)。对于其中两个不同的节点 i_1和〖 i〗_2(例如:两个不同的微博用户),定义一个变量 a_(i_1 i_2 )来描述这两个节点之间的关系(Relationship)。如果存在一个从i_1 开始,到〖 i〗_2结束的关系(例如:微博用户 i_1关注微博用户 〖 i〗_2),那么定义a_(i_1 i_2 )=1,否则定义a_(i_1 i_2 )=0。由此,我们产生了一个N×N的邻接矩阵(Adjacency Matrix),记做

那么该矩阵就完成了我们对网络结构的数学表达。人们不禁要问:为什么网络结构数据如此重要?具体到个人信用评级,它到底有什么作用?

如前所述,信用评级无非就是要建立一个关于P(Y_i=1)=f(X_i )的数学模型。大家请看,这个模型有一个巨大的局限。什么局限?该模型认为不同个体之间是互相独立的。因此,对一个具体个体(例如:i=张三)做信用评级的时候,我们只用了i=张三的数据(即:X_i),而没有用到其好友(例如:j=李四,且 a_ij=1)的数据(即:X_j和〖 Y〗_j)。而事实上,人以群分,物以类聚。大量的实证分析表明,在网络中紧密相连的个体是高度相关的,具有很多的相似性。这说明,在对当前个体i进行分类(判断其是“好人”还是“坏蛋”)时,可利用的信息不仅仅包括个体i自身的特征,还包括其网络好友的特征。为了体现这一点,之前的分类函数 f(X_i )也要从数学上有所改变。具体来说,其分类函数应该转变为:

其中N_i^1={j:a_ij=1}代表了当前节点i的所有一阶近邻(1st Order Neighbors)。从上式可以看出,在网络数据的支持下,我们可以找到当前用户的一阶近邻,进而充分利用其信息(既包含特征变量 X_j,也包含因变量 Y_j),来改进预测精度。如果一阶近邻可以考虑,那么理论上,任意有限阶近邻都应该考虑。在这样一个理论框架的指导下,可以对现有的所有信用评级方法重新检讨,从而获得改进的机会。


由此可见,网络结构数据,对于信用评级,以及其他很多应用,意义重大。其主要作用就是打通了不同个体之间信息传递的通道,并使其在统计学模型的分析中得到表达。 为了具体说明网络结构带来的数据信息互补,并给大家一个更加直观的印象,请看上图。上图是本人在新浪微博的个人主页。我为自己设置了5个标签。它们分别是:社会关系网络、教授、商务统计学、搜索引擎营销、以及北大光华。这5个关键词比较简要地描述了我的职业状态:我是一个在“北大光华”讲授“商务统计学”的“教授”,主要的研究兴趣在“社会关系网络”和“搜索引擎营销”。这是一个非常有用的描述,可以在很短的时间内,告诉一个陌生人我是做什么的。但是,仅仅5个关键词显然不足以充分描述我的职业状态和研究兴趣。如果希望对我了解更多,在微博的环境中,应该怎么办呢?细心的朋友可以研究一下我都关注了哪些好友?这些好友的标签又有什么特征?稍加分析后,大家就可以发现,我关注的很多好友都有一个共同的标签,而这个标签我却没有标注出来,那就是:“R语言”;如下图:统计之都。这说明什么?这说明我有一个潜在的标签没有自我表达出来,但是被我的关注行为给出卖了,那就是我对“R语言”的喜爱。


当然,这仅仅是一个特殊的案例,而且似乎和网络征信关系不大。但是,从统计学理论上讲,这是完全一样的问题。从实证经验上讲,相信类似的规律一定可以推广到个人征信领域,而且极具商业价值!这就是网络结构数据的魅力所在,这就是部分互联网企业的核心竞争力!

【行业预见】

如本文最开始所言,当阿里巴巴和腾讯都推出网络信用卡的时候,行业中的声音是多样的。尤其是站在银行的角度,又爱又恨又担心。未来行业会如何变迁?互联网企业会如何发展?传统银行会如何衍变?这些都是人们非常关心的问题,也是非常大的问题,超出本人能够把握的范畴。但是,我希望从数据基础的角度,粗浅地探讨一下各种发展的可能。为此,我们简单总结一下。根据上面的讨论,核心的数据基础由3个部分组成:(1)因变量Y_i,(2)解释性变量X_i,以及(3)网络结构 A。其中(1)目前主要在传统银行的手中,(3)在互联网巨头手中,而(2)双方打个平手,各有千秋。随着时间的推移,数据的积累,什么会发生变化呢?由于网络信用卡的推进,互联网企业也会逐渐的大量掌握〖 Y〗_i,因此对因变量的把控,很可能不再是银行的优势。那么,银行有可能改进网络结构A吗?恐怕极其困难。原因很简单:再造一个类似微信这样的社交网络非常困难,而且更致命的是,传统银行在数据分析方面进步很慢。所以,从这个角度来看,“引狼入室”的担心是有道理的,尤其是对进步迟缓的传统银行。当然,就像当年电视和电影的关系一样,我相信优秀的银行从业者,一定可以找到一条最属于自己发展的道路,而这条道路是一条什么样的路?让我们拭目以待!

【后记】

就在我刚刚定稿的3月14日,央行紧急叫停线下条码(二维码)支付以及虚拟信用卡业务。更加佐证了各方对网络信用卡爆炸式增长的一致认识,凸显了监管的担忧,其中一定包含信用风险的问题。这是互联网金融必须要面对的问题,并且一定能够顺利逾越。相信明天一定会更好!

(本文责任编辑:谢周佩)

了解更多内容,进入阿里商业评论》》》

本文首发于《阿里商业评论》,本期为《阿里商业评论》特刊。

0