2018年11月17日,首届极光开发者大会在深圳召开。本次大会由国内领先的移动大数据服务平台——极光大数据举办,近千位互联网公司技术领袖、合作伙伴、开发者齐聚一堂,围绕大数据、人工智能、移动开发等广受关注的热点话题,共同探讨了在移动开发的下半场,如何构建健康的开发者生态。
旷视科技副总裁敖翔先生作为重要嘉宾出席本次大会,并发表《视觉智能助力大数据风控升级》的主题演讲。
视觉智能助力大数据风控升级
主讲人:旷视科技副总裁敖翔
大家好,我叫敖翔。很高兴来到极光开发者大会,分享关于机器视觉跟风控之间的关系。
视觉的应用领域现在已经很广了,从安防到个人用户,都需要智能识别。关于视觉的未来前景,毫无疑问是非常丰富的,在此我就不展开了。今天想跟大家分享视觉和风控的结合,是因为我们的产品Face++跟这个有一定关系。
现在是互联网的时代,互联网创造了一个全新的维度,一种前所未有的人和人之间的大规模的社会化协作。在这个空间里面,我们不用见面就可以完成沟通、合作、交易。那么随之而来的就是相应的大数据风控,大数据风控是基于事实数据、背景信息和我们在互联网上留下的痕迹等来计算,目前来看,它已经非常发达了。
1. 大数据风控面临怎样的缺失
回到过去,小到向别人借钱,大到公司并购这样的交易,第一步当然是了解背景信息。如果这个人过去风控不好,我们自然不会把钱借给你;如果公司有点差,这个交易也无法完成。第二个环节,我们一定要做的一件事情,是面对面,更直接的就是面试。我相信各位可能曾经当过面试官,对一个人感觉不好,就把他拒掉,这是很普遍的。最后这两个环节合起来,我们会说达成交易。这种比较之下,我们会发现基于互联网的大数据风控可能是有缺口的,而更完整地处理信息,才可能达到更好的效果。
有一个词叫做相由心生,一个词叫做以貌取人。这两个词都不算是褒义词,但都包含了人性。其实很简单,假设去奢侈品店里面买东西,你可能时不时会受到营业员目光的打量,他们非常会通过看人来了解一个人是不是他们的目标对象。这说明,大脑里复杂的神经系统和我们长期进化的记忆合在一起会构成非常有效的判决体系,这套体系可能不在我们目前的风控体系之内。我认为机器视觉有义务把这些结合起来达成一个最好的结果,这就是我说的关于人的左脑和右脑的结合。我们不仅要靠客观事实,用左脑,也要用右脑,通过主观判断来做决定。从科学角度来说,就是要用更多不可解释的数据做出一个模型来。它必须基于相信,因为不可解释。
2. 计算如何演化到认知
接下来我们来看一个独特的角度,它跟大数据风控也许没有什么关系,但我觉得非常有价值,就是关于计算的演化。计算机从它发明以来,就有一个存在目的叫计算,算导弹的轨迹,算密码。第二个阶段叫做系统代理。现在我们的手机、电脑能上网,就是因为计算机是整个互联网的代理。第三个阶段也是现在,我们的手机成为肢体的衍生,成为千里眼、顺风耳,帮助我们做所有的事情。计算的演化,变成了一个独立人格。举一个智能音响的例子,它是一个独立的东西,你跟它交互不是简单的,而是深入的沟通。同样地,对系统来说,如果把它当作一个生命来看待,它必须主动感知一切,而不是被动地灌输。我觉得这是现在一个非常重要的趋势——会感知的技术。
现在最常谈到的感知是视觉感知。在无处不在的计算的时代,视觉作为90%的信息的通道,被大量使用。如果把这些信息结合起来,对风控是有价值的。
3. 视觉计算如何影响风控
关于视觉计算,一个很重要的应用就是刷脸。在座各位应该对刷脸都不陌生了。现在要消费分期、在线贷款、成为滴滴司机、在线考试、在Airbnb租房……可能都会涉及到强风险认证,而主要手段就是靠人脸识别。曾经有人问我一个问题,你们做识别,跟做指纹识别、虹膜识别有什么差别。我说你这样说是对的,但也不全对,因为我有一个机会让你看到这个人,但你看到指纹就没有用,指纹只能证明你是你,虹膜也只能证明你是你。但是人脸不一样,人脸的丰富程度前所未有。除了验证你是你以外,面部识别还有大量的信息。相由心生、以貌取人,这是人的能力,而机器并不具备,但我们想让它有。
旷视科技在这个领域耕耘了很久,目前还在识别阶段,我们要把它往前推,进入到很多环节。以互联网金融领域为例,我们希望它不仅应用在反欺诈领域,而是参与到定价、评分,以及真正的风控上去,赋予风控一双眼睛。
每个人在做人脸识别验证的时候,信息量是很大的,我们可以提出大量特征,这也是可解释特征。这些特征上和一些固定关键词,比如“预期”是有关联度的。比如外貌、穿戴、环境等图像特征。
视觉信号的奇妙之处就是能够给你全新的视觉维度去做更多事情。除了表象的特征,表情也是人脸具备的独一无二的特征。我们在侦探类作品中常看到读心术,其实不是读心,而是读微表情。镜头可以捕捉人的微表情,当它看够了一万个人,判断力是远超过你的。
综合这个结果的数据,再结合传统大数据的数据,综合建模,可能会拿到一些风险跟信号特征,这个其实构成了整个我今天讲的最主要的主题。
我们看一些实验结果。这是一个风控模型里面的关键指标,到0.2说明这个模型是有一定效果的,数值越高,说明效果越好。单仅依托视觉特征的效果并不好,KS值只有0.13。这个时候,如果加一点点传统的大数据,就可以到0.2,0.2就是有效的了。如果再加上一点点视觉信号,这个KS值就会上到0.25,这个模型就会有所提升。如果加入更多的视觉信号,效果的提升会非常明显。怎样才能做到更好呢?神经网络可以做端到端的学习,照片直接进去以后,可能圈出更有效的模型。再跟传统的风控数据做结合,区分度可以达到0.29。这只是一个没有特别调整过的简单模型,如果数据量更大的话,效果会更惊人。
这就是我想在今天的演讲中想说的最重要的东西,通过加入一个全新的维度可以带来什么,以及你必须放弃左脑,放弃解释它,用你的右脑去做,从而来看可以获得什么,。
我相信在这样的趋势下,未来会有更多视觉信号的产品,能帮助我们在风控上做得更好。
这是我的报告,谢谢大家。