互联网

大数据风控之“殇”

作者:夏天

审校:一条辉

来源:GPLP犀牛财经(ID:gplpcn)

 

雪崩的时候,没有一片雪花是无辜的。
大数据行业就是如此,在大数据的地震当中,这个震荡波影响到了全行业。

2019年9月6日,魔蝎科技和新颜科技的CEO被带走调查,调查内容与爬虫数据相关。

接着第三方数据服务公司聚信立发出通知,公司于9月6日停止了对外提供用户授权的运营商爬虫服务。

紧接着,公信宝的运营主体——杭州存信数据科技有限公司办公地被警方贴上封条。

2019年9月12日,业界再爆天翼征信的多位高管及员工被警方带走协助调查。

一时间大数据行业陷入人人自危的境况。

而这一系列事件还在持续发酵,或许现在还只是暴风雨来临的“前夕”,而大数据风控行业也到了变革之时。

技术无罪    爬虫做错了什么?

众所周知,金融的核心环节是风控,而作为大数据行业不仅连接着用户,还面向现金贷公司,是现金贷机构的重要合作伙伴。通过第三方数据的服务,一方面能够为现金贷风控提供安全参考,但另一方面一旦数据被贩卖、泄露,就会对用户的隐私造成侵犯,也容易将大数据风控行业推向深渊。

滥用的用户数据让大家就如裸泳一般,毫无隐私可言。

这一切的罪魁祸首就是爬虫技术。

爬虫技术本无罪。

网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览网页的网络机器人。通俗来讲,爬虫就是一项计算机技术,其作用是搜集网页上的信息或数据,然后把搜集到的数据搬运到自身数据库里。

如今,爬虫技术被用到了搜集数据。

爬虫作为一种技术决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据、贩卖等行为就具有违法犯罪的风险了。

如今的现金贷就是如此。

对于现金贷平台来说,用户授权后,风控数据供应商通过后台“爬虫”搜集信息,这里的信息就包括公开的第三方数据、还有用户主动授权的个人基本信息,如设备号、IP地址、运营商/电商等用户授权后合规采集数据。最终通过互联网将这些信息进行整合,最终形成对借款人的综合评估,供金融机构做相应的后续决策。

以此次被调查的魔蝎科技为例。

魔蝎科技的核心产品是向放贷机构提供运营商报告,据魔蝎科技此前对外宣传,提供数据采集分析、挖掘、机器学习以及风控服务,其2018年已经达到数亿级的数据调用量,帮助750家金融领域的合作伙伴降低了风险,提高了效率。

其实魔蝎科技在2017年早就被一篇自媒体文章点名,其开发的“爬虫产品”是“窃取别人的劳动成果,太野蛮”,魔蝎科技对此并未否认,只是表示“未来2个月,我们将关停爬虫业务,同时会启动已签约客户的赔偿机制”。

不过,事实并非如此。

此后,魔蝎科技的爬虫业务不但没有关停,反而还爬的更深了。据2019年1月《IT时报》报道,魔蝎科技的一位产品经理向其提供了一份包含50余项数据的产品报价表,表中包括运营商、支付宝、京东、滴滴、网银账单、寿险保单等不同类型的数据。

据悉,魔蝎科技除了运用爬虫技术侵犯用户隐私、买卖公民个人信息之外,还涉嫌亲自下场放现金贷,这在一定程度上也助长了“套路贷”、“高利贷”。

除了以上是魔蝎科技利用技术做非法的事之外,助力合作伙伴暴力催收也事情的关键问题所在。据悉,魔蝎科技的合作方百乘金科涉嫌暴力催收,并于2019年7月份被查。同样,新颜科技也被怀疑助力暴力催收,向催收机构发送贷款人及关联人精准资料。

事实上,这一波大数据行业的震荡早有先兆,在2019年3月份,此前号称“简历一哥”的巧达科技因为爬虫被抓,其公司被查封,所有员工被警察带走。

经过巧达科技这一事之后大数据行业应该有所警醒。

2017年,中国第一部《网络安全法》正式施行,其中明确规定,获取用户数据必须经过授权,“未经授权爬取用户手机通讯录超过50条记录,公司法人最高可获刑3年;未经授权读取用户公积金社保记录超过5万条的,公司法人最高可获刑7年”。

爬虫这项技术是中立的,例如搜索引擎,但问题在于机构是否得到授权以及后期是否有超规利用,但是似乎像魔蝎科技、巧达科技这类的平台都有一种侥幸心理,甚至是知法犯法。
俗话说,人,走的正,路上才不会遇到鬼。

大数据风控会是下一个“P2P”吗?

那么在人人自危的惶恐中,大数据风控领域会成为下一个“P2P”吗?

在GPLP犀牛财经看来也不无这个可能。金融作为一个以数字体现价值的典型行业,大数据技术已经广泛应用于金融的多个领域,比如风险控制、客户管理、精准营销和产品服务创新等。

自P2P平台诞生的那一刻起,几乎所有的P2P平台都在谈风控,互联网金融的核心环节就是风控,大数据风控即大数据风险控制,是指通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。

但事实上中国P2P平台的风控一直处于红色警戒线边缘,如果说备案是P2P的开始,那么风控就是其核查的重心。

随着互联网技术的发展,互联网前沿科技已经成为P2P行业发展的驱动力,利用大数据技术来做P2P网贷平台风险评级和风险控制,也已成为行业发展必须迈过的一道坎。

就拿众所周知的蚂蚁花呗来说,她就是典型的信贷模式。一般来说,信用贷款不需要提供任何实物,只需凭借借款人的基本信用状况来审批其资质。

而信贷的风险控制需要基于平台对借款人违约风险的预判,要是没有大数据的支持,去判断借款人的征信资质、还款意向及能力、是否具有隐性负债等就非常依赖平台自身的把控能力,因此从某种层面来说,风险系数就会加大。

当然就不说蚂蚁花呗的风险控制有多厉害,在接连不断的网贷暴雷的事件中我们发现,多数出现资金链断裂、提现困难及倒闭跑路的平台,在运营中普遍缺乏或缺失强有力的风控支持,作为互金行业的隐形从业门槛,风控能力的强弱无疑决定了网贷平台是否具有核心竞争力,也同时决定了出借人的合法权益能否得到切实保障。

不过很多大多数网贷平台都是“挂羊头卖狗肉”,一些P2P平台缺乏风控体系管理,对于借款人还款能力缺少风险把控,致使其发展成为中小企业、微型企业的融资“倒贷”平台。

一些P2P平台通过虚假设立投资标的,违规开展自融业务,非法套取投资人资金,募集款项投向房地产、高利贷等高危行业;有的还擅自设立账外账,挪用投资款项,造成投资人资金体外循环。

备案定网贷平台的生死,那么决定大数据风控平台未来的关键是什么呢?

或许这一波监管势必不会只是清风拂过。

技术没有好坏,在于运用在谁的手里。就拿运营商爬虫服务来说,是在用户授权账号的前提下,登录用户的运营商账户,抓取一些手机卡过往使用情况的信息,包括使用时长、常用联系人、套餐信息等,以此验证机主的真实性来做风控,主要用于反欺诈。

出发点是好的,事实也有相关法律,只要合法经营就没有问题,但是关键在于收集、使用信息必须经被收集者同意,不能买卖数据。

而现在的情况已经发展成为不仅仅是贩卖数据,侵犯了用户个人隐私甚至还助力暴力催收,为这些公司提供用户的个人信息,这就严重违反了法律这条“红线”。

从另一个角度来说,一些小的P2P平台号称自己有多牛逼的风控系统,再加上大数据风控是个很好的概念,也是所有贷款类平台的理想,因此被人趋之若鹜,然而,现实和理想总是差着十万八千里。

风光的背后是无数人遭受信息泄露的骚扰,用户隐私权受到侵犯。

虽然大数据风控的核心点在于有效数据的数量和质量,理想状态下,存在超级部门,可以构建完整的大数据平台,然而,现实情况却是,有效数据散落在各个角落,成为信息的孤岛,没有任何一方有能力把数据整合起来,当然也没有一方愿意把自己的数据分享出去。

而为什么阿里、腾讯、京东这些互联网公司有能力或是敢吹嘘自己的大数据,那是它们基于消费者购物的习惯、档次判断你的信用层级。那么除了几家互联网巨头,一般的P2P平台,甚至是第三方数据服务商,其大数据从何而来呢?

因此,这一波大数据行业的震荡怕是在短时间不会平静下来,这或许也是一个好的开端,让那些不合规、不合法的大数据公司剔除出去,这就像P2P备案一样,为了让行业更加健康良性的运营,就应该该关的关,该转的转。

大数据滥用致用户之“殇”

大数据被称为是社会发展的新“石油”,但是行走在大数据的社会,似乎人人都是一个“信息裸奔”的人,这让人不寒而栗。

在大数据的助威下,大家也都接到过各种骚扰电话,贷不贷款、买不买房、做不做理财、买不买保险等等。除了手机号码以外,你是不是也会发现自己的微博、抖音等平台的账号会“自动”关注某些网红或者营销账号。

仅仅被电话骚扰引人反感之外,因为大数据带给生活的不便甚至是生命的代价就不是小事了。

2016年,即将迈入大学校园的18岁山东女孩徐玉玉,面对未来存在无限可能的时候,却因为一个诈骗电话,一切都不复存在了,诈骗者冒充教育局,以奖学金作为诱饵,骗去这个家庭东拼西凑的9900元学费。在报案之后,徐玉玉心脏骤停,不幸离世。

徐玉玉一事背后是信息泄露之“殇”,徐玉玉面对的骗局看似并不高级,但是对于不谙世事的小姑娘来说,对方能清楚的知道自己的名字、精确了解自己录取的学校和专业,同时还能知道自己有申请奖学金的需求,怕是大多数人都会放下心里的戒备。

骗子谋财导致害命当然可恨,但是同样可恨的是泄露信息的人。

2018年,阿里安全协助警方破获的“史上最大规模的数据窃取案”显示,黑数据公司通过劫持运营商流量窃取了96家互联网公司的数据。这家黑数据公司是一家上市公司,本案告破阻止了30亿条数据的进一步外泄。

事实上,过去几年里,不管是谷歌还是脸书,从大公司到小平台,从国外到国内,数据泄露事件频发,仅2018年就包括:圆通的10亿条快递信息在暗网上架出售;华住酒店、万豪酒店各有5亿用户信息外泄;国泰航空940万乘客数据流出;陌陌3000万用户数据泄露……

有数据统计,在个人信息保护方面,网民被泄露的个人信息涵盖范围非常广泛,其中78.2%的网民个人身份信息被泄露过,包括网民的姓名、学历、家庭住址、身份证号及工作单位等;63.4%的网民个人网上活动信息被泄露过,包括通话记录、网购记录、网站浏览痕迹、IP地址、软件使用痕迹及地理位置等。

一边是行业急速发展,技术不断迭代,通过数据喂养的风控技术变得越来越成熟;另一边,一批大数据行业从业者被警方带走,这大多是因为涉及用户隐私和数据违规使用。

在此背景下,大数据风控行业乱象已久,人们饱受信息泄露之扰也很久了,对于第三方数据服务商来说,随着此次监管信号的释放,一大批平台也该被驱逐出这个圈子,野蛮不合规的大数据收集时代将进入冷静期。

此次大数据风控领域的动荡,或许是监管部门对大数据黑产的新一轮打击。

那么对于这些利用“爬虫业务”的大数据公司来说,显然,爬虫有风险,用时需谨慎。

当然,从监管的角度来说,应当尽快制定完善针对网络爬虫的数据安全法律法规,将网络“爬虫”引向合法正轨的渠道,面对那些看似合法或者是违法的“爬虫”,就应该重拳出击,拳拳到肉,加大惩罚和侦查力度,清肃行业的“害虫”。

[!--page.stats—]
希望看到您的想法,请您发表评论x