315晚会曝光SDK嵌入金融App窃取隐私信息 到底想干嘛?
一个数据玩家的自我修养GClover2020/7/17 10:51:04

315晚会推迟了这么久,终于在7月16日播出,话不多说,直接进入正题。

先说下移动端SDK采集数据的行业生态。这个行业最初的玩家,是TalkingData,现在规模也是他们最大,最开始他们的想法也很简单,就是把SDK嵌入在客户的App里,通过帮助分析App的用户行为,启动时间,设备类型,帮助客户优化App的运营。

打个最简单的比方,客户总是在晚上20:00-21:00打开某个App,那么这款App应该把最核心的内容在这个时间段做推送。你说这个数据,App自己不是很清楚吗,为什么要第三方公司来做个App告诉他?知道,当然知道,只不过这个数据隐藏在App的日志里,需要去清洗、挖掘出来,那时候还没有多少公司有这个能力,而且数据拿出来了,还要做加工、分析,最终形成仪表盘,指导产品运营,这一整套的东西TD都可以提供,就这么做大了,进入了非常多的App内部。

覆盖了很多App以后他们发现,他们收集的数据非常非常多,可以看出整个移动互联网的发展趋势了,于是开始做数据变现。

怎么变现呢?

第一步,先加密存储,所有的数据采集以后都是加密的,给你看仪表盘,但是不给看源数据,如果要看源数据,另外收费。

第二步,由于他们知道很多App的安装情况,使用情况,同一个手机上可能有多款App有他们的SDK,按照同一套设备指纹算法,他们就知道装了A App的人,还装了B App,这就可以做新客营销了,如果大多数人都是既装了A,又装了B,这时候突然有几个人,只装了A,没有安装B,那就可以推荐这几个人装B(此装B非彼装B……)。当然,客户的设备信息全部加密存储,无法定位到一个具体的人,只能知道某个设备,相对来说一定程度上保护了隐私。

第三步,知道很多App的安装情况,也可以获取到定位,于是我们可以绘制出热力图。热力图能干嘛?热的地方说明人多,可以帮助线下店铺选址

这类应用也不涉及个人隐私,只涉及群体画像。当然,具体干没干其他事情我们不清楚,但是至少明面上过得去。

看到他们做起来以后,其他公司也开始进入这个领域。帮助App进行埋点和运营的:友盟、GrowingIO、神策,帮助App进行推送的:极光、个推,还有帮助App进行风控的:某盾、某某盾、氪信。

好了,终于说到主角,帮助App进行风控的比较特殊,是需要将客户的设备信息和客户本人进行关联的,不然没法对这个人的信用进行评价。所以这块就比较敏感了,原来做的几家,比如上面前两家,都是做设备指纹。

设备指纹用来识别客户设备的,黑产经常利用手机刷系统或者修改IMEI号等手段,伪装成新手机,可以用不同人的身份套取新户奖励,或者借款。设备指纹可以识别这款设备确实是没注册过的新手机,还是刷机而来的旧手机。在识别出一定量的黑产用过的手机后,就可以形成黑设备清单,也可以输出给金融机构。注意,这里都是设备信息,暂时没有包含个人的隐私数据(最新的个人金融信息保护法,将设备信息也划定为个人金融信息,这里特指传统意义上,能定位到个人的隐私数据)。

但是氪信干嘛了呢,定位、AppList这些就不说了,还把短信和通话记录上传,关键是还明文上传。

可以看到,短信都是明文上传,当然还包括验证码。看到验证码大家是不是心里一惊,上个月才发生过短信验证码被嗅探以后,卡里的钱被黑产转走的案件:

短信验证码又被劫持,我们的账户到底还安不安全?

虽然说短信确实可以被用于风控,但是必须客户明确授权才可以采集,关键问题在于,作为一个第三方SDK,上传这个数据,很难让人相信是仅仅给他服务的这一个金融机构使用,也就是说,客户把自己的数据授权给一个机构,可能被用于多个机构。

应该怎么做才合规?

首先,客户强授权是必须的,电子签名+电子合同+第三方存证,证据链要完整,能确实证明是客户本人授权的;

其次,加密采集是必须的,从采集到传输全程不能出现明文;

第三,根据最新发布的《个人信息安全规范》:

8.5个人信息主体注销账户

对个人信息控制者的要求包括:

……

注2:产品或服务没有独立的账户体系的,可采取对该产品或服务账号以外其他个人信息进行删除,并切断账户体系与产品或服务的关联等措施实现注销。

e)注销账户的过程需收集个人敏感信息核验身份时,应明确对收集个人敏感信息后的处理措施,如达成目的后立即删除或匿名化处理等;

f)个人信息主体注销账户后,应及时删除其个人信息或匿名化处理。因法律规规定需要留存个人信息的,不能再次将其用于日常业务活动中。

客户可以要求金融机构,以及为金融机构提供服务的第三方,删除或者匿名化个人信息,这一点我估计很多金融机构和第三方做不到,我们来看看这次氪信的事件是不是会用上这个法规。

第四,最安全的做法,是在客户的手机客户端本地,完成数据采集、加工的过程,最后返回的是一个完全脱敏的计算结果,比如一个分数,这种做法最初由谷歌提出,叫做联邦学习,可以较好的保护客户的隐私。国内现在也开始做联邦学习,但是方式相对于谷歌更加多样化一些,还有多方安全计算等等技术,相信在未来都是大趋势。

最后,就算处罚和整改了,已经采集的数据,谁知道已经流传到哪去了,或许已经流传到黑市。


展开全文
相关阅读
资讯查询取消