新闻版权:Raymond Wang | 本文被阅读次了

2016-02-09  星期二 / 金融,大数据,法律 /

金融大数据的法律实践

    图文介绍

    第一,概述。概述是为了让大家知道我们后面讲的东西是为了什么,把大家放在一个语境里,我们要把基本的框架跟大家讲一下。

      第二,法律框架和实践案例。讲到法律,一些从业者不是特别喜欢听,觉得法律往往都是限制我做业务,但是我们在互联网金融这一块有很深的感受,几乎所有的客户在开发产品、运营、推广的时候都希望律师更多的参与,原因在于产品的合法合规会影响到后面很多事情。所以希望大家了解这一块的法律框架,而实际案例中有很多东西不光是法律的问题,涉及到商业和法律跨界的问题。

      第三,核心风险点。今天讲的有一部分跟大数据领域内的创业有关,大数据在还不是特别成熟的东西,很多人希望在这个领域内有所作为。在你创业的时候,有哪些需要注意的核心风险点,给大家稍微梳理一下。

      “大数据的特征不仅仅是数据的规模大,更重要的是这些数据之间的关系非常复杂”。讲这句话的Peter Cullen是微软公司的首席隐私策略官。我两年前学数据记下的这句话,后来在我们在做业务过程中体会特别深。从某种程度上来说,大数据就是“大杂烩”、“大锅炖”,这不仅体现了数据海量的特点,更强调了各种不同种类、不同来源的数据。这个过程中衍生出很多的法律问题、商业问题,我们后面想梳理的就是这些问题,这些复杂的关系我们怎么处理,尤其是跨界合作的问题。

      概述主要讲四个部分:

      一、大数据时代用户数据的价值。现在大量的用户,有的是做移动互联网的,有的是做金融的,还有一些线下的实体门店,都会说我手里有一大堆数据。首先你拿到了一些数据,这些数据价值怎么体现,怎么产生增量。大数据的价值明显地体现在几个方面:营销、风控、反欺诈,很大程度上把反欺诈的成本大幅度降低,速度大幅度提高,跟金融机构、互联网金融的合作是非常紧密的。相对精确的营销和推送也跟大数据这些方面有关系,一旦你做了很多的推送,是不是会涉及到让用户感受到不满?会不会侵犯到隐私权?这部分我不展开论述了,因为大家肯定能意识到大数据时代这些数据本身的价值。

      二、个人信息和隐私权。一直以来,我都看到有一些学术上的争议,关于在互联网时代是不是隐私权已死,这个问题在五年以前、十年以前都在讨论,很多人认为到了移动互联网时代,已经没有隐私权了。我们实际做业务的怎么处理隐私保护?这里面个人信息和隐私权是两个概念,个人信息这个概念要比隐私权的概念大。个人信息中包含了非隐私信息和隐私信息。非隐私信息的处理实务中处理有很多混乱,后面会在讲解法律框架时展开论述。

      三、互联网金融和征信。这是一个更大的话题,互联网金融可以扯的非常大,我们做的业务包括P2P、第三方理财、众筹。我们自己感觉到互联网金融和征信关系还是很密切的。因为我们现在看到P2P大概算是互联网金融中目前占的份额比较大、大家讨论比较多的。如果你关注这一块,你天天早上都会看到有不断的新闻出来(尤其是关于监管和“跑路”的)。实际上,P2P也可以理解为O2O模式的一种,它分为线上和。我们去看所谓的互联网金融,在线下端的变化并没有那么大,线下资产端比如说信托、小贷、保理、典当这些,他们在跟P2P合作的时候,它原来怎么做,现在还差不多怎么做,但是线上的流量端变化是非常大的。这就是P2P,你现在说是一个新的模式,新在什么地方?我觉得主要是新在线上的部分,一个是流量的获取,一个是风控。如果你做一个事情,必须有不断的用户来访问你的网站,你才能把这个事情不断做大,降低成本。因为流量导致了现在互联网金融线上成本在不断的提升。如果你只通过传统方式做互联网金融,用传统的方式做风控,跟原来的变化是不大的,线上的成本是不断上升的。在个人征信这个事情上,跟互联网金融的发展有很大的关系。当然不是说大数据作为风控手段已经成熟了,主要是说一定要发展互联网征信。

      我们今天讲金融大数据跟征信有什么关系?金融大数据非常核心的一块是跟用户数据有关,是跟征信有关,实际上征信是特别典型的金融大数据。他是把各个散落在互联网上、线下、各个地方的信息综合在一块,做一个数据的拼图。后面我们会重点讲征信过程中数据的流动,数据之间有很复杂的关系,我们在征信里面一个很重要的处理问题就是数据之间是怎么流动的,流动涉及到法律问题、商业合作问题、技术处理问题。我们会讲一些相对成熟的实践。

      不知道大家对数据的现状是不是了解,在西方,数据是比较容易得到的并可以对数据进行加工。而在,我们看到的是一个一个的数据孤岛,不同公司、不同机构,机构、私立机构大家各有一块数据,这一块数据不愿意拿出来。有一些数据不愿意拿出来是因为他没有动力,比如说政务公开。很多政务的数据库他做的很好,也不愿意公开,他觉得很麻烦。这是电子政务这一块的数据,动力不足,或者之前的技术没有做到位。作为民营公司的数据,有在数据来源上不是很干净,由于历史原因或者什么原因,拿了一部分数据,这部分数据没有获得过授权,数据的来源也是偷偷摸摸的搜集,他自然不会拿出来分享。我见到很多从业者跟我说,“你们的大数据都是忽悠,不实用,大数据没有现在传统的方法管用”。我们服务的客户,有一些确实非常管用的,而且这些案例是可以复制的。为什么他们管用了,这里面有一些特点,我们在案例分享时会讲。

      总之,我们千万不要神化大数据。现在很多从业者都感觉到在神化大数据,他认为大数据能干这个,能干那个,他不考虑成本的原因,可能在局部管用了,但是整个没有办法推广。但是大数据还是有一些场景是非常管用的。

      四、个人、监管机构、媒体关注点。每次一个科幻电影上映的时候,关于隐私权、关于大数据就会被提出来,因为很多科幻电影,都会有很多关于大数据应用有关的想象。比如《少数派报告》等电影里,他会讲在未来的世界,一个机构能够监控所有人的行为,能够把“坏分子”揪出来。大家平时不太关注隐私权这个抽象的东西,但是给你一个场景,你就会觉得非常可怕,我生活在社会上是赤裸裸的。一些社会热点的出现,斯诺登、iCloud照片的泄露,都会把大数据有问题的一面暴露出来。监管者最关注的是数据之间的安全性。监管者很担心侵犯个人信息,导致了有时候危及到社会的安全、的安全。因为数据现在越来越重要、越来越成为战略性的东西。从法律的角度来看,媒体对隐私权、对个人数据几乎很少看到准确的解读。大部分的解读都是耸人听闻。你研究这个事情,你就会清楚的了解到,我们看到的公开信息、媒体报道,哪些东西是真实的发生,哪些东西是夸大。

      首先讲用户信息的分类。今天我们讲的回到一个聚焦的点:个人信息。大数据包括个人信息也包括企业信息。相对来说,企业的大数据从法律上要容易处理一些,企业之间达成交易比较容易,而个人是原子化的,要把他们的大数据做好不容易,所以我们今天聚焦在个人的大数据。

      个人信息分为一般信息和敏感信息两类。敏感信息基本上分为几大类,这些类是如果你泄露以后,会对主体信息造成不良影响。他根据不同行业,医疗、金融、零售,敏感的范围是不一样的。现在我们看到从法规、从实践来讲,认为敏感的包括基因信息、病例资料、健康检查资料、犯罪记录、家庭住址、私人活动。从法规的处理、外处理的原则,敏感信息是需要明示同意的,而一般信息是默示同意的。

      从用户个人信息来划分,包含身份信息、财务信息、行为信息、设备信息。身份信息,财务信息包括房产、股票等等。行为信息包括你在线上线下的活动,包括你访问了哪个网站。设备信息是每一个移动的设备,不管是手机还是电脑,都有设备ID。这种设备信息在做金融大数据的具体业务的时候非常重要,比如说反欺诈,当你发现一台电脑在短时间内发出大量的信用卡申请,这样很有可能是欺诈。这里面的信息身份信息和财务信息属于敏感信息,行为信息和设备信息不一定。你是这些领域的哪一类,这些方面的分类有的来自于法规,有的来自于总结,这种总结也是为了判断一个信息的性质的时候更方便。

      顺便说一句,很多人多大数据有不切实际的想象。你在做业务的时候,不是说你找到了神秘的数据,中间有神秘的联系,带来了很好的效果,这种事情在实例中非常少。你在做业务的时候发现没有这个事。实际上每一个数据都是非常枯燥的,你还要保证合规、保证安全性,最后才能赚点辛苦钱。

      数据包括收集、加工、转移、删除四个环节。你收集的信息一定要合法,现在有很多手机的APP,他们收集你的位置,收集了以后,他们试图把这些数据做什么。你可以去做这个论证。现在大量的做APP、做操作系统,或是很多其他的做实体业务的,他收集的数据远远超出他做这个业务的必要性,这种收集数据目前阶段没有特别多的管理,但是从法规上越来越收紧。过两天就是3.15了,我们统计过,自从2011年后,每年的3.15一定会有一两个关于个人用户收集方面的问题,而且我们判断以后媒体曝光会越来越多。在加工的时候,你怎么去加工这些数据,怎么样做脱敏,怎么样把数据有商业价值的地方提取出来,把一些危险的、带有侵犯到隐私的部分处理掉,这也是很大的选择趋势。后面的转移涉及到我持有数据以后,怎么样跟第三方合作,我拿到这个数据以后,跟第三方去谈,我们两个互相授权,第三方说你的数据合法、合规吗?现在我们看到做很多业务的时候,跟银行这样的金融机构谈的时候,银行第一句话不问你的效果好不好。他第一句话一定问你的数据合法、合规吗,得到用户授权了吗。最后你这个数据收集了以后永远存着,你是一直拿着这个数据吗?你是不是应该在什么时间把这个数据删除,现在欧洲在讨论“遗忘权”(或者叫被遗忘权),我有没有权利要求把这个数据删除掉?这涉及到数据是一个财产权还是一个人身权。的法规并没有规定到那个程度,但是用户在使用的时候会感受到,因为他会使用谷歌、苹果这样跨国公司的服务。领先的公司在数据处理流程上也要尽量跟国际接轨,你会让用户感觉到安全。如果你的做法非常“流氓”,很多用户会觉得我把数据放在你这里特别不安全,随时想走,他让你处理起来也比较困难。

      第二部分进入到法律细节部分。

      各位都不是从事法律相关的事情,但是你做业务的时候,设计这个产品的时候,脑子里要有几条红线,你知道哪些东西不能用。我也看到了媒体上很多带有想象力的大数据的应用,包括我们客户提出一些方案,从技术和商业的可能性上没有问题,但是从合规性上讲有很大的问题。意味着如果你做这件事情做的特别好,所有人都用的时候就会变成很大的问题,因为你的合规性没有解决,后面再解决的成本就会非常高。

      很多人跟我说,大数据领域内缺乏监管。你如果到法规库里面搜“大数据”三个字,你找不到直接的立法。但是作为法律的从业者,可以从很多的散件的法规中找到关于大数据的规定,而且这些规定将来会用于我们的从业领域。

      《刑法》第二百五十三条的规定现在已经有了很多的判例。以前卖光盘的,光盘上有多少老板的电话,多少个去过售楼处的人、多少个去过4S店的人,我给你这些人的信息。这种行为可能会触犯了法律,而且可能是刑事法律。刑法二百五十三条规定,出售、非法提供公民个人信息罪和非法获取公民个人信息罪,如果把这些数据拿去卖,当然前提是如果产生了一些严重后果。这两年从政策上、法规的执法上来说,更加重视这一块。以后大家会看到以前的地下数据黑色链条,包括QQ号的破解,很多黑客用木马盗了很多数据拿来卖,这些行为都会构成刑事责任。大数据第一点,如果你这个数据不来自于你,他获取用户信息的时候,有没有得到用户授权同意。

      《消费者权益保护法》,首先强调的是个人信息得到保护的权利,这是一个概括性的去描述,这个描述在个人信息这一块占有比较大一块。数据收集的正当、合法、必要是我们现在做金融大数据的时候特别要去思考的一点。你收集这个数据,一个APP,一个网站,一个线下做业务的时候,你收集用户的数据,这个数据是不是有正当性,你收集这个数据是不是必要的,是不是超出你的范围。就像我要去放贷款,贷款人来了,我让你提供家庭住址、联系电话,大家认为是正当的,因为如果你的贷款不还,我要找到你。但是如果就是一个普通的运动的,你把所有的信息都要告诉我,后面我在后台把你每天怎么用这个APP的数据都抓回去。现在BAT这样的大型互联网公司都到海外去拓展国际业务,都会遇到合规方面的问题,你在没有人管你,或者管的不严,但是到国外你这样收集数据没有得到用户授权,超过了正当的收集数据,很容易出问题,而且问题非常重大。要明示收集、使用信息的目的、方式和范围,并经消费者同意。这也就意味着将来如果乱来,一方面被行政处罚,另一方面会引起一些诉讼。

      《侵权责任法》,重点讲如果你在网上涉及到侵权信息,你要去要求这些人在传播信息的时候,要删除这些信息。作为一个平台的运营,你一定要有一个投诉的机制,能够让这些错误的信息、有害的信息能够被处理掉。否则你就要承担连带的责任。

      现在的法规在个人信息这部分基本上都是跟《全国人大常委会关于加强网络信息保护的决定》是一致的。前面关于个人信息和隐私的地方,的法规有一个划界,保护能够识别公民个人身份和涉及公民个人隐私的电子信息。不知道大家有没有做数据的经验,当你做数据的时候,一方面,你特别希望所有数据跟个人挂钩,你挂的越紧密,你这个数据价值越大,你越能精确的做这个事情。但是你越是可识别,就意味着你对这个人掌握的越多,你越有可能侵犯他的权利。怎么样把握这个度,一方面你要做脱敏、保密。另一方面,你还是要保持一定的可识别性。任何组织和个人不得窃取或者以其他方式获得信息或者出售。

      现在在个人用户数据,法规上已经表现出大原则上是一致的。这是一个针对性很强的规定,强调应当制订个人用户信息收集、使用规则。我们经常帮助各种各样的互联网公司起草使用协议,现在隐私权政策要写的非常清楚。你要收集用户信息,你一定要说我为什么收集,收集以后怎么样用。最近在互联网征信最大的一个事情大概是芝麻信用,阿里巴巴下面这一部分,芝麻信用的协议,大家可以去看,它写的非常的繁琐,他重点解决我是怎么样把你的数据收集起来,我怎么样给第三方看,信用的分数可以给不同的人群判别,租房的、租车的、婚恋的、酒店的,他们根据这些来判断你这个人是不是可信任的。我把这些数据提供出去本身的合法性是不是有问题。法规里面抽象的原则会应用到一个一个个体场景中去。

      这是过两天马上要正式生效的工商总局《侵害消费者权益行为处罚办法》,它把很多东西做了细化的规定,后面这一块会专门提到什么叫个人信息。这个定义对处理数据有一个很大的借鉴意义。它强调了消费者的姓名、性别、职业、出生日期、身份证号、住址、联系方式、收入、财产状况,单独或者与其他信息结合识别消费者的信息。这就是一个大数据典型的特点,我们说到一般的传统的跟金融有关的数据的时候,传统的数据依赖于几个来源的数据,但是大数据往往来源于多个渠道各种各样的参数。

      美国的征信有FICO这个东西,FICO算的时候,传统的有7到12个变量,你平时贷款的行为、财产的情况,十来个参数就可以把这个人勾勒出来,这个人的资产状况、信用情况是什么样。每个变量价值都相对比较强。而美国新兴的ZestFinance这家公司的特点是里面会有三千到五千个变量,这种弱变量集合在一块,拼出信用的图纸,对这个人进行评价。这是金融大数据的典型。这三千到五千个里面是社交网络上的行为信息识别的信息。大家不要迷信个人行为的信息一定会对你个人信用产生评价。金融大数据是把散落在各处的相对弱的信息拼在一起。

      回到这个法规上,与其他信息结合,识别消费者的信息,如果这些信息结合在一块,能够识别这个消费者,这些信息就涉及到消费者个人信息。

      从最新的法规上来看,会发现现在的法规已经能够去解释、能够去管制大数据这一块,而不像很多人讲,我看过很多人说需要一部独立的大数据方面的法规。这是一个错误的概念,首先大数据概念在不断变化。第二,现在已有的法规能够在我们遇到实际问题的时候来处理这些问题。

      最高院也提到了关于个人信息,他们之间是不完全一致的,但是有一个大的方向,一个基本的东西是一致的。这是我前面提到的关于敏感信息的问题,这些东西你可以认为,这些信息基本是个人隐私的东西,基因信息、病例、健康检查资料、犯罪记录。我们把个人隐私这一块做一个更详细的解释,隐私不管是在美国还是在其他,隐私权一直是缺乏非常清晰的定义,尤其我们在互联网这个阶段,大家看到了很多文章去辩论。如果你往五年以前看,辩论的焦点和现在相差了很多,现在你在网络上任何行为,比如说我浏览网站的记录,我购买在淘宝上的支付记录。隐私权的范围在不断扩大,而且隐私权在不同的定义也是不一样的。欧洲有一些历史教训,尤其是德国纳粹对个人信息的控制,使得欧洲人对信息特别的重视,信息在欧洲在隐私权中是上升到宪法层面,上升到基本人权。所以欧洲在征信、数据这一块特别的严格。我们给企业的建议,如果你现在APP做完了以后想国际化,你可能想去相对宽松一点的地方,比如说东南亚去试一试,你不要直接杀到欧洲去,欧洲对个人信息严格的程度你很难适应。美国强调个人的言论自由,他强调数据的能动性、合理性,这也是征信、隐私权这一块各个的区别。现在美国法规有大量的判例,他也没有把隐私权做一个完整的定义。但是基本上隐私权是个人不被打扰的权利,比如,我很多的好的事情、坏的事情,不想让别人知道。

      个人信息中有一部分跟这个没有关系,我在网上的浏览记录,我不愿意让你知道,但是这种行为信息相对没有那么敏感。

      公开的方式不足以识别特定自然人。如果你能够识别特定自然人,你这个数据带有一定的敏感性。如果这个信息跟自然人没有特别多的关系,没有特定的识别性。比如说现在淘宝每年会规定特定的统计数据,包括北京的男生喜欢买什么东西,上海的女生买什么东西最多。有的时候淘宝公布过关于女性内衣罩杯的数据。如果你是公布一个特定人的数据,一定是违法,而且是严重违法。但是如果你公布的是一个统计数据,公布的是一个省,没有办法识别到具体的自然人,他没有伤害谁,

      也有人问,按说女性内衣一个很私密的东西,把这个统计数据公布出来,会不会伤害到用户的个人信息,如果是整体的统计结论公布还好,如果特定能够识别出个人,就有很大的问题,这是它的界限。

      这个指南从立法角度来说并不是强制性的东西,但是做数据业务员这一块的客户,我们都会推荐他们去看,而且这个指南里面有一些东西是有原则性,收集一般信息的时候我们要默许同意,如果他明确反对,你就不要收集了。但是如果收集敏感信息的时候,一定要明示。

      征信是现在互联网金融、金融大数据中一个非常热点的事情。原来征信停留在的系统里面,银行的征信中心。现在央行批了8家开始做征信业务,这里面一方面有很多的商业机会,另一方面,可能征信会改变整个社会的信用状况。有时候技术方面的进步,或者是制度方面的进步,我们更有信心,在信用制度方面有很大的问题,很多专家会呼吁立法,但是呼吁了那么多年,改变很小,支付宝通过技术手段和商业模式解决了一定的信用问题,使得原来很多交易不能发生。它产生了增量的交易,支付宝现在的市场价值凸显出来。当你有了问题的时候,技术的手段,包括创新可以带来很多的机会,这也是金融大数据的机会所在。征信是一个挺复杂的事,但是从法规定义上来说,还是可以判断的。采集、整理、保存、加工,并向信息使用者提供的行为。征信要包含不同的连镳,把这些数据从不同地方拿到以后进行处理。如果单是只做一个环节,恐怕就是大数据的技术服务,这也是很多公司在做的时候自己有疑问,他说我做的到底是不是征信,经常有咨询公司来问我,说我做的是征信业务,还是数据的分析业务,我们是数据挖掘、数据分析。如果你说我们做的是征信业务,就意味着按照法规规定,必须拿个人征信的牌照,个人征信的牌照难度很高。

      采集个人信息应当经信息主体本人同意,征信要求他的数据一定要有个人的同意。所以征信不是随随便便可以去做的。现在嘀嘀打车、快的打车,这车来了,你说我不坐了,这其实是一个带有违约的行为。这个行为本身,嘀嘀和快的能不能把这个东西拿去做征信,这个人信用特别差,他打了十次车,八次都没有去,这个人绝对不能借钱给他。这个可不可以?如果你没有经过他同意,这个行为不行。征信不是说他做了一个有问题的行为,一定能把这个行为用到征信的库里。

      黑名单的制度。我跟你说,我要让你上黑名单,你同不同意,他一定说不同意。黑名单跟征信有时候是有交叉的。整体来说这是不同的法律问题。今天我们讲到的法律问题没有一个完全的结果,只是有一个大的框架,大家不要觉得每件事情都有一个确定的结果,不管是从技术上还是法律上都是这样。

      征信机构不得采集个人收入、存款、有价证券、商业保险、不动产的信息和纳税数额信息。不能采集的信息是一个禁区,因为这个信息最好用,现在从征信管理条例上来讲,是明确禁止的。法律规定这么明确的事,但是很多机构都不注意这个,他们想要的还是怎么样能够尽量多的采集用户数据。但是在法规不断收紧的时代,是有问题的。

      征信这一块的法律法规非常复杂。现在有阿里、腾讯等八家征信公司,到今年年后可能牌照发放,就可以做一些个人征信的事情。

      这段话是人民银行副行长潘功胜讲的,我们能够从讲话中读到一些信息,这些信息代表新的创新方向。积极利用互联网、大数据等新技术条件发展新业态征信。现在基本上能够去银行贷款的人和拿信用卡的人是高度重合的,大概有一亿多人。剩下的人有一个问题,他贷不到款,也拿不到信用卡,他只有一个办法,就是找亲戚朋友借钱。这些人中有一部分人的信用情况还是非常不错的,这也是目前金融大数据的一个发展方向,通过大数据的方法找出其中一些不错的,我们去做贷款。从这些传统的我们覆盖的人群里也有一些坏分子,传统的方法发现不了,我们用新的方法发现他。新业态征信是互联网金融中一个非常大的热点。

      推动政务信息尤其是负面信息的公开。要建立信息主体的异议投诉及责任处理机制,建立个人信用修复制度性安排。你干了一个事以后,你的信用一下子下降了,你干什么事都很痛苦,所以你不敢随便干坏事。但是问题是,是不是做了这个事情以后,是不是永远没有办法修复,永远被列为很差的信用,不是。你过一个阶段以后,重新的把这些违约的信息修复。

      比较实际的案例芝麻信用,如果你想研究金融大数据这是最典型的案例,它的公开信息较多。他这已经是C端了,对很多用户放开了,你很多的数据可以得到。芝麻信用给你打一个分数,这个分数涉及到基本的数据来源,涉及到个人基本信息、网站注册信息,你看他注册的时候是不是实名注册,兴趣偏好是什么,我们客户得出一个特别好玩的数据,如果你特别热爱网游,你的违约度是比较高的。如果你是从事经管工作的,你的违约度是比较低的。以前在传统评价机制里,不会把这个跟个人兴趣挂钩。填写注册的时候,如果名字邮箱里面有一个英文很长的名字,他的个人信用就会变好,因为这意味着这个人受教育程度还可以,他能起一个英文名字,还能拼对。人际关系、你是被你的朋友所决定的,看看你身边的朋友是谁,就知道这个人大概的情况是什么样的。如果一个人身边的朋友都是CEO,十有八九这个人自己也是CEO。人脉有时候跟这相关,但是有时候是有欺骗性的。有的人只是加了你的微信,但是其实两个人并不认识。这一点还有待于检验。黑名单就是看你这个人是不是经常在网上有欺诈行为。外部应用,就是阿里和其他的合作、其他的公司有违约的行为,把他收集过来。他的收集来源于阿里巴巴自身、电商的数据、公共合作机构、用户。比如说用户想干一个事情,他说你愿意自主提供信息吗?

      这是他们现在打分的机制。这是特别典型的互联网金融中,金融大数据的应用。跟阿里不同的应用还是有一些,只不过阿里覆盖的人群和他们覆盖的不一样。把互联网的各种数据总结过来,你也不清楚他的具体算法是怎么回事,但是最后算出来你的信用分数超过六百分,基本上能干很多事情,在他们来看,基本上信用还可以。而你某一项特别差,信用特别差,你可能会很快的低下去,做很多事情的时候也是不被信任。阿里信用也会区分,你的信用是六百分以上,他们给你提供很多的服务。比如你酒店住宿的时候,说你这个人信用度很高,酒店的押金就不收了。

      这个负面案例是3.15晚会曝光个人用户搜集的负面案例。这个案例超出了合法性、必要性、正当性。他装了这个东西以后,基本上你手机里所有的信息都会给你抓走,发到他的服务器里面去。大家最近听到一个消息,小米在台湾,台湾要求他们的议员不要用小米手机,原因是因为他们认为小米把他们的信息抓取以后,传回北京。在合规性上做的不够好、不够严谨,国外的这些区域,可能他本身不是特别发达,但是他们在个人信息保护这一块,标准更低。类似这种公司,抓到你的数据以后,不知不觉的把你的数据发到各个地方,而且再给你推送广告,而且用的还是你的流量,你还删不掉。你被曝光以后,你做这些事情以后,索赔的金额更高。

      大数据在业务实践层面要注意的,我们经常处理这几个环节,也是公司做业务实际会遇到的环节,这些环节如果没有处理好,后果很恶劣。

      第一,数据收集环节,明确什么样的数据我要收集,拿回去给第三方用的时候,要经过什么样的程序让你同意。数据收集是所有大数据业务的基础,如果数据来源的合法性丧失了,后面做的越大,危险越大,不良影响越大。

      第二,跨行业合作。一个互联网企业跟一个金融机构合作,我帮助你分析你的客户,对方会说,你本身做的算法的这些东西安全性是不是够。数据谁来提供?你把数据提供给我,还是我把数据提供给你。我把数据提供给你,我的用户信息怎么办?大数据的不同数据源的复杂性就体现在这一块,怎么样能够让大数据保持它的合法性,就是在之前的授权尽量的清晰,有些事一定要跟用户说。你想做去租车、租房的服务,是不是要得到明确的许可。

      第三,收费方式,现在大数据公司的各方面还是有很多的盈利点。我把数据筛选、打分、查询,按照这些收钱。我们帮助你带了客户,后面再做更精确的营销。现在互联网金融P2P的坏账特别多,我怎么把这个人从人群中抓出来。坏账分为两件事:第一,还款意愿。第二,还款能力。传统机构重点评价的是还款能力。现在互联网金融会把还款意愿加进去。你帮助互联网金融机构增加营销精确性,减少欺诈,催收的环节,而且一旦在市场做的很好,你的收入是非常可观的。

      第四,反欺诈。我们自己一个客户,现在可以看到怎么样把大数据实际应用于一个场景。如果做互联网金融的产品,会有一个现象,每次推出一个新的互联网金融的产品,一个新的P2P上线的时候,会来一群人带有非常典型的欺诈性质,而且这群人占比还不低,我们提到一家非常知名的互联网公司做一个产品上线以后,第一天来了四万多人,这四万个ID中大部分是惯犯。每一个新饭馆开张,会来一帮吃白食的、吃霸王餐的,他们专门干这个事。但是你今天刚刚开张,不想伸张,这些人保证吃成功。在互联网金融上也有一帮这样的人,每次有一个新产品上线,这个产品越大,这些人越多。如果在线下放贷款的时候,来了以后你没有见到真人,他们行为不一样,各方面能够看到差别。

      在互联网上这些人都是ID,你怎么把这些坏分子揪出来?来的坏人太多了,一天四万人个,每个人带一点钱,损失非常大。我们这个客户专门研究这一类人的行为,这一类人专门在网上做网络欺诈。一方面他们去看这些人是哪些,比如说这些人来吃霸王餐,这些餐馆的保安都在哪。你就会识别出这个又来了。还有一种是关于具体身份识别,还有一种是关于他行为的判断。警察在广场上抽人,大家不要觉得检查是随机的,他一定是快速的判断这个人形迹可疑在什么地方。这个人目光很闪躲、他穿的衣服跟自己的行为是不符的。这个有点类似,他们研究这一类在网上搞欺诈行为的人,一方面他们可以在百度贴吧搜这些人,是不是这些人在网上留下了很多痕迹。观察这些人的行为,包括他的设备信息号,如果一个设备反复的异常去用,就会有问题。我们一个客户帮助一个互联网公司在第一天内揪出70%、80%的欺诈,这就是价值。如果你想做这个事情,自己没有能力通过各种方法抓住这些人。如果一天来四万个ID,你是传统金融公司,审这四万ID,你需要花很多时间、很多钱干这个事情,你审的时间又长。现在大数据公司可以做到,因为他数据的丰富性,即时性,他可以在第一时间把这些坏分子抓出来。在反欺诈这一块,互联网金融是做的很不错的。

      关于数据合规,这是一个专业的技术,从法律的角度,这个制度做到什么程度以后,拿给监管部门说,你认为这个东西是不是合规性够了。这几点是客户跟监管部门,跟合作机构解释的。

      第一,数据要做脱敏。不要直接把数据拿给合作方看,如果得到授权情况下,他得到一些具体数据,你要把整个数据脱敏。这个人在你这儿是合规的,但是出去的时候是一个长串的字符,没有把个人的姓名、邮箱、电话给出去。

      第二,数据整合。信用评分很典型,我给到你的时候,我不告诉你他具体干了什么事,但是我告诉你他的信用分是六百以下。这就直接避免了把可识别信息给他。

      第三,内部隔离。一方面包括数据本身的隔离,不同的数据如果都存在一个硬盘上,哪天硬盘突然被人偷走了,你这个公司就完蛋了。现在我们看到国外的一些验证门、数据泄露,都和这个有关,一旦被攻破,所有的数据都被拿走了。

      核心是关于可识别性。大数据的算法通常不是通过专利保护,而是通过商业秘密的方法保护。你好不容易得出一个算法,一定不会公开。大数据也是很难通过专利的方式保护。意味着你的数据一旦被抄袭,你怎么证明这是侵权行为,让他停止侵权。这就是采取保护措施,一是要求所有员工签好保密协议,约定清楚,对他有一个约束。二是要有证据留存,很多公司在商业秘密案件中败诉,是因为这个算法的版本不断更新,他很难去证明侵犯了哪个版本。定期的把算法、这些东西刻录成光盘,按时间序列保存起来。你基本上可以判断我这个东西比你早还是比你晚。在商业秘密第一是接触性,他能接触到你的商业秘密。第二,相似性,在诉讼中,相似性要到正规的鉴定机构去鉴定。如果你做这一块业务,你需要在商业秘密保护上做一些投入,这样你的算法,不至于最核心的东西被偷走。我们在做融资的过程中,有一些特别担心的,你最核心的是算法,你的算法被拿出去以后,你的公司价值马上打一个折扣。

      最后一部分,我们在做大数据的时候遇到的核心风险点。你作为一个从业者怎么样规避这些风险。

      第一,监管。监管以后会越来越严格,个人数据关系到社会稳定,关系到安全,所以监管一定不会放松。

      第二,知识产权。一方面跟商业秘密保护有关。另一方面涉及到各方数据的所有权、数据加工以后的权利,包括公司的员工作品,员工说我走了,把这个算法都带走,这样行不行。很多做数据业务的人都会到处“扒数据”,到各个网站上把他的数据扒一遍。如果你只是小范围的扒,也很难被发现。但如果你全部扒下来,在网站里集合,这种行为已经构成了对他的数据的替代性。而且他在编辑整理数据的过程中投入了劳动,在这方面就构成不正当竞争,已有实际的案例判决构成侵权。我自己2004年参加司法考试,我司法考试以后,每年手机上都会收到推荐我去参加司法考试班的短信。我知道在什么渠道提供了我的电话,他知道我是要考司法考试的人,一定是有人偷偷拿我的电话卖掉,让他这么精准的投广告到我。这种数据泄露让用户精确的感受到是谁把我的信息卖了。以后这种纠纷会越来越多。让用户感觉到心理上的安全感,如果用户突然想,我也是被侵犯的,他的安全感下降了,你的产品商业价值也下降了,因为他不敢用这个产品了。

      第三,数据外泄分为客观外泄和主观外泄。

      第四,用户投诉,要让用户感觉到你的数据不准确,我需要一个投诉的通道,把这个数据纠正。比如说有人在境外刷卡,有一个拖欠行为,后来没有得到修正,这个用户发现我做房贷做不下来,做车贷做不下来,后来发现他把这个机构告了。

      第五,媒体曝光。负面的例子我们前面提到了。做大数据一方面有一个黑盒子,把你的算法精心的保护起来,另一方面也要提高透明度。比如芝麻信用,它会尽量把自己的基本算法构成向用户披露。

      我今天重点讲的还是在金融大数据的过程中,有哪些东西是我们必须要去注意到的,还有很多东西是商业操作,真正做实务的时候可能会有切身的感受,因为是另外一个层面的东西。大数据这一块里面有非常虚、非常无聊,被媒体神秘化,甚至很多做这个行业的人刻意把这个行业神秘化的东西,让大家感觉到我很厉害,实际上大数据基本上是一个试错的过程。这种公司,当你有足够的数据量进来,有资金的支持,能够去试错,最后做一个相对合理的模型出来。希望有非常合理的大数据公司,而且它最后一定会改变互联网金融生态,最后乃至整个社会的生态。从互联网的例子上,现在已经把很多东西做改变。后面会有一些更有意思的事情发生。

      我今天要讲的就是这样,大家如果有问题欢迎大家提问。

    租赁视界新闻中心本站整理
    免责声明:本站所提供的内容部分来源于网络,版权归属原作者。 转载文章出于传递更多知识之目的,对这些信息的准确性和完整性不作任何保证, 并不意味着赞同其观点或证实其描述。

    大数据能否带来风控

    对大数据我不是专家,但由于大数据也是开放性的命题,所以我也就自己的认知水平,谈谈我对大数据的看法,更...