2015/07/16来源:社会科学报
■2015年7月11、12日,上海新金融研究院(SFI)联合全球顶级网贷行业会议主办方——美国朗迪(LendIt)召开了“2015•上海新金融年会暨互联网金融外滩峰会”,会议主题为“互联网金融:创新、风险与监管”。此次会议汇集了国内外互联网金融监管部门、业界、学界专家百余位,参会嘉宾近五百位。本文是会议专场“大数据思维与大数据应用”的会议记录。
袁力(国家开发银行副行长):我们的大数据思维与大数据应用的论坛现在就开始了。我们有请嘉宾:
泰康人寿股份公司总裁刘经纶;
中国人保副总裁王和;
百度公司战略副总裁金宇;
上海华瑞银行行长助理兼首席信息官孙中东;
天云融创数据科技有限公司CEO雷涛;
宜信公司大数据创新中心副总经理雷鹏;
我们今天的主题确定为大数据思维与大数据应用;随着互联网技术的快速发展有一些新的技术产生了很多新的事物。比如说大数据。大家实事求是地讲,包括我在内,也可能是在座的各位,可能对大数据不一定可以说清楚。但是会议主办方又提出了大数据思维,前一段时间比较流行互联网思维,而这次又提出了大数据思维,以及大数据应用。首先我们有请刘总。
刘经纶:各位嘉宾、各位朋友大家下午好。非常高兴再次参加互联网的研讨会。根据主持人的要求,今天下午的主题是关于大数据的思维和大数据的应用。我想也结合自身的业务情况谈一点粗浅的认识。我想随着移动互联网、云计算和大数据的出现,特别是大数据时代的到来。改变了我们的生活、工作和思维的方式。特别是对产业发展转型,商业模式的创新,以及管理方式的变革,特别是运营效率的提升都产生了巨大的作用。
当然了,我也认为作为移动互联网的基础是大数据和信息技术。如果说没有大数据和信息技术,互联网是没有根基的。对大数据的理解,我认为它有以下的几个特征:首先数据体量巨大,第二数据类型繁多,第三价值密度偏低,第四处理的速度更快。我想这些都构成了大数据的特征。
因为大数据时代的到来,过去我们说也不是没有大数据,特别是保险,实际上概率就是大数据的结果,无非就是以往发生事情,我认为现在的大数据地位发生了变化,过去是辅助、次要的地位,现在成为了核心主要的地位。关于大数据思维的变化我认为从三个方面发生了变化。
一个是从样本数据变成了全部数据。过去的大数据都是样本,包括我们国家的统计都是抽样调查。现在从样本数据变成了全部数据。第二过去从关注的数据的准确性,现在不仅关注准确性,还会关注到整个数据的效率,也就是数据有什么样的价值。第三从关注因果关系到关注相关关系。特别是在大数据时代,数据的价值体现在哪里?实际上我们现在也理解,大数据的价值就是企业的资产,鉴于此我们可以看到,特别是我们很多互联网公司,包括最近很多公司,无论是上市也好,估值也好,其中重要的因素就是你公司有多少的客户数据。因此公司的价值也发生了巨大的变化,过去对公司的数据不太关注或者说关注不够。这是一个关于大数据的特征,大数据的思维的几个维度的认识。
第二,我想关于保险大数据的应用。因为我一直从事保险行业,我认为金融保险本质上就是一个信息行业,有大量的数据。保险本身就拥有大量的数据。对保险行业大数据的发展刚刚开始,所以我们大数据时代刚刚来临。但是如果说我分一下,我认为可以分成两个方面,一个是保险大数据,一个是大数据保险。这个主要体现在数据的广度和应用的驱动力上有所区隔。
保险大数据,实际上就是对公司原有的数据进行分析和应用。而大数据保险则不仅仅是在公司原有的数据上,包括和公司所有数据有关的外部数据。比如说我做寿险的,客户的养老、健康、理财等等的数据都和我有关。现在还处于保险大数据的起步阶段,从我们自身,包括我们公司在内,我们公司也有大数据部,利用大数据也是刚刚开始,我们所有的精准营销都是对每一个业务员,每一个客户分析,甚至可以从总公司直接送达到每一个业务员。因为我们现在都是手机保险。
第二个是决策支持,包括人力资源,考核干部的绩效我们都是通过数据分析直接送达。再一个就是主动风险的控制我们知道过去是到现场去稽核,而现在是非现场的,通过以往数据的分析,最后通过点对点,端到端的考虑。从大数据来说我们正在逐步应用。
最后,大数据出来之后,包括互联网,现在我们也有很多要思考的问题。第一,因为边界发生了变化,从企业内部的销售渠道,经营方式发生了变化。同时也引发了监管,他的边界有变化之后,这是对监管的挑战。第二个就是大数据资源共享。第三就是客户数据隐私的安全性。
袁力:下面有请王总。
王和:非常感谢40人论坛的邀请,也非常荣幸有机会和大家交流一下关于大数据的观点。我交流四个对大数据的粗浅认识。
第一,我认为我们现在对大数据的理解、认识多多少少是有一些孤立、片面、绝对的。我认为,其实数据不是孤立存在的,数据一定存在于一个环境中。他来自于一个环境,同时又回到一个环境中去。因为现在有一句话叫场景,比如说我们现在有一个非常重要的领域叫基因技术,或者是基因数据。基因数据是来自于人类基因组计划,来自于大量的一些基因测序。但是这个基因技术,或者说基因的数据最终又被回用到基因筛查、基因治疗这些领域。所以我们在谈论数据的时候一定不要离开它的环境。如果说我们要放在一个更大范围内来看。其实大数据有一个非常重要的背景或者说场景。我把它称之为三个“更加”。我们将面对更加透彻的感知,更加全面的互联互通和更加深入的智能化。我们现在讲更加全面的互联互通大家都有体会,未来我们一定会感受到更加深入的智能化。而我们当下感受最多的是更加透彻的感知。这种感知包括了我们讲的车联网,包括我们用的穿戴设备。这一种更加透彻的感知所带来的这种数据的变化会对未来我们的生活,我们的科技,我们的经济会带来很大的变化。所以这就意味着我们一定要去关注,就是说在一个更加透彻感知的大背景下,会有哪些数据会提供出来。有哪些公共数据是我们可以利用的,它在哪里?所以这是我的第一个观点。
第二个观点,我想说的是,人类社会无疑要进入一个全量数据的时代。这个全量数据不仅是一个数量的海量的概念。全量数据还有三件事情,一个,他的真实性与生俱来。第二,他会有更加丰富的维度。第三时效性会更强。在这种全量数据到来的时候,他一定会引发一个量变到质变的过程。所以我们有理由相信在大数据时代到来的时候,他会引发人类最基础的人文科学和自然科学之间的边界模糊。
对于这些变化,我们要有足够的敬畏。因为他所带来的变化更多的是一些根本性的。其实这个事我们现在谈有点陌生。我们回往两千多年前,在易经当中就有一句话叫“参伍以变,错综其数,通其变,遂成天地之文;极其数,遂定天下之象”,我认为这是中国传统文化当中,两千多年前对大数据最好的注解。
第三个观点,未来一定属于基于新技术。就大数据而言,一个核心能力是解构和重构数据的能力。我们一定会在既有的商业模式发现一个效率的洼地或者是价值的洼地。我们通过结构数据,去发现这个洼地。同时我们又通过重构数据去实现,去辨析这个价值,去提高这个效率。所以我想未来这种结构和重构的能力无疑是非常重要的。因为我们可以讲,其实数据的最小的单元,数据的细胞,其实是非常简单的就是yes or no,或者是0或1,但是你无法否认这么简单的细胞机构构建出丰富多彩的世界。所以核心的问题在于结构,而不在于结构本身,细胞本身。未来我们要驾驭大数据,我们需要两栖甚至是N栖的人才,他们最大的特点是具有很强的洞察力,同时具有很强的结构力。因为这些能力,他们会构建出我们难以想象的未来。
第四个观点,就是大家谈的很多的大数据,但是利用的不好。利用不好背后有一个重要的问题就是信息孤岛。奥巴马在08年上台的时候就说要把美国的公共数据开放20%,但是八年过去了,这个目标还没有实现,这背后说明了这件事情的困难。困难是为什么?我认为困难在于我们对数据背后的隐私的问题不能很好的解决。因为这个人身上派生出来的数据,就像他的人生权和财产权一样必须得到足够的重视和保护。如果说这个问题不解决,其他的问题无从谈起。所以我们构建一个数权的概念,国家要建立法律和制度给数权必要的保护。后面数权的利用,大数据时代的到来才有基础。
袁力:下面有请金总。
金宇:我在百度负责整体的战略,我其实对大数据的研究比较有限。但是我做战略主要是解决一些企业的实际问题,所以在企业研究过程当中,站在百度的角度,我们发现大数据要越来越频繁的应用。百度在整个企业当中,大数据应用的是最好的。因为搜索本身就是基于大数据体系的。我们看到整个大数据不仅应用在营销行业,也应用在各行各业。我想分享三点。
首先,我们看到的互联网趋势,这个趋势和金融发生的关系。其次我谈一下如何打造高价值的业务,我是带着假设和问题来到这个论坛学习的,也有一些体会。最后,这个趋势和假设如何和数据发生关系。
第一,我自己看,整个移动互联网确实带来了一个非常明显的趋势,刚刚王总也讲了,就是场景化。和金融结合在一起有两个组合,一个是场景金融,一个是金融场景。百度在做业务的时候,我们都看到了用户的需求。比如说在消费领域我们看到了两大场景在里面竞争,比如说去哪儿做旅游服务的场景,糯米是做生物服务的场景。用户在消费过程当中,对金融提出了越来越多的要求。比如说买一张机票,他看到旅行的延误险,这个需求非常明确。比如说你买一张机票,一张机票900,越来越多人有消费信贷的需求。消费场景在迭代过程当中,对金融的需求是越来越清晰的。
第二,从搜索本身我们看到了用户本身对金融作为一个独立业务的需求在网络上也越来越明晰。我们每天和金融相关的搜索是过亿次的,这当中有搜基金、股票的,也正是基于用户对金融的需求,我们发现一些传统的产品,比如说传统的炒股软件,在数据体验和数据挖掘方面无法帮助股民做更好的决策。因此我们推出了百度的股市通。所以我想和大家分享一点,金融和互联网的结合,金融和场景的结合,在互联网上,网民已经提出了明确的需求。
第二方面,我今天来也是带着疑问来的,因为我看互联网产品,要成为一个高价值的服务,一般我会看两点。第一,这个服务本身或者是这个业务本身有没有核心竞争力。第二他的核心竞争力是不是可以迭代?我自己在研究和学习的时候,我发现昨天的P2P论坛非常的清晰。如果我做一个好的P2P公司有核心竞争力,你一定有一个非常好的风险定价能力。另一方面,现在大量的P2P公司无法高效的迭代。很多人还是说我找数据要到线下去找,要不断去找各种征信,很多都是人工处理的。我们知道互联网公司一旦进行人工处理你的迭代速度和产生的价值就会慢。基于这个假设,我们讲一下我们对数据的理解。数据尤其是多元的数据一定是一个保障,我们分享一下百度现在手里有什么样的数据,这个数据作为一种保障,我们看到了价值还没有充分利用。现在我们搜索一天可以覆盖的用户是过6亿的,每天搜索次数几十亿次。我们的地图产品每天有3亿人在使用地图产品,有的是直接使用百度地图,有的是利用第三方的,或者是我们自己的产品比如说去哪儿,这个一天调用的次数是150亿次。这些对金融都是非常有价值的。但是我们没有有效的挖掘出来。
那么我们在挖掘当中我们看到了两个短板。第一,我们和传统的行业是有非常多的合作机会,我们的数据是偏非结构化的,我们没有结构化的交易数据。第二我们做特定专业数据挖掘的时候,我们缺乏能力。
因此带来第三个问题,数据是保障,但是只有合作才可以充分挖掘出来。所以我今天是来学习和来寻求合作的。谢谢大家。
袁力:有请孙行长。
孙雷:感谢主办方,感谢各位同仁。因为我一直在银行工作,工作了二十几年。我的工作是和银行有关,我今天带来四个观点。
第一,大数据不负责银行长期存在的数据问题,主要服务于展业的需要。这是我个人的观点。银行其实数据有大量的问题,数据质量、数据标准的问题。这些问题本身造成和大数据没有什么关系,他是银行要持续改善的,大数据也改变不了这个问题。银行数据可以做利润分析、资产负债管理、风险管理、客户关系管理,他要求的是准确性,数一定要准。这恰恰是大数据不擅长的,大数据是做关联分析,找内在关联规律的。所以现在很多的同行,包括一些银行在找我们说,我们用大数据是不是可以解决原来的数据问题。我觉得不见得,以前结构化的数据还是要用结构化的手段,和组织机构有关系,不是说有了大数据就解决问题了。
第二,CustomerDNA是银行大数据最重要的基石,一定要完成用户的画像。银行有大量的数据,但是没有充分的应用。这些数据本身只是一个维度,为什么用DNA,第一DNA每个人都是非常独特的,第二是有大量的信息标志一个人的独特性。CustomerDNA是银行建立这样一个大数据平台是基石。比如说银行尽可能合法的去收集,我们非常注重隐私权的问题,在隐私权合理的情况下,我们尽量手机用户的多种维度。因为银行只有财务信息,对社交属性和观点、行为都不具备的。
第三,很多金融机构是非常缺失的。在这样的情况下,我们是不是不能用大数据了?我说不见得。我们希望打造的是一种没有数据也可以做大数据的概念。这个可能大家会觉得比较奇怪,我想说的是数据可能不在你那里,但是我们可以通过合作,这些数据不在你那里,现在数据的使用,包括监管、征信都是要你自己授权情况下,这些企业才可以把数据给到银行做判断。在这样的情况下,我们如何打造一个数据+的状态。我们说“互联网+”这个“+”是连接的意思,包括交水电煤,包括一些负面数据,包括违法的一些数据。他们做了一个诚信网。其实我们银行做的应该是连接,一部是做风控模型,其实这些数据的价值会沉淀在模型当中。最后我们使用这些数据的时候其实是使用模型。这样的话,我们在很多中小金融机构当中,即便是我们缺乏很多数据的属性,我们也可以利用大数据来做相关的工作。
第四,大数据去年我们在中行做了一个专题,获得了银监会的一等奖,主要说的是大数据在银行做什么,我们分了六个专题。我想聚焦一下,大数据在银行业聚焦的就是两个领域,一个是精准营销,一个是大数据风控。大数据风控是两个方向,一个是云决策方向。以FICO为首的云决策是一种传统的数据结构云化的表示。第二个是Zestfinance。精准营销方面,就是我们讲的精准营销推荐。我们做了一个试点,客户来到我们银行网点在打排队单的时候,我们就在上面打出一套适合他的理财产品。我觉得最后大数据聚焦在银行业是这两个方向。
袁力:接下来有请雷总。
雷涛:大家好,刚刚我们在开会之前,袁行长给我们帖了标签,有两家是保险,有两家是新金融,有两家的是大数据。我们是做大数据的。我今天想分析两个思维方向如何落地大数据的想法,同时在这个想法之下我会拿一个案例和机遇来和大家分享。
做数据已经有20年了,大数据同样是对数据处理、发现和探索,和以前有什么区别呢?我相信这一点和人类100年来的科技发。时间不再是永恒的,我们想看看大数据在宏观和微观角度如何和金融业发生结合。首先我们看一下全局。刚刚刘总提了泰康的例子我觉得非常好。我讲一个案例。因为我们也帮助泰康做了大数据平台,泰康首先把4000万的个人用户和近1亿的客户体做了机器学习之后,我们看到了很多没有想到的事实。这是数据上的探索。所以在全量上我们看到了巨大价值的体现。它开始替代以前很多专家和精英的设计规则。
第二,我非常认同王总提到的一个。我们如何对数据进行结构和重构。我也以一个案例来说,以前我们对数据是用表结果,或者是一个文档去做的。表就会涉及到我如何关联、查询它,就涉及到数据质量很多问题。这些可以被计算的不仅是文字。今天没有太多证券的,对于这些年报我们如何分类,我们给汤森路透很多的替代人的去对财经类新闻和公告做量化处理的。比如说我们给央行做的投资和风险关联的项目。把所有的资金往来数据,以前我们关注个体只能关注个体本身的历史的资产负债损益的个体评估。我们把每一个个体,每一个企业的数据联系起来之后,我们强调联系。因为联系很重要,联系是一个高阶的智慧。声音的联系就是音乐,色彩的联系就是绘画,我们如何把一个图谱联系起来。所有的资产,所有的交易连接起来之后,我们最后得到一个很宏观的全局视图,这是我们把我们的资产量化得到的。在人民银行的项目也是,我们所有企业间的担保,我们通过一个闭环我们会发现循环的担保圈。人民银行以前这个项目是两个星期,必须要找到第一个出问题的节点才可以做的。而通过大数据的结构可以把全局观获取到。我们从更高的视角认知我们的数据基础结构。凯文凯利在20年前写的《失控》的故事就非常形象的进行了表述,就是蜜蜂和蜂巢的关系。大数据从全局的角度,我们如何把银行里传统的结构化数据,刚刚讲的商业银行中的资金往来数据,我们给它连接起来。人民银行的投资担保等数据联系起来。钟伟是很学术的院长,他提到一个概念就是复杂网络,我们就是用的这个学科。复杂网络是全新的学科,他更多强调全局的角度去组织数据。这是我分享的第一个思想。就是大的全局角度。
第二个是更加个性化的。也就是我们更加关注到个体了。这个个性化还是回到泰康两讲。把数据推到每一个营销员,这和传统的数据组织结构是完全不一样的。以前我们算数据不是yes or no这样,不会为一群人做一个共性化的统计。这是私人银行用户,这是金卡用户,他会为每个人做一个量化的标准。根据点击率来决定商品的推荐结果。我们给泰康做的流失风险也是如此,我们算出每个人的险种的风险。我们直接用手机移动端推到每一个保险代理,他来为这一次营销负责。现在面对很多的金融服务都是谈个性化的内容。大数据应该是在一个个体,还有一个是在全局,有分别的突破。
袁力:接下来有请雷总。
雷鹏:我是天天工作在大数据的一线,我其实很简单,跟大家带来简单的几个关键字——改变、敬畏、实干。
我们刚刚用大数据这个词虽然都是一个,但是每个人的理解都不一样。从我一线工作的角度来说,我认为大数据就是最终实现计算机的思维大数据在过去15-20年改变了两个大的行业,一个是广告,一个是零售。今天我们看到两个典型的代表企业,一个是谷歌,一个是亚马逊,谷歌每天要处理20亿人多次访问,他的商业模式是点击才付费。第二个就像我们看到的零售业,零售业之前在中国如果说在北方就往北京跑,在华东就是往南京路和淮海路跑。今天你在贵州的小山村里,你打开淘宝,里面产品的丰富程度和你在南京路的商品丰富程度是一样的。所以大数据极大的改变了这个行业,典型的传统是二八原则,服务VIP,小型客户得不到资源的照顾。我们认为大数据会极大的改变金融行业的原因是在中国金融行业也是这样的,不均衡性非常明显。第二普惠金融是这一轮变革当中,大数据有落地契机的大机会所在。
今天在这个行业里要么有一种夸大大数据能力的,要么是大数据无用论。第一个敬畏是对市场和客户,我们看到余额宝给大家一个非常好的教育,不是说余额宝设定了新的货币基金产品,但是他对用户体验和市场的敬畏是传统基金公司没有看到的。当他做到了,用户发自内心的喜爱。这件事情对传统金融业来说是一个非常大的启示。
第二个敬畏的是金融服务业,金融服务业的核心根本是风险经营,互联网经营的根本是流量经营。对风险的敬畏无论是你做P2P还是其他的任何的金融业态,对风险都要有足够的敬畏心。
第三个是法律的监管。我们说监管和法律都会滞后于发展,这是我们在今天所有的监管规定或者是法规本身出来都有这样一个过程。但是这个我们和五道口金融学院和政法大学的交流当中都非常明确,即便你今天走的是灰色地带,但是要利国利民和有一定的自己的自律。就像我们今天听到的英国P2P协会,他是先有自律然后才归到监管。
第三点是实干。刚刚各位嘉宾讨论到金融场景化,我的理解是这样的,这个词也被广泛使用,但是不同人理解是不同的。不是每个人都可以成为发改委,都可以把自己的金融服务场景化到别人的地方。你只是一家金融服务商,你的本质是做好金融服务,并且敬畏所有横向的合作伙伴。他愿意基于他的利益原因,基于市场本身的利益交换愿意调用你的金融服务,再使你的金融服务服务他的客户产生收益。这才是健康的金融场景化。而不是金融企业自己想场景化就场景化。你把你的核心能力真正的变成互联网金融服务。
最后,想找大数据人才去找这两个行业,一个是广告业,一个是电商业。但是不是所有人都是真的有大数据传承的。在从这两个行业里去找以前去做机器学习、推荐引擎、知识图谱的人。这样你找的人是真正懂大数据,会大数据的人,大数据核心不是大,而是机器的智能,机器的思维能力达到人脑的程度,替你做大量的商业变革,这是我的分享。
袁力:因为今天会议结束有很多嘉宾马上就要返回自己的所在地。所以我本人不做太多的啰嗦。大家彼此的观点有没有需要补充或者说需要再重新表述的?
王和:我说一个非常简单的观点,和孙总的观点做一个商榷。他刚刚说,大数据不解决数据质量问题。其实我恰恰和他的观点不太相同。我认为我们原来对大数据的认识都是单一维度理解这个数据的大。但是真正的大数据会给我们提供更加丰富的维度。而且会有很多的实时的数据。所以我有一个观点,我认为数据,尤其是维度在发展到一定的时候,数据会产生一种叫自验证能力。就是数据足够大的时候,会有一个自验证,这是大数据非常大的价值所在。包括我们现在在做的信用评级,我们在做信用评级时觉得数据不够或者是数据质量不行。但是到一定程度之后,会从原来的纵向思维变成横向的思维,就是一个集合的思维,就是两条线就可以决定一个点。管理自验证的东西,我写过一些文章,大家可以去找。
孙雷:关于数据质量的问题,因为我多年从事数据工作。其实数据质量有一个核心的问题就是如何避免数出多门,指标准确。其实这个东西可能我们定义上不太一样。我说的数据质量是说,你必须在全量上都可以满足数据质量的要求。比如说银行做报表报银监会,银监会会说你这里不准,那里不准。实际上你是对全量做加工报的口径。这部分的数据有任何的缺失,这些东西是靠收集其他维度无法满足的。我的定义是这样的。
王和:我非常认同您后面结实的观点。我认为数据会从前标准时代进入到后标准时代。因为在未来全量数据,社会海量数据的时代,我们不能指着现在定一个标准,全世界用同一个语言说话。这是数据1.0时代的理念,数据进入2.0时代,他会从标准化时代进入到语意时代,就像我们平时当中我们不用解释苹果到底是手机还是水果。就是这个道理。
雷涛:我非常同意王总的观点。包括您刚刚提到的Zestfinance的例子,他是怎么走到这条路的?我们自己和卡中心合作,拿了很多很有质量的数据,但是就是进不去,因为传统的评分模型是标准的,高质量,结构化的数据维度,这些数据维度和新的系统很难融合。在这个时候要用到新的大数据的方法,就是用多维,从低维的传统的及其学习的方法,沿用到一些新的高维的方法。数据质量虽然说很差,但是他可以自我验证。在高维的数据下我如何把一个人的行为预测准确,这本书的结论是93%是准确的。当维度增加之后,数据是有自我验证的。
金宇:我补充一下,我是做行业研究的。我更多关注的不是大数据的算法而是说数据如何产生真正的价值。要让数据真正产生有价值的数据,从单体的价值来说,一定是不如交易的结构性的数据。以前我在中金做研究的时候,国外有一些投行用推特的数据,推特的数据是非常非结构化的,但是他可以带来前瞻性。比如说百度推了中小企业景气指数,流行病指数。这些数据和医院来的质量是不可同日而语的,但是加入这些数据之后,可以大幅度提高模型的前瞻性。
第二,我自己在互联网公司里呆了几年,我觉得他和传统的数据获取是不一样的,这些数据是活的,因为他每天都更新。所以你的模型可以像互联网一样迭代。比如说百度强调深度学习,云计算,才可以把模型效率发挥到更大。否则的话,你的数据一个月更新一次,你的更新频率就限制了你的效率。从这个角度来说,大家更多关注数据单体价值,一旦数据体量大了之后,你要关注那些活的数据,迭代化的数据,利用互联网获得的数据,我也非常的关注。
提问:刚刚几位老都提到了FICO,我是FICO的中国总经理,所以我回应一下。FICO现在每天为世界上40亿个金融账户,用机器学习的方法做实时的风险决策,其实比如说用几万个变量去算模型,从我的专业角度来看,第一个是不靠谱的,我们知道每一个变量都会带来统计上的误差,变量越多,误差叠加越多,如果说真的有很多单个数据的话,那他可能是无奈之举。在中国更重要的是要打破信息孤岛,把信息会聚在一起,主流有价值的信息先提炼出来如果说95%都达到了,再去追求最后的5%是不是用一万个变量去模拟。但是我们现在不是走最后一公里,或是头100公里走了没有。这是我的一点回应,因为几位都提到了FICO。
雷涛:FICO是比较权威的,大家一到标的物都要看着FICO。
袁力:我们今天这个话题很专业很技术,能够和大家交流都是在大数据方面有很好的基础的。
提问:请教两个问题。第一问一下王总。刚刚您提到大数据在发展面临一个核心的问题是信息孤岛的问题。所以我的问题是说在未来的大数据的发展当中,会不会因为解决这个核心问题的时候,会出现一个新的业态或者说新的一批公司来破解这个问题的时候,出现一个新的商业模式。然后可以在推进大数据的过程当中形成这样一批新的公司,涌现出这样一个平台,这是一个问题。第二个问题问一下金总。我们知道人工智能和机器学习,百度在国内做的非常领先。百度最近在机器学习和人工智能在大数据应用上有哪些最新的进展?
王和:我还是坚持一个观点,我觉得首先是必须立法,确立数权的概念,进而对公民基于数据的权利,尤其是隐私权予以保护。现在这个问题是非常严重的,如果说我们没有一点IT知识,随便就下了那么多APP,基本上在数据的概念上,基本上是裸奔。这是社会非常不公平的地方,只不过大家没有意识到这一点。对个人的数据进行保护这是最重要的前提。
第二,在这个前提之下,当然我们鼓励一些相对超脱的第三方来整合提供一些数据产品,为社会提供服务。其实现在这种情况在发达国家已经非常多了。包括这一次提出万众创业,其中非常重要的就是基于数据利用的行业,它的门槛很低,你只要有两个学这个人,你有一台电脑你就可以创业了,就可以为别人提供相应的服务。
金宇:整个百度的发展实际上是从营销进入到消费,现在进入的越来越多。体来说如果说从大数据应用比较多的领域一个是广告。百度是全国最大的营销平台,我们的规模比央视也要大不少。在迭代过程当中有非常复杂的算法,一方面要有效的变现同时还不能伤害用户体验,这两者必须要用人工智能和大数据来提供。
第二说到消费。大家知道现在语音识别我们在国内做的是最好的,语音识别是一个大数据的处理。你说这句话,他可以翻译成文字,同时基于这个文字还可以匹配出你要什么。比如说你对手机百度说,我要买电影票,他马上就会把你手机当中买电影票的APP调出来,提升用户的使用体验。
另一方面是无人驾驶技术。我们的可以精确的识别,如果说无法识别就无法做到无人驾驶技术。我们更多的领域是和互联网结合更深的。在金融这一块,我举一个例子,金融这一块,我觉得这个很重要,一个是一定要有一个清晰的个人画像,我觉得百度的数据是不够的,我们每年有几十亿搜索,不断给用户打标签。我觉得这一点大家不用担心,未来对数据的获取权对所有用户个人都是开放的,但是怎么使用必须要有一个约束,如果说国家没有约束,自己也要有约束。我们给个人大标签,但是不把个人的数据送出去,我们只是做总体上的总量的研究。现在我们基于个人的研究也越来越多,这不仅会帮助到我们的广告,还会帮助到很多和我们合作的合作伙伴。我们在这方面的尝试从营销到消费到金融是一系列的。
提问:我觉得我们今天实际上是把大数据的翻译变成数据大了,数据大和大数据不是一个意思。Mega Data是很大的数据,比如说工商银行就是Mega Data。但是百度是big date基本上十年前,二十年前小数据的应用是不是做好了。是不是可以把数据决策,数据驱动的决策用好了,这些技术很多年前就有了。
我想问一下金总。因为像百度这样在国内大数据应用方面,我觉得我们国家大数据的技术不要动不动就说国外如何如何,我觉得百度应该是走在相当前面的。在整个行业当中,大数据的技术是走在前列的,我觉得中国的希望所在是在你们这边。我们今天讲大数据在金融行业的应用。既然百度有这么强大的大数据能力,你们怎么考虑征信业务?百度对征信,因为人民银行讨论的前期的八家机构当中,不知道百度是如何考虑征信这件事情的。因为最终这么好的技术是要服务于整个社会的,对征信这件事情是怎么考虑的?
金宇:回答你的问题之前,我讲一下我们一开始讲的观点,就是你做一个有价值的业务一定要有能力迭代他。为什么我们的大数据做的好,因为大数据是和的最核心业务广告联系在一起的。你做模型的话,如果说你这个模型很先进,但是你在最后无法迭代,这个模型就是死模型。为什么我们的地图做得好,我们每天有3亿用户会调我们的用户,会有150亿次调用,这些数据都是活的。我们在研究消费长颈的时候,发现金融越来越相关。所以在战略上我们不是把所有事情都想清楚了,但是我们看到如果说我们没有自己可控的能力可以迭代这个事,我们就要开放来做。回到金融,我们非结构化的数据非常大,我们每天都会产生数据,我们也有非常强的算法,而且这些算法正在其他领域不断的测试。但是我们在整个结构化的交易数据方面,我们不觉得我们的数据量是足够大的,无论是银行还是大的电商,甚至是运营商,他们掌握这种交易行为的数据比我们大。另外一个是做P2P,我觉得我们在这方面的专业性不够。你要加一个时间维度,你要把时间更快的发挥能力,就要把专业能力加入进来。
在征信这件事上,至少在我的维度还没有仔细研究。如果说我们有迭代的场景,我们会用我们的迭代场景来进行。如果说没有的话,我们就会合作,和我们的数据能力和模型能力结合,这是我们现在基本的想法。
提问:在大数据中,就我的理解,有金融相关的信息和替代信息。在座的各位有没有一些实际的体验,有哪些替代性的非金融的信息,在你们的业务当中发现特别有用,用于金融场景的。
孙雷:我们做过两类尝试,一个是公共评价类的信息。比如说点评类的信息,这个信息可以标注这个商铺的信用度。第二我们会和电商的网站合作,根据订单的信息来做风控。我觉得在互联网金融时代。我们想用一个维度,或者是结构化维度来收集到客户的结构化的评分的能力,我自己是很悲观的。我很同意刚刚王总说的,在今天这个隐私保护的情况下,我们无法做到把客户的信息按照银行自己的想法收集完整,那就得分散化,我可能收集了很多客户特性我这个客户收集的是电商信息,另外个客户收集的是的违约水电费信息,另外一个客户是手机的点评类信息。我们想用机器学习的方式做出这的评价,我没有办法,如果说我有办法,如果说银行的数据可以足够支持,这些客户有足够的三表的信息,我肯定很容易,我银行做的这么多年就是做不到。但是我们拿不到那些小微企业的信息。就是关键就是这些非结构的,结构非常稀疏的信息如何应用到银行上。
雷鹏:因为他的教育程度可能会更高。我认为没有必然的联系,但是我们从我们的数据使用上有这样的发现。中国有大量的手机终端,如果说是苹果的最新机型他的还款意愿也会更高。所以潜心去做你一定会有新发现。
金宇:我们最近出了一个产品叫百度股市通,有一个功能叫智能选股。在百度上亿次的搜索当中我们看到一个热度,我们让他看到什么东西的指数越来越高,越来越热。其实我想讲的是说,其实有的时候大家把大数据支持决策作为一种工具和大数据等于决策放在一起了。昨天我们和陈总也讨论,你不能说我给了一个分,我一定贷款。但是他是一个很好的决策工具,你把它作为工具的时候,就需要各种各样的前瞻性来帮助你。如果说你一定要强调说他就等于决策本身,你就会越来越怀疑他的数据质量。
袁力:最后一个问题。
提问:我是口袋理财的创始人。其实我之前工作的公司是做大数据平台的,我之前也是做大数据的。我现在是属于互联网金融行业。想了解一下,因为我之前是涉及到金融大数据、电信大数据、公安大数据等方面,现在在互联网金融行业的大数据方面,我想请教一下雷总因为您是互联网金融行业当中非常资深的,您是大数据创新衷心的。我想问一下,在这个行业当中,如果说从大数据价值方面,可以简单给我们介绍一下,可以从哪几个角度去做。因为大数据最核心的还是大数据的价值。我们之前了解到的很多都是风控这一块,除了风控我们还有很多的应用场景,这是最重要的。从宜信的角度,大数据创新的角度能不能给我们介绍一下,有哪些方面大数据的应用场景。
雷鹏:我之前也在数据库公司工作了十一年,包括IBM、微软。我们今天接触到新的互联网金融对数据的使用,和传统的行业和保险业是非常大同的。那个更偏向于Mega Date,而不是big date。我们宜信做的更多的是增加对风险的识别能力,这个识别能力可以决定我们公司的风险定价,也是宜信投资最重要的投资团队核心的使命和我们在做的。方向上,包括您刚刚讲到的几个方向和风控的方向。宜信的底层风控能力是我们非常重要的投资回报的点。比如说阿力得商户,阿里在商户当中放贷的只有10%-15%。为什么他不做其他的呢?是因为他一无法识别他的风险,所以不去做。而我们去做,而且这个费率是浮动的这是我们今天大数据做的对金融业务本身的支撑,也是传统银行业无法挣脱束缚的,无法做到风险定价。这是我觉得今天的大数据对金融的使用,不仅是有用,而且有非常实用的价值,他真的支撑你的商业活动的盈利能力。
第二,刚刚孙总讲的非常重要,就是精准的获客。我们今天设定了大量的数字广告,我今年要花掉2亿多的数字广告费用。但是这些费用对宜信的核心业务增长有非常大的支撑业务。百度也是我们其中一个投放量很大的平台之一,但是让大家理解,用户持续的获取,对金融服务业来说是非常重要的。
还有一点就是对外的输出。不是所有公司的风控能力都可以做到宜信这样,针对较差质的客户。做了大概半年时间,看了一下自己的资金状况,回来找宜信说,还是合作来做的。核心的原因是损失超过了他的承受能力。这个时候我们宜信的核心能力不再以人的方面提供出去,而是打包的互联网服务的方式提供出去。用户可以调用,调用之后对他有很大的帮助。这样的情况下,我们的大数据不再是每个公司投资的一部分,从长远来看,社会在某些领域的大数据投资最终都会会聚到一起。使整个社会可以得到这个力量就可以了。这是我们要做的事情。
袁力:我们用了一个多小时的时间,台上六位嘉宾和大家分享了大数据的看法,台下的各位也积极互动,提出了很多很有水准的问题。我们掌声感谢这六位嘉宾,同时也非常感谢在座的各位。时间的关系,我们这一场论坛到此结束。