‌·

畅想数据之巅

来源:南方都市报     2015年11月22日        版次:AA20    作者:张天潘

    信息管理专家、阿里巴巴集团副总裁涂子沛做客南都公众论坛。 南都记者 邹卫 摄

    涂子沛:阿里巴巴副总裁,《大数据》、《数据之巅》作者,中山大学客座教授

    我们所身处的数字化社会正在经历着一场变革,是谓大数据时代。数字化让我们的表述、工作工具和由此产生的记忆都有了新的载体,从而改变了生活。大数据的发展有哪些表现?数据的运用体现了何种神奇?我们整体的文化心理是否需要转变?隐私在这个时代里要如何安顿?南方都市报主办的南都公众论坛邀请著名信息管理专家、阿里巴巴集团副总裁涂子沛畅想未来数据世界的远景。

    大数据是一种现象,背后是一种计算能力。最近双11天猫平台一天交易量912亿元,订单处理一秒14万个,支付一秒8 .59万笔,一天有几十亿单。无数商家可以根据客户的搜索、点击、浏览记录、预订多少、往年的销售额、价格弹性等数据去确定库存和备货,这是传统的商场做不到的。

    传统商场,上午去这个店买了东西,下午再去就不认识你了,这叫“顾客时代”。而电商平台,来过的任何一次,甚至没有买东西,只是搜索什么东西,看了什么东西都能记录下来,然后进一步分析、预测,电商可以认识你、了解你,这是进入了“客户时代”。

    数据记录我们的生活

    今天的互联网企业把机器和人、人和人互联起来,可以跨设备、跨平台、跨应用互联。互联网企业跟传统企业的主要区别是互联网企业在沉淀数据,比如,淘宝的数据表明,最近一周全国降温,秋裤搜索量暴增6118 .8%,淘宝商家就会根据这些数据来分析进而满足客户的多样化需求。B A T用自己的数据分析最近某个地区有多少人搜索了某种商品却没有下单购买,再针对这些潜在的消费者做营销,这个效果比传统方式要好5到10倍。

    数据不仅仅是精细化管理。电商平台每卖一件东西就沉淀一条数据,记录这个东西是什么,卖的时间、价格,谁买的。这个数据还有其他用处,譬如商家需要贷款,但在中国的金融体系下他们拿不到钱。而电商平台有每个商家的销售记录,提交贷款申请,一看数据就能推测你的运营情况、利润情况,几分钟就可以决定能不能发贷款,最快的一秒钟。靠的就是算法。

    数据为什么这么有用?数据的作用有时可能完全超出最初收集者的想象,也可能超越信息系统设计的最初目的。同一组数据可以在不同的维度上产生不同的价值和效用,这是数据的外部性。如果能不断发现数据的外部性,数据的能量和价值就会层层放大。

    现在可以设计一个体系监控整个商品体系的变化和波动,当这些体系放在一起的时候就可以互相印证,得到更加精确的数据。传统的数据用来测量,今天的数据用来记录。一幅图片、一封邮件、一段视频、一段音频都是数据,很多社会问题也缘于数据。前段时间中央台一个主持人发表了一些言论,结果很被动,为什么?有人拿手机把他说的话录下来变成数据分享出去了,包括优衣库事件,也是一样的道理。

    今天,谁都有能力把发生的事情变成数据,数据是对生活的记录,越来越多的东西被记录下来了。这些东西看似零散,但是可以整合起来分析,现实世界是普遍联系的。传统企业和互联网企业的根本区别,在于一切业务是否数据化。互联网企业把所有过程都变成数据记录下来,这跟上世纪90年代互联网刚刚发明的时候完全不一样,跟传统企业更不一样。现在,互联网已经成为沉淀数据的基础设施。

    数据如何解决社会问题

    在美国佛罗里达的一座小城,警察开快车撞死了人。一名记者怀疑警察经常开快车,而做这个结论最大的挑战是取证。她向交管部门申请数据开放,获得了100万条警车经过收费站的时间地点记录。收费站之间的距离是一定的,于是就算出了警车经过两个收费站的平均速度。计算分析数据后记者发现,13个月中当地有5100宗警车超速,非常惊人。这个报道获得了2013年普利策公共服务奖,而如果没有充足的数据记录和成熟的分析手段,类似这样的社会问题,人类可能永远都无法得到有效的证据证实。

    另外发挥一下,计算是否超速的同时,还可以看同一车牌的车有没有在其他地方出现过。这个一旦实现,套牌车、黑车就不会有了,交通管理将面临一场革命。还有很多车上装了G PS,G PS每三秒钟就收集一次数据,用大数据我们可以知道每一部车的位置。所以通过计算来解决社会问题,比如监督警察的公权力,比如交通管理,大数据可以发挥关键作用。

    从历史上看,小数据就已经很有用。美国南北战争时,北方总司令谢尔曼率领6.2万人打到亚特兰大,并准备带着这6 .2万人一直向东海岸前进。1860年美国的人口普查已非常发达了。美国立国要分配权力,要产生议员,一个地区产生多少议员是根据人口来决定的。美国人发现数据是决策最主要的依据来源,人口普查会问很多问题,比如家里有几头牛、种了多少花生,社会一层一层地统计,作为国家对地方治理的依据,最早的计算机雏形就是为解决人口普查问题而设计的。谢尔曼当时拿到了美国最新的人口普查结果,所以他知道每个地方产多少土豆,产多少奶酪,有多少马,有多少家禽。然后他把队伍分成五路,每一路都沿着最富裕的地方走,路上根据统计的结果去抢补给。

    小说《乱世佳人》也与南北战争有关,好莱坞导演在犹豫要不要把小说拍成电影时,他们找到了盖洛普。盖洛普因提出抽样和推论,四次成功预测了美国总统选举的结果而成名。他第一次把数据的调查分析变成一个产业,而原来这是一个行业,产生不了最直接的经济效益。盖洛普调查后认为这是最流行的小说,好莱坞才买了版权。《乱世佳人》的开拍,包括《乱世佳人》播出的四轮,盖洛普都会对细节做出预测和安排,也预测了这部电影的票房是5650万美元,最终是5997万,相差不到6%。这个预测是在1940年做出的,《纽约时报》说这是好莱坞第一次用科学的计算来判断一部电影是否会成功。

    发展中国的“数据文化”

    数据很有用,但我们这个民族不太喜欢讲数据,胡适用三个字来形容:差不多。近两三百年中国为什么落后于西方?历史学家黄仁宇给出的原因是数目字管理。他说资本主义的本质是能够把整个社会用数据的形式管理起来,但是中国社会做不到。

    凡事归根到底要从文化层面来看,我们的文化就有这个含蓄的特质。数据思维的精髓是理性思维,是尊重事实的思维,这个过程是逻辑推理和计算,不是“差不多”。这不是批判中国文化不好,文化是与时俱进的,今天是大数据时代,我们要更讲究精确。数据是理性的载体,是分析的载体,科学地研究社会离不开数据,可以用数据分析的时候才能称之为科学。照此标准,我们长期以来是不重视数据和逻辑的,所以整个现代科学体系源于西方而不是中国。这个文化制约了我们,而今天,我们应该参考一种新的文化:数据文化。

    数据在海量爆炸,我们用新媒体、微信、微博制造数据,人体中的传感器、工厂的机械设备、办公设备都要上网,它们24小时源源不断地产生数据,新数据又源源不断地送到云上,规模远远超越以往。我们正在进入一个大数据时代,这是一个智能的时代。加拿大蒙特利尔的公共交通署宣布他们可以为120万人量身定做消费计划和个性化的票价,他们已经沉淀了几十年的数据,掌握了每个人出行的规律,依据是数据和算法。所谓智能时代,就是很多事情有计算机帮你去做。为120万顾客分发个性化的票价可能要10万人才能做好,没有任何一家公司做这个事情,但是今天运用数据、机械和算法在毫秒机器上就能做到。未来的经济形态可以叫知识经济、智慧经济、新经济,但整个社会智能的基础是数据。

    智能也带来了个性化。个性化是要给每个人提供不同的服务,比如,通过大众化和个性化的信息推送,读者打开网页的比例较原来要提高5到10倍。我们今天可以跟每个客户都建立一个数据联系,根据源源不断的数据流为客户提供个性化服务。所以个性化时代、智能时代,人对机器、对数据的依赖会越来越强。

    大数据不是矿藏,不是石油这样的物质。黄金、矿藏用完就没有了,数据却越用越多,所以数据是土壤,是迈向智能社会的土壤。我们要重视数据,重视数据的使用,决策的基础是数据,不是经验。如果能建立源源不断的数据流,即用系统化的、科学的方法收集数据的话,数据就是可靠的,甚至比亲身调查还有效。数据应该成为决策最根本、最主要的依据,我们要发展这种新的数据文化。

    作为隐私和遗产的数据

    东西有正反两面,现在一个巨大的挑战是隐私问题。中国人隐私观念比较薄弱,这也跟文化有关,因为我们不喜欢把界限划清楚,但今天这个时代,这个界限需要划清楚。凭借隐私我们才能把个人生活和社会公共生活划清界限,个人生活才能受到保护。而保护自己的隐私就要保护自己的数据,今天数据就是隐私最大的载体。当然隐私还有其他载体,但是数据成了越来越大、越来越重要的载体了。所有的购物记录都是隐私,从你购买纸巾可以判断你的私生活。

    有一个美国爸爸很生气,女儿还在读高中,怎么发来了婴儿产品的广告,过几天他发现女儿怀孕了。当你买这个东西,可能证明你怀孕了。要买什么东西、原来买什么、不买什么,大数据都可以看出来。有一家银行,一个提款机半夜提掉很多钱,原来提款机旁边有色情服务区,晚上提现怕被太太知道,但第二天银行经理说,他们很清楚昨天晚上谁光顾了色情服务区。很多城市根据每个人的手机,比如开关机的数据规划交通,航空公司根据这些数据规划开通新航线,所有这些数据整合的话,每个人的一言一行将没有隐私。今天在网上说过的每句话都会永远存在于云端,你的后代100年后想看都可以看到。

    现在连警方破案也依靠社交软件,有人失踪的话警方做的第一件事就是查他的上网信息。那么一个人的所有账号,当这人不在了,谁有权看呢?顺着这个问题往下,数据会成为每个人的遗产。今天的我们留下这么多数据,下一代人又会留下多少呢?未来人的一生从懂事开始,数据就会被沉淀下来,当这些数据被整理出来的时候,人一生的痕迹就会还原。

    屈原投江之前是什么样子?司马迁写《史记》的时候离屈原死时已有相当一段时间了,不可能还原。但是如果今天还有屈原,他还去投江的话,很有可能会拍照发朋友圈。数据能改变整个历史的面貌,一个人怀念母亲,他拿到一张母亲年轻时的照片才突然意识到,原来母亲也年轻过。这张照片是数据,当你的孩子能够完整地呈现你一生的时候,给人的感情是不一样的。淘宝上有一个产品叫“购物时光机”,把用户一年的消费记录全部记下来,然后出一份分析报告发给用户。很多用户反馈,读到这份报告时,一年购物的经历瞬间重现眼前,他们眼睛都湿润了,当不知不觉的痕迹实实在在地出现在眼前的时候,每个人对自己都会有一个新的认识。

    人的生活最终都会成为记忆,今天的数据就是记忆的痕迹,是记忆新的载体。越来越多的数据夯实的不只是记忆,它也是我们自己的生命本身。数据应该成为一个文化符号,大数据时代,我们要用数据去说话,用数据去管理,用数据去决策,用数据去创新。

    南都评论记者 张天潘 实习生郝强 整理

返回奥一网 意见反馈