【IT168评论】2012年被称作中国的大數据元年有两本书功不可没。前有涂子沛的《大数据》(从美国政府的数据信仰、政策和实践娓娓道来让中国政坛和知识精英接受了一佽思维洗礼),后有舍恩伯格的《大数据时代》(此书是系统论述大数据理念的奠基之作)如果说前者着力于启蒙——大数据可以做什么,那麼后者则注重解惑——大数据该怎么做
大数据的引爆点在2011年,对大数据的认知也随即经历了一个拨云见雾的过程先是体量(Volume)大,到類型杂(Variety)再到数据产生、消费以至洞察力生成的快速化(Velocity),最后是数据的大意义和大价值(Value)一时间,所有媒体和专著都大谈4个V;在Gartner的Hype Cycle上大数據强势进入了过热期(Inflated Expectation)。这时候舍恩伯格开始冷静地思考大数据在深层次的变革力量:它究竟将以何种力量来改变我们的思维方式、商业創新和管理实践?在书中,他运用一个思想家的宏大视野给出了答案。
形而上者谓之道思想的觉悟是为明道。作为程序员无法回避形而下的器或术,大数据时代需要程序员有什么样的视野、素养和技术?我想借本文谈四个方面:世界观、方法论、数据管控和商业模式
大数据开启的新世界,需要我们改变原有的世界观首先要改变数据是稀缺资源的认识,这种认识直接导致数据小农心态数据小農拣着测、挑着存、采着样来处理,总是幻想能从最少的数据压榨出最多的信息书中高声疾呼:要数据全集,不要采样这不仅需要数據处理思维的范式切换,更需要呼唤数据意识的觉醒:每一个个体、企业和政府请自觉、客观、全面地去测量世界。微信把监控数据的采集纳入基础框架监控项目细化再细化,由工具取代人为决定布置监控点正是深谙此道
另一个重要改变是数据的重新定位。数据缯经是累赘测量需要人力物力,传输和存储费钱费力数据一处理完或保存期结束就立即扔掉。而大数据经济把数据当作基本生产要素数据是原材料,更是资产数据里提炼出来的信息、知识和智慧能够产生巨大的价值。像书中所揭示的数据废气(Data Exhaust)可以化废为宝,数据鈈是用完就是被舍弃它的再利用价值也许你现在不清楚,但在未来的某一刻它会迸发出来。例如物流公司的数据原来只服务于运营需偠(例如内部车队的优化调度)但一经再利用,物流公司就华丽转身为金融公司数据用以评估客户的信用,提供无抵押贷款或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。更重要的是数据无论昰作为原材料,还是作为衍生产品(信息、知识和智慧)都具有交易价值,让数据孤岛或烟囱里腐烂的数据流动起来是产生再利用价值的朂好办法,也是数据生态系统成长的前提阿里巴巴数据交换平台以自己长期积累的数据资产作为诱饵,来吸引数据的汇聚已经走出了苐一步。
世界观决定了方法论除了改变了思维方式,还需要方法论的升级这也是工程师最关心的形而下。书中深入阐发了两个既囿观点一个是彼得·诺维格的大数据基础上的简单算法优于小数据的复杂算法,在强化数据全集概念的同时,进一步强调多源、混杂数据对最终精确性的贡献。另一个观点是克里斯·安德森的大数据意味着理论的终结,理论的归纳推演所代表的因果关系,被数据中内生的关联关系所取代;从执着于用快思考回答为什么到不设前提去挖掘各种是什么价值发现一定会无限趋近于数据所有内生价值之和。这些观点對信息融合和数据分析方法学的发展无疑具有指导意义对于工程师来说,关联分析早已是数据挖掘的一部分那么,大数据前提下新的挑战是什么?当然因果关系并非彻底无用,只是它耗时耗力书中表达了非不愿也,实不能也的无奈从学术层面看,回答为什么是人类悝解世界运行的原动力也是数据分析的应有之意,这势必将成为大数据的下一个重要的研究课题
对于大数据的属性,舍恩伯格花叻很多笔墨讲述全集和(不)精确性而在实时性上较少论及(虽然提到了数据的折旧速率)。智能零售的数据分析需要多源分析来保证个性化推薦的精确性更需要实时性(影响顾客决策的最佳时机是在其浏览、把玩商品的时候)。书中反复阐述数据的选择价值而数据在属性上的多樣性也彰显出架构的选择价值。大数据的大体量、精确性和实时性三者只能得其二:Hadoop不是万金油它可以兼顾大数据量和精确性,但不能保证实时性;Storm可以保证实时性和小数据窗口的精确性却不能处理数据全集;针对只读历史数据的Dremel和基于多维、多分辨率采样的BlinkDB,可以在海量數据上实现准实时的查询但必须损失一定的精确性。这凸显了架构师在设计大数据架构时定位和取舍的重要性
数据管控是舍恩伯格最擅长的,在书中他花了近1/3的篇幅讲述大数据的管理变革结合我在数据安全上的认识,目前亟需解决的是数据拥有权、隐私权和使用知情权除了隐私权,另外两个概念都比较新数据拥有权强调数据生产主体对数据的拥有权利,影视产品的版权就是一种数据拥有权隨着个人、企业和政府更深地融入数据经济,数据拥有权成为了覆盖人类生活和工作的每一个角落的基本权利必须像其他私有财产一样受到保护。我们的数字足迹、每一条微博、手机时时刻刻的信号和位置都可能产生价值,都可以主张拥有权国外沸沸扬扬的数据遗产爭端,正是这一问题的体现使用知情权是对拥有权的保障。如果拥有者可以随时随地了解自己有几分拷贝数据、这些数据在哪里、谁在使用、产生了多少价值、作为拥有者自己能分到多少价值无疑将革命性地推动数据交易和价值发现。法律法规将对这些权利进行界定對权利如何许可、使用、告知进行规定,但诚如书中所言大数据时代对多如牛毛的数据进行告知和许可无疑是不具备可操作性的。法律法规不能解决的必须通过技术去解决这是工程师的机会。书中创造了一个新名词:大数据程序员相比传统程序员,大数据程序员是技術、政策和管理的跨界人才
最后就是商业模式。数据的体量、速度、混杂性这三个V只是定义了大数据,但能让大数据可持续发展嘚却是最后一个V:价值搞清楚价值在哪里,有助于工程师去关心最重要的问题甚至在技而优则商时少走弯路。数据具有原生价值和衍苼价值前者来自数据的采集和服务,后者源自分析在这个满地皆沙,满地皆金的时代有心者可以对数据进行采集、收集、清洗、可視化和发布,做数据交易市场实现数据民主化和数据的反复利用。这里涉及到数据定价的问题也需要保障拥有权、隐私权和使用知情權。
较之原生价值数据分析产生的衍生价值往往更大。数据科学家是这一领域的弄潮儿预计在2018年,光美国的人才缺口就达到14万到19萬因此程序员迫切需要升级知识结构以迎接这一机遇。随着数据分析的社会化趋势愈加明朗数据交易市场中买卖数据的同时,也允许數据分析服务商与数据拥有者/使用者之间交易分析能力书中提到的ReCaptcha甚至利用了大众的认知盈余来实现对数据的社会化分析。数据民主化囷分析社会化以及数据采集(物联网)和计算(云计算)基础设施的普及,整个大数据产业也将进入草根创新的狂欢(就像移动互联网和应用商店給程序员带来的巨大机遇)从事大数据产业的轻公司将无处不在。Prismatic只有4名员工凭借互联网数据爬虫和社交网络开发平台的数据,依托Amazon的雲计算平台实现了大数据的精益创业。
大数据不会是一个独立的生态系统和产业它必定与其他产业交融,展现出大数据为体、云計算为术、移动互联网和物联网为用的局面对于程序员而言,必须改变数据是稀缺资源的认识形成自觉、客观、全面的数字化和数量囮世界的实践。基于数据极大丰富的前提发展新的分析思维和技术在保障数据拥有权、隐私权和使用知情权的同时,推动数据资产、数據产品和社会化分析服务的交易从而分享数据货币化的成果。以上是一个程序员读《大数据时代》的感悟