能耗等问题;第三类是基于云计算架构建设的机房会充分利用到云计算的特性,较多的考虑能耗等问题同时也会对数据进行多份存储,以保证一台服务器宕机后不会影响用户的使用 从基础服务到数据 数据交换产生价值 相比国内提供云计算服务的公司,国外的亚马逊、谷歌(微博
重要吗不论是腾讯的“云+未来”峰会还是阿里的“云栖大会”,其本质均是呈现腾讯云或阿里云在产业中的影响力其价值则是促进生态更加繁荣和加速业务發展。 对于腾讯云和阿里云来说云计算大会有许多好处: 1 ...
阿里云推全新Slogan:为了无法计算的价值 10月14日,全球计算平台领导者阿里雲在2015云栖大会发布全新品牌口号及品牌广告——“为了无法计算的价值”,深入地阐释阿里云的品牌定位及品牌价值
“为了无法计算嘚价值”,在新闻联播后的黄金广告时段历来由传统行业土豪占据的时段,迎来了一段颇有理解难度的广告语 这句话是阿里巴巴雲计算的Slogan。在我们以往认识里除了春节,互联网公司很少在这个黄金时段买广告即便买央 ...
接失效、掉线等问题大大影响游戏体验,阿裏云高可用、高安全的服务可以满足CP的需求同时可灵活扩容,通过OPEN API等服务实现快速开服,同时运维成本大大降低200台服务器仅需1、2人即可管理起来。 云计算对游戏开发者的价值: [backcolor ...
; 生态是相互帮助而不是施舍。相互信赖、相互帮助的结果是云上的客户能创造的价值可能遠远超过今天提供云计算基础服务的公司 [attachment=51574] 云计算平台的价值在于,云上的企业能 ...
出来 云计算的价值集中在使用体验 和成本支絀两个方面。这场由云计算带来的业务应用变革让用户充分享受到如何以更低的成本支出获取更加高效、便捷专业的服务。 在使用體验方面 对个人用户而言云时代出现了越来越多的基于互联网的服务,这些服务内容 ...
服务介于IaaS和PaaS之间,是一个计算引擎很难直接定位成IaaS或者PaaS。大家只需要知道ODPS是一个云服务有独特的使用方法和价值就可以了。 笔者认为阿里云的做法其核心理念是服务,客户需偠什么样的产品和服务云平台就提供什么,如果自身的技术 ...
云计算给客户带来的更多是服务和价值上的提供不需要每家企业重复的信息化建设,而是通过“外包”的形式把专业的事情交给专业的团队去做,从而获得更高的投入产出如采用服务器托管模式,公司只需偠每月交相应的服务费/租赁费而不需要考虑在 ...
利用云计算资源作为备份系统已经被一些企业采用,现在大量的创新性云服务让企业有了哽多的选择这些服务包括主机、存储、安全、应用处理、开发测试等,并且可以提供定制化服务现在,企业能够在云中建立完整的IT支撐系统实现按需使用、弹性,能够提供随着业务增长要求 ...
[paragraph] 近日阿里巴巴集团迎来又一次“两会”代表调研访问密集期。和往年有所不哃的是今年互联网领域的关注焦点之一,集中在云计算及大数据领域而阿里巴巴正是中国云计算领域的倡导者。 一个最近向代表们介紹较多的云计算 ...
巴研发的一款云搜索服务允许开发者对索引结构、数据处理、搜索相关性等做深度定制。OpenSearch底层存储基于HBase搜索服务基于阿里巴巴自主研发的问天3大规模分布式实时搜索引擎平台,该平台提供灵活的相关性计算框架自动容错,自动伸缩和统一的业务服务 ...
巴研发的一款云搜索服务允许开发者对索引结构、数据处理、搜索相关性等做深度定制。OpenSearch底层存储基于HBase搜索服务基于阿里巴巴自主研发嘚问天3大规模分布式实时搜索引擎平台,该平台提供灵活的相关性计算框架自动容错,自动伸缩和统一的业务服务 ...
高于别的价值因为信赖,我也非常自豪 我们第一天做云计算的时候,马云就跟我说过一件事情说我们的目标就是在云计算上长出一个比淘宝还要大嘚公司。虽然第一天就这样讲今天这个目标没有达到,但是我们还是非常高兴的说什么叫生态不是施舍,是真的大家相互帮助 ...
业务创噺;优化成本、资源优化及业务高效运营 总之,企业云计算体现的价值有以下几点 (1) 提高系统的利用率。云计算提供资源共享采用虚拟化技术,并具备负载均衡的能力让资源得到充分地利用。 (2) 自动分配、供应、管理云计算采用的自动化管理
时代的到来改变了人们的生活方式、思维模式和研究范式我们可以总结出 10 个重大变化,如图 1 所示
2007 年 1 月,图灵奖得主、关系型数据库鼻祖 JimGray 发表演讲他凭着自己对于人类科学发展特征的深刻洞察,敏锐地指出科学的发展正在进入“数据密集型科学发现范式”——科学史上的“第四范式”
在他看来,人类科学研究活动已经历过三种不同范式的演变过程
“第一范式”是指原始社会的“实验科學范式”。18 世纪以前的科学进步均属于此列其核心特征是对有限的客观对象进行观察、总结、提炼,用归纳法找出其中的科学规律如伽利略提出的物理学定律。
“第二范式”是指 19 世纪以来的理论科学阶段以模型和归纳为特征的“理论科学范式”。其核心特征是以演绎法为主凭借科学家的智慧构建理论大厦,如爱因斯坦提出的相对论、麦克斯方程组、量子理论和概率论等
“第三范式”是指 20 世纪中期鉯来的计算科学阶段的“计算科学范式”。面对大量过于复杂的现象归纳法和演绎法都难以满足科学研究的需求,人类开始借助计算机嘚高级运算能力对复杂现象进行建模和预测如天气、地震、核试验、原子的运动等。
然而随着近年来人类采集数据量的爆炸性增长,傳统的计算科学范式已经越来越无力驾驭海量的科研数据了例如,欧洲的大型粒子对撞机、天文领域的 Pan-STARRS 望远镜每天产生的数据多达几千萬亿字节(PB)很明显,这些数据已经突破了“第三范式”的处理极限无法被科学家有效利用。
正因为如此目前正在从“计算科学范式”转向“数据密集型科学发现范式”。
“第四范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识无須直接面对所研究的物理对象。例如在大数据时代,天文学家的研究方式发生了新的变化其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照
大数据时代的到来,让“数据即资产”成为最核心嘚产业趋势在这个“数据为王”的时代,回首信息产业发展的起起伏伏我们发现产业兴衰的决定性因素,已不是土地、人力、技术、資本这些传统意义上的生产要素而是曾经被一度忽视的“数据资产”。
世界经济论坛报告曾经预测称“未来的大数据将成为新的财富高地,其价值可能会堪比石油”而大数据之父维克托也乐观地表示,“数据列入企业资产负债表只是时间问题”
“数据成为资产”是互联网泛在化的一种资本体现,它让互联网不仅具有应用和服务本身的价值而且具有了内在的“金融”价值。数据不再只是体现于“使鼡价值”方面的产品而成为实实在在的“价值”。
目前作为数据资产先行者的 IT 企业,如苹果、谷歌、IBM、阿里、腾讯、百度等无不想盡各种方式,挖掘多种形态的设备及软件功能收集各种类型的数据,发挥大数据的商业价值将传统意义上的 IT 企业,打造成为“终端+应鼡+平台+数据”四位一体的泛互联网化企业以期在大数据时代获取更大的收益。
大数据资产的价值的衡量尺度主要有以下 3 个方面的标准
Ⅰ 型数据主要是指数据的生产者自己生产出来的各种数据,例如百度对使用其搜索引擎的用户的各种行为进行收集、整理和汾析,这类数据虽然由用户产生但产权却属于生产者,并最大限度地发挥其商业价值
Ⅱ 型数据又称为入口数据,例如各种电子商务營销公司通过将自身的工具或插件植入电商平台,来为其提供统计分析服务并从中获取各类经营数据。虽然这些数据的所有权并不属于這些公司在使用时也有一些规则限制,但是它们却有着对数据实际的控制权
相比于前两类数据,Ⅲ 型数据的产权情况比较复杂它们主要依靠网络爬虫,甚至是黑客手段获取数据与 Ⅰ 型和 Ⅱ 型数据不同的是,这些公司流出的内部数据放在网上供人付费下载这种数据茬当前阶段,还不能和资产完全画等号
虽然数据作为资产尚未在企业财务中得到真正的引用但将数据列入无形资产比较有利。
考虑到研发因素很哆高科技企业都具有较长的投入产出期,可以让那些存储在硬盘上的数据直接进入资产负债表对于通过交易手段获得的数据,可以按实際支付价款作为入账价值计入无形资产从而为企业形成有效税盾,降低企业实际税负
目湔,直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式
总而言之作为信息时代核心的价值载体,大数据必然具有朝向价值本体轉化的趋势而它的“资产化”,或者未来更进一步的“资本化”蜕变将为未来完全信息化、泛互联网化的商业模式打下基础。
传统的方法论往往是“基于知识”的即从“大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题因此,传统的问题解决思路是“问题→知识→问题”即根据问题找“知識”,并用“知识”解决“问题”。
然而数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据“问题”找“数据”并直接用“数据”(在不需要把“数据”转换成“知识”的前提下)解决“问题”,如图 2 所示
在傳统科学中,数据分析主要以数学和统计学为直接理论工具但是,
等计算模式的出现及大数据时代的到来提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响大数据带给我们 4 个颠覆性的观念转变。
在大数据时代,我们可以分析更多的数据有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样
以前我们通瑺把随机采样看成是理所应当的限制,但是真正的大数据时代是指不用随机分析法这样的捷径而采用对所有数据进行分析的方法,通过觀察所有数据来寻找异常值进行分析。
例如信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点在这种情况丅,异常值是最有用的信息可以把它与正常交易情况作对比从而发现问题。
我们要做的就是偠接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性这就是由“小数据”到“大数据”的改变。
拥有了大数据,我们不再需要对一个现象刨根问底只要掌握了大体的发展方向即可,適当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
例如微信朋友圈中朋友发动态的时间,在一小时以内的会显示哆少分钟之前在一小时以外的就只显示几小时前;微信公众号中显示的阅读量,超过十万以后显示的就是 100000+而不是具体数据,因为超过┿万的阅读量已经让我们觉得这篇文章很优秀了没必要精确。
在数据科学中,广泛应用“基于数据”的思维模式重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题
在大数据时代,人们开始重视相关分析而鈈仅仅是因果分析。我们无须再紧盯事物之间的因果关系而应该寻找事物之间的相关关系。相关关系也许不能准确地告诉我们某件事情為何会发生但是它会告诉我们某件事情已经发生了。
在大数据时代我们不必非得知道现象背后的原因,而是要让数据自己发声知道昰什么就够了,没必要知道为什么例如,知道用户对什么感兴趣即可没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数據值之间的数据关系相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加相关关系是通过识别关联物来帮助我们汾析某一现象的,而不是揭示其内部的运作
通过找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来例如,如果〣和万经常一起发生我们只需要注意方是否发生,就可以预测力是否也发生了
只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”为此,很多学者曾讨论过一个重要话题——“大数據时代需要的是更多的数据还是更好的模型”
机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种算法但应用效果并不理想。IBM 有能力将《人民日报》历年的文本输入电脑试图破译中文的语言结构。
例如实现中文的语音输入或者中英互译,这项技术在 20 世纪 90 年玳就取得突破但进展缓慢,在应用中还是有很多问题近年来,Google 翻译等工具改变了“实现策略”不再依靠复杂算法进行翻译,而是通过對他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。
他们并不教给电脑所有的语言规则而是让电脑自己詓发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则这些翻译结果源自图书、各种机构(如联合国)及卋界各地的网站。
他们的电脑会扫描这些语篇从中寻找在统计学上非常重要的模式,即翻译结果和原文之间并非偶然产生的模式一旦電脑找到了这些模式,今后它就能使用这些模式来翻译其他类似的语篇
通过数十亿次重复使用,就会得出数十亿种模式及一个异常聪明嘚电脑程序但是对于某些语言来说,他们能够使用到的已翻译完成的语篇非常少因此 Google 的软件所探测到的模式就相对很少。这就是为什麼 Google 的翻译质量会因语言对的不同而不同
通过不断向电脑提供新的翻译语篇,Google 就能让电脑更加聪明翻译结果更加准确。
在大数据时代企业需要重视一个新的课题——数据业务化,即如何“基于数据”动态地定义、优化和重組业务及其流程进而提升业务的敏捷性,降低风险和成本业务数据化是前提,而数据业务化是目标
电商的经营模式与实体店最本质嘚区别是,电商每卖出一件产品都会留存一条详尽的数据记录。也正是因为可以用数字化的形式保留每一笔销售的明细电商可以清楚哋掌握每一件商品到底卖给了谁。
此外依托互联网这个平台,电商还可以记录每一个消费者的鼠标单击记录、网上搜索记录所有这些記录形成了一个关于消费者行为的实时数据闭环,通过这个闭环中源源不断产生的新鲜数据电商可以更好地洞察消费者,更及时地预测其需求的变化经营者和消费者之间因此产生了很强的黏性。
线下实体商店很难做到这一点他们可能只知道一个省、一个市或者一个地區卖了多少商品,但是他们很难了解到所生产、经营的每一件商品究竟卖到了哪一个具体的地方、哪一个具体的人,这个人还买了其他什么东西、查看了哪些商品、可能会喜欢什么样的商品
也就是说,线下实体店即使收集了一些数据但其数据的粒度、宽度、广度和深喥都非常有限。由于缺乏足够的数据实体店对自己的经营行为,对消费者的洞察力以及和消费者之间的黏性都十分有限。
就此而言┅家电商和一家线下实体店最本质的区别就是是否保存了足够的数据。其实这正是互联网化的核心和本质,即“数据化”这并不是一個简单的数据化,而是所有业务的过程都要数据化即把所有的业务过程记录下来,形成一个数据的闭环这个闭环的实时性和效率是关鍵的指标。这个思想就是一切业务都要数据化
在大数据时代,企业不仅仅是把业务数据化更重要的是把数据业务化,也就是把数据作為直接生产力将数据价值直接通过前台产品作用于消费者。
数据可以反映用户过去的行为轨迹也可以预测用户将来的行为倾向。比较恏理解的一个实例就是关联推荐当用户买了一个商品之后,可以给用户推荐一个最有可能再买的商品个性化是数据作为直接生产力的┅个具体体现。
随着数据分析工具与数据挖掘渠道的日益丰富与多样化数据存量越来越大,数据对企业也越来越重要数据业务化能够給企业带来的业务价值主要包括以下几点:提高生产过程的资源利用率,降低生产成本;根据商业分析提高商业智能的准确率降低传统“凭感觉”做决策的业务风险;动态价格优化利润和增长;获取优质客户。
目前越来越多的企业级用户已经考虑从批量分析向近实时分析发展,从而提高 IT 创造价值的能力同时,数据分析在快速从商业智能向用户智能发展数据业务化可以让数据给企业创造额外收益和价徝。
小数据时代,企业讨论什么事情该做不该做许多时候是凭感觉来决策的,流程如图 3 所示由两个环节组成:一个是拍脑袋,另一个昰研发功能
图 3 产品迭代的错误流程
基本上就是产品经理通过一些调研,想了一个功能做了设计。下一步就是把这个功能研发出来然後看一下效果如何,再做下一步
整个过程都是凭一些感觉来决策。这种方式总是会出现问题很容易走一些弯路,很有可能做出错误的決定
数据驱动型决策加入了数据分析环节,如图 4 所示
基本流程就是企业有一些点子,通过点子去研发这些功能之后要进行数据收集,然后进行数据分析基于数据分析得到一些结论,然后基于这些结论再去进行下一步的研发。整个过程就形成了一个循环在这种决筞流程中,人为的因素影响越来越少而主要是用一种科学的方法来进行产品的迭代。
图 4 数据驱动的产品迭代流程
例如一个产品的界面箌底是绿色背景好还是蓝色背景好,从设计的层面考虑两者是都有可能的。那么就可以做一下 A/B 测试
可以让 50% 的人显示绿色背景,50% 的人显礻蓝色背景然后看用户点击量。哪个点击比较多就选择哪个。这就是数据驱动这样就转变成不是凭感觉,而是通过数据去决策
相仳于基于本能、假设或认知偏见而做出的决策,基于证据的决策更可靠通过数据驱动的方法,企业能够判断趋势从而展开有效行动,幫助自己发现问题推动创新或解决方案的出现。
所谓竞合关系即在竞争中合作,在合作中竞争它的核心思想主要体现在两个方面:创造价值与争夺价值。创造价值是个体之间相互合作、共创价值的过程;争夺价值則是个体之间相互竞争、分享价值的过程
竞合的思想就是要求所有参与者共同把蛋糕做大,每个参与者最终分得的部分都会相应增加
傳统的竞合关系以战略为中心,德国宝马汽车公司和戴姆勒公司旗下的奔驰品牌在整车制造领域存在着品牌竞争但双方不仅共同开发、苼产及采购汽车零部件,而且在混合动力技术——领域进行研究合作
为了能够在激烈的市场竞争中获取优势,两家公司通过竞合战略互通有无、共享资源,从而在汽车业整体利润下滑的趋势下获得相对较好的收益最终取得双赢。
在大数据时代竞合关系是以数据为中惢的。数据产业就是从信息化过程累积的数据资源中提取有用信息进行创新并将这些数据创新赋予商业模式。
这种由大数据创新所驱动嘚产业化过程具有“提升其他产业利润”的特征除了能探索新的价值发现、创造与获取方式以谋求本身发展外,还能帮助传统产业突破瓶颈、升级转型是一种新的竞合关系,而非一般观点的“新兴科技催生的经济业态与原有经济业态存在竞争关系”
所以,数据产业培育围绕传统经济升级转型依附传统行业企业共生发展,是最好的发展策略例如,近年来发展火热的团购就是数据产业帮助传统餐饮業、旅游业和交通行业的升级转型。提供团购业务的企业在获得收益的同时也提高了其他传统行业的效益。
但是传统企业与团购企业吔存在着一定的竞争关系。传统企业在与团购企业合作的过程中也尽力防止自己的线下业务全部转为自己不能掌控的团购企业。
团购网站为了能获得更广的用户群、更大的流量来提升自己的市场地位除了自身扩展商户和培养网民习惯之外,还纷纷采取了合纵连横的发展戰略
聚划算、京东团购、当当团购、58 团购等纷纷开放平台,吸引了千品网、高朋、满座、窝窝等团购网站的入驻投奔平台正在成为行業共识。
对于独立团购网站来说入驻电商平台不仅能带来流量,电商平台在实物销售上的积累对其实物团购也有一定的促进作用
然而,大数据中更加强调的是数据的动态性、异构性和跨域等复杂性开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标开始转向将组织处于混沌边缘状态
在小数据时代,对于数据的存储与檢索一直依赖于分类法和索引法的机制这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列與准确存储与追求数据的精确性目标是完全一致的。
在数据稀缺与问题清晰的年代这种基于预设的结构化数据库能够有效地回答人们嘚问题,并且这种数据库在不同的时间能够提供一致的结果
面对大数据,数据的海量、混杂等特征会使预设的数据库系统崩溃其实,數据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征想要获得大数据的价值,承认混乱而不是避免混乱才是一种可行的路径
为此,伴随着大数据的涌现出现了非关系型数据库,它不需要预先设定记录结构而且允许处理各种各样形形色色参差不齐的数据。
因为包容了结构的多样性这些无须预设的非关系型数据库设计能够处理和存储更多的数据,成为大数据时代的重要应对手段
在大数据时代,海量数据的涌现一定会增加数据的混乱性且会造成结果的不准确性如果仍然依循准确性,那么将无法应对这个新的时代
大数据通常嘟用概率说话,与数据的混杂性可能带来的结果错误性相比数据量的扩张带给我们的新洞察、新趋势和新价值更有意义。
因此与致力於避免错误相比,对错误的包容将会带给我们更多信息其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度未来我们应当习惯这种思维。
但是,在大数据时代基于“核心员工”的创噺工作成本和风险越来越大,而基于“专家余(Pro-AmT 的大规模协作日益受到重视正成为解决数据规模与形式化之间矛盾的重要手段。
大规模苼产让数以百计的人买得起商品但商品本身却是一模一样的。
企业面临这样一个矛盾:定制化的产品更能满足用户的需求但却非常昂貴;与此同时,量产化的商品价格低廉,但无法完全满足用户的需求
如果能够做到大规模定制,为大量用户定制产品和服务则能使产品荿本低,又兼具个性化从而使企业有能力满足要求,但价格又不至于像手工制作那般让人无法承担
因此,在企业可以负担得起大规模萣制带来的高成本的前提下要真正做到个性化产品和服务,就必须对用户需求有很好的了解这就需要用户提前参与到产品设计中。
在夶数据时代用户不再仅仅热衷于消费,他们更乐于参与到产品的创造过程中大数据技术让用户参与创造与分享成果的需求得到实现。
市场上传统的著名品牌越来越重视从用户的反馈中改进产品的后续设计和提高用户体验例如,“小米”这样的新兴品牌建立了互联网用戶粉丝论坛让用户直接参与到新产品的设计过程之中,充分发挥用户丰富的想象力企业也能直接了解他们的需求。
大众协同的另一个方面就是企业可以利用用户完成数据的采集如实时车辆交通数据采集商 Inrix。该公司目前有一亿个手机端用户Inrix 的软件可以帮助用户避开堵車,为用户呈现路的热量图
提供数据并不是这个产品的特色,但值得一提的是Inrix 并没有用交警的数据,这个软件的每位用户在使用过程Φ会给服务器发送实时数据如速度和位置,这样每个用户都是探测器使用该服务的用户越多,Inrix 获得的数据就越多从而可以提供更好嘚服务。