简述大数据特征的概念及特点简述大数据特征的作用有哪些

君,已阅读到文档的结尾了呢~~
大数据时代的概念和特点
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
大数据时代的概念和特点
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口详解大数据的4个基本特征-马海祥博客
新型SEO思维就是从一个全新的层次上提升seo优化的水平,达到网络信息最佳化的展示效果!
> 详解大数据的4个基本特征
详解大数据的4个基本特征
时间:&&&文章来源:马海祥博客&&&访问次数:
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术,明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
2001年,高德纳分析员道格&莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。
在莱尼的理论基础上,IBM提出大数据的4V特征?得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。
虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。
据马海祥了解,天文学和基因学是最早产生大数据变革的领域,2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜,在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。
2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。
伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。
移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。
大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海(具体可查看马海祥博客《》的相关介绍)。
我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。
2011年,马丁&希尔伯特和普里西利亚&洛佩兹在《科学》上发表了一篇文章,对年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。
据他们估算:2007年,人类大约存储了超过300EB的数据;年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。
这样大的数据量意味着什么?
据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。
在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。
随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。
在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。
例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等等,这些数据在体量和速度上都达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。
大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。
例如,为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步工作,完成某种特定的任务。
在以往,人们只能通过编程这种规范化计算机语言发出指令,随着自然语言处理技术的发展,人们可以用计算机处理自然语言,实现人与计算机之间基于文本和语音的有效通信,为此,还出现了专门提供结构化语言解决方案的组织&语言数据公司。
自然语言无疑是一个新的数据来源,而且也是一种更复杂、更多样的数据,它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象,还包括噪声、含混不清、口头语和音变等语音现象。
苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。
为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源,在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。
多样化的数据来源正是大数据的威力所在,例如交通状况与其他领域的数据都存在较强的关联性。据马海祥博客收集的数据研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40-45分钟)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。
在数据处理速度方面,有一个著名的&1秒定律&,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。
例如,IBM有一则广告,讲的是&1秒,能做什么&?1秒,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。
在商业领域,&快&也早已贯穿企业运营、管理和决策智能化的每一个环节,形形色色描述&快&的新兴词汇出现在商业数据语境里,例如实时、快如闪电、光速、念动的瞬间、价值送达时间。
英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的&快&有两个层面。
一是数据产生得快。有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。
二是数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。大数据也有批处理(&静止数据&转变为&正使用数据&)和流处理(&动态数据&转变为&正使用数据&)两种范式,以实现快速的数据处理。
为什么要&快&?
第一,时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据&矿山&,&挖矿&效率是竞争优势。
第二,像其他商品一样,数据的价值会折旧,等量数据在不同时间点?价值不等。NewSQL(新的可扩展性/高性能数据库)的先行者VoltDB(内存数据库)发明了一个概念叫作&数据连续统一体&:数据存在于一个连续的时间轴上,每个数据项都有它的年龄,不同年龄的数据有不同的价值取向,新产生的数据更具有个体价值,产生时间较为久远的数据集合起来更能发挥价值。
第三,数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性,但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。
越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务对象所需要的个性化服务,例如,对绝大多数商品来说,找到顾客&触点&的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。
网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是&快&的价值(具体可查看马海祥博客《》的相关介绍)。
在以上3项特征的基础上,我归纳总结了大数据的第四个特征&&真实性。
数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。
追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素以及未来。
在处理这些类型的数据时,数据清理无法修正这种不确定性,然而,尽管存在不确定性,数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性,并确定如何充分利用这一点,例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。
业界还有人把大数据的基本特征从4V扩展到了11V,包括价值密度低(Value)、可视化(Visualization)、有效性(Validity)等。例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值&提纯&,是大数据时代亟待解决的难题。
国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值(具体可查看马海祥博客《》的相关介绍)。
除了上述主流的定义,还有人使用3S或者3I描述大数据的特征。
3S指的是:大小(Size)、速度(Speed)和结构(Structure)。
3I指的是:
(1)、定义不明确的(Ill-de.ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准。
(2)、令人生畏的(Intimidating):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战。
(3)、即时的(Immediate):数据的价值会随着时间快速衰减,因此为了保证大数据的可控性,需要缩短数据搜集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据,这意味着能尽快地分析数据对获得竞争优势至关重要。
马海祥博客点评:
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
本文为原创文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/sjfx/803.html,注明出处;否则,禁止转载;谢谢配合!
您可能还会对以下这些文章感兴趣!
清明节又叫踏青节,在仲春与暮春之交,也就是冬至后的第108天。是中国传统节日,也是最重要的祭祀节日之一……
网络实名制是个长期以来争议不断的话题。一方面,当人们面对越来越多的网上低俗与不良信息、黑客与木马、网……
最近百度跟360的搜索引擎之争,也使得更多人开始关注搜索引擎了,回想搜索引擎的快速发展也就是近15年发生……
最近,我明显发现访问马海祥seo博客的博友越来越多了,随之而来……
很多做SEO的朋友都会问,是不是网站收录越多网站关键字排名越好……
最近一直听到圈里的朋友抱怨说,自己辛辛苦苦写的文章,发表的前……
由于此次整理的SEO作弊方法大全的内容比较多,也比较全面,导致……
作为一名专业的SEO人员,我们很多的时候都在研究站点中有多少页……
相信做个seo的,或者自己已经是站长的,都或多或少的对自己负责……
本月热点文章大数据的概念和特征有哪些 - 腾讯互联网+
大数据的概念和特征有哪些
本文来源:
腾讯互联网+
& & &大数据越来越多的被应用到我们生活工作中,那么大数据的概念和特征是什么呢?& & &大数据概念大致包含以下几方面的内涵。& & &1. 数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。& & &2. 要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。& & &3. 数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。& & &4. 价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。& & &大数据的特点:& & &1、容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;& & &2、种类(Variety):数据类型的多样性;& & &3、速度(Velocity):指获得数据的速度;& & &4、可变性(Variability):妨碍了处理和有效地管理数据的过程。& & &5、真实性(Veracity):数据的质量& & &6、复杂性(Complexity):数据量巨大,来源多渠道& & &以上就是对大数据概念及其特征的初步分析,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
责任编辑:
Copyright (C)
Tencent . All Rights Reserved导读:大数据时代,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革,大数据时代最大的转变就是,本书认为大数据的核心就是预测,大数据将为人类的生活创造前所未有的可量化的维度,大数据已经成为了新发明和新服务的源泉,书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、V,如此庞大的数据资
大数据时代 维克托?迈尔?舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。 在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令, 如此庞大的数据资源足以支撑和帮助它完成这项工作。 发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,谷歌公司把五千万条美国人最频繁检索的词条和美国疾控中心在03年至08年间季节性流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要,更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数字模型。在将得出的预测与07年、08年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。
所以,09年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生――它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。 编辑本段相关介绍
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临[1]据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” 大数据
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注.
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。 编辑本段四个特征 数据量大
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 类型繁多
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 速度快时效高
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
包含总结汇报、文档下载、人文社科、资格考试、党团工作、教学研究、外语学习以及大数据时代的概念和特点等内容。本文共2页
相关内容搜索大数据的特点主要有什么?_百度知道
大数据的特点主要有什么?
我有更好的答案
而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业、管理和处理的数据集合。大数据技术的战略意义不在于掌握庞大的数据信息,那么这种产业实现盈利的关键、Value(价值)。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉:Volume(大量)、Velocity(高速)。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合、Variety(多样)
采纳率:87%
大数据的特点:1、容量(Volume)、复杂性(Complexity),科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:数据的大小决定所考虑的数据的价值的和潜在的信息。大数据的缺陷:不过,科技发达,信息流通:指获得数据的速度;4、可变性(Variability)、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似:妨碍了处理和有效地管理数据的过程。5、真实性(Veracity):数据的质量6;2大数据(big data),是指在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据就是这个高科技时代的产物,大数据并不在“大”:现在的社会是一个高速发展的社会,人们之间的交流越来越密切,生活也越来越方便、无烟煤。煤炭按照性质有焦煤。有人把数据比喻为蕴藏能量的煤矿,如何利用这些大规模数据是成为赢得竞争的关键,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,而在于“有用”、种类(Variety),来源多渠道大数据的意义:数据量巨大:数据类型的多样性;3、速度(Velocity)。价值含量、挖掘成本比数量更为重要。对于很多行业而言:“就今日言
本回答被网友采纳
不仅产生于组织内部运作的各个环节,也来自于组织外部、银行、商场,也可以处理直接对涌进来的新水流。正如水处理系统可以从水库调出水进行处理,在合理时间内达到撷取、管理;第二,多样性(Variety)?得到了业界的广泛认可。第一。 二是数据处理得快,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、天气形势、经济因素以及未来、互联网运营商、政府、日志、射频识别数据,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性、模拟信号等不同的类型;数据来源也越来越多样,短时间内产生的数据量依然非常庞大,例如,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具;有的数据是涓涓细流式产生,但是由于用户众多,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等,速度(Velocity),即处理速度快,数量(Volume),即数据巨大,从TB级别跃升到PB级别、大容量 伴随着各种随身设备,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。 追求高数据质量是一项重要的大数据要求和挑战、图片、视频,即数据类型繁多。 2多样性 在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、云存储等技术的发展、企业、交通枢纽等机构,形成了大数据之海,例如,人的感情和诚实性。 大量自动或人工产生的数据通过互联网聚集到特定地点,短信、微博、处理、并整理成为帮助企业经营决策更积极目的的资讯。 IBM提出大数据的4V特征、安防监测等、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。 移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者、物联网和云计算;第四,真实性(Veracity),即追求高质量的数据。 1、图片、地理位置信息等;第三。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。 4、真实性 数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,点击流,包括电信运营商、GPS(全球定位系统)位置信息。 3速度快 一是数据产生得快。有的数据是爆发式产生大数据,又称巨量资料
大数据的主要特点有:准确(Veracity)&这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程),精确性与信噪比(signal-to-noise ratio)有关。例如,在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化,如何增加可用数据的精确性是大数据的主要挑战。 &高速(Velocity)大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。 这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。体量(Volume)大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。多样(Variety)在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。
大数据就是将采集的巨大数据处理分析。
大数据(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。1.数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。2.要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速
中大咨询认为,大数据具有三大特点:数据体量大、数据类型多、处理速度快。
其他5条回答
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 简述大数据特征 的文章

 

随机推荐