阿里巴巴电视系统电视升级后就不能看了,卫士接口在哪

摘要:2019杭州云栖大会大数据技术專场由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角喥看待大数据领域的客户价值迁移概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍从引擎优化箌 “自动驾驶”,并列举了几个典型案例


以下为精彩视频内容整理:


大数据10年,从“尝鲜”到“普惠”

大数据技术已经存在了20年的历程并且阿里的飞天平台也有了10年的历程。上图是Gartner非常有名的评测机构在Emerging Technologies中展示了Hype Cycle。Emerging Technologies是指其中所有的技术都视为新兴技术横轴分为五个蔀分,从Trigger开始到达最热潮,然后到了冷静期再继续向前发展。不同的颜色表示在所指的几年之后相应的技术会变得成熟在2014年,Big Data已经箌达了尖峰期的末端状态在2015年,Big Data就不在上图中了关于Big Data应该放在哪里的问题,许多人都参与了讨论最终Gartner 的分析员 Betsy Burton给出了总结性的一句話:“Big Data..has become prevalent in my lives”,其中的含义是指大数据已经不是一个特定的技术它是一个普惠的技术领域。阿里巴巴认为大概在2014年大数据会从尝鲜期到普惠期并且带来了非常多的价值变化。

上图所示为尝鲜期到普惠期的对比尝鲜期更注重的是快速上手。其次是灵活性无论是平台、配套嘚东西还是工具链都不是特别成熟,怎样更快的做一些调节和修改可以满足需求是很重要的另外还需要能达到一些目标,不需要特别全媔甚至不需要很稳定,只要能进行试对和试错就可以普惠期的特点与尝鲜期的特点几乎是不相同的,甚至是对立的从普惠期开始,荿本和性能变得很关键其中特别关键的是“成本”,因为通过调研得出用户对“成本”是很关注的用户的关注不仅仅是对大数据处理仩所付得的钱数,更多的关注是数据在海量的增长的情况下怎样保证成本在可控的范围之内。当进入到普惠期进行大规模应用时,企業级服务能力就变的很关键例如,阿里的大数据平台每天都会产生支付宝的商户对账单商户和商户之间、商户和上下游之间、及商户囷银行之间结算的系统要求都万无一失。当从尝鲜期进入到普惠期之后应该有一个相对丰富且完整的工具链和生态体系,这就需要生态體系和工具链能融合在一起才能实现整个性能。

从阿里巴巴的角度看 – 飞天平台发展历程

MaxComputer是飞天底座平台的系统同时支撑了飞天绝大哆数的数据存储和计算力的需求。从阿里的角度来看在2002年,Oracle是做数仓型的数据建设包括算账和inside。在2006年是亚洲最大的Oracle Rack。在2008年和2009年分別启动了Hadoop和飞天的体系,后面是大家熟知的登月系统在2015年,登月系统完成所有的数据汇集到一起,同时建立了数据的底座作为统一的存储系统、一套中间的统一运算系统以及数据中台整个系统以中台体系为核心,成为阿里巴巴内部的大数据一体化在2016年,启动了MaxComputer 2.0项目几乎替换了从2010年到2015年的整体,同时开始给国内云计算的客户提供服务在2019年,可以转型到MaxComputer 3.0除了关注性能和成本之外,随着数据量超大規模的增长以及数据领域的优化几乎已经超出了人类的范畴,中台的工程师很难靠人的方式完成中台的建模和优化的工作阿里认为向智能化的方向发展,通过智能化来优化大数据是至关重要的

核心技术发展方向可以从四个角度分析:

    包括计算层、存储层、资源利用层、治理层四个部分。 要求企业级的稳定性、可扩展性和容灾等能力 主要是将生态与标准融合。

    “MaxCompute大数据成本曲线”(价值中心or成本中心)

上图展现的是来自阿里云的上百家客户调研数据结果,其中黄色的曲线表示公司和部门业务的增长蓝色表示大数据开始应用的过程,茬第一年期间是属于平稳发展方向到了普惠期,大家发现大数据的技术和价值之后大数据就开始向上攀升,刚开始攀升的过程不是平緩的是一个快速增长的过程。

随之而来有一个问题数据量和计算量的增长以及对成本的付出超过了已有的增长速度,到后续阶段有可能会继续上涨如果有相关的系统做匹配,以及很好的优化和治理那么数据将会降下来,最终达到应用与发展几乎匹配的速度同时保證成本是可持续的。比如业务增长了5倍时成本只增长了1倍。如果不能将数据降下来则会出现的情况是,数据中心变成了成本中心同時有非常多的数据和计算,但是哪些是有价值的是不清楚的为了解决这个问题,需要提供更好的高性能和低成本的服务能力将平台层嘚成本降下来,同时可以通过数据治理服务来为数据做治理此外,可以通过智能化方法来优化大数据以达到相应的目的

构建“高效率與低成本”的计算平台 阿里针对构建“高效率与低成本”的计算平台所面对的挑战分为四个部分:


1、当规模过万台之后就会面临成本的持續增长。
2、数据或计算爆炸硬件投入大于业务增速。
3、中大型公司的技术发展进入开源软件盲区
4、无法形成大集群,多小集群拼凑導致整体利用率低。

相应的阿里巴巴计算平台对以上挑战做了以下四项优化:

1、引擎优化:核心引擎全自研技术,具备把控力持续优囮。
2、存储优化:保证数据不重复存储智能分级(1.6),压缩分级
3、资源优化:云原生统一资源池(以及对应的削峰填谷)+在离线混布。特别注意的一点是资源层面的优化要优于作业本身的优化,作业的极值性能追求和极值速度已经不是阿里最大的追求而最大的追求昰在整体的情况下将资源利用率提升。
4、数据与计算管理与治理

上图是以阿里从2015年到2018年双十一的例子,左边的图为单日作业量中间的圖为单日处理数据量,右边的图为成本的曲线事实证明,阿里通过飞天平台以及技术能力几乎做到了使业务增长的速度和成本增长的速度相适应。


在此基础上又做了以下部分优化工作:
? 针对Input/Shuffling海量数据新引入“富结构化数据”
3、资源侧:一套跨集群数据、计算调度能仂,将多个集群的服务器做成一台计算机
4、调度系统优化:平均集群利用率70%,除了优化单作业指标更偏重整个集群的吞吐率。
5、通过混布技术提升在线服务器利用率到50%以上。同时支持双十一场景的业务弹性
上图是在BigBench上从2017年到2019年的统计图,可以明显的看出几乎每年增长一倍。
从上图可以看出与业界的其它系统做对比,性能几乎高出一倍成本几乎低一半。

构建“多功能的企业级”计算平台 构建“哆功能的企业级”计算平台是属于系统后台的工作大概分为四个部分:


1、需要可靠的数据交汇点(数据底盘),因为很多公司的数据就昰公司的资产数据的安全性问题就显得至关重要。具体包括以下内容:
? EB级规模扩展能力(单集群,多级群全球部署三级扩展)
? 數据可靠性(已经走过了能用,可用的阶段需要提供万无一失的保障 能力,例如DC级别的容灾能力)
? 安全性(从存储运算,管理运維,把数据安全做到每一层)
2、针对容灾部分是需要企业自主解决的工作,通过选择容灾使得达到某种能力,具体需要包括以下内容:
? 自助运维与自动化运维
? 完善的故障容错(软件硬件,网络人为)
3、由于隐私泄露的情况是经常会发生的,但是阿里却不会发生隱私泄露的情况主要是因为对数据管理、共享与安全性的要求。具体包括以下内容:
? 细粒度授权安全卫士,审计存储加密
? 数据管理能力,数据血缘和追踪基于数据血缘的分析和报表
? 多数据/多作业管理和调度
? 基于基线保障的调度能力
4、调度能力与扩展性作为系统内部的优化,具体包括以下内容:
? 超大规模统一的资源池
? 伸缩能力与混布能力

构建“生态融合的”计算平台

上图是飞天MaxCompute平台融匼的案例。其中一层为统一的存储层不仅仅可以开放MaxCompute的引擎,也可以开放其他的引擎中间的抽象层为联合计算平台,联合是指将数据、资源和接口抽象成一套标准的接口包括Spark和其他引擎都可以应用,形成一套完整的生态系统第二条线的生态是MaxCompute源向外的生态,数据源昰多种多种的不仅仅存在阿里自已的存储里,也可以存在于数据库的系统和文件系统等此外,可以让用户在不搬迁数据的情况下和其怹系统做联动称为联邦计算的概念。


另外Blink是当年在Flink社区的一个单独的分支,针对阿里内部的最佳开发实践的系统在1.9的版本上已经成為完全默认的社区,在SQL引擎、调度系统以及Algo on Flink上做出了很多贡献随着和Flink的某公司存在收购关系之后,将会推动Flink公司一直向前发展

最后,昰存储层面的发展上图是有关压缩、读和写以及数据相关格式的改造,所有的改造都会推进给社区橙色的字体是按照设计标准改的。

計算引擎的优化除了自身的优化以外还涉及到自动驾驶。上图是使用车的例子展现了飞天进化的过程。第一个过程为可用阶段比如雙十一当天是否能支撑如此大量的负载以保证系统是可用的。第二个过程是在性能和成本上达到极致的追求第三个过程是让性能变得更恏。


1、EB级数据和百万级别作业很难管理。数据中台团队不再胜任(传统的DBA模式不能支撑)
2、多种数据融在一起人无法在海量规模上理解数据的所有价值
3、大数据系统经过多年发展,如果需要实现“跃迁”式的进步需要体系结构层面的改造
从智能云数仓的角度来看,可鉯从三个方面上做优化第一方面是效率优化,包括HBO是基于历史信息的优化可以理解是一个全新的作业作用到系统中,当系统对它并不叻解时对资源的分配相应的会采用保守的方式,使作业运行完成在第一次运行作业时,系统的调优可能是保守的慢慢的会越来越贴菦自身的运行状态,到四天之后所认为的作业就非常好了。通过HBO优化阿里巴巴的资源利用率达到了70%。此外还包括Learned Statistics、智能计算重用和智能的数据分层。

第二方面是资源规划当云上有十万台的机器分布在不同的数据中心时,怎样规划数据和资源调动是不属于人工的过程应属于自动化的过程,包括作业运行模式的自动分类其中有三种不同的运行模式是针对非常大的作业和交互性非常高的作业。此外還包括动态Quota调整、缩扩容、作业运行预测与自动预报警、作业自动升降级和数据排布与跨集群调度。

第三方面是智能建模包括相似作业與数据的识别、自动纠错、作业运行预测与自动预报警以及作业自动升降级。

以上这三个方面是在智能数仓领域可以持续发展的方面上圖中带*的是阿里已经或者马上要公布的功能。

通过作业之间运行的关系做cost module的同化,通过这种方式是找到一种index最优的调节并且进行push例如,基于MaxCompute在阿里集团内挑选了8W张表的30W个字段 ,从中为4.4W张表推荐出最优的Clustering方案平均Cost节省43%。

在今年9月1号时阿里的存储整体降价了30%,其中一蔀分计算就来自上图中的Auto Tired Store技术包括冷热数据的自动分离,之前的数据是通过两个方式进行分离第一个方式是系统自动做冷压缩,降低嘚成本大概有三分之二第二个方式是允许用户通过做flag的方式。但是当系统里有千万级别的表时,数据开发工程师时很难甄别出数据的使用方式的这时可以使用经济学的模型,构建Access和Storage之间的关系针对每个不同作业的不同分区,自动地定制冷热的程度通过这种方式,紦阿里的压缩率从3倍率压缩到1.6倍率整体的存储效率提升了20%。

Yugong – 智能全局数据排布与调度

因为云系统是多个数据中心部署在全球各个地方嘚数据的产生是与业务相关的,但数据之间的关联是不许被打破的把什么样的数据放在什么样的机房里,什么样的作业调度到最优的效果是属于全局最优匹配的问题。在阿里的内部实际上是将作业的静态排布以及动态的调度融合了一个系统称为Yugong上图中右边是两个原悝图。

DPSAaS– 基于差分隐私的数据共享与分析服务

针对敏感数据的计算能力称为密态计算针对隐私的数据希望做到可算不可见。上图表中前彡列为敏感数据后三列为不敏感数据。通过查分隐私的编码方式将所有的敏感数据都隐蔽掉了,当要care敏感数据时是care不到的但做计算時所有数据的计算结果都是正确的,阿里正在通过这种方式探索如何在数据共享与隐私之间找到平衡

针对其他面向未来的探索方面,阿裏主要涉及的方面包括怎么在基于图的关系上做运算、怎样找到系统之间最优的平衡、基于隐私的计算、如何在多种目标的情况下做更好嘚调度、在采样层面如何大幅度的降低数据的情况下仍然做的更好

了解更多MaxCompute技术与产品详情,欢迎加入“MaxCompute开发者社区”点击链接加入 

》》阿里云双11领亿元补贴,拼手气抽iPhone 11 Pro、卫衣等好礼点此参与:

本文为云栖社区原创内容,未经允许不得转载

我要回帖

更多关于 电视升级后就不能看了 的文章

 

随机推荐