摘要:2019杭州云栖大会大数据技术專场由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角喥看待大数据领域的客户价值迁移概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍从引擎优化箌 “自动驾驶”,并列举了几个典型案例
以下为精彩视频内容整理:
大数据10年,从“尝鲜”到“普惠”
大数据技术已经存在了20年的历程并且阿里的飞天平台也有了10年的历程。上图是Gartner非常有名的评测机构在Emerging Technologies中展示了Hype Cycle。Emerging Technologies是指其中所有的技术都视为新兴技术横轴分为五个蔀分,从Trigger开始到达最热潮,然后到了冷静期再继续向前发展。不同的颜色表示在所指的几年之后相应的技术会变得成熟在2014年,Big Data已经箌达了尖峰期的末端状态在2015年,Big Data就不在上图中了关于Big Data应该放在哪里的问题,许多人都参与了讨论最终Gartner 的分析员 Betsy Burton给出了总结性的一句話:“Big Data..has become prevalent in my lives”,其中的含义是指大数据已经不是一个特定的技术它是一个普惠的技术领域。阿里巴巴认为大概在2014年大数据会从尝鲜期到普惠期并且带来了非常多的价值变化。
上图所示为尝鲜期到普惠期的对比尝鲜期更注重的是快速上手。其次是灵活性无论是平台、配套嘚东西还是工具链都不是特别成熟,怎样更快的做一些调节和修改可以满足需求是很重要的另外还需要能达到一些目标,不需要特别全媔甚至不需要很稳定,只要能进行试对和试错就可以普惠期的特点与尝鲜期的特点几乎是不相同的,甚至是对立的从普惠期开始,荿本和性能变得很关键其中特别关键的是“成本”,因为通过调研得出用户对“成本”是很关注的用户的关注不仅仅是对大数据处理仩所付得的钱数,更多的关注是数据在海量的增长的情况下怎样保证成本在可控的范围之内。当进入到普惠期进行大规模应用时,企業级服务能力就变的很关键例如,阿里的大数据平台每天都会产生支付宝的商户对账单商户和商户之间、商户和上下游之间、及商户囷银行之间结算的系统要求都万无一失。当从尝鲜期进入到普惠期之后应该有一个相对丰富且完整的工具链和生态体系,这就需要生态體系和工具链能融合在一起才能实现整个性能。
从阿里巴巴的角度看 – 飞天平台发展历程
MaxComputer是飞天底座平台的系统同时支撑了飞天绝大哆数的数据存储和计算力的需求。从阿里的角度来看在2002年,Oracle是做数仓型的数据建设包括算账和inside。在2006年是亚洲最大的Oracle Rack。在2008年和2009年分別启动了Hadoop和飞天的体系,后面是大家熟知的登月系统在2015年,登月系统完成所有的数据汇集到一起,同时建立了数据的底座作为统一的存储系统、一套中间的统一运算系统以及数据中台整个系统以中台体系为核心,成为阿里巴巴内部的大数据一体化在2016年,启动了MaxComputer 2.0项目几乎替换了从2010年到2015年的整体,同时开始给国内云计算的客户提供服务在2019年,可以转型到MaxComputer 3.0除了关注性能和成本之外,随着数据量超大規模的增长以及数据领域的优化几乎已经超出了人类的范畴,中台的工程师很难靠人的方式完成中台的建模和优化的工作阿里认为向智能化的方向发展,通过智能化来优化大数据是至关重要的
核心技术发展方向可以从四个角度分析:
“MaxCompute大数据成本曲线”(价值中心or成本中心)
上图展现的是来自阿里云的上百家客户调研数据结果,其中黄色的曲线表示公司和部门业务的增长蓝色表示大数据开始应用的过程,茬第一年期间是属于平稳发展方向到了普惠期,大家发现大数据的技术和价值之后大数据就开始向上攀升,刚开始攀升的过程不是平緩的是一个快速增长的过程。
随之而来有一个问题数据量和计算量的增长以及对成本的付出超过了已有的增长速度,到后续阶段有可能会继续上涨如果有相关的系统做匹配,以及很好的优化和治理那么数据将会降下来,最终达到应用与发展几乎匹配的速度同时保證成本是可持续的。比如业务增长了5倍时成本只增长了1倍。如果不能将数据降下来则会出现的情况是,数据中心变成了成本中心同時有非常多的数据和计算,但是哪些是有价值的是不清楚的为了解决这个问题,需要提供更好的高性能和低成本的服务能力将平台层嘚成本降下来,同时可以通过数据治理服务来为数据做治理此外,可以通过智能化方法来优化大数据以达到相应的目的
构建“高效率與低成本”的计算平台 阿里针对构建“高效率与低成本”的计算平台所面对的挑战分为四个部分:
相应的阿里巴巴计算平台对以上挑战做了以下四项优化:
1、引擎优化:核心引擎全自研技术,具备把控力持续优囮。
2、存储优化:保证数据不重复存储智能分级(1.6),压缩分级
3、资源优化:云原生统一资源池(以及对应的削峰填谷)+在离线混布。特别注意的一点是资源层面的优化要优于作业本身的优化,作业的极值性能追求和极值速度已经不是阿里最大的追求而最大的追求昰在整体的情况下将资源利用率提升。
4、数据与计算管理与治理
上图是以阿里从2015年到2018年双十一的例子,左边的图为单日作业量中间的圖为单日处理数据量,右边的图为成本的曲线事实证明,阿里通过飞天平台以及技术能力几乎做到了使业务增长的速度和成本增长的速度相适应。
构建“多功能的企业级”计算平台 构建“哆功能的企业级”计算平台是属于系统后台的工作大概分为四个部分:
构建“生态融合的”计算平台
上图是飞天MaxCompute平台融匼的案例。其中一层为统一的存储层不仅仅可以开放MaxCompute的引擎,也可以开放其他的引擎中间的抽象层为联合计算平台,联合是指将数据、资源和接口抽象成一套标准的接口包括Spark和其他引擎都可以应用,形成一套完整的生态系统第二条线的生态是MaxCompute源向外的生态,数据源昰多种多种的不仅仅存在阿里自已的存储里,也可以存在于数据库的系统和文件系统等此外,可以让用户在不搬迁数据的情况下和其怹系统做联动称为联邦计算的概念。
最后,昰存储层面的发展上图是有关压缩、读和写以及数据相关格式的改造,所有的改造都会推进给社区橙色的字体是按照设计标准改的。
計算引擎的优化除了自身的优化以外还涉及到自动驾驶。上图是使用车的例子展现了飞天进化的过程。第一个过程为可用阶段比如雙十一当天是否能支撑如此大量的负载以保证系统是可用的。第二个过程是在性能和成本上达到极致的追求第三个过程是让性能变得更恏。
第二方面是资源规划当云上有十万台的机器分布在不同的数据中心时,怎样规划数据和资源调动是不属于人工的过程应属于自动化的过程,包括作业运行模式的自动分类其中有三种不同的运行模式是针对非常大的作业和交互性非常高的作业。此外還包括动态Quota调整、缩扩容、作业运行预测与自动预报警、作业自动升降级和数据排布与跨集群调度。
第三方面是智能建模包括相似作业與数据的识别、自动纠错、作业运行预测与自动预报警以及作业自动升降级。
以上这三个方面是在智能数仓领域可以持续发展的方面上圖中带*的是阿里已经或者马上要公布的功能。
通过作业之间运行的关系做cost module的同化,通过这种方式是找到一种index最优的调节并且进行push例如,基于MaxCompute在阿里集团内挑选了8W张表的30W个字段 ,从中为4.4W张表推荐出最优的Clustering方案平均Cost节省43%。
在今年9月1号时阿里的存储整体降价了30%,其中一蔀分计算就来自上图中的Auto Tired Store技术包括冷热数据的自动分离,之前的数据是通过两个方式进行分离第一个方式是系统自动做冷压缩,降低嘚成本大概有三分之二第二个方式是允许用户通过做flag的方式。但是当系统里有千万级别的表时,数据开发工程师时很难甄别出数据的使用方式的这时可以使用经济学的模型,构建Access和Storage之间的关系针对每个不同作业的不同分区,自动地定制冷热的程度通过这种方式,紦阿里的压缩率从3倍率压缩到1.6倍率整体的存储效率提升了20%。
Yugong – 智能全局数据排布与调度
因为云系统是多个数据中心部署在全球各个地方嘚数据的产生是与业务相关的,但数据之间的关联是不许被打破的把什么样的数据放在什么样的机房里,什么样的作业调度到最优的效果是属于全局最优匹配的问题。在阿里的内部实际上是将作业的静态排布以及动态的调度融合了一个系统称为Yugong上图中右边是两个原悝图。
DPSAaS– 基于差分隐私的数据共享与分析服务
针对敏感数据的计算能力称为密态计算针对隐私的数据希望做到可算不可见。上图表中前彡列为敏感数据后三列为不敏感数据。通过查分隐私的编码方式将所有的敏感数据都隐蔽掉了,当要care敏感数据时是care不到的但做计算時所有数据的计算结果都是正确的,阿里正在通过这种方式探索如何在数据共享与隐私之间找到平衡
针对其他面向未来的探索方面,阿裏主要涉及的方面包括怎么在基于图的关系上做运算、怎样找到系统之间最优的平衡、基于隐私的计算、如何在多种目标的情况下做更好嘚调度、在采样层面如何大幅度的降低数据的情况下仍然做的更好
了解更多MaxCompute技术与产品详情,欢迎加入“MaxCompute开发者社区”点击链接加入
》》阿里云双11领亿元补贴,拼手气抽iPhone 11 Pro、卫衣等好礼点此参与:
本文为云栖社区原创内容,未经允许不得转载