MaxCompute认证结果。同月26日杭州云栖大会阿里巴巴宣布了这一成绩,飞天大大数据系统平囼计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品是除Hive、Spark以外TPCx-BB第三个标准支持的大大数据系统引擎。不仅首次将大数据系统规模拓展到100TB性能達到25641.21QPM,更在TPCx-BB已有最大30TB规模上将性能提升近一倍,达到6427.86QPM单位价格下降一半,达到169.76$/QPM
TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景構建的端到端大大数据系统测试基准,支持主流分布式大大数据系统处理引擎模拟了整个线上与线下业务流程,有30个查询语句涉及到描述性过程型查询、大数据系统挖掘以及机器学习的算法。涵盖了结构化、半结构化和非结构化大数据系统能够从客户实际场景角度更铨面的评估大大数据系统系统软硬件性能、性价比、服务和功耗等各个方面。
MaxCompute正是希望能够从更加接近实际生产场景和客户场景的角度來呈现飞天大大数据系统平台的计算性能和性价比优势。而MaxCompute在TPCx-BB性能、性价比等方面的领先无疑是由MaxCompute技术先进性决定的
作为支撑MaxCompute计算力的核心之一的SQL引擎,包括了编译器、运行时和优化器3个模块SQL编译器支持标准SQL,100%支持TPC-DS、TPCx-BB语法运行时支持列式处理和丰富的关系算符,基于LLVM進行微架构级别的优化优化器支持基于历史信息的HBO和基于Calcite的CBO,通过多种优化手段提升MaxCompute SQL的性能
存储方面,则使用先进的存储格式Aliorc支持列式存储、灵活的编码格式、异步预读及高效的压缩算法,与开源存储格式相比在存储效率和读写效率上都有显著的提升。MaxCompute以外表的形式支持多种大数据系统源比如HDFS、OSS外表,可以将TPCx-BB生成在HDFS中的大数据系统高效导入MaxCompute
调度方面采用基于飞天平台的Fuxi2.0调度系统。其DAG2.0将资源调度overhead控制在了10us级别远远领先业界同类框架。Shuffle2.0通过大数据系统重排在磁盘和网络之间找到平衡点,将集群吞吐效率提升30%
此外,MaxCompute原生支持阿裏巴巴机器学习平台PAI用户可以一站式完成大大数据系统处理与机器学习模型训练及预测。机器学习PAI是飞天AI平台中的核心产品构建在阿裏云MaxCompute等计算平台之上,在机器学习大规模分布式训练场景拥有非常强的性能表现在本次TPCx-BB的比赛中,PAI基于MaxCompute在逻辑回归、Kmeans、朴素贝叶斯三個算法的表现性能上取得很好的成绩。
在MaxCompute/PAI多年的系统优化过程中英特尔作为阿里巴巴重要的合作伙伴,提供了许多助力英特尔作为测試基准中BigBench的重要贡献者,与阿里云开发团队深入合作共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持并一起在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方測试集升级继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。
对于未来双方在飞天大大数据系统和AI平台(MaxCompute/PAI)持续优化上的合作英特尔高级首席工程师、大大数据系统分析和人工智能创新院院长戴金权先生表示,双方在新的硬件架构技术平台有非常紧密的合作共同探索如何更好地利用噺的技术,为大大数据系统处理分析、机器学习平台赋能另外,双方也合作致力于将AI平台和大大数据系统平台紧密联合使不同的组件哽好地联合在一起,打通整个计算流水线
本文为云栖社区原创内容,未经允许不得转载