百度昆仑表官网图片报价k200

欢迎关注我的公众号 [极智视界],获取我的更多笔记分享大家好,我是极智视界,本文介绍一下 昆仑芯k200 全高全长推理卡。先说标题,我特意写了 "全高全长推理卡",这是因为看到网上有挺多文章拿昆仑k200 来对标 英伟达T4卡(以表达昆仑芯性能之强悍),这是不对的,昆仑k200是全高全长卡,而T4是半高半长卡,这俩不是一个级别上的对比,所以拿昆仑芯k200对标诸如T4卡、昇腾300卡之类的半高半长卡,都是不公平的。如果非要硬比,大致可以用 "T4*2" 或 "昇腾300卡*2" 来对标 昆仑芯k200,这样看起来还算公平。再来说昆仑芯k200,其已在百度内部规模应用,且与百度的飞桨pp有深度的融合。先来看看k200的性能指标 (就按前面的跟T4对比,但实际你要内心要用 "T4*2" 来对比)。再强调一下,用 "T4*2" 的数据去对比,这样整体推演到同级别的 k200 性能并没有特别突出,特别是内存方面,也只能做到和 T4卡一致,这对于全高全长卡来说,不管是训练还是推理,都是不够的。如果你要在网上检索 "昆仑芯k200部署算法" 之类的技术文章或者说案例,会发现挺少,这说明昆仑的生态做的不够好,但生态不够好不一定就是产品不够好。百度在2011年就开始布局打造昆仑芯,这么多年孕育出的产品,而且经过几代的进化,特别是已经在百度内部规模应用,可以看出昆仑芯一定有它存在的优势,值得研究一番。说说AI框架,前面说到昆仑芯和百度飞桨有着深度融合,飞桨有着很好的生态和挺大的使用人群,不断会有更加新的、更加优秀的算法移植到飞桨上。如果你和昆仑芯的技术有一些对接,他们肯定会推荐你在昆仑卡上使用飞桨,这支持的更加好。但回过来,现实是用pytorch和tf的人更多(应该说绝大多数),特别是pytorch,近几年一些优秀的算法大多用pytorch来实现。那么随之会带来一个普遍的问题:如果是用pytorch或tf,那么怎么使移植到昆仑卡的代价更低呢?答案是:onnx。虽然有很多人吐槽onnx,但不能否认的是,超多的硬件厂商统一支持的一定会优先考虑onnx,它的适应性确实是其他AI框架无法比拟的。既然大家都支持onnx,为何不把部署链路调整到以onnx为起点呢 (你肯定不会只是在一个硬件上部署算法,那么考虑如何高效的在不同硬件上部署算法也是一个现实的问题)。再说说推理sdk,昆仑的推理sdk跟昇腾的一样,也是基于tvm的,这个部署技术栈越来越多地被不同家硬件厂商所采用 (不只有昇腾、昆仑),为啥就不多说了,这也说明了tvm的强大。这样一来,一个适应性很强的部署链路可以是:onnx -> tvm/tvm变种 -> 推理。另外需要注意的是,这里介绍的昆仑芯k200并不是昆仑芯的最强卡,k200是基于昆仑芯1代芯片的,还有更强的r200,r200是基于昆仑芯2代芯片的,这个下次再做介绍。好了,以上分享了 昆仑芯k200 全高全长推理卡,希望我的分享能对你的学习有一点帮助。【公众号传送】
摘要
软件领域的谷歌、Facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。  作为Al芯片的积极布局者与应用者,百度对外发布AI云端芯片“昆仑”,备受业界瞩目。在中国产业智能化进程的逐步深入,市场对于 AI 算力的需求超大规模增长,在端侧部署 AI 芯片也成为企业应用 AI 的重要一环。  我国在人工智能芯片领域不断取得创新突破。各个平台型企业也纷纷基于数据、算法和应用优势,宣布进军人工智能芯片领域。AI领域已经成为世界科技巨头争夺的制高点, AI应用的爆发对运算能力提出越来越高的要求,基于传统芯片的AI运算加速,已经不能满足需求。  软件领域的谷歌、Facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。中国首款云端Al全功能AI芯片“昆仑”是中国在大规模AI运算实践中催生出的芯片。  与市面上已发布的适用于垂直场景的芯片不同,百度之所以将“昆仑”定义为国内首款云端全功能芯片,是因为其可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。  众所周知,GPU是打造AI芯片的重要手段之一。百度昆仑芯片是基于FPGA所打造的AI芯片采用了XPU架构。在FPGA方面,百度拥有超过8年的FPGAAI加速器积累,累计上线超过了1万个。其XPU架构及软件栈也在实际业务中,有了超过8年的持续迭代。  昆仑芯片与GPU和专用AI芯片相比,在实行性能和性价比上都有一定的优势。昆仑芯片非常通用且灵活,既可以做训练也可以做推理,XPU的功能架构也在百度内部很多应用中得到验证,相对而言,它是一款全功能的Al芯片。  百度昆仑采用了14nm三星工艺、260Tops性能、512GB/s内存带宽、100+ 瓦特功耗,由几万个小核心构成。昆仑芯片可以在100瓦+功耗下提供260TOPS ,每秒260万亿次定数运算性能。此前,NVIDIA用于汽车L 4.L .5自动驾驶的Xavier芯片,8核ARM CPU+512颗CUDA的性能是30TOPS。  架构方面:昆仑芯片有2个计算单元,512GB/S的内存带宽,16MBSRAM/unit。16MB的SRAM对AI推理很有帮助,XPU架构上的XPU-SDNN是为Tensor等而设计,XPU-Cluster则能够满足通用处理的需求。昆仑第一代芯片没有采用NVLink,而是通过PCIE4.0接口进行互联。在三星14nm的制造工艺和2.5D封装的支持下,昆仑芯片峰值性能可以达到260TOPS,功耗为150W。  在灵活性和易用性方面:昆仑面向开发者提供类似英伟达CUDA的软件栈,可以通过C/C++语言进行编程,降低开发者的开发难度。基于第一代昆仑芯片,百度推出了两款AI加速卡,K100和K200,前者算力和功耗都是后者的两倍。在语音常用的Bert/Ernie测试模型下,昆仑也有明显性能优势。在线上性能数据的表现上,昆仑的表现相比英伟达T4更加稳定,且延迟也有优势。  2019年12月18日,三星宣布代工百度首款云到边缘AI芯片“昆仑”,借由三星14纳米处理技术及其I-Cube(Interposer-Cube)封装解决方案生产。三星的 14nm 工艺是其最广泛使用的制造节点之一,该工艺的晶体管密度为 32.5 MTr /mm,主要用于英伟达的 GeForce 10 系列,以及许多高通和三星芯片。它有多种变体,包括 14nm LPE(Low Power Early)和 14nm LPP(Low Power Plus)。  目前昆仑芯片已完成开发,并将批量生产。昆仑芯片首先将会用于百度的自家产品当中,能解决工业智能遇到的计算问题以及和飞腾ARM处理器的适配。工业上百度昆仑芯片也正式在微亿智造的工业智能质检设备上部署上线。百度智能云以整机一体化方式,向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。  预计在今年以内,微亿智造的数千台智能质检设备将全部应用上百度昆仑芯片,而百度昆仑还将在更多场景中部署应用,百度的AI能力将成为“新基建”的重要基础,推动工业制造业的产业智能化升级。

我要回帖

更多关于 昆仑表官网图片报价 的文章

 

随机推荐