AI存算一体机AI云矿靠谱吗吗?

关于存算一体芯片技术破局“内存墙”,存算一体路线分析随着人工智能应用的普及,云端相关的计算需求也在相应上升。对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源。参考文献链接https://mp.weixin.qq.com/s/pi8lDVuwpaGankzRGZ6Mzwhttps://mp.weixin.qq.com/s/7DBRyslROM3KEOT-KNTUkAhttps://mp.weixin.qq.com/s/rZV5CtIyxtKVhrRXtRVXKg在云端的人工智能计算中,“内存墙”是一个重要的性能瓶颈。在目前的主流计算机架构中,处理和存储是两个截然不同的部分,而随着摩尔定律几十年来的发展,事实上存储器(尤其是主存DRAM)的性能发展是要远远落后于处理器的计算逻辑性能发展的,因此DRAM速度(包括存取和接口)就成为了限制云端算力发展的一个瓶颈。另一方面,云端人工智能模型的发展潮流是模型参数越来越多,例如在推荐系统这样的云端人工智能传统项目中,典型模型的尺寸达到GB数量级;而在语音识别、自然语言处理、计算机视觉这样的领域中,最近随着transformer类模型逐渐占据主流,模型的参数量也在上升。这两者相结合,就是一方面人工智能计算对于内存的需求越来越高,而另一方面传统的DRAM方案并不能满足云端人工智能的需求。在这样的情况下,存算一体的方案正在获得越来越多的关注,并且正在慢慢由研究领域进入商用化。存算一体是指将内存和计算以相比传统计算机架构更紧密地结合在一起,从而减少内存访问带来地开销,并且解决“内存墙”问题。在云端计算的应用场景,存算一体方案主要是围绕DRAM去做创新,希望能将计算和DRAM能集成到一起,并以此降低内存访问的能量和延迟。对于具体的做法,实际上有两条主流技术路线:即近内存计算(near-memory computing)和存内计算(in-memory computing)。业内巨头在相关领域有所动作,往往是一项技术走向成熟和商用的标志。对于云端存算一体来说,我们最近看到三星和阿里巴巴在这个领域都有相关技术发表。三星在今年下半年的顶级商用芯片会议HotChips上发表了HBM2-PIM相关的技术,而阿里巴巴在基于3D封装实现存算一体的论文则收录在明年二月即将召开的国际固态半导体电路会议(ISSCC)上。从技术路线上来说,三星主要是走存内计算的路线,同时也兼顾近内存计算;而阿里巴巴目前则主要是针对近内存计算做开发。三星的存内计算路线三星的存内计算技术称为“Aquabolt-XL”,主要是基于其HBM2 DRAM技术做了存内计算(HBM2-PIM)。具体来说,Aquabolt-XL在HBM2 DRAM内部集成了计算逻辑,因此拥有HBM2-PIM技术的DRAM既可以当作一块普通的HBM2 DRAM来用(即直接写入读出,而绕开计算逻辑);也可以在写入和读出的时候同时让计算逻辑去做计算。当需要使用存内计算的时候,CPU只需要给HBM2-PIM写入数据以及相应的计算指令,而下次读出数据的时候可以直接读出已经计算好的结果。存内计算的技术路线中,计算逻辑和存储单元都是使用相同的DRAM工艺,因此通常存内计算逻辑的性能比较有限,时钟频率无法到达很高,做到高性能计算逻辑则需要依靠对于DRAM工艺的深厚积累和优化。另一方面,由于计算逻辑和存储单元是深度集成,因此计算逻辑可以以较小的开销最大化地调用存储单元,并且可以做协同设计和优化。最后,存内计算在HBM2 DRAM中实现之后,可以较快地应用到其他规格地存储器中,包括用于桌面地DDR/GDDR以及使用于移动端的LPDDR等。除了HBM2-PIM之外,三星还公布了近内存计算方案AxDIMM,实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问,从而等效地大大增加了访存带宽。对于三星来说,主要走存内计算技术路线非常符合其技术背景以及商业模式。HBM2-PIM技术实际上是一块带有计算功能且在人工智能应用中能提升系统性能地内存芯片,所以三星最终还是希望能通过这个技术来确保其存储器业务在人工智能时代能继续保持领先。此外,三星在DRAM工艺领域地积累也确保它能做到使用DRAM实现存内逻辑计算的最优化,以及集成的成本可以控制到较好。阿里的近内存计算路线与三星相对,目前阿里巴巴在存算一体领域走的是近内存计算的方案。根据目前公布的资料,阿里巴巴的存算一体方案是把计算逻辑芯片和DRAM使用3D封装技术封装到一起,从而利用封装带来的高IO密度来实现高内存带宽以及较低的访问开销。从发表在明年ISSCC论文中,我们也可以看到这项技术是由阿里巴巴达摩院和紫光共同开发而成。使用近内存计算可以让计算逻辑使用和存储器DRAM单元不同的工艺来实现,这样计算逻辑可以实现较高地性能和能效比。另一方面,这可能也是阿里巴巴这样并不掌握DRAM工艺的厂商入场存算一体最合理的方式了。同时,该技术使用的3D封装技术加上定制化的额外计算逻辑将会使整体成本较高,必须要找到合适的应用场景才能体现其价值。目前,该技术主要还是处于研发阶段,未来还有一些重要的工程化里程碑尚待解决,包括量产、良率等。在商业模式方面,阿里巴巴显然是以自用为首要目标,因此其存算一体研发主要的目标是能针对目标应用提供不受内存墙限制的计算解决方案,而不像三星一样是开发下一代存储芯片。从这个角度来说,只要阿里能确保这样的近内存计算存算一体解决方案在推荐系统等高价值应用中能提供足够的性价比(例如,比起采购GPU来说更便宜),就有进一步推动下去的动力。中国云端存算一体的未来目前,我们看到存算一体已经成为巨头争相研发的目标,未来有机会成为云端高性能计算领域的关键技术。我们同时很高兴看到中国的阿里巴巴在这个领域的成果。展望未来,我们认为存算一体的两个技术方向将会继续共存,其中近内存计算凭借其使用先进工艺节点的计算逻辑可以针对高价值应用场景做极致的加速优化,而存内计算则可能会成为下一代应用在高性能计算的存储器技术广泛应用在通用的计算场景中。中国在存算一体领域和三星这样的国际巨头的差距主要体现在存内计算领域。中国在DRAM领域的技术仍然相对落后,而如果要让存算一体真正进入大量部署,则必须要在DRAM中集成计算逻辑的方向也有突破。目前,我国在DRAM领域有大量投入,希望能在补足差距的同时,也能兼顾存内计算这样的前瞻性技术,从而能赋能中国的高性能计算和人工智能计算需求。自动驾驶芯片的算力焦虑,「存算一体」能解决吗?自动驾驶芯片,越来越「热闹」了。近年来,自动驾驶的普及以肉眼可见的速度加快,根据1月12日工信部数据,2021年新能源汽车销售352.1万辆,其中搭载组合辅助驾驶系统的乘用车新车市场占比达到20%。而两年前,L2级辅助驾驶的渗透率仅为3.3%。相伴而生的,是汽车「大脑」自动驾驶AI芯片的竞争加剧。英伟达、英特尔等老牌芯片企业早就瞄准了这一赛道,特斯拉、蔚来、小鹏等车企,黑芝麻、地平线、芯驰科技、寒武纪、后摩智能等国内芯片厂商也都纷纷入局。比如,蔚来汽车有自研芯片的计划;高通去年宣布和宝马合作,2025年使用高通骁龙Ride自动驾驶平台;初创公司有的直接聚焦在自动驾驶上,也有的业务范围更广,覆盖自动驾驶、智能座舱、中央网关、高可靠MCU等;收购、合作等关系网也在不断变动,这一战场的发令枪已经拉响了。然而,与常见的数据中心AI芯片不同,应用于汽车场景的AI芯片,在算力、功耗、性能方面都提出了更极端的要求。在摩尔定律逐渐失效、“存储墙”问题日益凸显的当下,汽车AI芯片到底需要提供多大算力?何种路径才是突破摩尔定律的存储墙壁垒的最接近落地方法?面对山头林立、秩序井然的芯片市场,初创公司的市场机遇和差异化优势又是什么?「存算一体」也许是个值得研究的答案。一笔取舍账,自动驾驶需要多少算力过去几年中,用于衡量一款自动驾驶芯片最直接的标准之一,就是算力高低。自动驾驶级别越高时,产生的数据越多,对芯片的算力要求也就越高。2014年时,最早应用Mobileye的第一代EyeQ芯片,算力只有0.256TOPS;2015年,就已有专门面向自动驾驶的平台,每年要迭代1-2次;英伟达也预告将在2025年上市1000T算力的Atlan芯片。算力的不断提升,是否意味着自动驾驶的需求已经得到了满足,自动驾驶玩家们可以跑出算力焦虑了?远还没有。一方面,大算力也意味着更高的成本。实际上在现有的自动驾驶芯片中,单片算力很难满足高级别自动驾驶的需求,车企或自动驾驶企业多会采取“堆料”的方式,用芯片数量的增加来实现大算力。成本的增加不可避免,难以推动自动驾驶技术的规模化应用,车企也很难实现技术和商业的平衡。另一方面,除了对算力需求高,智能驾驶场景也对芯片的功耗和散热有很高的要求。服务于丰田的创业者Amnon Shashua曾在多个场合表示过,效率比算力更重要。具体解释,算力、功耗、成本就像是一个三角架构,一角的增减要用另一角来填补才行。除此之外,「算力」并不真正代表着「性能」。1000Tops的芯片参数,并不意味着这块芯片在实际应用中能够发挥出1000Tops的真实性能。在当前的冯·诺伊曼架构当中,内存系统的性能提升速度大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,形成了一道“存储墙”。一方面,大量的计算单元受限于带宽的限制,无法发挥作用,造成算力利用率很低;另一方面,数据来回传输又会产生巨大功耗,进一步加大汽车电动化大潮下的里程焦虑。因此,仅仅简单用算力高低来评估,远远达不到自动驾驶的需求。汽车AI芯片不仅需要大算力,更要有实际利用率的大算力,而且能够保障低功耗、低延迟以及可承受的成本。存算一体,金字塔从头建起为了解决“存储墙”问题,当前业内主要有三种方案:用GDDR 或HBM来解决存储墙问题的冯·诺依曼架构策略;算法和芯片高度绑定在一起的DSA方案;以及存算一体的方案。HBM是目前业内超大算力芯片常用的方案之一,其优势在于能够暂时缓解“存储墙”的困扰,但其性能天花板明显,并且成本较高。DSA方案以牺牲灵活性换取效率提升,算法和硬件高度耦合,适用于已经成熟的AI算法,但并不适用于正处于快速迭代的自动驾驶AI算法中。最后是存算一体方案,这是一项诞生于实验室的新兴技术,其创新性在于打破了传统·冯诺伊曼架构局限性,实现了计算与存储模块一体化的整合创新,解决了传统芯片架构中计算与存储模块间巨大的数据传输延迟、能量损耗痛点,既增加了数据处理速度,又大大降低了数据传输的功耗,从而使芯片能效比(即每瓦能提供的算力)得到2-3个数量级(>100倍)的提升。达摩院计算技术实验室科学家郑宏忠曾讲过:“存算一体是颠覆性的芯片技术,它天然拥有高性能、高带宽和高能效的优势,可以从底层架构上解决后摩尔定律时代芯片的性能和能耗问题。”因此,存算一体架构可以把算力做的更大,其芯片算力天花板比传统冯·诺依曼架构更高;同时,大幅降低了数据传输的能量损耗,提升了能效比;另外,还能得到更低的延时,存储和计算单元之间数据搬运的减少,大幅缩短了系统响应时间。更重要的是,用存算一体架构做大算力AI芯片另一大优势在于成本控制。不依赖于GDDR 或HBM,存算一体芯片的成本能够相应的降低50%~70%。换句话说,真正创新架构的AI芯片是将上文中提到的算力、功耗、成本三角形结构从原来的位置往上挪了三个档位。不仅可以提高算力,还可以达到降低功耗、控制成本的效果。摘取「高挂的果实」最近几年,在缺芯的时代背景下,随着政策支持的不断加码,我们看到国内半导体产业迎来了发展的良机。芯片的“国产替代”已经在很多细分领域取得了进展,深受资本市场青睐。但是资本市场也有越来越多的人意识到,热门芯片赛道的“国产替代”创业项目已经日趋饱和。一部分嗅觉敏锐的投资人开始关注后摩尔时代的“创新架构”,认为要想在纯市场化竞争中挑战英伟达等国际芯片巨头,必须另辟蹊径。于是差异化的技术创新成为芯片投资中的重要策略。HBM、DSA、存算一体都属于芯片行业当前的技术创新路径,三者对比来看,存算一体可以算作是一条难度最大、颠覆性最强、风险最高,但差异化和创新性也最显著的路径。近年来,国内外涌现出不少专注于存算一体芯片的新兴创企,巨头们纷纷加快了产业布局,资本也对其青睐有加。国内最近一笔相关融资来自今年4月,国内存算一体明星创企「后摩智能」宣布获得数亿人民币Pre-A+轮融资。不过,一直以来,传统的存算一体研究大多集中在低功耗、低算力的「小」芯片场景中,比如语音、AIoT、安防等边缘领域。能够应用在车载AI的存算一体「大」算力芯片,即便在学术界也是一大难题,产业界敢于迎战者更是屈指可数。想要将二者融合,既需要存储单元阵列、AI core、工具链等各个方面都需要有深厚积累的团队,又需要进行整体的协同优化设计,才能最终实现一款高效的基于存算一体的大算力AI芯片。所幸,这一创新性技术已经让市场看到了落地可能性。5月23日,后摩智能首款基于SRAM的存算一体大算力AI芯片已成功点亮,并跑通智能驾驶算法模型。首次在存内计算架构上跑通了智能驾驶场景下多场景、多任务算法模型,为高级别智能驾驶提供了一条全新的技术路径。存算一体很难,存算一体大芯片更难。但在产业巨头林立,市场秩序森严的芯片产业,新兴创企若是只愿意选择容易走的路、采摘「低垂的果实」,是难以取得成功的。在保证存算一体带来的高能效比、高性价比的前提下,又能将其成功扩展到满足自动驾驶「大」算力需求的级别,属于产业中「高挂的果实」。从成立之初就聚焦于存算一体大算力芯片的后摩智能,正是瞄准了这一道路。以团队组成来说,后摩智能的核心创始团队既有来自美国普林斯顿大学、UCSB, Penn State大学等海内外知名高校的学术人才,又有在AMD、Nvidia、华为海思、地平线等一线芯片企业中拥有丰富大芯片设计与实战经验的产业专家。今年5月大算力存算一体芯片宣布点亮,对于后摩智能来说,离摘取「高挂的果实」已经越来越近了。传统高算力芯片山头林立,后来者想要在现有赛道上实现超越,确实是充满挑战的。但随着HBM等昂贵方案的不断的提出,冯·诺伊曼架构的最后一丝红利已经被榨干,市场迫切地需要新架构、新出路。在AI算法快速迭代,摩尔定律逐渐失效的当下,我们期待看到越来越多像后摩智能这样愿意投身于基础创新的芯片创企,不断推进产业走向下一个时代。ReRAM 「存算一体」应用于AI大算力的新思路亿铸科技以全数字的技术思路将ReRAM “存算一体”应用于AI大算力领域,它能否打破传统冯诺依曼架构下的存算墙、能耗墙和编译墙?一座座数据中心正在拔地而起,为全国输送着源源不断的算力。但数据计算往往伴随着巨大的功耗,因此发展数据中心和实现“双碳”目标之间存在着巨大的矛盾。在“碳中和”已经成为全球共识的当下,国家在近段时间推出的“东数西算”工程受到了社会各界广泛关注。“东数西算”通过在全国布局8个算力枢纽,引导大型、超大型数据中心向枢纽内集聚,形成数据中心集群,以此优化资源配置,提升资源使用效率。虽然“东数西算”为优化数据中心的供能结构提供了政策助力,但并不能从技术层面解决既有算力能效比和算力能耗绿色发展需求之间的根本矛盾。计算芯片的功耗向来是芯片制造工艺演进中备受关注的指标之一。在后摩尔时代,单纯通过工艺制程的提升降低芯片功耗的路径也日渐捉襟见肘,已经接近摩尔定律的物理极限。此外,巨大的生态依赖性也牵扯着各个AI应用场景的发展进程。但随着基于ReRAM的全数字存算一体架构大算力、低功耗、易部署芯片的研发和产业化,这一难题似乎有了新的解决思路。存算一体打破“存算墙”和“能耗墙”在芯片产业发展的过程中有两座绕不开的大山:“存算墙”以及“能耗墙”。1946年,美籍匈牙利科学家冯·诺依曼(J.Von Neumann)提出了著名的存储程序原理,此后70余年,现代计算机发展到第五代,存储器经历磁存储,光存储等一路发展至半导体存储,而冯·诺依曼结构是当下最主流的计算机结构的地位却从未变过。但随着时代的飞速进展,存算分离结构的天生缺陷使得冯·诺依曼结构的电子计算机似乎已经难以满足数据处理更海量、更快速、更低耗的需求。为什么说冯·诺依曼结构存在天生的缺陷?这是因为在该结构设计中,CPU访问存储器的速度决定了系统运行的速度,这也使得系统对存储器产生了绝对的依赖。随着半导体技术快速发展,CPU的运算速度已经远远超过了访存速度,前者通常是后者的200倍以上,CPU在执行指令间不得不等待数据。CPU和内存之间的数据传输带宽,以及传输过程中每一层代码的手动优化,都成为限制计算机性能进一步提高的瓶颈,带来“存算墙”问题。而AI计算在处理大量数据的过程中,这些数据需要在计算和存储单元中进行频繁的移动,移动受制于关键部件的技术瓶颈,也带来了芯片面积增加、接口IP成本增加、功耗增加等一系列问题,也就产生了“能耗墙”问题。尤其当工艺制程的发展开始进入后摩尔时代,业界对于解决这一问题的全新的技术路线显得更加渴求和迫切——于是,“存算一体”便被提了出来。这是一种将存储和计算有机结合的非冯诺依曼架构,理论上计算可以直接在存储器中进行,这样既打破了系统对于存储器的绝对依赖,还能够极大地消除数据搬移带来的开销,彻底消除“存算墙”以及“能耗墙”的问题。新型存储ReRAM,实现存算一体的最优解既然理论上是可行的,那么实际又该如何实现存算一体呢?大体上看,市面上大概有三个流派的方案实现存算融合:一是利用先进封装技术把计算逻辑芯片和存储器(如DRAM)封装到一起,以高IO密度来实现高内存带宽以及较低的访问开销,或采用更先进的制程工艺,比如2.5D、3D的封装以及高位宽的HBM接口等,实现近内存计算;二是在传统DRAM、SRAM、NOR Flash、NAND Flash中实现存内计算;三是利用新型存储元件实现存算一体。但可惜的是,大部分技术还是无法真正地解决“储算墙”和“能耗墙”的问题。随着亿铸科技推出基于ReRAM研发的“全数字存算一体”技术,上述问题似乎有了解法。该芯片材料特性以及生产工艺相对成熟,可突破性能不足、使用场景受限、制造成本过高等多种问题,更易于实现大范围普及和商业化应用。不仅如此,基于忆阻器(ReRAM)技术的计算单元可以通过阻值器件的存储记忆特性,利用基础物理定律和原理完成海量的AI计算;通过存算一体的架构,可以节省把数据从内存单元逐层搬迁到计算单元的环节,从而得以节省因为数据搬迁而产生的大量衍生成本,这此类方式也符合国家对于碳中和、碳达峰的技术发展路线,改变了传统AI运算数据量需要带来巨大能耗的现状。从年增长率、速度、可扩展性、与CMOS的兼容性、IEEE认定的新型存储介质要素、实际商业化进程等方面来看,ReRAM在与诸如相变存储器、MRAM等其它新兴存储技术相比中,表现都是非常优异的。ReRAM的强大优势吸引了大量厂商的争相研究和应用落地,包括台积电、联电、格罗方德、中芯国际以及昕原半导体等均已建立了可量产的商业化ReRAM产线,其中昕原半导体的国内第一条28nm制程后道产线,已可以量产商用出货。亿铸ReRAM全数字存算一体技术:具备大算力、低功耗、易部署的三大优势在ReRAM存算一体赛道涌入大量玩家的环境下,谁又能拿到突围的先发优势呢?当下,ReRAM存算一体这个赛道有两种解决方案,一种是模拟的,一种是全数字的,模拟方案天然吻合信号量的物理特性,但却存在一定的精度受限的问题,另外它还会产生模拟和数字之间频繁转换的衍生成本。作为业界首家采用全数字路线耕耘于基于ReRAM的存算一体大算力芯片的公司,亿铸科技采用的是另一种:全数字解决方案。基于ReRAM研发“全数字存算一体”的算力芯片,可以最大范围提高产品精度,解决以前存算一体技术中模拟芯片低精度问题。此外,该方案还节省了模拟技术的衍生成本,形成了一套既能保证精度同时又能最优化面积和功耗的解决方案。基于ReRAM的全数字存算一体AI计算架构,除了能有效地解决存算墙和能耗墙的问题之外,还可以解决当下的AI应用面临的“编译墙“问题。在冯诺依曼架构下,计算非常依赖多级存储的架构, 这种架构对编译器非常不友好。编译器在编译代码的过程中无法感知代码的动态特征,会出现卡顿、延迟的情况,而全数字存算一体可以把这些特征变成编译器直接感知的资源,保证时延确定性的同时自动优化资源的分配,可以方便客户快速部署各类算法。全数字存算一体架构时延确定和易部署的特性非常适合于自动驾驶的场景。自动驾驶包含的各类人工智能算法在运行之时会存在不同程度的时延问题,而存算一体的技术不仅可以解决时延不确定的问题,也可以提升系统的整体性能。除了解决时延问题,还具有密度高、容量大、能效比高,能满足自动驾驶大吞吐计算需求,在物理稳定性上也能满足车规级产品在温度变动、震动、稳定性的要求。全面自主研发国产替代从芯片发展的历史来看,任何广泛应用的好产品都必须与成熟工艺紧密合作,比如台积电与英伟达在历史上的联合调试,不断优化台积电的先进工艺制程。而在ReRAM架构的全数字存算一体AI计算芯片这个领域,昕原半导体将会和亿铸科技强强联手、紧密调试,再现当年英伟达和台积电双剑合璧、共同发展先进制程工艺的经典案例。昕原半导体基于Metal Wire工艺,在ReRAM器件的设计和制造工艺已经实现了全国产化,昕原半导体已经完成业界首款28nm制程ReRAM芯片流片,并且,已建成中国大陆首条中试线,拥有了垂直一体化存储器设计加制造的能力。此外,昕原半导体采用对CMOS友善的材料,能够使用标准的CMOS工艺与设备,对产线无污染,整体制造成本低,可以很容易地让半导体代工厂具备ReRAM的生产制造能力,一旦在自动驾驶和AI等领域产生突破性的应用真正起量,工艺马上就能够跟上,这对于量产和商业化应用都有很大优势。近年来,国际形势的变化,使得半导体产业链面临的不确定性增加。也让国产化成为半导体企业的重要建设主题之一。亿铸科技和昕原半导体的联合,也将会使得亿铸科技基于ReRAM全数字存算一体架构的大算力、低功耗芯片相关技术完全自主可控,实现从IP到生产的全国产化。亿铸:小荷才露尖尖角,早有蜻蜓立上头。尽管亿铸科技现在十分年轻,2021年10月才开始在上海正式运营,但它已经是目前国内唯一自主设计基于忆阻器(ReRAM)的“存算一体”大算力芯片的公司。2021年底,亿铸科技完成由中科创星、联想之星和汇芯投资(国家5G创新中心)联合领投的天使轮融资。值得注意的是,领投方均是硬科技投资领域的著名机构。那么,能在如此多巨头涌入的赛道中打出自己的优势,并受到如此多资本的青睐,亿铸科技的底气是什么?这个答案便是亿铸内部一支由产、学、研各界资深技术专家、精英工程师、创新领军人才、产业化先驱组成的国际化创业团队:- 公司高管团队均拥有20+年不同类型芯片及系统软件研发、管理、市场、创业经验。- 公司研发团队成员来自于国内外多家知名芯片企业和多所国内外著名大学,比如斯坦福、德州大学、上海交大、复旦大学和中科大等,已在具备顶尖学术和产业价值的顶会发表论文达40+篇,超过国内其他同类赛道团队的顶会论文总和, 研究成果已在不少知名头部公司商用化。- 核心设计团队完整覆盖器件、芯片架构、SoC设计、软件系统及AI算法等全部技术领域。- 工程团队也拥有丰富的芯片设计与流片经验丰富,能力卓越。综合学界和产业界头部精英人才的强强组合,亿铸科技的团队已完全覆盖存算一体芯片底层的物理层、电路设计、架构全栈、芯片产品参考设计方案、商业化落地以及生态建设等各个方面的需要。后摩尔时代的AI算力赛道,期待新技术的弯道胜出全球AI算力需求迅猛增长。2012年至今,云端AI算力已经增长了超过30万倍,在未来的很长一段时间内,也将保持这个增速。正因如此,国家大力支持相关产业发展。2020年是真正意义上的新基建元年,AI 算力作为AI技术与产业大规模发展的巨大驱动力,将成为整个新基建的核心支撑。但在后摩尔时代,AI算力的普及应用始终面临存算墙、能耗墙和编译墙三座大山的掣肘,致使“高算力、低功耗、易部署”的市场呼声也越来越高涨。但在传统AI算力厂商先发优势的客观环境下,后来者很难在既有技术赛道上实现追赶。然而在新的技术领域比如基于ReRAM存算一体做大算力芯片,各国还处在同一起跑线,国内比如亿铸等先进初创公司已经起跑。“时势造英雄。”每一次计算构架的大变革都会创造一个新的王者。从主机时代的IBM、PC 时代的英特尔到移动时代的高通,智能物联网时代必将会是新技术架构贡献者的天下,我们期待ReRAM存算一体全数字计算这一新技术能够成为解决存储墙、能耗墙、编译墙的新方案,在弯道胜出。参考文献链接https://mp.weixin.qq.com/s/pi8lDVuwpaGankzRGZ6Mzwhttps://mp.weixin.qq.com/s/7DBRyslROM3KEOT-KNTUkAhttps://mp.weixin.qq.com/s/rZV5CtIyxtKVhrRXtRVXKg
2023-05-14 15:15
来源:
金融界
随着ChatGPT、百度文心一言等一系列大模型密集上线,AI大模型当下已经遍地开花。本周四,谷歌发布AI语言模型PaLM 2与OpenAI旗下GPT-4等系统展开竞争,国内云从科技、引力传媒等多家A股上市公司亦宣布AI大模型产品最新进展。在“AI百模大战”背后,随之带动的算力需求开始呈“爆炸式”增长,一场“算力储备战”已暗潮汹涌,全球算力市场持续火热。
据悉,AI由数据、算法(即模型)和算力驱动,其中任意一方的发展会推动其他方面需求的增长。有分析认为,当下行业内虽然拥有更多的数据以及做了更多的AI模型研究,但算力的扩展速度却没有跟上。今年4月,OpenAI就因需求量过大而停止了ChatGPT Plus的销售。对此,东方证券研报认为,主要系计算资源供不应求。
根据数据预测,AI时代算力的增长已远远超过了摩尔定律每18个月翻番的速率,预计到2030年全球超算算力将达到0.2ZFLOPS,平均年增速超过34%。华为更是预测,未来10年人工智能算力需求将会增长500倍以上。那么,身处“智能革命”起点的当下,什么才是AI算力的最优解?国内“算力军备竞赛”又走到哪一步了?
▌短期堆起的GPU竞争高地:以量取胜筑起大模型算力门槛 低配版英伟达GPU国内炒至10万元
众所周知,芯片能力直接影响着高算力训练效果和速度,相较于基于CPU芯片的通用算力,AI所需的智能算力则主要基于GPU、GPGPU及AISC等AI芯片所提供算力,用于人工智能的训练和推理。其中,GPU是一种专门用于处理图形、视频、游戏等高性能计算的硬件设备,凭借相较于其他硬件在算力方面的较大优势脱颖而出,同时随着英伟达A100、H100等型号产品的发布,前款产品在AI推理时吞吐量是CPU的249倍。GPU已成为当前AI算力的核心硬件。
中金公司研报表示,多GPU互联能力加强可以提高并行计算能力,因而算力提升对GPU数量的要求日益提高。随着单GPU的计算能力越来越难以应对深度学习对算力的需求,英伟达已经开始用多个GPU去解决问题。对此,业内分析认为,高端GPU的数量基本决定了一个厂商能够练多大的模型,后期将成为业内判断企业大模型能力的重要指标。
据TrendForce数据显示,如果以英伟达 A100 显卡的处理能力计算,GPT-3.5大模型需要2万块GPU来处理训练数据。亦有业内公认看法,做好AI大模型的算力门槛是1万枚A100芯片。
目前,全球GPU市场主要由英伟达、英特尔和AMD三家巨头垄断,去年Q4独立GPU份额分别为85%、6%、9%。其中,人工智能、云端计算和独立GPU主要为英伟达主导,A100和H100最高浮点算力分别实现19.5 TFLOPS 和67 TFLOPS。
相较于此,我国国产GPU尚处萌芽期,与国际厂商差距更大。但随着高端GPU的出口限令,针对中国市场推出的特供版A800也已涨10万元的高价,国内GPU市场需求紧迫。在此情形下国产化迫在眉睫,国产GPU厂商近几年也不断涌现,目前国内自研GPU的领军企业主要是寒武纪、景嘉微、华为昇腾等。其中,景嘉微是国内首家成功研制国产GPU芯片并实现大规模工程应用的企业。行业内专家称,主打产品JH920的性能与英伟达2016年发布的GTX 1050相仿,在中高端领域及硬核的算力需求仍存在较长的追赶道路。
对于整个算力市场,业内人士认为,目前烧GPU是最为现实的方案,尤其从国内GPU厂商的角度来看,国产GPU高端化薄弱,只有使更多低端的GPU去追赶和堆叠,通过优化和协调来协同作用,再去组合模拟优化的路径。
▌下场突围的存算一体:打破“内存墙”极限难题 全球玩家站上同一起跑线
不过,虽然GPU是目前最成熟的AI算力方案,但长时间来看,在算力昂贵和受限的制约下烧GPU并非长久之策。
在冯·诺伊曼结构计算机中计算和存储分离,存和算之间性能失配常常导致访存带宽低、时延长、功耗高等问题,运算效率被大打折扣,即面临着“内存墙”的制约问题。通俗来看,方正证券在4月30日研报中解释,虽然CPU/GPU并行加速技术可以提升算力,但随摩尔定律逼近极限,存储带宽制约了计算系统的有效带宽,系统算力增长步履维艰。
对此,方正证券认为,存算一体作为一种新的计算架构,其核心是将存储与计算完全融合,以新的高效运算架构进行二维和三维矩阵计算,具有更大算力(1000TOPS以上)、更高能效(超过10-100TOPS/W)、降本增效三大优势,能有效克服冯·诺依曼架构瓶颈,实现计算能效的数量级提升。业界普遍认为,其为“AI算力的下一极”,继CPU、GPU之后的算力架构“第三极”。
在存算一体市场中,海外厂商SST,Syntiant、Mythic因布局较早,走在商业化前列。不过,在新的技术领域比如基于ReRAM存算一体做大算力芯片,各国还处在同一起跑线,国内外众多企业纷纷开展存算一体技术的研发,包括英特尔、SK海力士、IBM、美光、三星、台积电、阿里等巨头,以及九天睿芯、恒烁股份、亿铸科技、千芯科技、苹芯科技、知存科技、智芯科等众多新兴AI和存储企业。
▌AI算力“神药”量子计算:谷歌、阿里等科技巨头扎堆进入 国内企业或借此赛道弯道超车
值得注意的是,在当前GPU、下一步存算一体的背后,还有着一位AI算力“神药”——量子计算。
据悉,量子计算机是基于量子力学原理构建的计算机,性能差距呈指数级增长。中金公司研报表示,相较经典计算机,量子计算机算力发生爆发式增长,形成“量子优越性”。业内分析认为,量子计算有望彻底解决经典计算的算力不足问题。并且,未来量子计算机肯定能够助力人工智能,随着AI所需的算力越来越多,2030年算力以及耗电量都可能出现超高数据级增长,因此对于真正解决AI大规模的算力需求,量子计算机是一个很有潜力的应用方向。
根据中金公司研报显示,谷歌、IBM、微软、亚马逊等全球科技巨头纷纷推出量子云服务平台。国内阿里、腾讯、百度、华为近年来也先后布局量子计算,比如百度成立了量子计算研究所;华为推出了“昆仑”量子计算模拟一体机,在摩尔定律渐趋失效下,量子计算为中国提供弯道超车机会。
此外,有市场分析指出,我国量子计算也在展开融资竞争赛。近一年来,国内包括量旋科技、图灵量子、华翊量子、未磁科技、本源量子在内的9家量子计算企业获得融资。
不过,安信证券提到,当前量子计算机的发展还面临着如退相干等问题,导致当前量子计算仍主要存在于实验室阶段,距离商业化较远。对此,有业内人士坦言,量子计算行业现在还未发生一些根本性的变化进展,中短期与其寄希望于其他方案来解决大模型所遇到的算力问题,不如指望GPU这些经典计算的硬件价格能下来。
来源:财联社返回搜狐,查看更多
责任编辑:
2023-05-14 15:15
来源:
金融界
随着ChatGPT、百度文心一言等一系列大模型密集上线,AI大模型当下已经遍地开花。本周四,谷歌发布AI语言模型PaLM 2与OpenAI旗下GPT-4等系统展开竞争,国内云从科技、引力传媒等多家A股上市公司亦宣布AI大模型产品最新进展。在“AI百模大战”背后,随之带动的算力需求开始呈“爆炸式”增长,一场“算力储备战”已暗潮汹涌,全球算力市场持续火热。
据悉,AI由数据、算法(即模型)和算力驱动,其中任意一方的发展会推动其他方面需求的增长。有分析认为,当下行业内虽然拥有更多的数据以及做了更多的AI模型研究,但算力的扩展速度却没有跟上。今年4月,OpenAI就因需求量过大而停止了ChatGPT Plus的销售。对此,东方证券研报认为,主要系计算资源供不应求。
根据数据预测,AI时代算力的增长已远远超过了摩尔定律每18个月翻番的速率,预计到2030年全球超算算力将达到0.2ZFLOPS,平均年增速超过34%。华为更是预测,未来10年人工智能算力需求将会增长500倍以上。那么,身处“智能革命”起点的当下,什么才是AI算力的最优解?国内“算力军备竞赛”又走到哪一步了?
▌短期堆起的GPU竞争高地:以量取胜筑起大模型算力门槛 低配版英伟达GPU国内炒至10万元
众所周知,芯片能力直接影响着高算力训练效果和速度,相较于基于CPU芯片的通用算力,AI所需的智能算力则主要基于GPU、GPGPU及AISC等AI芯片所提供算力,用于人工智能的训练和推理。其中,GPU是一种专门用于处理图形、视频、游戏等高性能计算的硬件设备,凭借相较于其他硬件在算力方面的较大优势脱颖而出,同时随着英伟达A100、H100等型号产品的发布,前款产品在AI推理时吞吐量是CPU的249倍。GPU已成为当前AI算力的核心硬件。
中金公司研报表示,多GPU互联能力加强可以提高并行计算能力,因而算力提升对GPU数量的要求日益提高。随着单GPU的计算能力越来越难以应对深度学习对算力的需求,英伟达已经开始用多个GPU去解决问题。对此,业内分析认为,高端GPU的数量基本决定了一个厂商能够练多大的模型,后期将成为业内判断企业大模型能力的重要指标。
据TrendForce数据显示,如果以英伟达 A100 显卡的处理能力计算,GPT-3.5大模型需要2万块GPU来处理训练数据。亦有业内公认看法,做好AI大模型的算力门槛是1万枚A100芯片。
目前,全球GPU市场主要由英伟达、英特尔和AMD三家巨头垄断,去年Q4独立GPU份额分别为85%、6%、9%。其中,人工智能、云端计算和独立GPU主要为英伟达主导,A100和H100最高浮点算力分别实现19.5 TFLOPS 和67 TFLOPS。
相较于此,我国国产GPU尚处萌芽期,与国际厂商差距更大。但随着高端GPU的出口限令,针对中国市场推出的特供版A800也已涨10万元的高价,国内GPU市场需求紧迫。在此情形下国产化迫在眉睫,国产GPU厂商近几年也不断涌现,目前国内自研GPU的领军企业主要是寒武纪、景嘉微、华为昇腾等。其中,景嘉微是国内首家成功研制国产GPU芯片并实现大规模工程应用的企业。行业内专家称,主打产品JH920的性能与英伟达2016年发布的GTX 1050相仿,在中高端领域及硬核的算力需求仍存在较长的追赶道路。
对于整个算力市场,业内人士认为,目前烧GPU是最为现实的方案,尤其从国内GPU厂商的角度来看,国产GPU高端化薄弱,只有使更多低端的GPU去追赶和堆叠,通过优化和协调来协同作用,再去组合模拟优化的路径。
▌下场突围的存算一体:打破“内存墙”极限难题 全球玩家站上同一起跑线
不过,虽然GPU是目前最成熟的AI算力方案,但长时间来看,在算力昂贵和受限的制约下烧GPU并非长久之策。
在冯·诺伊曼结构计算机中计算和存储分离,存和算之间性能失配常常导致访存带宽低、时延长、功耗高等问题,运算效率被大打折扣,即面临着“内存墙”的制约问题。通俗来看,方正证券在4月30日研报中解释,虽然CPU/GPU并行加速技术可以提升算力,但随摩尔定律逼近极限,存储带宽制约了计算系统的有效带宽,系统算力增长步履维艰。
对此,方正证券认为,存算一体作为一种新的计算架构,其核心是将存储与计算完全融合,以新的高效运算架构进行二维和三维矩阵计算,具有更大算力(1000TOPS以上)、更高能效(超过10-100TOPS/W)、降本增效三大优势,能有效克服冯·诺依曼架构瓶颈,实现计算能效的数量级提升。业界普遍认为,其为“AI算力的下一极”,继CPU、GPU之后的算力架构“第三极”。
在存算一体市场中,海外厂商SST,Syntiant、Mythic因布局较早,走在商业化前列。不过,在新的技术领域比如基于ReRAM存算一体做大算力芯片,各国还处在同一起跑线,国内外众多企业纷纷开展存算一体技术的研发,包括英特尔、SK海力士、IBM、美光、三星、台积电、阿里等巨头,以及九天睿芯、恒烁股份、亿铸科技、千芯科技、苹芯科技、知存科技、智芯科等众多新兴AI和存储企业。
▌AI算力“神药”量子计算:谷歌、阿里等科技巨头扎堆进入 国内企业或借此赛道弯道超车
值得注意的是,在当前GPU、下一步存算一体的背后,还有着一位AI算力“神药”——量子计算。
据悉,量子计算机是基于量子力学原理构建的计算机,性能差距呈指数级增长。中金公司研报表示,相较经典计算机,量子计算机算力发生爆发式增长,形成“量子优越性”。业内分析认为,量子计算有望彻底解决经典计算的算力不足问题。并且,未来量子计算机肯定能够助力人工智能,随着AI所需的算力越来越多,2030年算力以及耗电量都可能出现超高数据级增长,因此对于真正解决AI大规模的算力需求,量子计算机是一个很有潜力的应用方向。
根据中金公司研报显示,谷歌、IBM、微软、亚马逊等全球科技巨头纷纷推出量子云服务平台。国内阿里、腾讯、百度、华为近年来也先后布局量子计算,比如百度成立了量子计算研究所;华为推出了“昆仑”量子计算模拟一体机,在摩尔定律渐趋失效下,量子计算为中国提供弯道超车机会。
此外,有市场分析指出,我国量子计算也在展开融资竞争赛。近一年来,国内包括量旋科技、图灵量子、华翊量子、未磁科技、本源量子在内的9家量子计算企业获得融资。
不过,安信证券提到,当前量子计算机的发展还面临着如退相干等问题,导致当前量子计算仍主要存在于实验室阶段,距离商业化较远。对此,有业内人士坦言,量子计算行业现在还未发生一些根本性的变化进展,中短期与其寄希望于其他方案来解决大模型所遇到的算力问题,不如指望GPU这些经典计算的硬件价格能下来。
来源:财联社返回搜狐,查看更多
责任编辑:

我要回帖

更多关于 ai硬盘是什么 的文章