ai存算一体机ai技术的发展趋势势是什么?


存算一体打破了运行70年的冯诺依曼架构,将成为AI时代主流的计算架构。存算一体正处于学术界向工业界迁移的关键时期。存算一体技术(PIM :Processing in-memory),它将存储和计算有机结合,直接利用存储单元进行计算。存内计算是用模拟电路做计算。极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。一、芯片迭代性能提升太慢。算力和运算数据量每年都在指数级增加,然而摩尔定律已经接近于到极限,每代芯片只有10-20%的性能提升。二、冯诺依曼架构的算力已经被内存墙所限制,只有解决内存墙问题才能进一步提高算力。万物互联+的人工智能的时代已经到来。由于传输延迟或数据安全考虑,很多数据处理及推理运算将在端侧发生。通用性计算芯片在服务特定AI算法方面并不具备性价比优势,为AI定制的芯片将成为人工智能产业链条上的底层核心技术。存内计算作为创新性极强的芯片架构形式,由于突破了困扰业界多年的存储墙问题,且与深度学习网络运算模型中的基本算子高度契合,使得基于存内计算架构的芯片相比于市场已有的AI加速芯片,在计算效率(TOPS/Watt)方面有数量级上的提升。在智能时代里,从可穿戴到自动驾驶,功耗约束下场景里的计算效率都是永恒的主题,存内计算是解放算力、提升能效比最强有力的武器之一。而且与其他低功耗计算,如低电压亚阈值数字逻辑ASIC、神经模态(Neuromorphics)计算和模拟计算比较,存内计算的优势也尽显。低功耗亚阈值计算是对现有逻辑计算的功耗优化,一般能效可以提升2-4倍,但是算力相应降低,只能进行针对性的优化。而存内计算是新型的运算架构,做的是二维和三维矩阵运算,能效和算力可以提高100-1000倍。神经模态运算是为类脑算法而设计的芯片,有不同的实现方式,如模拟计算、数字计算、无时钟计算、或者存算一体的实现方式。后摩尔时代下,无法通过工艺的提升来优化整体算力,异构计算和新架构变得更为重要。存储介质SRAM、DRAM和Flash,SRAM在5nm上制造,DRAM和Flash可在10-20nm工艺上制造。密度方面,Flash最高,其次是DRAM,再次是SRAM。在电路设计难度上,存内计算,DRAM > SRAM > Flash 。SRAM和DRAM更难设计,它们是易失性存储器,工艺偏差会大幅度增加模拟计算的设计难度,尤其是当容量增大到可实用的MB以上,目前市面上还没有SRAM和DRAM的存内计算产品;Flash是非易失存储器,他的状态是连续可编程的,可以通过编程等方式来校准工艺偏差,从而提高精度。而近存计算的设计相对简单,可采用成熟的存储器技术和逻辑电路设计技术。存算一体的几个方向:通用近存计算架构, SRAM存算一体,RRAM/PCM/Flash多值存算一体,RRAM/PCM/MRAM二值存算一体。Flash、SRAM、RRAM和MRAM。Flash是密度最高的存储介质,Flash的单个单元可以存储的bit数最高(8-bit)一,SRAM的速度是所有memory类型中最快的,且没有写次数的限制,对于追求快响应的场景几乎是必选。二,SRAM可以向先进制程兼容,从而达到更高的能效比,更高的面效比等。三,苹芯现阶段的研究工作可大幅提高SRAM相关计算精度,从而降低了对相关上层算法补偿的要求。四,相对新型存储器,SRAM的工艺成熟度较高,可以相对较快的实现技术落地与量产。有算力的存储还是冯诺依曼架构下的存储器,做一些加密类和低算力计算,从而节省存储与CPU之间的带宽。存内计算是非冯诺依曼架构,它通过存储单元完成二维和三维矩阵运算(这类运算占据了AI中95%以上的算力),提供大算力,它存储数据是为了高效完成运算,本质不是做存储器。存内计算产品形式:单芯片和Chiplet。存内计算的发展类似于存储器的发展路径,随着设计能力不断提升,工艺不断成熟、算力每年可以有5-10倍提升,能效每年会有1-2倍提升,成本每年会有30-50%下降,未来的存算产品可以用在大多数AI应用场景,因为它成本算力能效都可以做到最优。数据计算,数据搬运。数据采集,传输,处理。但是不同于传统的数字电路计算,存内计算是用模拟电路做计算。伴随SSD产品(由NAND flash构成)的兴起,因嵌入了ARM核和DRAM,NAND flash、ARM和DRAM、控制器和内部总线实际上构成了一个计算机系统,这让存储产品本身就可以做计算任务,因此也为存算一体提供了发展平台。国内就有诸多初创公司在探索这个方向,尤其是由于AI的引入,各种数据的Key-Value只要直接存储在硬盘里,AI需要的数据就可以自动完成分类,可以显著提升非关系数据库的性能。计算和存储摩尔定律。存储器更有这样的问题。因为存储器在摩尔定律早的时候就已经接近终结,现在工艺一般在15~17纳米,像flash一般是20~40纳米之间,比起逻辑芯片,工艺更老,这也导致存储器的速度在过去十多年基本很难提升。另外,存储器根据摩尔定律发展存储密度越来越大,存储容量越来越大,导致当容量更大的时候,把一个数从存储器找出来所需消耗的时间和功耗在增加。存储器的带宽速度没有增加,CPU的速度越来越快,核数越来越多,这也导致CPU每个核能够使用的存储资源实际上越来越少,导致了存储墙或内存墙问题。内存墙是说在数据量很大的时候,做运算大部分时间都消耗在存储器和处理器之间做数据搬运,运算速度受到存储器带宽的影响,没法再进一步提升,不管处理器多快,存储器的速度没法再进一步提升。另外一个问题是数据搬运的功耗过大。一个28纳米工艺产品计算加法乘法,32比特数加法的功耗是0.1pJ,乘法是3.1pJ,但把64比特数从一个8kb的SRAM中拿出来,消耗的功耗是10pJ,从一个1M的存储里拿出一个数消耗的功耗是100pJ。存储器容量越来越大,从中间取出一个数的功耗也越来越大,基本是运算的百倍,这也导致了整个运算速度的瓶颈。存储墙瓶颈实际跟冯诺伊曼架构有关,随着计算速度越来越快,存储速度没有跟上,导致数据搬运消耗的时间和功耗都成为整个运算的一个瓶颈。内存计算过去十年发展速度很快,有几个方向。一种是3D Xpoint新型存储器,将固态硬盘和内存的特点结合,是一种介于这两个中间的存储器,它的密度容量比内存大,速度比内存慢,但比固态硬盘快。第二种是近内存计算,通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度。第三种是近存储计算,就是如果只做一些简单的运算,可以在存储边加一个计算单元,不占用CPU负载。还有一种是存算一体。其他的几种方式还是冯诺依曼架构,存算一体是另外一种方式,直接把存储单元变成了运算单元,利用了存储器中的模拟计算。存算一体可以理解为一种计算器,一个类似于CPU的计算芯片,实际上是用存储器去完成计算。存储器里有很多计算单元,比如3D Flash里有几十甚至上万亿的存储单元,存算一体就是把这些存储单元都变成运算单元,这样存储器的容量越大可以去做的运算也越多,所以衡量存算一体的算力是看它的存储器容量多大。存算一体的运算方式有两种:一种是数字计算,一种是模拟计算。数字计算的优点是跟逻辑工艺一起往下做,可以在5纳米未来的3纳米工艺上使用,工艺非常先进速度可以很快。另一种多比特的模拟运算,利用存储器存储介质本身可以存储多值这样一个模拟特性去做,比如基于Flash、基于PRAM、忆阻器、PCRAM的相变存储器,它的特点是存储密度大同时并行度高。目前产业界最多的存算一体发展方向是把存储单元变成一个做乘法加法运算的东西,相当于有多少个存储单元就可以做多少个乘法加法运算。应用目前,存算一体芯片主要用来做基于人工智能的运算。人工智能的特点是向量和矩阵的计算量占比非常大,像可穿戴设备、手机、VR眼镜、智能驾驶以及数据中心,不同的场景需要算力不一样。我们用存储容量和算力区分了一下不同场景的需要。一般一个2M的存储就可以提供足够多的算法一定算力完成向量矩阵运算,比当前的芯片效率要高出50~100倍左右,用于可穿戴设备功耗可以很低,长待机。PC和移动终端需要大概32M、64M的存储空间存储算法,算力可以到16Tops~32Tops,实时性可以很高,另外在移动终端功耗限制下,可以很低功耗的去完成视觉信号处理这些AI算法。智能眼镜对低功耗需求很强,它的电池很小散热很差,但又需要很多人工智能方法进行交互,包括手势识别、语音识别、肌肉肌电的识别、眼动识别等,对AI的算力需求很高,基本需要到100多兆存储空间,同时算力也很大。智能自动驾驶、数据中心需要的计算算力和存储就更大,同时对芯片的可靠性要求要高很多,

作者|王嘉攀 司马洁
本报告由势乘资本和光锥智能联合发布
在后摩尔时代,存算一体作为可10倍提升单位功耗下算力的颠覆性技术之一,其底层原理、应用前景及可实现性如何?当前的产业现状及行业创新创业机遇如何?本文从底层技术原理、产业需求变革说起,全面梳理存算一体产业创新浪潮与投资机遇图景:
一、核心判断及观点
1.存算一体属于芯片的底层架构创新,阶段非常早期,其产业链空白度及机遇挑战不亚于20年前从头开始发展GPU。
2.相对于量子计算、光子芯片、非硅基芯片等前沿算力方案,受益于介质等技术成熟,存算一体芯片更有希望在3-5年内广泛落地。
3.存算一体领域属于少有的国内外同时起步的芯片领域,中国更有希望做出引领世界的产品。
4.当前产业界及投资方认为产业链上下游仍不完善,仍需5-10年才能投入使用,但这也意味着更为全面的创新机遇。5.当前行业玩家竞争主要集中在不同的存储介质,长期来看存储介质路线并无差别,在设计方法论、测试、量产、软件、场景选择等方面全方位竞争是长期关键。6.第一款、第二款芯片场景的选择非常重要,率先取得商业化验证,打造爆款是未来三年胜出关键。7.作为新兴技术,产业人才主要集中于学界而非企业界,因此院校技术、人才转化资源非常关键。8.除创业公司外,大学院校及巨头也在同步做研发,长期来看,真正强劲的竞争对手可能是观望中的巨头。9.存算一体芯片相对于CPU/GPU等主流算力并非是取代关系,未来将会成为主流算力的重要补充,更侧重于高能效的算力。
二、存算一体技术的背景及原理
在全球数据量呈指数级暴涨,算力相对于AI运算供不应求的现状下,存算一体技术主要解决了高算力带来的高能耗成本矛盾问题,有望实现降低一个数量级的单位算力能耗,在功耗敏感的百亿级AIoT设备上、高能耗的数据中心、自动驾驶等领域有望发挥其低功耗、低时延、高算力密度等优势。
在现有的成熟架构及工艺下,当前依靠制程技术进步,增加晶体管密度提升算力、降低功耗已逐步趋于物理极限,且成本逐步提高;
在冯诺依曼架构下,由于数据存储与运算单元分离,算力提升受限,功耗增加:
应对存储单元与计算单元分离的现状,存算一体技术思路应运而生,在器件单元上存储与计算单元融合,通过底层的架构创新解决冯诺依曼架构的固有瓶颈:
由于存储介质技术在近年来不断突破,此外AIoT时代对于设备的智能化、低功耗、体积小、低时延等特性提出了天然要求(而现有的技术路线未能很好的满足需求),在技术突破叠加市场需求的双重作用力下,存算一体技术当前已到达产业化爆发拐点:
相对于五十多年前CPU的诞生以及二十多年前GPU的诞生,当前存算一体技术仍处于早期阶段,未来依靠其更好的并行度、更好的能效比等特性,有望成为智能化时代的主流算力平台之一,与现有的算力解决方案互为补充。伴随架构创新的巨大机遇和算力需求的变化,在存算一体领域有希望孕育下一个千亿美元级的芯片巨头,当前我国存算一体技术研发与国外处于齐头并进的阶段,我国存算一体技术及产业有望引领世界。
存算一体当前有一些相似的称呼(如近存计算),其内在结构差别如下:
近存计算:不改变计算单元和存储单元本身设计功能,通过采用先进的封装方式及合理的硬件布局和结构优化,增强二者间通信宽带,增大传输速率;本质上属于冯诺依曼架构,通过拉近存储单元和计算单元的距离,对“存储墙”进行优化。
内存储计算:存储单元与计算单元完全融合,无独立计算单元,通过存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作;其设计难度更高,未来可提升的空间也更大,但需要获得代工厂许可支持。本文所探讨是存算一体/存内计算企业主要集中于这类。
三、存储介质技术路线的选择
分析存算一体,当前存算一体芯片研发企业/机构在成熟介质上的切入点集中在SRAM、Nor-Flash和DRAM等;部分学术机构选择切入RRAM等新型介质研发。
从存储介质的分类来讲,分为易失性存储器和非易失性存储器。
上图引自方正证券研报
当前不同的存储介质在计算机架构中均承担着必要的工作任务,其中SRAM距离CPU最近,响应时间最快,存储容量较小;
其次分别是DRAM、NAND-Flash等介质,在传输速率、存储容量上各有其特点:
1.易失性存储器:即在正常关闭系统或者突然性、意外性关闭系统的时候,数据会丢失,成本高。
DRAM:内存条(一个存储单元仅需一个晶体管和一个小电容),占据58%的半导体存储市场份额,当前已突破20nm,往10nm过渡。
SRAM:CPU缓存(一个存储单元需要4-6个晶体管),特点是速度最快(纳秒级),不需要一直充电。
2.非易失性存储器:在上述断电情况下数据不会丢失,成本低。
NAND Flash:如固态硬盘、U盘和内存;容量大,但读写速度极低。
NOR Flash:代码型内存,主要存一些指令;如机顶盒、网关、路由器中嵌入代码的存储;容量较小且写入数据极低,但读速较快。
长期来看,存算一体芯片产品化的快速发展离不开新型存储介质成熟度提升的助推,以下为不同新型存储介质的原理比较:
长期来看,RRAM(忆阻器)是除了电阻器、电容器、电感器之外的一大新发现;其与生物神经突触有着非常类似的特性,因此也被成为电子突触器件。
以下为新型存储介质的性能比较:
以下为不同存储介质的存储原理及客观性能比较;其中成熟的存储介质如SRAM、DRAM、Flash基于电荷的移动完成数据存储;新型存储介质与RRAM、MRAM等基于电阻大小的变化完成数据存储功能。
除介质以外,选择数字计算与模拟计算也是影响存算一体芯片性能的因素之一;其中数字计算精度更高。
四、存算一体应用场景
1.存算一体架构与深度学习网络运算模型高度重合。
通用性计算芯片在服务特定AI算法方面并不具备性价比优势,为AI定制的芯片将成为人工智能产业链条上的底层核心技术。
存内计算作为创新芯片架构形式,突破了存储墙问题,且其本质是乘积累加运算(Multiply Accumulate, MAC)操作加快的体现,与深度学习网络运算模型中的基本算子高度契合,使得基于存内计算架构的芯片相比于市场已有的AI加速芯片,在计算效率(TOPS/W)方面有数量级上的提升。
智能时代里,从可穿戴到自动驾驶,功耗约束下场景里的计算效率都是永恒的主题,存内计算是解放算力、提升能效比最强有力的武器之一。
资料来源:《先进存算一体芯片设计》、知乎陈巍探芯
2.存算一体芯片适用的行业/场景
(1)小算力场景:边缘侧对成本、功耗、时延、开发难度非常敏感
中早期的存算一体芯片算力较小,从小算力1TOPS开始往上走,解决的是音频类、健康类及低功耗视觉终端侧应用场景,AI落地的芯片性能及功耗问题。
我们预测从边缘端接入的智能设备的市场体量将快速增长,智能产品覆盖面积越来越大,产品形态的多样性将迎来爆发式的增长。可以预见,由于传输延迟或数据安全考虑,很多数据处理及推理运算将在端侧发生。
(2)大算力场景:GPU在算力和能效上都无法同时与专用加速芯片竞争
目前云计算算力市场,GPU的单一架构已经不能适应不同AI计算场景的算法离散化特点,如在图像、推荐、NLP领域有各自的主流算法架构。随着存算一体芯片算力不断提升,使用范围逐渐扩展到大算力应用领域。针对大算力场景>100TOPS,在无人车、泛机器人、智能驾驶,云计算领域提供高性能大算力和高性价比的产品。存算技术可支持成熟制程下匹配传统结构+高级节点才能提供的计算能力,节约制造成本,绕过工艺封锁等问题。自动驾驶要求很高,算力、可靠性、稳定性需要同时达标,需要数年,目前仍有工艺挑战和迭代,现在也还做不到数据中心的水平。
3.存算一体的其他延伸应用:感存算一体、类脑计算
存算一体作为基础原理,同样也衍生了如感存算一体、类脑计算等创新技术方向:
(1)感存算一体:
传统芯片,需要先利用传感器芯片收集信息、存储芯片进行存储、利用计算芯片来处理数据。感存算一体集传感、储存和运算为一体,在存算一体的基础上增加了传感,三位合一提高整体效率。在传感器自身包含的AI存算一体芯片上运算,来实现零延时和超低功耗的智能处理。研究成果来看,包括压力、光学、气体三大类;从当前应用方向来看,包括实现更高效的机器视觉和类脑计算。(2)类脑计算:类脑计算又被称为神经形态计算,是借鉴生物神经系统信息处理模式和结构的计算理论、体系结构、芯片设计以及应用模型与算法的总称。试图借鉴人脑的物理结构和工作特点,让计算机完成特定计算任务,从而高速处理信息,属于大算力高能效领域。存算一体天然是将存储和计算结合在一起的技术,天然适合应用在类脑计算领域,并成为类脑计算的关键技术基石。
五、产业现状与未来趋势
1.存算一体技术当前面临的挑战:存算一体技术是一门非常复杂的综合性创新,产业还算不上成熟,在产业链方面仍旧存在上游支撑不足,下游应用不匹配的诸多挑战,但诸多的挑战同时也构成了当前存算一体创新未来可构筑的综合性壁垒。
2.存算一体技术发展趋势:更高精度、更高算力、更高能效。
3.当前产业面临的人才及生态问题:(1)作为一个新领域,存算一体芯片复合型人才稀缺,人才更多在学术界。完成存算一体芯片的产品化开发,需同时具备较强的学术原创能力(存算一体的架构和编译器设计、存算相关的量化算法开发等)及工程实践能力(场景理解能力、芯片落地能力)。(2)从上游到下游的生态不完整,既是挑战也是机遇。存算一体芯片的大规模落地需与芯片厂商、软件工具厂商以及应用集成厂商等产业生态合作伙伴的大力协同研发和推广应用。需有一套方便、可用的工具链和软件,让采购方迁移成本低。兼容现有的软件生态,让采购方用起来“无感”,如可直接利用现有GPU训练软件框架。引导采购方逐步切入专用工具链进行模型适配、压缩等,更好利用存算一体的优势,逐步建立生态。
六、行业相关企业分析
当前我国存算一体芯片创新企业与海外创新企业属于齐头并进阶段,共同探索存算一体技术产业化落地及应用场景,在AIoT时代巨大的应用场景下,未来我国存算一体领域有望产生引领世界的创新企业。
国内存算一体芯片企业有:苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等创新企业;国外有如Mythic、Syntiant等公司。以下为国内外部分存算一体企业简介:
附录:赛道内主要玩家的部分产品进展及性能
存算一体,是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。随着近几年云计算和人工智能(AI)应用的发展,面对计算中心的数据洪流,数据搬运慢、搬运能耗大等问题成为了计算的关键瓶颈。在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。结果长期下来,不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度。在传统计算机的设定里,存储模块是为计算服务的,因此设计上会考虑存储与计算的分离与优先级。但是如今,存储和计算不得不整体考虑,以最佳的配合方式为数据采集、传输和处理服务。这里面,存储与计算的再分配过程就会面临各种问题,而它们主要体现为存储墙、带宽墙和功耗墙问题。存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。除了用于AI计算外,存算技术也可用于感存算一体芯片和类脑芯片,代表了未来主流的大数据计算芯片架构。存算一体技术的核心优势包括:1.减少不必要的数据搬运。(降低能耗至1/10~1/100)2.使用存储单元参与逻辑计算提升算力。(等效于在面积不变的情况下规模化增加计算核心数)存算一体的市场驱动力目前,存算一体的商业驱动力主要源于AI和元宇宙算力的需求、并行计算在深度学习的广泛应用。存算一体被多家技术趋势研究机构确定为今后的科技趋势。存算一体是突破AI算力瓶颈和大数据的关键技术。因为利用存算一体技术,设备性能不仅能够得到提升,其成本也能够大幅降低。通过使用存算一体技术,可将带AI计算的中大量乘加计算的权重部分存在存储单元中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。由于大量乘加的卷积运算是深度学习算法中的核心组成部分,因此存内计算和存内逻辑非常适合人工智能的深度神经网络应用和基于AI的大数据技术。集传感、储存和运算为一体构建感存算一体架构,解决冯诺依曼架构的数据搬运的功耗瓶颈,同时与传感结合提高整体效率。在传感器自身包含的AI存算一体芯片上运算,来实现零延时和超低功耗的智能视觉处理能力。基于SRAM模数混合的视觉应用存内计算神经拟态芯片仅在检测到有意义的时间才会进行处理,大幅降低能耗。存算一体芯片适用于各类人工智能场景和元宇宙计算,如可穿戴设备、移动终端、智能驾驶、数据中心等。上市公司中,存算一体走在最前列的是恒烁股份。2019年公司研发的存算一体AI推理芯片(恒芯1号)流片和系统演示成功,目前在研CiNORV2芯片(恒芯2号)。哪天爆出成功的消息,就是巨大的发射器。$恒烁股份(SH688416)$ $兆易创新(SH603986)$

我要回帖

更多关于 人的智能可以转换为机器的智能吗 的文章