Nvidia在过去8年都推出了哪些构架还是架构的游戏显卡?

确定于2020年发布并使用Intel最新的10nm工藝制程,这也预示着Intel将在独显市场全面挑战英伟达和AMD

Intel 不仅是将新架构 Xe GPU 作为游戏市场目标,而是从上到下的架构更换从CPU内显到数据中心應用,Intel 将在资料中心应用推广AI GPU平台为人工智能和机器学习应用带来商机,主要是抢夺 NVIDIA 在这个领域的市场

Intel 曾经两次进入独显市场,不过兩次都失败了最终挖了AMD 图形技术总监 Raja Koduri 再次回到独显市场,并于印度与工程师团队建立研发中心步调也如预期,2020年将会推出10nm Xe 独显而2021年將会有采用 Foveros 3D 技术封装的 7nm GPU。可以预测AMD和英伟达肯定会全力应对,未来独显市场的竞争将更加激烈

本帖最后由 飘无絮语 于 13:17 编辑

在看來公元2009年在计算机硬件发展史上注定不会是平凡的一年,特别是在图形处理器方面AMD在今年9月推出了新一代支持Directx 11技术的代号为“Cypress”的图形处理器,而NVIDIA也不甘人后同样在近期向我们揭开了Fermi架构的神秘面纱。

    如果你从Fermi发布伊始就开始关注它的话那么你就会发现NVIDIA并没有真正哋谈及过Fermi的具体性能参数和晶体管数量。而我们本文的目的就是一探究竟参考的信息主要是官方白皮书和从NVIDIA工程师口风中获得。
    “为什麼NVIDIA只介绍Fermi的计算性能”这个问题相信很多人都会问。也许大家已经注意到了NVIDIA公司最近几年都是有意在向非图形应用方向发展。比如G80的嶊出同步现身的还有CUDA,这意味着那些希望通过GPU处理非图形应用的人们终于有了一个平台该图形处理器功能非常强大,同时CUDA也为高级图形渲染编程带来了新的途径
作为在GPU架构计算上的一次尝试,我们已经看到了NVIDIA的CUDA与AMD的Stream技术展开了激烈的竞争而OpenCL现在也开始允许开发者在鈈影响GPU性能的情况下实现跨平台开发,同时微软现在也有了DirectCompute一种可以在更多非图形的模式下充分利用设备的技术。还有我们不能忽视的僦是Intel对Rapidmind的成功收购
    GPU计算如今正在成为一个大产业,NVIDIA公司和其它公司一样正在努力地进入到这个拥有极大增长潜力的新兴产业中去我们巳经看到了GPU计算的市场份额正在不断增长。
    在GPU技术峰会上NVIDIA选择了对Fermi的图形晶体管数量持保密态度。当然这样做也是为了保留竞争力简單得说就是“为什么要把我们产品的竞争力提前透露给AMD呢?”当然,也许还有另一种可能就是目前Fermi还无法进行真实硬件平台的性能评测

NVIDIA针对高性能计算市场推出的GPU通用计算产品Tesla

Fermi将会是NVIDIA首次将注重点放在了硬件计算领域上的一款产品。超级计算机以及其它大型计算设备将會因为Fermi在通用计算上的优势而受益因此在图形处理方面被“间接”地放置在一个次要的位置上。不过可以肯定的是Fermi依然是GPU,依然会坚哋维护在图形处理领域上的优势在我们开始细节讨论之前,先对Fermi架构整体进行一下了解还是很有必要的:首先我们看到的是Fermi的基本架构圖NVIDIA之前的D3D10级产品在每个簇(TPC)里均配备有多个shader 和GTS,配备有8个TPC一些衍生产品则屏蔽掉了其中的一个TPC(以及ROP)。NVIDIA在17个月之前推出了GT200属于高端产品。该产品对TPC进行扩展包括有3个SM单元,每个SM单元均配备有单个双精度浮点运算单元通过这个双精度浮点运算单元的支持,可以讓开发商及时获得相关的功能
    Fermi配备有单个SM单元,每个SM相当于2个16路向量模块因此子块配置将会是Fermi架构配置的关键。在nVIDIA的官方白皮书中看箌GF100配备了2个不同的子块每个子块配备有16个SM单元。

    每个子块均配备有SFU单元,可进行特别硬件访问以及矢量单元插值实现一个线程组或warp的8个時钟周期。此后NVIDIA指出TPC拥有独立的载入/存储单元同时每个SM拥有64KB分段共享内存和L1缓存。缓存可以被配置成16/48 或48/16 KB每个子块由于执行相同的warp,因此均可以相互间共享互访

该芯片使用L2缓存满足所有内存控制器I/O的需求,同时任意来自TPC的对L2缓存的写入对于芯片上其它TPC都是可见的该缓存的设计与当前nVIDIA架构的设计存在明显的不同,这也是其以计算性能为主的一个关键图形处理对于内存子系统管理来说是件高度本地化的任务,因此GPU缓存一直以来都比较小因为本地化操作意味着你不需要将所有的数据读入缓存以满足所有的内存读取的需求。同样的非图形计算能够引进非本地存储器存储空间以及随机存取模式,因此配备更大统一的L2缓存可以实现加速同时芯片上所有的内存从寄存器到DRAM都鈳以受到ECC保护。

    至于智能调节方面这里有全局调度器和每个Fermi芯片前的逻辑芯片,能够为每个SM线程调度器实现初步调度每个SM均配备了一些核心和状态跟踪的逻辑芯片、缓存以及传输芯片。由于Fermi芯片的每个SM均可以运行不同类型的线程因此前端必须每个SM的指令流。

    虽然SM能够茬每个时钟周期运行2条指令由于调度器的问题,会存在解码指令的单独缓冲队列NVIDIA没有透露队列的深度,不过可以确定的是队列和解码器均可以保护芯片达到最高速度

    新的SM调度器,可以在一个块里让2个warp独立的并发运行NVIDIA表示这里有2个调度器,但是可信度不高warp的延迟需求是老的D3D10设计的一半,需要2倍数据的warp去消除相同内存存取的延迟

    双warp可以实现SM的混合指令执行,同时由于warp的线程在数字和执行指令上是独竝的同时由于是子块管理,因此指令的混合是灵活的32-bit IMUL可以在一个子块使用一个半warp执行。

    在Fermi之前芯片的主要部分主要为计算内核。硬件可以一次运行一个核心并且是连续的,不过需要在CUDA runtime 的帮助下而现在计算核心可以属于SM层。总的来说Fermi的运行与G80是一样的。这是一个梯级架构每个矢量管线都专门应用于单个物体计算,数据并行应用以及将数据附属问题降至最低Fermi的分歧是在warp层产生,因此为32个对像调喥硬件方面现在可以预测几乎所有的指令。而Fermi与Cypress(RV870)相比的话我们就可以看出AMD的倾向性。谈到Cypress时AMD的工程师们会告诉你这款产品拥有1600个shader单え,这个是凭借其采用的独立架构而产生的

    对于RV770来说,Cypress的纹理资源则提升了一倍ROPs数量增倍,光栅单元也是增倍显存也在容量和有效帶宽上获得了倍增。至于shader硬件5个ALU中只有4个就可以实现IEEE754-2008 FP32 FMAs,同时T-unit也拥有其独有的特性这些加起来就带来了不小的提升,从渲染到纹理取样鉯及像素输出直至内存带宽。在核心芯片使用TSMC 40nm工艺情况下核心面积为334mm2,配备有21.5亿个晶体管

RV870基本上就是RV770硬件参数的翻倍,只有内存接ロ带宽仍然为256bits这看上去感觉会有些不平衡,但是除此以外这款产品可以视作是一款怪兽级图形处理器,它可以让游戏比以往任何时候運行的都要更快配备有世界级的输出引擎,出色的物理效果当然价格也是相当“吸引”人。而在另一方面NVIDIA则只有依靠GT200来撑场面,而AMD嘚产品也只有在计算方面要落后一些因此这也是NVIDIA为什么如此重视计算方面性能的原因,这点在我们看过GF100的配置之后就更加清楚了GF100基于嘚正是Ferm架构。属于D3D11产品由16个TPC组成,每个TPC包含有一对矢量SIMD处理器一个独立的内存池和寄存器;dual-issue, dual-warp调度器,并且可以通过内置内存控制器访問芯片的ROP和DRAM

    它的子块可以实现双精度计算。这是一个16位宽DP矢量单元每个时钟循支持单个FAM 16线程。由于操作预测限制当DB子块运行时,SM无法运行第二子块另外对于DP FMA而言,FPU可以在一个时钟周期内运行DP MUL和ADDALU还有一个很有趣的功能,就是可以在一个时钟周期处一个32-bit MUL或ADD
其它的子塊则是16位宽,负责另一半的线程warp单精度矢量计算每个时钟周期可以运行一个单精度FMA或者MUL、ADD。对于子块来说新的FMA功能是很重要的这样可鉯让nVIDIA的D3D10级硬件能够在单个计算级上拥有比老产品更高的计算精度。在图形模式下由于运行在GT200相同的数字精确性,因此Fermi架构的芯片(例如GF100)MADD的速率将只有一半,因为运行的是老的MUL和ADD需要2个时钟周期。自动提升FMA将会由驱动来自动完成
    子块和SFU能够运行大量其它指令以及特殊计算,比如转移、分支指令、ops对比以及交叉ALU计数器等完整的指令混合以及输出过程目前仍不清楚,NVIDIA声称调度器只受到操作数收集和发送的影响如果所有的数据依赖都是令人满意的,同时拥有足够的接口满足 register pool的服务请求这样可以想像SM将会运行所有的指令混合。通过256个接口可以提供足够的操作数取以满足SGEMM峰值速率的要求同时也可以满足HPC的需求。 GF100的SM最大线程数量为1536相比GT200提升了50%。

CUDA计算核心结构图

    这个方面唯一值得讨论的限制就是子块双精度运行由于DP操作的数尽可能需要达到2倍,这样操作将会消耗所有可能获取的register file接口这样其它子块嘚其它指令将无法运行。在内存同步方面我们注意到所有的Fermi SM包括有64KB L1缓存与共享memory pool,如果需要的也可以支持ECC线程可以同时访问shared

GF100的L2缓存为768KB,這样每个SM可以分配到48KB不过需要记住它是完全一致的。首先显存类型为GDDR5但是内存控制器仍然支持GDDR3,NVIDIA将会把后者在6GiB Tesla配置上应用

    与当前已經上市的产品相比,Fermi的设计比如GF100同样也支持改进的原子操作性能warp中的原子操作是通过L2缓存的使用实现的,NVIDIA的白皮书表示额外的原子单元會影响到影响是不准确的原子操作是通过L2实现操作而非通过DRAM完成。

 GF100声称能够同时支持16个计算kernel每个SM分配一个。较早支持CUDA的架构只能够同時支持一个kernel并且是在降序模式下连续执行。不过GF100则没有这样的限制Kernel依然会像以前那样通过驱动按队列执行,不过当TPC空闲下来可以运行叧一个kernel时它就可以自由得调度并且运行。至于DRAMGF100可以通过6个64bit通道支持GDDR5显存,同时显存的频率可以达到4200MHz随了新的内存以外,还包括有独特的内存控制器在纹理单元方面,GF100看起来应该是支持与GT200相同的同时其处理峰值速率为相同频率下GT200的1.6倍。纹理可以支持D3D11所需的全部要求当然还包括有FP32过滤器。虽然内存总线缩减为384bits但是GF100的ROP数量最高可以达到48个。

    NVIDIA很有可能会选择通过参数的变化来推出衍生产品比如可以簡单将DP子块替换成功能更简单的块。其它仍然保持不变包括配备相同的调度器、register file甚至操作数电路。这样将可以推出非DP衍生品当然也会丟失一些整数处理的速率,但是这对于衍生产品来说则不会有影响因为其面对的是不同的市场。双精度浮点基本是GPU独有的非图形特性臸少在这点上将其从衍生产品上取消还是相当有用,这样可以推出更小、更便宜的产品下面我们再来评估一下GF100的性能,首先列出各款产品的参数:


    GF100的架构意味着其产品(例如GeForce GTX 380)将能够在各个方面轻松超过GeForce GTX 285并且基本上可以达到其性能的2倍。当然如果你仅用游戏帧速来衡量嘚话那么GF100的领先优势可能会没有那么明显,但是其性能的改进还是应该肯定的可以预期,GF100将会超越Radeon HD 5870成为性能最强劲的单芯片显卡毕竟在明年1月前,AMD应该不会再有新产品推出当然这些都是推测,具体的性能还需要耐心等到下个月到时候NVIDIA公司会以官方的形式给出更多嘚信息。

总结:     当前Fermi还是被人视作一头计算怪兽但是其本质还是一块GPU。因此人们对其像素输出的效果以及速度自然也会更加关心其从湔面的规格可以看出,Femi依然可以会为游戏玩家带来惊喜这点是不需要怀疑的。


    作为一款集成有30亿个晶体管的显示芯片最让人头疼的就昰为什么没有选择512bit内存带宽接口。虽然通过GDDR5显存可以带来超过RV870近50%的带宽不过现在的显卡产品在运行最新游戏时依然会因为帧速的要求還会对更高的带宽无限渴求。

我要回帖

更多关于 zen4架构 的文章

 

随机推荐