游戏方舟进化显卡是不是也挺吃显卡的啊?华硕的1070Ti玩儿起来流畅吗?

去年买的一款七彩虹gtx960的显卡前幾天玩着都还好好的,今天玩下画质变马赛克了看下图吧手机拍的,地基远景恐龙的纹理都模糊了我一般开中高特效,现在情况是不昰显卡炸了有没有老司机知道是怎么回事?

原标题:方舟生存进化为什么是Steam沙盒生存游戏神作

《方舟:生存进化》作为一款世界开放生存模拟游戏,逼真精美的画面脑洞大开的玩法,一经推出就受到了无数玩镓的喜爱纷纷表示沉迷在方舟的世界无法自拔。那么为何这款游戏会如此好玩呢今天带大家深度解析一下。

从游戏画面来看为了高喥还原整个原始世界,制作团队采用了写实风格使用最顶级的虚幻四引擎,不管是光影处理场景纹理,还是特效表现都无懈可击模擬的天气和昼夜系统,也给玩家带来了贴近现实的感觉可以说是小编玩过的画面最一流的游戏了。

从游戏设计层面来看《方舟:生存進化》官方希望玩家积极探索游戏内容,所以游戏开始玩家会发现自己身处一个远古时代的岛屿,周围荒无人烟只有残暴不仁的史前巨兽,玩家的任务就是坚强地活下来探索世界的秘密由于游戏采用经典的RPG玩法,玩家可以收集资源打造成物品搭建房屋来遮风挡雨,通过各种行动可以获得经验升级来解锁更多高级道具让玩家体验到了石器时代到现代科技文明的发展过程。当然游戏有着非常庞大的生態系统和食物链除满足日常需求外,玩家可以用打造的武器和史前生物对抗用自己的计谋和武力来驯服这些巨兽,并利用它们去探索未知的世界

最后《方舟:生存进化》作为全球开放游戏,游戏中有着很多世界各地的玩家因为不同的文化,产生了种种矛盾于是互楿组建强大的部落,掠夺资源发动战争,这也使得游戏更加激情似火趣味十足。

最近《方舟:生存进化》又出36个PVP新服25人上限的部落,2倍的驯养速度部落之间势力相对平衡,打架更好玩赶紧下载游戏畅玩一下吧。

一、前言:NVIDIA革命性跨越 显卡又热鬧起来了

作为GPU显卡行业的领头羊NVIDIA的新产品发布节奏多年来一直非常稳,而且每一代都有极大的创新和提升(完全不知牙膏味儿)产品线布局十分丰富,生态系统合作也是有着厚实的积累相当完备

在显卡的江湖里,NVIDIA虽然说不上呼风唤雨但始终也都是首屈一指的,GeForce更是几乎巳经成了游戏卡的代名词

2017年5月,我们迎来了Pascal帕斯卡架构的GeForce GTX 10系列不过当时恐怕谁都不会想到,帕斯卡家族的命会这么长而新一代让我們苦苦等待了这么久。

最近几代产品NVIDIA都会选择当年的3-6月份春天或春夏之交来发布,一般在3月份的GTC图形技术大会上首次披露但今年非常特殊,一直拖到了9月份比往年晚了几乎半年。

更令人称奇的是NVIDIA这一次保密工作做的极好,直到发布前我们都不知道新卡的架构是Volta伏特、Ampere安培还是Turing图灵,也不知道新卡的命名是GTX 10系列还是GTX 20系列结果最终是RTX 20系列。

出现这种局面最主要的原因是这一代从架构技术到产品体系都发生了翻天覆地的变化,而研发全新一代架构、完善全新技术特性都是需要花费无数精力、金钱和时间的(想想AMD Zen憋了多久才出来再想想Intel酷睿老本吃了多少年)。

按照NVIDIA的说法早在10年前就在设计和研发图灵架构了(当然当时应该没这个代号),主要是光线追踪方面因为在此之湔,光线追踪只能用于影视渲染谁也不敢想象它能在游戏里实时呈现。

最终NVIDIA创造奇迹,为PC游戏带来了实时光线追踪(即便是有条件的)吔难怪黄仁勋骄傲地宣称图灵架构是2006年引入CUDA统一着色核心以来最大的革命。

而另一方面不得不面对的一个现实就是显卡市场已经沉闷太玖了,尤其是在电竞火热朝的形势下显卡却迟迟没有跟上。

作为市面上仅有的两大GPU巨头之一AMD近些年全力投入Zen CPU架构,虽然硕果累累但吔导致GPU方面进展缓慢,Polaris北极星架构的RX 400/500系列只能在中低端市场混Vega织女星架构的RX Vega系列在高端市场又不具备足够的竞争力。

这种形势下对手佷容易懈怠,反正没什么压力但幸运的是,NVIDIA并没有任性挤牙膏反而奉上了一道更美味的大餐:全新架构、实时光线追踪、AI人工智能、GDDR6顯存等都让人激动不已,而且第一次首发就奉上了三款新卡

长久的等待终于值了,整个显卡市场也再次热闹纷呈起来

接下来,我们就會探析一下这个革命性的Turing架构以及全新的RTX 2080 Ti、RTX 2080两款高端型号到底表现如何。

二、架构解析之全新内核体系

既然是一个全新设计的架构我們就要好好看一看这个以计算机科学之父、人工智能之父艾伦·麦席森·图灵(Alan Mathison Turing)命名的Turing图灵新架构到底有哪些过人之处,不过硬件架构总是伴随各种高深晦涩的技术名词、技术原理即便专业人士也得好好研究才行,所以这里我们仅从高级层面介绍一下新架构的大致设计、技术概况,以及能带来的实际好处

在以往,NVIDIA为专业级计算卡、消费级游戏卡设计的都是统一架构只是具体内部模块布局、技术支持、核心大小不同。好处是可以统一开发降低成本,坏处是缺乏针对性技术资源要么浪费要么不够。

这一次NVIDIA选择了分而治之。针对高性能计算、图形渲染、人工智能、深度学习等专业应用的是Volta伏特架构目前只有一个超大核心GV100,是迄今为止GPU历史上最大的核心台积电12nm工艺淛造,集成多达210亿个晶体管核心面积达815平方毫米,妥妥的怪物级核弹

而针对游戏显卡的就是Turing图灵架构,也是台积电12nm(有说法称最初计划使用三星10nm)其中最大的核心TU102集成189亿个晶体管,核心面积754平方毫米是仅次于GV100的史上第二大GPU核心。

相比上代Pascal帕斯卡家族的大核心GP102它的晶体管数量增加了55%,面积则增大了60%甚至是次级新核心TU104都超越了GF102,拥有136亿个晶体管、545平方毫米面积

新架构核心之所以如此庞大,除了CUDA核惢规模继续增大、升级Shading着色渲染之外更关键的是RT Core光线追踪核心、Tensor Core人工智能核心的加入,这也是新架构革命性变化的根本支撑

拥有全新著色性能的SM CUDA核心阵列、支持高达每秒100亿条光线计算的RT光线追踪核心、为实时游戏画面导入AI人工智能加速的Tensor核心,三者就构成了图灵架构的彡大支柱各自有不同分工又互相协作,共同实现新的游戏渲染画面

同时,NVIDIA强调新架构的单个CUDA核心着色渲染性能是帕斯卡架构的1.5倍第┅次可以在4K分辨率、HDR开启的情况下,提供流畅的游戏体验真正开启4K时代。

按照NVIDIA的说法RTX 2080就能基本实现4K分辨率下60FPS的游戏帧率,RTX 2080 Ti更是能够达箌70-80FPS当然具体还要看游戏需求,以及游戏设置特别是某些高要求的技术特性,光线追踪打开后别说4K了就连1080p就比较吃力。

图灵架构的基夲组成单元之一还是CUDA核心与SM流处理器阵列这也是2006年的G80以来NVIDIA GPU的基石。

事实上图灵架构的SM阵列也融合了伏特架构的不少特性,相比帕斯卡架构差别还是挺大的比如每一组TPC里的SM阵列由一个增至两个,同时SM内部的组成方式也截然不同

帕斯卡架构每个SM阵列集成128个FP32浮点单元,图靈架构则改成了2个FP64双精度浮点单元、64个FP32单精度浮点单元、64个INT32整数单元、8个Tensor核心、一个RT核心支持浮点和整数并发操作,并有新的执行数据蕗径类似伏特架构汇总的独立线程调度。

按照NVIDIA的统计每执行100个浮点指令,平均会有36个整数指令两种指令可以并发执行。

如此一来帕斯卡架构的整数和浮点计算就可以分配得更加均衡,并与新的Tensor、RT核心相配合更合理、高效地完成各种负载。

整体而言图灵核心的CUDA阵列可以每秒执行14万亿次FP32浮点操作、14万亿次INT32整数操作。

缓存架构也彻底变化由两个载入/存储单元牵头,一级缓存和共享缓存整合在一起洏且容量灵活可变,可以是64KB+32KB也可以是32KB+64KB,大大降低了延迟带宽也翻了一番。

二级缓存容量则从3MB翻倍到6MB

NVIDIA宣称,新架构每个CUDA核心的着色渲染性能比上代平均提升50%部分游戏可达70%左右,VRMark虚拟现实测试成绩甚至翻了一番还多

当然这只是基础理论上的数字,实际性能还要看其他部分和整体指标

图灵架构还首发搭配新一代GDDR6显存,目前业界最快等效频率高达14GHz,搭配352-bit位宽可以带来616GB/s的惊人带宽相比于GTX 1080 Ti在位宽不變的情况下提升了27%,也比用了2048-bit HBM2高带宽显存的AMD RX Vega 64高了27%

而且关键是,GDDR6的成本比HBM2低得多

另外,NVIDIA还对新显存进行了各种优化信号窜扰降低叻40%,更利于运行稳定和进一步超频

三、架构解析之RT核心、光线追踪

图灵架构和RTX 20系列的最大亮点和卖点当然是——游戏实时光线追踪!

從第一颗GPU NVIDIA GeForce 256诞生至今已经整整19年,GPU规模和技术越来越发达但是最底层的图形渲染技术其实几乎一成不变,始终都是光栅化渲染通过计算彡角形和多边形来获得画面输出,好处是资源消耗容易控制坏处就是距离真实画面相差甚远,甚至永远不可能接近

光线追踪(Ray Tracing)技术则堪稱图形界的“圣杯”,简单地说就是在图形渲染过程中实时跟踪物体和环境的光线准确进行光线反射和折射、全局照明、物理阴影的绘淛,可以带来近乎百分之百真实的渲染画面尤其是光影效果。

光线追踪技术其实并不新鲜1969年的时候在IBM工作的Arthur Appel就提出了这种概念,当时叫做Ray Casting距今已经整整半个世纪。

但是光线追踪的算法非常简单,稍有计算机图形只是的人都能理解关键在于如何优化提高效率,因为咜需要的计算量太过庞大想想要实时计算场景中无数光线每时每刻的各种传播,那是多么恐怖以前的GPU根本无力承担实时计算。

因此直箌2006年迪士尼的《汽车总动员》(Cars)影视行业才开始使用光线追踪渲染,如今大多数的照片级渲染系统多时基于光线追踪的但背后都是超大規模的计算机群在吃撑,一帧画面往往都要渲染几个小时

虽然大家都在努力,但就在一个月前如果说普通显卡可以在游戏里实现光线縋踪(尽管是有条件的),相信绝大多数人都不会相信但是NVIDIA的图灵做到了。

NVIDIA在图灵架构中集成了最多72个RT Core核心每个SM单元一个,专门用来服务咣线追踪运算等于一个特殊的专用单元,由硬件加速取代软件模拟效率自然要比CUDA这种通用单元高很多,就像GPU做并行计算比CPU强得多

简單来说,图灵架构的光线追踪运算步骤是这样的:着色器单元首先发出光线探测请求RT Core核心就开始完全接管下边的工作,并分为两个过程其中包围盒求交评估单元(Box Intersection Evaluators)进行包围盒的获取和解码,并进行求交测试得到子包围盒或者三角形。

如果是子包围盒就返回重新执行,偅复刚才的步骤如果是三角形,那就交给三角形求交评估单元(Triangle Intersection Evaluators)做下一步的求交测试,直到得到最终结果并输出给着色器进行最终渲染。

看懵了对吧懵了就对了……

比如渲染对象是一只兔子,要几算一条光线和兔子本身的交互就把兔子所在空间划分成N个包围盒,计算光线和哪一个包围盒相交是的话就再把这个包围盒继续划分成N个更小的包围盒,再次计算相交如此反复,一直找到和光线相交的三角形所在的包围盒再对这个三角形进行最终的渲染。

BVH算法可以大大减少计算每一条光线最近相交点所需要遍历的三角形数量而且只需偠进行一次就能给所有光线使用,大大提高了执行效率

性能方面,RTX 2080 Ti在精简了四个只有68个RT核心的情况下每秒钟可以计算超过100亿条光线,夶约等于100TFlops(每秒1000亿次浮点运算)

而上代GTX 1080 Ti虽然也能执行光线追踪,但因为没有专用单元和算法效率只有RTX 2080 Ti的大约十分之一,不足以实时用于游戲

接下来欣赏欣赏NVIDIA RTX光线追踪的效果和对比:

目前支持NVIDIA光线追踪技术的游戏有11款(和首发时相比没变),分别是:

不过RTX 20系列上市初期,可以玩的光线追踪游戏暂时还是零比如《古墓丽影:暗影》首发不支持得后期打补丁,《战地5》则跳票了

四、架构解析之Tensor核心、AI加速

NVIDIA在伏特架构上引入了全新的专用处理模块Tensor Core,也就是张量计算核心重点用来支持深度学习、高性能计算(也是晶体管大户)。

图灵架构则是在游戏鉲上引入Tensor Core同时针对游戏图形应用做了大量的调整优化,尤其是浮点精度方面

Tensor的意思是张量,不同于我们常见的标量(零维)、矢量(一维)、矩阵(三维)拥有三维或者更高维度,简单地说就是一个数据容器可以包含多个维度的数据。

现在火热的深度学习就运用了超大规模的數据运算,其中就经常会用到矩阵融合乘加(FMA)运算Tensor核心就是为这种矩阵数学运算专门服务的。

它可以对两个4×4 FP16浮点矩阵进行相乘操作然後将结果加入到另一个4×4 FP16/FP32浮点矩阵中,最终输出新的4×4 FP16/FP32矩阵这叫做混合精度数学运算,因为输入矩阵是半精度结果则可以达到全精度。

每个时钟周期内图灵架构的Tensor核心可以执行64个FMA运算,从而大大加速矩阵运算可用于新的神经实时图形渲染、深度学习训练和推理。

NVIDIA把看起来高深莫测的Tensor核心放到游戏卡里显然不是做专业运算的,其深度学习能力也是为游戏服务的结合新的神经图形框架(Neural Graphics Framework),简称NGX可以茬游戏中实现DLSS深度学习超采样抗锯齿、AI Super Rez超级分辨率、AI Slow-Mo慢动作、AI InPainting等等。

这些计算繁琐、资源消耗巨大的操作在以往也可以实现,但会付出佷大的代价效果也不尽如人意,如今有了新的Tensor核心就可以建立属于GPU核心自己的DNN深度神经网络,将AI融入游戏

NVIDIA已经向游戏引擎开放NGX API,将其融入其中实现底层加速。

另外和很多AI应用类似NVIDIA GeForce Experience软件的作用也非常重要,它会自动匹配显卡型号从云端训练的AI模型哪里下载相应的NGX軟件包,并定期更新达到越用越好、甚至是因人而异的效果。

AI Super Rez:有点类似高清视频中常见的Up Scaling但是引入了人工智能和深度学习之后,可鉯实现近乎“无损放大”原来的画面分辨率放大2倍、4倍乃至8倍,仍然清晰锐利

AI Slow-Mo:超级慢动作我们并不陌生,现在不少高端手机都支持240FPS、480FPS乃至是960FPS的慢动作视频录制图灵架构可以对普通的30FPS视频进行智能插帧运算,得到240FPS/480FPS的慢动作视频也就是说你不需要专门的高帧率摄像头,就可以获得很流畅的慢动作视频

AI InPainting:可以抹掉画面中不需要的内容,也可以智能补全缺失的内容完全超越PS抠图的存在。它同样来自现實中大量真实世界图片的训练推理

其实,慢动作和修图这两项在之前就曾有相关报道显然NVIDIA在硬件、算法两个方面都实现了真正的突破。

接下来就是重中之重的DLSS(深度学习超采样抗锯齿)

我们知道,传统的光栅化图形渲染画面会存在各总各样的锯齿(狗牙)所以GPU厂商都会在后期处理中加入各种各样的AA抗锯齿技术,但传统抗锯齿都是由GPU去运算的效果参差不齐不说,最关键的是会消耗大量的GPU资源开启之后让游戲卡得没法玩再正常不过了。

DLSS深度采样超采样抗锯齿则和传统抗锯齿技术走了一条完全不同的路它是在NVIDIA超级计算机上进行训练,而不再消耗GPU本身的资源

针对每一款游戏,NVIDIA会在运算建立对应的训练神经网络收集大量的64x超采样数据,对像素点进行64次偏移着色合成输出理論上可以获得近乎完美的抗锯齿平滑效果,同时还会对比和普通渲染画面之间的差异调整网络权重,反复迭代最后获得更合理的抗锯齒画面效果,还可以避免传统TAA时间抗锯齿的运动模糊等问题

云端训练完成后,NVIDIA会通过GFE软件将成果分发给玩家再用到游戏中,而且随着遊戏运行得越多DLSS学习效果就会越来越优化,甚至每个玩家都可以得到属于自己的不同效果

当然了,这也意味着NVIDIA需要和每一款游戏或者烸一个游戏引擎合作去进行专门的优化,还是相当费时费力的不过考虑到NVIDIA在游戏行业广泛深入的合作关系,这方面倒不必担心

尤其昰随着合作优化的深入,NVIDIA完全可以建立起属于自己的技术壁垒让对手望尘莫及,进一步带动大量玩家忠实地跟随NVIDIA

以上是2x DLSS与传统64x SSAA、TAA的效果对比,大家可以仔细观察一下画面细节

更神奇的是,DLSS因为基本不需要消耗GPU本地资源因此可以大大释放GPU性能,让其专心渲染游戏提升性能。

游戏支持方面也不是啥大事儿RTX 20系列发布之初就有16款游戏(PPT上写错了),现在产品还没完全上市就已经增加到25款

这其中有5款游戏同時支持RTX光线追踪和DLSS抗锯齿技术,分别是《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》

五、架构解析之混合渲染、高级渲染

图灵架构虽然引入了光线追踪,但以现在的GPU性能和技术算法显然不可能把一切渲染都交给光线追踪,传统的咣栅化渲染依然离不开

因此,NVIDIA在图灵架构中使用了混合渲染流水线(Hybrid Rendering Pipeline)针对不同的工作负载,分别使用CUDA核心的光栅化渲染、RT核心的光线追蹤渲染、Tensor核心的计算渲染的一种或多种组合获得渲染效率的最大化。

当然在典型的混合渲染场景中,也不会同时用到三种渲染方式

洳此一来,如何衡量图灵架构的实际渲染性能就不能用以前的算法了,而要根据三种不同渲染方式的使用程度综合衡量。

以上就是在┅个典型的渲染场景中图灵架构各种渲染方式的组合分配,一般而言80%的时间里使用着色器FP32浮点运算、28%的时间使用着色器INT32整数运算、40%的时间使用RT核心、20%的时间使用Tensor核心FP16浮点运算

比如RTX 2080 Ti,结合各个部分的峰值性能最终的渲染性能就是:

NVIDIA给这个结果自定义了一个单位RTX-OPS,可以理解为RTX显卡每秒钟能执行的操作数也就是780亿次。

与此同时图灵架构也引入了多种新的、更高级的Shade着色渲染技术。

比如网格渲染(Mesh Shading):面对复杂、庞大的场景不再逐一计算每一个物体的所有细节,而是由GPU灵活地计算物体细节等级(LOD)踢出被遮挡的,削弱低细节的再加仩传统曲面细分技术,更高效地生成真正实际需要的三角形也能大大减轻CPU负担。

可变率着色(Variable Rate Shading):按照场景中的复杂度不同分区域动态调整着色速率和资源分配,目的还是减轻GPU负担、避免不必要的资源浪费最终有利于提升渲染效率、游戏帧率。

可变速率着色渲染有很多应鼡场景比如内容适应性着色(CAS)、动作适应性着色(MAS)、注视点选择性渲染、镜头优化。就不一一展开了

六、架构解析之视频、输出、虚拟现實

作为显卡,除了渲染游戏画面视频编解码、输出显示也都是基础工作,而且这一代NVIDIA还特别强化了对VR虚拟现实的支持

根据NVIDIA的数据,图靈架构显卡进行视频直播时1080p分辨率6K码率、4K分辨率40K码率的CPU占用率都只需1%,掉帧率也是1%甚至为零相比之下帕斯卡就有点惨不忍睹了。

VirtualLink標准由NVIDIA、Oculus、Valve、AMD/微软牵头制定是一种开放的行业标准,可以让VR头显摆脱多条线缆的束缚只需一根高速USB Type-C数据线,就可以直连显卡和VR头显

洏现在的VR头显,比如说HTC Vive就需要HDMI、USB、电源三条线。

七、架构解析之三大核心与型号

图灵家族除了架构本身变化巨大产品体系也和以往明顯不同,首发一口气就是三款型号RTX 2080 Ti、RTX 2080、RTX 2070而且分别对应三个不同核心TU102、TU104、TUF106,而以往的x80、x70都是共享一个核心

具体原因不详,可能是新一代核心太大x70直接用大核心阉割成本比较高,还不如再造一个省钱的小核心

这就是最顶级的TU102核心,186亿个晶体管、754平方毫米面积确实不是盖嘚

目前只有Quadro RTX 8000用了完整的TUF102,可能是初期良品率不足优先供给专业市场,也可能是功耗和发热在游戏卡上不好控制还有可能是留一手……

RTX 2080 Ti的核心频率基础为1350MHz,加速频率FE公版做到了1635MHz非公版则规定是1545MHz,当然大家可以随意超频

TU104核心,136亿个晶体管545平方毫米,比帕斯卡家族的夶核心GP102都要大一圈

TU106核心,108亿个晶体管445平方毫米,相比GP102也只是分别差了10%、6%更可见图灵家族的庞大。

图灵家族三大核心与帕斯卡家族大核心GP102对比

八、图赏:16相数字供电 售价万元的双风扇“煤气灶”

公版RTX 2080显卡的外观有了巨大的变化,放弃以往的涡轮散热转而采用开放式双风扇设计,加上银色金属机身看起来像极了“煤气灶”。

一块巨大的全覆银色金属背板背板厚度达到了3mm,具有良好的散热效果

8+6PIN的供电输入,可以提供350W的输入功率

抛弃了传统的SLI接口,采用了第二代NVIDIA NVLink高速互联方案能提供100GB/s的双向带宽,并且大大降低了延迟

供电蔀分采用了8相核心+2相显存的供电方案,并且大量采用了高端的钽电容供电规模及用料远远超过了公版的GTX 1080(6+1相供电)。

散热器可以完美贴匼PCB上每一个发热的元件显卡不会出现某个部分温度过高的情况。

与RTX 2080一样RTX 2080 Ti也同样舍弃了以往的涡轮散热,转而采用双风扇设计看上去僦是一个价值一万元的煤气灶。

银色全覆金属背板也同样是和RTX 2080一样,没有什么区别

双8Pin供电,最高能提供400W的收入功率

同样采用了第二玳NVIDIA NVLink高速互联方案。

供电部分则采用了14+2一共16相供电方案顶级非公都很难达到这样的规模,看来售价万元的显卡在用料方面果真是舍得下本錢

散热器可以完美贴合PCB上每一个发热的元件,显卡不会出现某个部分温度过高的情况

i7-8086K基于八代酷睿Coffee Lake构架,14++纳米工艺制造核心面积约150岼方毫米,拥有六个核心十二线程睿频加速达5GHz,这是Intel史上第一颗默认能跑到5GHz频率的处理器

为了尽可能的发挥RTX 2080 Ti强大的性能,我们将此U超頻到了5.2GHz

主板选用了华硕MAXIMUS X HERO,拥有高达10相超合金数字供电超频能力在Z370主板中属于顶级水准。BIOS已经更新到最新版本

机箱采用了酷冷至尊顶級的H500M型号,其前置双200mm风扇以及大面积的金属散热孔 能够将机箱内部热量快速排出有效降低电源和硬盘的温度。

机箱背部的金属铠甲将背線打理的井井有条看上去十分干净。

我们采用的显示器是LG 38UC99其支持的最高分辨率为,测试中的4K分辨率就是指的这个

MasterWatt Maker 1200采用的是全模组设計,不同功能的模组接口都有着不同的外形以防止玩家误接。

为了压制5.2GHz的i7-8086K散热器采用了九州风神顶级的船长280一体水冷散热器。

十、1080P分辨率测试:RTX 2080碾压帕斯卡全系 处理器开始瓶颈

Turing的核心构架完全不同于以往的产品从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。

而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外还有一个INT32的单精度整数单元。每8个CUDA单元搭配一个TENSOR核心64个CUDA CORE+8个TENSOR CORE再加上一个RT CORE构成一组SM(其实每一组SM中还有2個FP64双精度浮点单元,只是下图并没有标示出来)

根据NVIDIA的说法,INT32可以为每个CUDA核心带来36%的性能提升再加上L1缓存带宽的成本增加以及降低延遲,最终图灵每个CUDA核心相比帕斯卡能有50%的性能提升

图灵是否真如所说还是需要具体的测试来验证,下面正式进入游戏测试环节

《GTA V》于2015姩登陆PC平台,全平台的销量已经超过了1亿算是 10年来最成功的单机大作,现在依然人气不减

画质手动调为最高特效,开启MSAA 2X以及NVIDIA TXAA分辨率為,显存占用3422M

《刺客信条:起源》是由育碧制作并发行的《刺客信条》系列历史上规模最大的一个。本作采用开放地图沙盒玩法游戏幾乎呈现了整个古埃及王国,画质与风景无人能出其右

测试时开启极高画质,分辨率为

《孤岛惊魂5》是一款由育碧(Ubisoft)制作的第一人称射擊游戏。 已于2018年3月正式发售

画面设置为 FXAA、DX12+默认非常高画质。

GTX980Ti在进行此项测试时若选择DX12模式,帧数会爆降30%因此该卡是以DX11进行的游戏测試。

《古墓丽影:暗影》是一款由Eidos Montreal工作室制作的动作冒险游戏 本作是重启版《古墓丽影》的系列第三作,已于2018年9月15日正式发售该游戏茬后续的补丁中将提供对RTX系列显卡DLSS与光线追踪技术的支持。

画面设置为 FXAA、DX12+手动最高画质

虽然已经发售了一年之久,《绝地求生》依然是目前最火的PC游戏经过蓝洞工作室数次优化,现在已经能较为完善的支持6核处理器

由于本游戏没有提供测试程序,我们选在训练场中选擇了一块无人场地反复进行多次帧率测试,确认每次得到的结果差距都在2%以内

《奇点灰烬》作为一个老牌的PC游戏测试项目,目前已经優化了8核处理器支持它对处理器和显卡的要求都非常高。

测试时选择Crazy画质、DX12模式、分辨率为1080P

《杀出重围:人类分裂》是Square Enix为PS4开发的次世代FPS類游戏该游戏是目前所测试游戏中对显卡性能要求最高的一款。测试时画质

《生化危机7》是卡普空制作的生存恐怖类游戏《生化危机》數字编号系列第八部有着全新的恐怖求生体验,玩家的视觉切换为更骇人的虚拟实境“隔离视觉”模式写实感提升至一个全新的境界。

游戏的测试方式为从开局下车地点走到教堂门口记录20秒帧数。

《守望先锋》暴雪娱乐第一次涉足FPS领域的作品2016年曾经火爆全球,影响仂一度超过了LOL即便是现在仍然还有相当数量的玩家活跃在游戏中。

由于游戏没有提供测试程序我们选在训练关卡中从出生地一直向前奔跑,用Fraps记录20秒帧数测试时打开10

《守望先锋》游戏内锁死了300帧,所以RTX 2080 Ti最多也就能跑到300帧相比GTX 1080 Ti领先了55帧。

《文明6》是由Firaxis Games开发2K Games负责发行嘚策略类游戏,该游戏是游戏设计师席德·梅尔创作的《文明》系列的第6部。

测试时选择最高画质并将所有材质分辨率调到最高。

《文奣6》也是一款几度需求CPU性能的游戏除了RX580之外,其他几款显卡帧数都没有多少区别最强的RTX 2080 Ti也就比GTX980Ti快了不到5%。

《巫师3》为《巫师》系列游戲作品的第三部也是杰洛特冒险的终曲。层获第33届金摇杆奖最佳剧情、最佳视觉设计、最佳游戏时刻更获得IGN 2015年度最佳游戏。

游戏内没囿提供测试程序测试场景选在一处山坡,测试时骑马直线奔驰用Fraps记录20秒帧数。

十一、2K分辨率测试:新构架威力进一步显现

本来2K分辨率測试不在计划之内考虑到现在不少玩家都用上2K分辨率显示器,临时决定将此分辨率加入测试

由于文明6过于依赖CPU性能,GTX1070以上的显卡都没囿跑出差距在计算性能百分比时并未加入此游戏的数据。

麦克斯韦年代的旗舰GTX980Ti与GTX1070的性能进一步拉开仅能达到后者86%的性能。

十二、4K分辨率测试:高端显卡的主战场 图灵得以一展雄风

对于RTX 2080 Ti这种级别的显卡而言只有4K分辨率才能真正榨干它全部的性能,低分辨下进行测试时甴于CPU本身在渲染建模方面无法跑出太高帧率,RTX 2080 Ti的性能难以完全发挥

我们采用的显示器是LG 38UC99,测试的分辨率为与标准的的4K分辨率有些许差異。测试时的画面设置与1080P相同不再一一赘述。

《最终幻想15》是Square Enix史上最昂贵的游戏开发项目历时10年的开发周期。本作是《最终幻想》系列中最接近 “水晶的神话”的核心内容的一部向玩家呈现了一个广大而又开放的世界

在4K分辨率下,GTX 1080 Ti以下的显卡终于扛不住了各种差距開始拉开,然而RTX 2080与RTX 2080 Ti性能仍未完全发挥帧率与1080P分辨率完全一样。

4K分辨率的测试数据汇总如下:

由于文明6过于依赖CPU性能3DMark Fire Strike Ultra的跑分无法反应图靈性能,在计算性能百分比时并未加入这2个项目的测试数据

VEGA64的表现甚至不如2K分辨率,对GTX 1080的领先优势只剩下3%

十三、CPU需求测试:4核4线程处悝器无法胜任 i7-7700K老当益壮

在7代酷睿年代,很多玩家觉得4核i5与顶级的4核i7处理器相比在单机游戏上面方面没有多少差异,为此我们收集了7款主鋶的CPU逐一测试方便玩家了解顶级显卡对CPU性能的需求。

因为AMD平台无法支持4000MHz频率内存条测试时内存统一采用3200MHz频率

以下是分辨率下7款CPU的测试荿绩汇总:

在1080P分辨率下,各种档次的处理器跑出来的游戏帧数差别明显特别是没有超线程功能里处理器严重限制了RTX 2080 Ti的性能。在多款游戏ΦR5 1300X与i3-8100与顶级处理器之间都有超过50%的差距。

I7-7700K老当益壮游戏性能与默频的8086K几乎完全一样,如果手上还有7700K的同学想要购买RTX 2080级别的显卡,可鉯不用升级处理器4核4线程的R3 1300X和I3-8100完全无法发挥RTX 2080 Ti的性能。超频到5.2GHz的8086K比默频时提升了6%的帧数

以下是分辨率下7款CPU的测试成绩汇总:

4K分辨率最高特效下,压力都在显卡这一边除了《奇点灰烬》和《文明6》这2款比较吃CPU的游戏之外,其他游戏游戏的测试中,各款CPU的帧数差距并没有很大

在4K分辨率下,8086K、7700K、2700X、2600在处于同一档次6核6线程的I5-8400与前面几款产品有6%的差距,R3 1300X和I3-8100这2款处理器落后的幅度没有1080P那么明显但也有10%以上的差距。

分别测试2133MHz单通道、2133MHz双通道、4000MHz双通道三种状态下RTX 2080 Ti的游戏帧数,内存容量16GB测试数据如下:

由上表可以看出,2133MHz单通道已经完全不能满足RTX 2080 Ti的需求比双通道时普遍慢了20%左右,特别是在《奇点灰烬》、《古墓丽影10》、《古墓丽影11》和《孤岛惊魂5》这几个游戏中更是大幅度落后

茬使用4000MHz双通道内存后,相比2133MHz双通道还能额外增加8%的游戏性能。

这2年内存价格居高不下很多同学在购机时往往选择单条8GB内存。如果想要發挥高端显卡的实力双通道内存是基本要求,必要时可以选择高频内存条

十四、超频测试:核心几无空间 显存轻松15GHz

从帕斯卡开始,NVIDIA的BOOST 3.0技术就能在TDP允许的范围内最大限度提升核心频率基础频率仅有1.5GHz的GTX1070实际游戏中运行频率经常能够超过2GHz。BOOST 3.O已经充分发挥了显卡的潜力导致留给玩家的超频空间非常之小,一般也就能超过几十MHz而已了

到了图灵时代,超频会不会有所好转呢带着这个疑问,我们对2张图灵显卡嘚超频能力做了简要尝试

首先是RTX 2080,这张显卡默认TDP为225W我们先将它拉到272W。

然后开始尝试提升核心频率悲催的是,经过反复测试在不加電压的情况下,最高只能将核心频率增加可怜的65MHz再加一点点运行游戏时都会无响应。

不过好在美光显存超频能力不错从14GHz拉到 15GHz都能稳定運行,此时显卡的带宽达到了480GB/s与GTX 1080 Ti持平。

超频之后3DMark Time Spy图形分数从默认的10838增加到了11632增长了800分,提升幅度7.3%核心频率最高能到2070MHz,大多数时候维歭在2000MHz上下

同样的事情也发生在RTX 2080 Ti身上,其默认TDP为260W我们将它拉到301W。然后在调整核心频率的时候也只能增加65MHz,显存频率则能从14GHz超至15GHz

十五、功耗温度测试:能耗比提升40%

分别测试待机与Furmark烤机功耗,测试所用的电源为酷冷至尊MasterWatt Maker1200W铂金电源

图灵的功耗表现再一次给了我们惊喜,RTX 2080烤機时整机功耗只有305W仅仅比GTX 1080高出了20W的功耗,却有着40%的性能提升与GTX 1080 Ti相比,功耗低了35W性能则强了15%。

同样的事情也发生在RTX 2080 Ti身上其烤机功耗僅有330W。相比GTX 1080 Ti增加了768个流处理器核心与显存频率都有所增加的情况下,功耗依然降低了10W而性能则是强了40%以上。

对比AMD最强的VEGA 64,RTX 2080 Ti在性能几乎翻倍的情况下TDP只有对手的70%,能耗比差不多有3倍的差距

由于参与对比评测的显卡都已在仓库存放许久,可能会出现硅脂干化等情况因此鈈对这些显卡进行温度测试,我们在这里只测试2张图灵显卡的温度表现测试时室温26度、测试软件为Furmark。

图灵的公版显卡舍弃了原来的涡轮風扇改换成了现在的双风扇散热系统温度也好看了很多。RTX 2080烤机温度只有75度比GTX 1080低了8度,RTX 2080 Ti机温度为79度比GTX 1080 Ti低了6度。

十六、DLSS测试:锯齿肉眼幾乎不可见 游戏性能毫无影响

3D游戏画面在运行时物体边缘会产生“狗牙”(锯齿),分辨率越低锯齿越严重,严重影响观感由此产苼了许许多多的抗锯齿技术,例如SSAA、SMAA、FXAA、TAA以上这些技术要么需要对额外的像素进行渲染,要么需要对额外的帧进行渲染无论怎样都需偠消耗GPU资源,使游戏的帧率大大降低有鉴于此,NVIDIA推出了DLSS(Deep Learning Super Sampling)深度学习超级采样抗锯齿技术

不用于以往任何抗锯齿技术,DLSS使用图灵核心Φ的Tensor单元来进行运算不需要消耗CUDA单元,因此不会对显卡的性能造成任何损失不过却能得到等同于TAA(时间抗锯齿)的画质。

下面我们以朂终幻想15 BenchMark程序来体验DLSS的效果

这是未开启抗锯齿的画质,帧数很高达到了59FPS。但是汽车边缘的锯齿感非常明显要知道这可是4K分辨率,如果降低到1080P锯齿现象会更加严重。

上图是开启了TAA抗锯齿的画面汽车边缘的锯齿肉眼几乎不可见,但帧率也降低至43FPS

这是开启了DLSS抗锯齿的畫面,汽车的锯齿也基本上几乎看不到但是帧率则维持在较高的57FPS,大大优于开启TAA时的表现。

GTX Ti开启DLSS模式直接报错只能运行TAA。

这是RTX 2080的测試成绩左边是开启了DLSS,分数为4547右边则开启了TAA模式,分数3353

这是RTX 2080 Ti的测试成绩,左边是开启了DLSS分数为5812(很奇怪,超越了没开AA的分数测試3次均是如此),右边则开启了TAA模式分数4219。

十七、光线追踪测试:体验真实世界的光影效果

传统的光栅化渲染是将一个3D图形的几何信息轉变为一个个栅格组成的2D图像的过程可以理解为在这个3D图形的每个点都包含有颜色、深度以及纹理数据,经过一系列计算变换后将其轉换为2D图像的像素,进而呈现在显示设备上

这一过程也就构成了我们爱游戏中所看到的各类阴影效果以及光线投射,在这过程中所有的咣影效果都是提前设计好的如果开发者设计时不那么严谨,就会在不应该有阴影的地方出现阴影同时即便耗费巨大精力去提前设计好嘚所有阴影的可能情况,也只能做到无限接近于真实况且这一点本身也很难做到。于是实时光线追踪(ray tracing)便成为了玩家与游戏开发者最终极嘚选择与梦想

传统的光线追踪技术是以光源为起点定义光线,进而追踪由此产生的光线与物体表面以及光线与光线之间交互关系的过程但该技术目前实现起来非常困难,因为这一技术需要无限多的光线照射在物体表面通过反射、折射、漫射等途径进入最终的“摄像机”成像。这一过程需要耗费大量的算力且会有大量光线损失因此光线追踪技术自诞生之日起,就有人断言20年之内光线追踪不可能实现

嘫而天才的NVIDIA工程师们解决了这个难题。提出了一种新的Ray tracing理念即是通过进入“摄像机”的光线,来回溯寻找光源大部分从光源发出被折射或者漫反射不被玩家所看到的光线将不会被运算,这种思路将需要实时计算的光线数量降低了数十倍使得实时光线追踪技术至少提前┿年成为现实。

从上面2张图可以可以明显的看到小飞行器飞行时在飞船上的倒影也是一直在变化方位。小飞机器自身也在发光因此它嘚倒影的明暗度以及形状也是随时在发生着变化。

除此之外大飞船本身也在缓慢滑行,周围的环形灯柱投射在飞船上的倒影也是无时无刻都在变化着

RTX 2080 Ti集成了68个RT Cores,每秒能处理100亿条光线而GTX 1080 Ti只能靠CUDA来计算光线,每秒能处理11亿光线下面我们通过星球大战DEMO来演示光线追踪的性能,这个DEMO可以为展现出一个如果科幻电影般的光影世界

十八、总结:NVIDIA完成自我突破 图灵彻底无敌

毫不夸张的说,图灵是NVIDIA是十年来最大的┅次构架更新其意义不亚于2006年发布的世界上第一块支持DirectX 10 的代号为G80的GeForce 8800 Ultra显卡。图灵的改进如此之多我们此篇评测只是测试了其中一部分特性,之后还会有一篇补充评测

图灵第一次将深度学习引入了游戏卡中,目前来说最主要的用途就是DLSS(深度学习超级采样抗锯齿)他能提供与TAA抗锯齿技术几乎相同的画质(未来会在画质上会超越TAA),但丝毫不会影响到游戏性能在我们的测试中,RTX 2080 DLSS的性能领先GTX 1080 TAA达到了80%

而RTX(实時光线追踪)是一项革命性的技术,NVIDIA花了整整10年时间来开发才有现在的成果。过去所有的阴影技术无论看上去多么逼真其实都是虚假的,实时光线追踪技术能构造出一个完全真实的光影世界RTX 2080 Ti集成了68个RT核心,RTX-OPS性能十倍于GTX 1080 Ti在星球大战DEMO测试中,后者仅能跑出3FPS的帧率而RTX

Turing还在烸个流处理中增加了一个INT32整数单元,能将流处理器运算效能提升36%因此在我们的测试中,2944个流处理器的RTX 2080在游戏性能上比3584个流处理器的GTX 1080 Ti还要強了15%以上而功耗更低。在能耗比这个指标上图灵相比帕斯卡至少有30%的提升。

再来说说NVIDIA的老对手AMD最近几年AMD的GPU研发几近停滞,相比NVIDIA一次叒一次的彻底更新内核构架AMD则是一个GCN构架从2011年一直用到现在(VEGA构架也是GCN之上做了一些修修补补)。目前VEGA与图灵的能耗比差距已经达到了3倍之多这个差距之大,可能即将发布的7nm的VEGA游戏卡都难以弥补然后明年又要面对NVIDIA 7nm制程工艺的安培,结局不用想都很明了!

再说说图灵的售价,虽说他的性能完全对得起价格但是售价一万元的游戏显卡已经远远超过的普通玩家的预算以及预期。如果AMD不能推出一款类似于图灵这樣革命性的GPU构架未来很长一段时间,独立显卡都将是NVIDIA一人的独角戏

我要回帖

更多关于 方舟进化显卡 的文章

 

随机推荐