比上代旗舰RTX 3090 Ti还猛,NVIDIA RTX 4070 Ti首发评
1NVIDIA GEFORCE RTX 4070 Ti显卡规格回顶部
NVIDIA GEFORCE RTX 4070 Ti,唯一一款显卡因为被网友吐槽而更名的显卡。要知道在去年的GTC 2022秋季大会上,与旗舰显卡GeForce RTX 4090一周发布的是GeForce RTX 4080 16GB与GeForce RTX 4080 12GB。而GeForce RTX 4080 12GB因为AD104核心编号、12GB GDDR6X显存与192Bit位宽显存,这样相对较低的规格而被吐槽,因为此款显卡最终更改命名为“NVIDIA RTX 4070 Ti”,同时零售报价也从7199元下调到6499元。那么此款被网友们吐槽的显卡性能表现到底会怎么样呢?我们一同来看看。
![]()
NVIDIA GEFORCE RTX 4070 Ti显卡规格
![]()
首先,NVIDIA GEFORCE RTX 4070 Ti显卡核心代号为AD104-400,是Ada Lovelace架构下的第三款核心,其规格相比AD102与AD103核心相对较弱些。AD104采用的是小型核心的设计,核心面积为295mm2,与上代GA104核心的392mm2面积少了约24%,但其核心规格与显存容量都要更高。

一个完整规格的AD104核心包括了5个GPC (图形处理集群)、30 个TPC (纹理处理集群)、60 个SM (流式多处理器) 、?个带有 6 个 32Bit显存控制器的 256 Bit显存位宽,以及四个NVENC和两个NVDEC。
![]()
而从NVIDIA官方给出来的GPU架构图来看,NVIDIA GEFORCE RTX 4070 Ti显卡采用的是较为完整的AD104核心,7680个CUDA核心,192Bit显存位宽,只是在视频引擎上进行了一定的削减。
![]()
从纸面的数据来看,NVIDIA GEFORCE RTX 4070 Ti规格、定位是来代替RTX 3070 Ti的?如果你真这样认为的话,那你是太小看老黄了。经过我们一系列的实际测试,NVIDIA GEFORCE RTX 4070 Ti直接就把上代旗舰RTX 3090 Ti干翻了,你敢不敢相信?
2战斧 Geforce RTX 4070 Ti 豪华版外观回顶部
战斧 Geforce RTX 4070 Ti 豪华版
![]()
比较不幸的是,这次NVIDIA GEFORCE RTX 4070 Ti首发评测并没有FE的身影,NVIDIA对RTX 4070 Ti非公版显卡对行了开放,所以你可看到各大AIC非公RTX 4070 Ti会在CES大会之后亮相。而这次测试中我们使用的是NVIDIA提供的七彩虹战斧 Geforce RTX 4070 Ti 豪华版。
![]()
战斧 Geforce RTX 4070 Ti 豪华版最大的优势就在于定价上,基本就是按照NVIDIA提供的零售报价(MSRP)。不过频率同样是按照NVIDIA Geforce RTX 4070 Ti官方频率:核心基础频率2310MHz、核心Boost频率2715MHz,以及21Gbps显存频率,核心TDP也是限制在285W上,所以拿此款显卡来当基础之用。当然其它更强的非公显卡MAX TDP可以达到340W甚至是更高。
![]()
战斧 Geforce RTX 4070 Ti 豪华版显卡外观采用了目前较为流行的家族式脸谱造型设计,而且从体积来说,基本就是与两位老大战斧 Geforce RTX 4080豪华版与战斧 Geforce RTX 4090 豪华版一样,若不看背部的标签纸还真是难以区分开型号。
![]()
正面是两个深红色的钻石切割面、三个大尺寸风扇配上磨砂哑光的导流罩。
![]()
而背部是大比重的镂空散热设计,配上红色的拉花,和正面相呼应,彰显出RTX 40系列显卡的神秘感与力量感。
![]()
接口方面,采用了三个DP 1.4与一个HDMI 2.1的的配置,可以满足到4K144,以及2K240高分辨率高刷新率的输出。
![]()
供电接口,战斧 Geforce RTX 4070 Ti 豪华版采用了RTX 40系列显卡标配12VHPWER供电接口。当然大家不用担心没此接口,显卡附件中就已经配上双8Pin To 12VHPWER的转换线,转换线全都由NVIDIA认证,不用担心出现质量问题。
3战斧 Geforce RTX 4070 Ti 豪华版拆解回顶部
战斧 Geforce RTX 4070 Ti 豪华版,拆解
![]()
从战斧 Geforce RTX 4070 Ti 豪华版显卡PCB正面可看到,显卡的集成度其实还是比较高的;PCB采用了七彩虹自家研发的非公版设计,供电部分主要集中的PCB左侧,中间是GPU与显存颗粒部分,而右侧是就是另外的供电位置。
![]()
由于PCB正面的集成度相对较高,所以PCB背部会显得较为简洁一些,主要一些MLCC,以及PWM供电芯片。
![]()
AD104-400核心与6颗镁光GDDR6X显存颗粒
![]()
整块显卡采用了12相供电的设计,左边是10相,而右边是2相。
![]()
在供电部分其实我们看到些许的空焊位置,相信此款PCB会同样采用到更高定位、更高频的GA104核心显卡中。
![]()
主供电PWM控制芯片:UPI uP9212R,
![]()
每相供电均配上了DrMOS芯片,分别是BLN0与BLN3。其中BLN0具体型号为AOZ5311NQ,最大持续输出电流为55A;而BLN3具体型号为AOZ5311NQI-03,同样为最大持续输出电流为55A,两个型号的DrMOS芯片性能参数其实是一样的,这里厂商可能是根据不同的模块供电特性来使用DrMOS芯片。
![]()
战斧 Geforce RTX 4070 Ti 豪华版显卡配置了一个超大面积的散热模块,三把98mm风扇直接固定到散热鳍版上。
![]()
两段式的散热模块设计,左侧是GPU主散热模块,底部是一个镀镍的纯铜底座,配上6条热管进行热量传递。
![]()
配上高系数导热垫为显存与供电模块进行散热辅助。
![]()
6条热管直接贯穿左右两侧的大面积散热鳍版模块,散热鳍版的做工和细节也做得很不错。从散热规模来看,此款显卡的散热会有不错的散热效果。
4测试平台结束|理论性能测试回顶部
测试平台介绍
![]()
此次测试平台,我们同样采用了RTX 4080 FE首发评测当时所采用的平台,每个配件都是目前市场上最为顶级的存在,这样,我们可以测试出目前高端显卡在此平台上到底会有何性能表现,也不会为显卡测试带来瓶颈。
![]()
而配合上旗舰级的处理器,我们拿来的四条Kingston FURY Renegade DDR5 RGB内存,并手动降频运行在DDR5-6000 C32,Gear 2模式下,这样可以确保平台有着更佳性能的同时也有着更高的稳定性。
![]()
显卡方面,我们拿来了上代同定位的RTX 3070 Ti FE、RTX 3090 Ti、RTX 4080 FE、RTX 4090 FE等四款显卡与这次首发对象RTX 4070 Ti显卡进行对比测试,包括理论性能表现,内容创作能力,游戏性能,DLSS测试,功耗对比,以及超频测试。
![]()
显示器方面自然是评测室专用的电竞神器——爱攻&保时捷联名 PD32M 4K144 电竞显示器,当然RTX 4070 Ti显卡是被NVIDIA定义为2K高刷的游戏显卡,之后我们也会单独拿到高刷显示器进行单项测试。
![]()
同样的在测试前,我们得先确保一下系统配置是否正确。因为前两次RTX 4090、RTX 4080首发时我们测试中就知道,需要在系统和BIOS中进行一定的配置才能开启上DLSS3功能。同时NVIDIA的技术指导文档中已经说到,想要开启DLSS3功能,需要几个步骤:
将硬件加速的 GPU 调度设置为开启
以全屏模式运行游戏以获得最佳性能和最低延迟。
请确保在 NVIDIA 控制面板中将显示器设置为最大刷新率。
建议使用 G-SYNC Ultimate 显示器进行最佳体验评估。
在主板的 SBIOS 中开启 Resizable BAR。
理论性能测试
理论性能我们主要是以3DMARK测试为主,由Fire Strike、Time Spy、Port Royal、Speed Way等进行显卡性能测试,而其它的测试小项为辅。尤其是Port Royal与新增的Speed Way主要反馈的是显卡的光线追踪性能。
![]()
理论性能方面这里我们区分出来两部分,DLSS2部分的测试由于8K分辨率比例太高,所以我们就没对比做性能比例。
性能比例方面,我们以RTX 3070 Ti显卡为基准进行性能对比,可看到新一代的RTX 4070 Ti相比RTX 3070 Ti有着大幅度的性能提升,约提升了50%;尤其是在Port Royal与Speed Way两顶光线追踪测试上提升幅度最为明显。
而RTX 4070 Ti与RTX 3090 Ti理论性能对比来看,两者在理论性能方面相关约1%,可以说是基本一致的。当然DLSS2模式测试上,RTX 3090 Ti要比RTX 4070 Ti好上一点,尤其是随着分辨率提升而越为明显。当然RTX 4070 Ti还有独特的DLSS3技术,之后我们测试就知道有多厉害了。
三个ADA架构的显卡理论性能对比来看,NVIDIA的刀法还是那样的神,当然最猛的自然是RTX 4090 FE,这是RTX 40系列出货量最高的显卡,大家懂选择的都懂。而这次RTX 4070 Ti理论性能表现其实已经很不错,性价比上来说,还得比RTX 4080高些,而且根据渠道消息说,RTX 4070 Ti货量也比其它两款显卡要多不少,所以各大AIC也急着曝光自家的RTX 4070 Ti显卡。
AIDA64 GPGPU测试
![]()
GPGPU理论性能测试方面,很好的表明了这一代的ADA架构的三款RTX 40系列显卡在算力上有着较为出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。相比RTX 3090 Ti显卡,RTX 4070 Ti显卡整体的GPGPU算力表现同样要强些,6K出头的显卡能实现上代旗舰显卡(1W5)的性能表现,着实不错。
5创作者能力测试回顶部
创作者能力测试
视频与平面内容创作方面这次我们测试得比较多,包括了PCMark 10与PugetBench三个大项,其中PugetBench其实把PS|PR|LR|AE|达芬奇这五款较为常见的软件都测试了篇。ADOBE软件使用的是最新的ADOBE 2023版本,而达芬奇是NVIDIA提供的AV1特殊版本。
![]()
首先我们来看看PCMARK10 Extended项目上,各显卡的性能表现如何,由于是同一平台,只是更换了不同的显卡进行测试,所以看到对显卡依赖程度较为的【游戏】子项上不同定位的显卡有着较大的差距。当然在【数位内容创作】与【生产力】子项上同样会有小幅度的不同性能差距,总的来说,RTX 4070 Ti在PCMARK10 Extended项目上与RTX 3090 Ti基本一致,但的确比RTX 3070 Ti好不少。
而来到UL Procyon与PugetBench测试中,可看到RTX 3090 Ti还是老当益壮,主要是显存带宽和容量上比RTX 4070 Ti高不少,而且Adobe全家桶对更成熟的Ampere架构RTX 3090 Ti优化更好一些,所以RTX 3090 Ti内容创作表现的确会比RTX 4070 Ti好,达到了RTX 4080级别。
当然随着Adobe全家桶、达芬奇,以及是剪映等这些软件的不断优化,相信在ADA架构在这些项目上的优势会被逐步加大,尤其是RTX 40系列显卡还支持了AV1视频格式的编码与解码,这些RTX 30系列都是不具备的。
专业设计领域
![]()
专业设计领域的测试项目同样是RTX 40系列显卡的优势所在,这明显是得益于ADA架构带来的算力提升。所以你可看到与GPGPU同样的结果,RTX 4070 Ti的专业内容创作能力已经比上代旗舰RTX 4090 Ti强9%了,更不用说比RTX 3070 Ti强出61%了。
AV1能力测试
![]()
刚才我们已经说了RTX 40系列显卡由于是采用了双编码器NVENC,能够支持最新的AV1视频格式的编码解码,那么我们同样使用NVIDIA提供的支持AV1格式的达芬奇软件进行测试。
由于RTX 30系列显卡是不支持AV1的,所以我们这里同样测试的H.265视频的输出,从结果来看,H.265 4K分辨率的视频其实大家都相差不多,也就那么几秒。但若是H.265 4K分辨率的视频下,那他们的差距就真的大的,RTX 4070 Ti显卡导出时间为47秒,虽然比两位老大都要多2秒的样子,但是比RTX 3090 Ti显卡的115秒是真的快多了。而且经过我们多次的测试,AV1格式的视频有着视频的质量高、容量占用低的优势,因此各大视频平台才会主推这样的开源视频格式。
既然我们已经利用达芬奇进行AV1测试,那么我们顺道测试一下RTX 40系列显卡的创作软件上的AI能力。我们测试的项目是AI ACCELERATED MAGIC MASK,利用GFE软件录屏进行AI渲染时间的记录,从结果来看,又是RTX 40系列显卡的优势项目,RTX 4070 Ti相比RTX 3090 T渲染时间缩短了5s,看着不多,但当项目难度更大,更复杂的情况下,渲染优势就会被逐步的拉开。
6游戏性能测试|DLSS 3测试回顶部
游戏性能测试
刚说了一堆的理论性能、内容创作能力,现在我们来看一下NVIDIA显卡的老本行,游戏。这里我们其实同样测试的1080p、1440p、2160p三个不同的分辨率;同时此12款游戏都带上内置的测试程序,有9款游戏都是带上DLSS,我们根据不同的游戏设置不同的DLSS模式。当然啦针对RTX 40系列显卡的DLSS3测试在楼下,在支持DLSS3游戏中我们这里会手动把帧生成功能给关闭掉。
![]()
1080p分辨率下,其实都不用担心这几款显卡的性能表现,最差的RTX 3070 Ti都跑得很顺。当然从结果来看,RTX 4070 Ti是真强了,比RTX 3090 Ti显卡强上了约9%,似乎这一切都很是完美。RTX 4070 Ti在大部分的游戏中基本都在运行在200+FPS的流畅度下,意味着合来做电竞显卡也是比较轻松的。
![]()
来到1440p分辨率下,其实结果与1080p分辨率的一样,RTX 4070 Ti整体游戏性能仍是比RTX 3090 Ti要强上不少的,基本大部分的游戏都能运行在120+FPS以上,那么我们配上目前主流的2K165Hz显示器完全是没有问题的。
![]()
其实NVIDIA对于RTX 4070 Ti显卡的定位是1440p分辨率下能跑爽120+FPS的显卡,而且是不太建议测试2160p分辨率的游戏,但实际上RTX 4070 Ti同样是具备玩爽2160p分辨率游戏的, 在与1440p分辨率同款游戏设置的情况下,RTX 4070 Ti可以在绝大部分的游戏上跑到60FPS。
当然若是在2160p分辨率下,RTX 4070 Ti显卡性能表现会比RTX 3090 Ti要弱些,但别忘记了这是在DLSS2模式下,相信在DLSS3模式下,RTX 4070 Ti显卡就猛了。
DLSS3性能测试
![]()
那若是在DLSS3模式下,RTX 4070Ti会有着如何表现呢?我们先来看一下3DMARK中的DLSS理论性能测试,RTX 30系列显卡同样运行在DLSS2模式下,而RTX 40系列显卡运行在DLSS3模式下。
RTX 4070 Ti在DLSS3模式下有着较大幅度的性能提升,大家可看到关闭DLSS下,其性能是比不上RTX 3090 Ti的,但是当开启DLSS3下帧数就大幅领先,ADA架构与DLSS3带来的提升着实的厉害得很。
![]()
那你们以为只会是3DMARK的理论性能方面会有所提升吗?你错了,我们在十款支持DLSS3的游戏中,通过开启帧生成功能来实现DLSS2与DLSS模式下的帧数变化,同时利用最新版本的FrameView软件进行帧数记录。
从结果上来看,在1440p分辨率下,RTX 4070 Ti显卡在开启DLSS3模式下,游戏的流畅度得到了大幅度的二次提升,大分部游戏跑个150+ FPS都不是问题。当然开启DLSS3的帧生成后,相对应的延迟会增加些许。
![]()
在DLSS3模式下,我们同样是测试了三个分辨率。先从1080p分辨率结果来看,RTX 4070 Ti相比上代的RTX 3070 Ti提升了95%,这提升幅度着实是让人有点不太敢相信,但经过反复测试,的确结果就是这样。
![]()
![]()
其实这次测试中比较重点的是RTX 4070 Ti能比RTX 3090 Ti强多少?这里大家都可以看到了,1080p与1440p分辨率下RTX 4070 Ti着实是神了,完全是碾压RTX 3090 Ti显卡的,相信最近入手RTX 3090 Ti的玩家会哭晕了,要知道目前RTX 3090 Ti二手报价也得8K。
7温度与功耗测试|超频测试|总结回顶部
温度与功耗测试
![]()
由于我们没有FE公版,所以功耗与温度测试同样是利用战斧 Geforce RTX 4070 Ti 豪华版显卡来进行的,看较为朴素的RTX 4070 Ti显卡温度表现会是如何。
结果还是较为喜人的,战斧 Geforce RTX 4070 Ti 豪华版核心待机温度也就29.5度,满载的核心温度也才是63.6度左右,这其实也不出意外,毕竟280W TDP的显卡采用2.5寸的设计,散热 一般都不会太差。战斧 Geforce RTX 4070 Ti 豪华版满载功耗也就270W,相比 RTX 3090 Ti动不动就是400W以上的功耗,着实省心不少。
![]()
当然一个FURMARK测试并不能代表什么,于是我们利用HWINFO64软件与FrameView软件双重记录这四款显卡的不同功耗表现情况。当然啦其实我们评测室也是PCAT V2套件的,只是测试显卡和项目较多,我们这次就不使用PCAT V2套件来测试功耗。
无论是理论性能还是内容创作,甚至是游戏上,RTX 4070 Ti显卡的功耗就在200W水平的样子,而RTX 3090 Ti显卡还真对不对就是380W,这功耗水平差距是真的大,结果上我们刚才的游戏测试结果来看,RTX 4070 Ti功耗水平也RTX 3090 Ti一半,其每瓦性能比要比RTX 3090 Ti高多了。
超频能力测试
![]()
在测试RTX 4070 Ti显卡的超频之前,我们先看一下默认战斧 Geforce RTX 4070 Ti 豪华版跑3DMARK的水平怎么样,在Time Spy测试中,40s时显卡的运行频率是2790MHz。
![]()
同平台的情况下,我们最终可以把战斧 Geforce RTX 4070 Ti 豪华版核心频率+175MHz,显存频率+600MHz通过测试,性能提升5%。当然啦,这是由于显卡TDP已经撞墙上了,想有更高频率,要么厂商给出来更高的TDP版本BIOS,要么就是更换更高也阶的非公RTX 4070 Ti。
总结
从性能上来说,RTX 4070 Ti可以当作是RTX 3090 Ti显卡的增强版本,其性能方面已经完全碾压RTX 3090 Ti;同时功耗方面也仅是RTX 3090 Ti显卡的一半,这样的性能和功耗表现都是值得我们入手的。
![]()
再来说定价,RTX 4070 Ti零售报价为6499元,是目前RTX 40系列显卡中零售报价最低的,相对来说,RTX 4070 Ti性价比明显高于RTX 4080一些许,但是同样不如RTX 4090旗舰真香卡。
![]()
那会是什么样的用户来购买此款RTX 4070 Ti显卡呢?预算足够的相信会直接购买RTX 4090,而预算有限的情况下,想要做内容创作,专业内容方面的RTX 4070 Ti会是不错的选择,即能满足专业需求,同时其功耗也不高,花在电源上的钱不会太多,就是得注意一下是否能装到机箱里,毕竟目前的RTX 4070 Ti非公显卡都是2.5寸厚较长的设计,对机箱的兼容性会有一定要求。
![]()
当然啦,若你是游戏玩家,那么你之前是用旧显卡的,那么RTX 4070 Ti会是不错的选择,2K分辨率下游戏通杀,直接跑到了120+FPS;还有着不错的4K游戏性能表现,当然啦随着之后的DLSS3游戏越来越多,那么RTX 4070 Ti优势也将会越来越明显。甚至是之后的全景光追模式游戏,例如《赛博朋克2077》overdrive模式,RTX 4070 Ti性能会是RTX 3090 Ti的3倍,可惜目前CDPR仍未上线这个游戏补丁,目前没法测试,之后我们同步关注RTX 4070 Ti在全景光追模式下游戏的表现,有兴趣的网友可以留意一下我们。
8技术回顾:Ada Lovelace架构优势回顶部
技术回顾:Ada Lovelace架构优势
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
![]()
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
![]()
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
![]()
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。
![]()
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090/RTX4080显卡中就实现了更大的L1/共享内存以及更大的L2缓存,因此Ada Lovelace架构核心对显存位宽的依赖性并不高。
技术讲解:第三代 RT Cores与第四代 Tensor Cores
![]()
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。
第三代 RT Cores
![]()
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。
![]()
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
![]()
在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
![]()
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
Displaced Micro-Meshes Engine
![]()
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
![]()
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
![]()
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代 Tensor Cores
![]()
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。
技术讲解:DLSS3
或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
![]()
在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
![]()
想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
![]()
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行?量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
![]()
另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIA Reflex
NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
![]()
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
![]()
当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
![]()
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。
技术讲解:双 NVIDIA 编码器(NVENC)
![]()
GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。
![]()
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
![]()
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
![]()
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。