阴阳师SSSR攻略 如何快速获得SSSR素材
现状——硬件光线追踪问世四年后
距离 2018 年第一代硬件光线追踪 GPU GeForce RTX 2080 Ti 发布已经过去了 4 年,根据目前的最新统计,PC 平台上的光线追踪游戏已经达到 102 个,粗略平均的话那就是每年 25 个。
其中的一些大作包括例如· 赛博朋克 2077、古墓丽影之暗影、Far Cry 6、漫威蜘蛛侠重制版、地平线 5、生化危机村庄、地铁离去等等,其中像地铁离去还出了一个强制要求显卡支持 DXR 特性的增强版。
除了电子游戏娱乐外,还有不少渲染器也都引入了硬件光线追踪加速,例如以往只提供 Intel CPU 优化的工业渲染器 Keyshot 等也都第一时间跟进了,原因很简单,采用硬件光线的确显著提升了渲染性能,节约了时间提高了生产力。
对显卡厂商、游戏玩家以及游戏开发商来说,硬件光线追踪或者说视觉感染力和游戏是相辅相成的关系。
电子游戏是离不开视觉感染力的,硬件光线追踪为更强的渲染效果提供了可能,这不仅是画面渲染,还包括了基于光线追踪的音效处理等对玩家同样有直观体验的特性。
相对于 4 年前的 GeForce RTX 2080 Ti,现在的最新世代 GPU 例如 GeForce RTX 4090、GeForce RTX 4080 在性能方面有了显著的提升,例如 RTX 2080 Ti 的单精度性能是 14.2 TFLOPS,而新近发布的 RTX 4080 单精度性能根据我之前的实测达到了 51 TFLOPS,提升了接近 2.6 倍,在相当部分游戏中,像 5800X 这样去年还属于旗舰的 CPU 已经成为瓶颈。
针对 CPU 瓶颈问题,NVIDIA 为 GeForce RTX 4000 系列引入了名为 DLSS 3 的新超采样技术,在原来 DLSS 2 空间超分辨率的基础上,引入了基于硬件光流加速的时间超分辨率或者说帧合成(Frame Generation)技术,能在前后两帧之间生成一张画面,在不增加 CPU 开销的情况下实现更平滑的画面过渡效果。在实际测试中,DLSS3 FG 能提升大约 30% 以上的帧率。
由于 FG 插帧需要渲染两帧后才能完成插帧动作,会增加额外的时延,因此 DLSS 3 还结合了 Reflex 低时延技术,用来确保时延不会大幅度增加。
一路下来,你会发现 NVIDIA 在光线追踪部署方面可谓是有板有眼:中路主打光线追踪,然后加上不断升级 DLSS 技术打辅助,面对 AMD 和 Intel 的叠加围攻下依然不落下风,最近的市场份额甚至是不减反增。
除了硬件不断增强,NVIDIA 在软件方面的动作更为有趣。
以 RTX Remix 为例,这是 NVIDIA 趁着 RTX 4090 发布而推出的一个游戏魔改(Mod)工具集。魔改是游戏社区非常盛行的一种文化,已知的魔改作者数量据闻有数百万,每年下载的游戏魔改模组达到了数十亿次,时下流行的 10 款电竞游戏里就有 9 款有魔改。
被魔改次数最多的游戏 The Elder Scrolls V: Skyrim(上古卷轴 5:天际)和The Elder Scrolls V: Skyrim Special Edition(上古卷轴 5:天际特别版),其中被下载最多的魔改模组均为图形方面的魔改包。
要修改游戏的图形是一件非常困难的事情,需要开发出特定的工具,为每个素材重建新艺术作品,NVIDIA 表示,为了开发 Quake II RTX,动用了 NVIDIA 工程师、美工、QA 团队数个月时间才搞定,这还是在获得源代码以及其他开发人员提供的魔改工具前提下实现的,这样的开发强度对市面上浩若烟海的游戏不断重复进行是完全不可行的,而且,按照 PCGamingwiki 提供的资料,在已知的 7500 个游戏里,仅有 28 个是提供了已转换的可修改格式。
而 NVIDAI 提供的 RTX Remix 工具则是一个基于 NVIDIA Omniverse 的免费魔改平台,能够为不同的游戏快速创建 RTX On 模组,这些模组能提供增强的材质、完全光线追踪、NVIDIA DLSS 3 和 NVIDIA Reflex 支持,即使游戏使用的是老式的 DX8、DX9 世代渲染流水线。
RTX Remix 提供了被称为 RTX Remix runtime 的 D3D9 runtime,这相当于把游戏的渲染接管为 RTX On 功能运行时,当这些老游戏如常向 D3D9 runtime 发送渲染指令的时候,RTX Remix runtime 会把这些指令拦截下来,将其重命名为不同的数字资产并重组到相同的场景中。
到了这一步后,RTX Remix 将资产和场景转换为广泛采用的通用场景描述(USD) 开放式 3D 框架,而这个框架也是构建和操作自定义 3D 管道的NVIDIA Omniverse平台的基础。
《迷失》中基于光栅化的屏幕空间倒影,猫咪在镜子的古怪倒影。
在地铁离去中,屏幕空间倒影(SSR)和光线追踪倒影(RTR)的对比(SSR 里船的倒影随着角度的变化而忽隐忽现,而光线追踪倒影则保持很好的一贯性):
RTXDI 尝试近似经典渲染方程的方式进行计算,经过优化后,每个像素只用两条射线采样,结合 NRD 专门为 RTXDI 优化的 RELAX 降噪器,透过多种重采样技术,就能对百万级数量的光源实施光线追踪,彻底摒弃其他所有阴影技术以及环境遮蔽技术,并且可以和 RTXGI 结合实现更逼真绚丽的渲染效果。
RTXDI 可以在 NVIDIA、AMD 等支持 DXR 和 Vulkan 光线追踪扩展的 GPU 上运行,不仅游戏中可以使用,还有一些开发人员已经提供了支持 Blender 的 RTXDI 渲染引擎,适用性相当广。
说了这么多作为铺垫,接下来我要做一些光线追踪的相关测试了,这部分分为主要是偏底层的测试和实际游戏测试,手头有一片 GeForce RTX 3080 Ti FE 和七彩虹的 iGame GeForce RTX 4080 16GB Ultra W OC,相对于之前的公版测试,我这次主要是要一些延伸性的测试,特别是我的 AMD Ryzen 7 5800X 平台上,启用光线追踪是否下相当于“免费”。
测试平台
CPU:AMD Ryzen 7 5800X 锁定 4.5GHz,开启超线程
主板:华硕 ROG Strix X570E Gaming
内存:TT Tough DDR4-3600 8GB*4
电源:TT Tough 850W 80 Plus 白金认证
显卡:七彩虹iGame GeForce RTX 4080 16GB Ultra W OC
显卡:NVIDIA GeForce RTX 3080 Ti FE
显示器:DELL U2413
驱动程序:GeForce Game Ready 驱动 v526.98
操作系统:Windows 11 22H2 22621.819 专业工作站版,电源管理卓越性能模式,关闭 Windows Defender
主板 BIOS 设定:开启 ResizableBAR 支持
七彩虹 iGame GeForce RTX 4080 Ultra W OC
这次参与对比的新卡是来自七彩虹的 iGame 系列 GeForce RTX 4080 16GB Ultra W OC:
一键超频略显保守,性能改善幅度大约是 1.3%,好处是比较简单,而且是有官方质保的。
下面就让我们进入具体的光线追踪测试环节。
底层测试
底层测试的目的是希望尽可能获知硬件的理论性能,特别是像 RTCore 相对较少资料的单元,我们对其细节更是充满好奇。
底层测试——光线追踪峰值性能测试
为了探测 GeForce RTX 4080 的光线追踪底层性能,我这次使用 Matt Pettineo 的 DXR Patht Tracer 进行了简单的对比,测试条件是每像素 16 射线、8 次反弹、32 光源,并且启用了若干常见的渲染效果:
程序允许修改射线取样数量(默认每像素 8 条射线,最高 128 条)和射线反弹次数(默认 16 次,最高 32 次)。
虽然程序每个场景跑一遍只需要 60 秒,但是我这次使用的测试脚本是涵盖了每像素 1、2、4、8、16、32 条射线以及一次、两次、四次、八次、十六次、三十二次反弹,一轮跑下来大概需要数个小时。
测试结果如下:
提升幅度较少的是场景 4,这个场景的特点是没有透明、镜面物体,这意味着衍生射线的数量以及随之而来的复杂着色计算会更少,在每像素 1 条射线的时候,七彩虹iGame GeForce RTX 4080 16GB 是 RTX 3080 Ti 的 142%,相当于两者的 RTCore-Ops 比值。
在采样数量增加到每像素 8 条射线后,七彩虹iGame GeForce RTX 4080 16GB 在场景四的性能是 NVIDIA GeForce RTX 3080 Ti 12GB 的 148%,依然接近两者 RTCore-Ops 1.42 倍比值。
由于支持提供 RTCore 状态特性信息 Nsight 目前只对企业用户以 NDA 的形式提供,普通人难以接触,故此想进一步准确获知相关细节的正门目前是堵死的,因此这次测试只能根据表面结果做判断。
考虑到测试场景不涉及动态模糊或者其他射线插值计算的情况,因此第三代 RTCore 的每周期三角形求交能力两倍于第二代 RTCore 的特性在这里应该是体现不出来的。
对于上面这些测试结果,我很容易得出下面的结论:
对于涉及较多透明、镜面反射物体的场景,NVIDIA GeForce RTX 3080 Ti 12GB 或者说 Ada 架构可以从较大的高速缓存以及着色器性能显著获益,而对于透明、镜面或者说反弹次数较少的场景,基本上就是两者单元规模和频率乘积的高低区别。
游戏实测
在游戏测试方面,我这次打算精简一下,只选择三款光线追踪游戏,分别是赛博朋克 2077、地铁逃离增强版以及蜘蛛侠重制版,其中赛博朋客 2077 具备光线追踪倒影、阴影计算,地铁离去增强版采用了光线追踪来实现全局光照、倒影、阴影,蜘蛛侠重制版是从主机平台移植过来的,提供了光线追踪倒影特效,上述上个游戏均提供了 DLSS 超分辨率技术,其中蜘蛛侠重制版以正式版的方式提供了 DLSS 3 插帧支持,赛博朋克 2077 以内测版的方式提供了 DLSS 3 插帧支持,地铁逃离增强版提供了 DLSS 2 支持。
地铁逃离增强版
上面表格中除了大家常见的平均帧率外,还有低于 1% 的平均帧率、应用时延、GPU 耗电、GPU 每 10 瓦耗电帧率以及 GPU 占用率等指标。
1% 频率低帧率是指按照从最高到最低帧率来排列,然后取位于末尾或者说最慢的 1% 帧率进行平均取得的均值,英文一般称为 1% Low Averags FPS被认为是反映卡顿的最佳指标,这个指标越高游戏流畅性感受就越好。如果你对游戏卡顿比较敏感的话,建议关注一下这个指标。
关于 App Latency 指标,按照作者的介绍(以及presentmon1、presentmon2)的信息, App Latency类似于 NVIDIA Frameview 中的 PCLatency,是指电脑 I/O 端口接收到外部人机设备指令后到显卡完成渲染发送数据到显示器的这段耗时。这个指标完全独立于显示器和人机设备,只考虑电脑系统内的情况,可以最大限度反映电脑内部渲染时延问题,该指标的单位一般是毫秒表示。
但是根据我的实际对比,发现 App Latency 和 PCLatency 还是存在一定差异的,特别是在启用了 DLSS 后:
硬件光栅渲染经过近 30 年的发展,能做的改善已经不多,难以克服的地方是时候交给光线追踪来完成了。
在这次测试中,我们了解了 GeForce RTX 4080 16GB 的峰值光线追踪性能大约是每秒 31.1 GRays,是上一代 Ampere 架构 RTX 3080 Ti 每秒 18.4 GRays 的 1.69 倍,在演示场景测试中一般幅度会在 1.65 倍左右,而在游戏中,这个幅度是 1.35 倍左右,原因和目前游戏基本采用混合渲染流水线有关。在混合渲染流水线中,游戏使用光栅器确定每个三角形在屏幕上的位置,然后根据需求决定是否在这些位置上进行光线追踪渲染。
DLSS 技术是实时光线追踪的最佳伴侣,经过多次版本迭代后,DLSS 的画质有了显著的改善,新加入的插帧技术让需要更高画面流畅体验的玩家多了选择。
对于旗舰级的显卡例如七彩虹 iGame GeForce RTX 4080 Ultra W OC 来说,CPU 的确会在很多游戏中成为瓶颈,但是随着 DLSS 3 插帧技术的推广,即使 CPU 成为瓶颈,也能实现更平滑的画面流畅体验,关闭超线程有时候会带来一定的小惊喜。
当然,如果游戏本身并非电竞类,你可以尝试透过帧率约束将游戏帧率上限 60fps,这并非没有意义,因为帧率更低的话,意味着耗电、风扇噪音更低,同样能带来更好的游戏体验。
如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。