英伟达40系显卡性能提升70%

RTX光线追踪和神经网络渲染的时代正在如火如荼地进行,新的英伟达阿达洛芙莱斯架构将其推向了一个新的高度。Ada的性能是上一代的4倍,正在为未来基于模拟的游戏做铺垫。"

经过几个月的猜测,Nvidia创始人兼首席执行官黄仁勋终于在昨晚的GTC(GPU技术大会)2022上透露了RTX 40系列GPU的配置。

RTX 4090图片来源:GTC会议

RTX 4090的售价为1599美元,建议零售价为12999元人民币起,高于上一代RTX 3090的11999元人民币。将于10月12日上映。与上一代相比,RTX 40系列的性能提升高达4倍,其特有的光线追踪技术也是最重要的升级之一。

“RTX光线追踪和神经网络渲染的时代正在如火如荼地进行,新的英伟达阿达洛芙莱斯架构将其推向了一个新的高度。”在黄仁勋GTC会议上发表主旨演讲时说。

RTX 4080图片来源:GTC会议

RTX 4080将于11月上市。目前两个报价分别为16GB版本1199美元(最高9499元人民币)和12GB版本899美元(7199元人民币),相比同定位的上一代RTX3070Ti,堪称“新高”。

RTX 40系列显卡价格图片来源:GTC发布会

2021年,在“缺芯”等因素推动下的业绩攀升,但英伟达在2022年的情况发生了逆转。在美国芯片出口管制的沉重打击和以太坊“合并”的影响下,公司发展前景蒙上阴影。此前公布的第二季度财报已经显示,该公司游戏部门收入同比下降33%,环比下降44%。因此,这次GTC会议成为人们关注的焦点。

“增量也涨价”:40系显卡性能和价格再创新高。

RTX 4090采用全新的第三代RTX架构,采用TSMC 4纳米工艺制造。传统上,新一代RTX也是以计算机历史上的一位名人命名的,这次是世界上第一位计算机程序员阿达洛芙莱斯女士。

“得益于英伟达和TSMC的密切合作,针对GPU制造优化的4nm工艺使阿达洛芙莱斯架构能够集成760亿个晶体管和超过18000个CUDA内核,比上一代Ampere架构增加70%,能耗相比Ampere增加一倍。”黄仁勋在讲话中说。

Ada架构的40系显卡性能远超30系显卡。这个RTX GPU主要用于游戏玩家和少数剩余的加密矿工。它有望将游戏世界从一系列预先计算的图像转变为完全模拟的虚拟世界。

“Ada是在为完全基于模拟的未来游戏铺路。Ada的性能是上一代的4倍,为整个行业树立了新的标准。”黄仁勋说。

在能效方面,RTX 4090的功率为450W,与RTX 3090Ti一致。但是英伟达声称4090的游戏性能比同功率的RTX 3090Ti高一倍。

定位较低档的RTX 4080有16GB和12GB两个内存版本。16GB版本集成了9728个DUDA核心。英伟达声称,RTX 4080 16GB的游戏性能是RTX 3080的两倍,并超过了上一代旗舰RTX 3090Ti。12GB版本的RTX 4080集成了7680个CUDA核心,理论性能超越上一代旗舰RTX 3090Ti。

光线追踪技术和“元宇宙构建工具”

在新的阿达洛芙莱斯架构中,着色器执行记录技术被添加到SM流处理器中。黄仁勋强调,它对于GPU来说是革命性的,可以实现任务的实时重调度,原理上类似于CPU的乱序执行技术。该技术可以将Nvidia显卡的光线追踪性能提升2-3倍,在RTX 4090上输出90 TFLOPS。相比前代性能提升一倍,整体游戏性能提升25%。

至于这项技术的原理,黄仁勋解释说,光线跟踪的工作量需要不同的线程处理,不同着色器之间的工作很难合并。SER技术可以即时安排着色器负载,从而提高执行效率,更好地利用GPU资源,创造更好的光线追踪效果。

服务技术如何工作

此外,黄仁勋还宣布了用于游戏和创意应用的第三代英伟达DLSS(深度学习超级采样),表明这是神经网络图形技术的下一次革命。这种由人工智能驱动的技术可以生成全新的帧,从而大大提高游戏的性能。也就是说,使用AI算法来减少模拟真实物理环境所需的计算量。

这也是第三代DLSS技术与上一代的最大区别。3354生成的不是像素,而是一个全面的图片框架。DLSS 3技术可以分析两个连续的游戏图像,将像素级的运动方向和速度信息逐帧输入到神经网络中,然后神经网络模型会据此计算出中间帧。因此,中间帧由神经网络计算生成,不再涉及图形渲染,完全独立于游戏,可以大大减少游戏中的计算量。

“DLSS 3可以给Ada GPU带来远高于CPU所能计算的帧率,让一些对CPU要求高的游戏也能从中受益。”黄仁勋说。据介绍,第三代DLSS技术与简单渲染方式相比,可将游戏性能提升4倍。

在现场,黄仁勋展示了《微软模拟飞行》这款对CPU要求很高的游戏在开放《DLSS 3》前后的帧率变化。图片:GTC会议

在RTX 40系列GPU和DLSS 3的配合下,3D设计师可以直接渲染一个物理精确、材质逼真的完整光线追迹环境,实时查看效果。

自从元宇宙这个词流行起来,被称为“元宇宙构建工具”的Omniverse越来越受到关注。黄仁勋发布了一系列关于Omniverse的重要更新。

Omniverse是英伟达在2019年推出的实时3D设计协作工具。黄仁勋在2021年GTC会议上介绍了这一技术。“Omniverse允许个人模拟和创建一个遵循物理定律的共享3D虚拟世界”。

现在,用户可以在Omniverse中创建数字孪生数据库3354,这是第一个用于数据生成和数字孪生模拟的SimReady素材库。

此外,在昨天的GTC发布会上,黄仁勋表示,Omniverse支持阿达洛芙莱斯GPU。因此,Omniverse不仅可以加速各种复杂的3D工作流,还可以将光线追踪、AI和计算等复杂技术集成到3D管道中,在VR中实现实时光线追踪——Cloud XR。

在NVIDIA Omniverse Cloud的支持下,Omniverse可以为3D工作流提供无缝协作体验。黄仁勋说,“英伟达Omniverse云是一个IaaS产品,可以连接到云,在本地和单个设备上运行Omniverse应用程序。”

Nvidia Remix图片来源:GTC发布会

英伟达RTX混音版也在黄仁勋展出。Nvidia Remix允许发烧友将RTX追光效果添加到各种经典游戏制作mod中。即捕捉经典游戏画面,然后使用AI工具自动增强材质,通过光线追踪和DLSS快速RTX游戏。似乎此举是为了让更多人开始使用和熟悉Omniverse。

单个2000TOPS“核弹”级产品:Atlan取消,雷神接手。

在2021年春季的英伟达GTC大会上,黄仁勋公布了用于自动驾驶汽车的Atlan芯片,计划于2025年用于量产汽车。但在昨晚2022年秋季的GTC上,黄仁勋宣布Atlan已被取消,取而代之的是一种名为Thor的新设计,它将提供两倍的性能和数据吞吐量,但仍将在2025年发射。

黄仁勋没有将Thor描述为自动驾驶芯片,但表示这种SoC是为汽车的中央计算架构而生的。利用该芯片构建控制器,可以同时为自动泊车、智能驾驶、汽车发动机、仪表盘、驾驶员监控等系统提供计算能力。

Thor SoC预计将通过770亿个晶体管提供2000 TOPS的整数计算能力和2000 TFLOPS的浮点性能。相比之下,2016年为特斯拉AutoPilot(结合Pascal GPU)第二版提供动力的Parker SoC提供了约1 TOPS,其次是2020年提供30 TOPS的Xavier芯片。

单个2000顶可以说是“核弹”产品,一眼望不到头,没有对手。

根据黄仁勋的说法,这种性能来自于CPU(Grace)、GPU(阿达洛芙莱斯)和处理变形金刚模型的引擎(Hopper)的升级。“Hopper提供了令人惊叹的Transformer引擎和快速变化的Vision Transformer,而Ada是Nvidia最新的GPU产品,基于4nm工艺构建。”

英伟达自动驾驶芯片进化

Thor可配置多种模式,2000 TOPS、2000 TFLOPS均可用于自动驾驶工作流程;它的2000 TOPS计算能力也可以单独使用,比如一部分用于驾驶舱AI和信息娱乐系统,另一部分用于驾驶辅助。Thor中的多计算域隔离允许并发、时间敏感的多进程不间断运行,Linux、QNX和Android可以同时在一台计算机上运行。

将自动泊车、智能驾驶、汽车发动机、仪表盘、驾驶员监控等系统的计算统一到Thor上,意味着汽车的EE架构显著简化,同时可以降低产品的布线规模,减轻汽车重量,从而达到降低成本的效果。

此外,英伟达还发布了一款微型机器人系统级模块芯片Jetson Orin Nano,速度比之前的Jetson Nano快80倍。Jetson Orin Nano可以运行NVIDIA Isaac机器人堆栈,并具有ROS 2 GPU加速框架。