首页 > 最新资讯 > GTC21 | NVIDIA最新模型GANverse3D 将2D图像转化为3D模型
GTC21 | NVIDIA最新模型GANverse3D 将2D图像转化为3D模型

GTC21 | NVIDIA最新模型GANverse3D 将2D图像转化为3D模型

2021-04-23 19:44

#人工智能 #深度学习


Knight Rider采用GAN模型:AINVIDIA Omniverse为KITT带来活力。

NVIDIA研究院的最新模型基于GAN,将2D图像转化为3D,面向游戏开发者、艺术家、设计师和建筑师。

NVIDIA研究院正在研发一种全新深度学习引擎,该引擎可以根据标准的2D图像来创建3D模型,并可以在NVIDIA Omniverse中,为诸如由Knight Rider的AI驱动的 KITT 等标志性汽车带来活力。

由多伦多的NVIDIA AI研究实验室开发的GANverse3D应用将平面图像放大成逼真的3D模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要3D建模方面的专业知识,也不需要在渲染上花费大量预算。

例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。

为了生成训练数据集,研究人员利用生成性对抗网络 ——GAN合成图像,从多个角度描绘同一物体 — 就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从2D图像推断3D网格模型的过程。

一旦完成了多视图图像训练,GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用,使开发人员能够自定义对象和交换背景。

当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D可将任何2D图像重建为3D,就像流行的20世纪80年代Knight Rider电视节目中备受喜爱的打击犯罪的汽车KITT一样。

以前的逆图形模型依赖于3D图形作为训练数据。

相反,在没有3D要素的帮助下,“我们把GAN模型变成了一个非常高效的数据生成器,这样我们就可以基于网络上的任何2D图像创建出3D对象。”NVIDIA 的研究科学家、该项目的主要作者Wenzheng Chen说。

“因为我们是根据真实图像而不是合成数据进行训练的,所以AI模型能更好地推广到现实世界的应用中。”该项目的作者、NVIDIA研究员Jun Gao表示。

GANverse3D背后的研究将在两个即将召开的会议上发表:5月份的ICLR和6 月份的CVPR。

从爆胎到赛车KITT

游戏、架构和设计领域的创作者依赖于虚拟环境,例如NVIDIA Omniverse模拟和协作平台,在创建最终产品之前测试新的想法并可视化原型。借助Omniverse Connectors,开发人员可以在Omniverse中使用他们首选的3D应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。

但并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建3D模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。

在这方面,训练好的GANverse3D应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在Omniverse中自定义和制作动画的3D图形。

为了重建KITT,研究人员只需给训练好的模型输入汽车的图像,让GANverse3D预测相应的3D纹理网格,以及车辆的不同部分,例如车轮和前照灯。然后,他们使用NVIDIA Omniverse套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使KITT具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。

“Omniverse让研究人员能够将激动人心的前沿研究直接带给创作者和最终用户。”NVIDIA深度学习工程师Jean-Francois Lafleche说道。“作为Omniverse的扩展,GANverse3D将帮助艺术家为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。”

GAN推动维度转变

因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从2D转换为3D的 AI 工具都是使用像ShapeNet这样的合成3D数据集进行训练的。

为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA研究人员转而使用GAN模型,修改其神经网络层,将其转化为数据生成器。

该团队发现,仅训练神经网络的前4层,冻结剩余的12层参数,可以让GAN从不同的角度渲染同一对象的图像。

保持前4层参数冻结,其他12层可变,可以让神经网络基于同一角度生成不同的图像。通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。

最终的模型,在55,000张由GAN生成的汽车图像上训练而得,优于在流行的Pascal3D数据集上训练的逆图形网络。

相关新闻