首页 > 最新资讯 > NVIDIA Kaolin PyTorch库让3D深度学习研究更简单
NVIDIA Kaolin PyTorch库让3D深度学习研究更简单

NVIDIA Kaolin PyTorch库让3D深度学习研究更简单

2019-11-18 19:23

#人工智能 #深度学习


目前,3D计算机视觉研究与AI研究都在快速发展,如同两幢摩天大厦,一同拔地而起。然而,在这两座大厦之间却缺少一座连接的桥梁,如要往返于这两座大厦之间,就要爬上爬下几十层楼。

为了解决这一问题,NVIDIA发布推出了Kaolin——它只需几步就能将3D模型导入到神经网络当中。

以PyTorch库形式实现的Kaolin能够简化3D深度学习模型的准备工作,将原来所需的300行代码减少到只需5行。

无论这些复杂的3D数据集将以何种形式呈现或渲染,都可以被载入机器学习框架。

像这样的工具可以让众多领域的研究人员受益,比如机器人自动驾驶汽车、医学成像和虚拟现实等。

如今,人们对3D模型的兴趣正在快速增加,因此Kaolin的推出将产生巨大的影响。目前,在线存储库已储存了许多3D数据集,这在一定程度上要归功于遍布在全球各实验室、起居室等地的,约三千万个可捕捉3D图像的深度学习照相机。

此前,研究人员缺乏有效的实用程序,将这些模型与快速发展的深度学习工具配合使用。因此,研究人员不得不花费大量时间从头开始编写代码,而这些代码本应该是样板代码。

加快研究的接口

Kaolin的核心是一套可以操控3D内容的有效几何函数。它可以将以多边形网格、点云、有符号距离函数或体元栅格形式实现的张量3D数据集装入PyTorch。

在准备好用于深度学习的3D数据集后,研究人员可以从Kaolin提供的精选模型集中选择一个神经网络模型。该接口提供了一个丰富的模型存储库,其中包括用于分类、分割、3D重建、超分辨率等的基础模型和先进模型。

部分实际应用

分类:识别3D场景中的物件通常是以下复杂过程的第一步。



3D部件分割:自动识别3D模型的不同部件,使动画角色的骨胳动作绑定或自定义对象变体生成模型变得简单。



图像3D化:根据受过训练的神经网络所识别的产品图像来构建3D模型。也可以使用3D模型在供应商实例目录中反向搜索最适合的3D模型数据库。



除了源代码之外,NVIDIA还将发布符合流行基准、用于此类任务的预训练模型,希望它们可以作为未来研究的基准,从而简化模型对比工作。

Kaolin的模块化设计使用户能够轻松使用3D深度学习中的可微分渲染技术,这是一项热门新技术。用户只需要修改接口耗材组件,无需从头开始编写整个渲染器。

将AI与3D模型相结合

NVIDIA研究人员进行了大量3D相关研究。有时为了找出最佳方法,研究者们会花几天时间浏览他人编写的开源代码,然后将代码全部放入一个库中供内部使用。

在为研究团队的几个项目编写了样板代码之后,团队中的一位实习生建议为PyTorch创建一种功能更全面的实用程序。研究人员此前已经搭建了用于2D图像的该类实用程序,而如果有适用于3D的此类实用程序,就可以扩大整个社区。

Kaolin这个名字来自于高岭土(Kaolinite)。高岭土是一种塑像用粘土,常被用于雕刻待数字化的3D模型。研究团队希望它可以帮助许多现任和新任3D研究人员使用AI实现惊人的创新。

目前,研究人员可以在GitHub上下载该存储库。

相关新闻