NVIDIA 扩展 Maxine 视频编辑功能,展示 3D 虚拟会议研究成果
2023-08-25 19:15
#人工智能 #深度学习 #SIGGRAPH 分享到微信 分享到微博
Maxine 的生产版本现已在 NVIDIA AI Enterprise 中推出;研究演示示范了 3D 技术如何提升视频通信的质量。
在 NVIDIA Maxine 的帮助下,专业人士、团队、创作者等能够利用 AI 的强大性能用普通麦克风和网络摄像头创造出高品质的音视频效果。
通过这套由 GPU 加速的软件开发工具套件和云原生微服务,用户可以部署能够改进实时通信服务和平台的音视频及增强现实效果的 AI 功能。Maxine 还将扩展视频编辑功能,使团队的视频通信能力达到新的高度。
此外,在本周举行的 SIGGRAPH 大会上,NVIDIA Research 还演示了 AI 如何通过 3D 功能树立视频会议的新标杆。
NVIDIA Maxine 功能扩展至视频编辑领域
无线连接使人们能够在更多地点参加虚拟会议。一般情况下,当通话者在移动中或位于连接不佳的地点时,音视频质量就会受到严重影响。
而借助背景音降噪、超高分辨率、眼神交流等先进的实时 Maxine 功能,远程用户可以获得更好的人际交流体验。
此外,Maxine 现在还可用于视频编辑。NVIDIA 合作伙伴正在使用提升视频会议质量的 Maxine 功能改变这一专业工作流。无论是销售宣传还是网络研讨会,编辑视频的目的都是为了尽可能广泛的吸引受众。通过 Maxine,专业人员可以充分利用 AI 功能增强音视频信号。
有了 Maxine,发言人可以将目光从屏幕移到参考笔记或脚本上,而在屏幕上他们仍在直视镜头。用户还能以低分辨率拍摄视频,并在后期提高质量。另外,Maxine 还使用户能够用多种不同语言录制视频并导出英语视频。
今年的 Maxine 抢先体验版中将发布的功能有:
Interpreter:将中文、俄语、法语、德语和西班牙语翻译成英语,同时将用户影像转换成他们在说英文的动画形象。
Voice Font:使用户能够应用发言者的声音特征并将其映射到输出的音频中。
Audio Super Resolution:通过提高音频信号的时间分辨率和扩展带宽来提升音频质量。该功能目前支持从 8,000Hz 到 16,000Hz 以及从 16,000Hz 到 48,000Hz 的上采样,在更新后还减少了 50% 的延迟,提高了 2 倍的吞吐量。
Maxine Client:将 Maxine 微服务的 AI 功能加入到 PC 上的视频会议中。该应用针对低延迟流式传输进行了优化,并将使用云来满足其所有 GPU 计算需求。瘦客户端将于今年秋季在 Windows 上推出,之后还将增加对其他操作系统的支持。
Maxine 可以部署在云端、本地或边缘,这意味着用户可以在几乎任何地方进行高质量的通信。
树立视频会议的新标杆
许多合作伙伴和客户正在体验 Maxine 带来的高质量视频会议和视频编辑。Maxine 的两项功能 Eye Contact 和 Live Portrait 现已在 NVIDIA AI Enterprise 软件平台上发布。Eye Contact 通过估计用户的视线并将其与摄像头对齐来模拟用户直视摄像头。而 Live Portrait 则能通过用户的实时视频画面将用户的人像照片转换成动画。
软件公司 Descript 的目标是让视频与文档和幻灯片一样,成为每位沟通者的主要工具。借助 NVIDIA Maxine,使用 Descript 的专业人员和初学者都可以使用 AI 功能改进他们的视频内容工作流程。
Descript 业务和企业发展主管 Jay LeBoeuf 表示:“有了 NVIDIA Maxine 的 Eye Contact 功能,用户再也不用担心背诵脚本或枯燥乏味的重复拍摄视频了。他们每次都可以在保持完美屏幕形象的同时,准确无误地说完脚本。”
Reincubate 的 Camo 应用程序充分利用人们已拥有的硬件和设备,扩大精彩视频的制作渠道。为此,该应用为用户提供了更大的图像控制权,并实现了强大、高效的视频特效和转换处理流程。通过使用 NVIDIA Maxine 所提供的技术,Camo 为用户提供了一条更加简单的精彩视频创作途径。
Reincubate 创始人兼首席执行官 Aidan Fitzpatrick 表示:“将 NVIDIA Maxine 集成到 Camo 中让我们能够轻松地充分利用用户 RTX GPU 的高性能。有了 Maxine,团队能够更快、更有信心地开展工作。”
Quicklink 的 Cre8 是一个功能强大的视频制作平台,可用于创建专业的品牌化制作以及虚拟和混合现场活动。其用户友好的界面整合了直观的设计与构建、编辑和自定义专业化制作所需的所有工具。Cre8 采用 NVIDIA Maxine 技术,最大程度地提高了生产力以及视频制作的质量,使一切尽在用户的掌握之中。
Quicklink 首席执行官 Richard Rees 表示:“Quicklink Cre8 可以提供全球先进的视频制作平台。通过 NVIDIA Maxine,我们能够添加更多先进功能,比如自动构图、视频噪音消除、噪音和回声消除以及眼神交流模拟等。”
gemelo.ai 打造了一个能够扩展用户的语音、内容和互动的 AI 孪生创建平台。gemelo.ai 团队可以使用 Maxine 的 Live Portrait 功能,为经过扩展的个性化内容和一对一互动带来新的可能性。
带来了颠覆的变化。我们的客户现在可以设计并部署无比逼真的数字孪生,获得无限扩展内容制作以及跨应用、网站和混合现实体验交互的‘超能力’。”
NVIDIA Research 展示 3D 视频如何提高沉浸式通信的质量
除了支持 Maxine 的高级功能外,NVIDIA AI 还能提升 3D 视频通信的质量。NVIDIA Research 最近发表的一篇论文展示了 AI 如何利用最少的捕捉设备来支持 3D 视频会议系统。
3D 网真会议系统通常价格昂贵、需要很大的空间或制作工作室,并且要用到高带宽、高容量的视频流式传输,这些都限制了该技术的普及。NVIDIA Research 分享了一种新的方法,该方法运行在基于 VisionTransformer 的新型编码器上,可将普通网络摄像头输入的 2D 视频转换成 3D 视频。AI 无需在与会者之间来回传递 3D 数据,使通话的带宽要求与 2D 会议相同。
这项技术采用体积渲染技术,将用户的 2D 视频自动创建为一种被称为神经辐射场(NeRF)的 3D 呈现方式。因此,与会者可以像在传统视频会议中一样,在解码可实时渲染的高质量 3D 图像的同时传输 2D 视频。而且借助 Maxine 的 Live Portrait,用户能够以 3D 形式呈现自己的肖像。
以 AI 为媒介的 3D 视频会议可以大幅降低 3D 捕捉成本、提供高保真的 3D 呈现、展示逼真或风格化的虚拟形象并在视频会议中实现相互之间的眼神交流。相关研究项目展示了 AI 如何帮助提升通信和虚拟互动水平,这也为 NVIDIA 未来的视频会议技术指明了方向。
请观看下面的系统演示。SIGGRAPH 与会者可以莅临 Emerging Technologies 展台,在 Looking Glass 设计的 3D 显示屏上现场观看演示。
供应情况
进一步了解现已在 NVIDIA AI Enterprise 上提供的 NVIDIA Maxine。
了解 3D 视频会议项目背后的更多研究。
主题图片由 NVIDIA Research 提供。