CVPR 最新发布 | GAN 研究如何重塑视频会议
2021-07-01 20:30
起床、启动笔记本电脑、打开网络摄像头 – 得益于 NVIDIA 研究人员开发的 AI 技术,在每次视频通话中都能完美展现自己。
Vid2Vid Cameo ,是用于视频会议的 NVIDIA Maxine SDK 背后的深度学习模型之一,它借助生成式对抗网络 (GAN),仅用一张人物 2D 图像即可合成逼真的人脸说话视频。
要使用该模型,参与者需要在加入视频通话之前提交一张参照图像(真实照片或卡通头像)。在会议期间,AI 模型将捕捉每个人的实时动作,并将其应用于之前上传的静态图像。
也就是说,上传一张穿着正装的照片之后,与会人员即使头发凌乱、穿着睡衣,也能在通话中以穿着得体工作服装的形象出现,因为 AI 可以将用户的面部动作映射到参照照片上。如果主体向左转,则技术可以调整视角,以便参与者看上去是直接面对摄像头的。
除了可以帮助与会者展现出色状态外,这项 AI 技术还可将视频会议所需的带宽降低 10 倍,从而避免抖动和延迟。它很快将在 NVIDIA Video Codec SDK 中作为 AI Face Codec 推出。
NVIDIA 研究人员兼项目的联合创作者 Ming-Yu Liu 表示:”许多人的互联网带宽有限,但仍然希望与朋友和家人进行流畅的视频通话。这项基础技术除了可以为他们提供帮助外,还可用于协助动画师、照片编辑师和游戏开发者的工作。”
Vid2Vid Cameo 本周在著名的 CVPR 大会上发表,这是 NVIDIA 在本次虚拟会议上发表的 28 篇论文之一。此外,它还在 AI Playground 上推出,在此所有人均可亲身体验我们的研究演示。
AI 大出风头
在一部经典盗贼电影(同时也是 Netflix 的热门节目)的致谢中,NVIDIA 研究人员将他们的人脸说话 GAN 模型迅速用于虚拟会议。演示重点介绍 Vid2Vid Cameo 的主要功能,包括面部重定向、动画头像和数据压缩。
这些功能即将登陆 NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。
开发者已经能采用 Maxine AI 效果,包括智能除噪、视频升采样和人体姿态估计。SDK 支持免费下载,还可与 NVIDIA Jarvis 平台搭配用于对话式 AI 应用,包括转录和翻译。
来自 AI 的问候
Vid2Vid Cameo 只需两个元素,即可为视频会议打造逼真的 AI 人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。
模型基于 NVIDIA DGX 系统开发,使用包含 18 万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别 20 个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。
然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。
对于接收者一端,GAN 模型会使用此信息,模拟参照图像的外观以合成一个视频。
通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低 10 倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。
此外,还可以自由调整所生成的人脸说话视频的视角,可以从侧边轮廓或笔直角度,也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。
NVIDIA 研究人员发现,无论是参照图像和视频来自同一个人,还是 AI 负责将某个人的动作转移到另一个人的参照图像,Vid2Vid Cameo 均能生成更逼真、更清晰的结果,优于先进的模型。
后一项功能可将演讲者的面部动作,应用于视频会议中的数字头像动画,甚至可以应用于制作视频游戏或卡通角色的逼真形象和动作。
Vid2Vid Cameo 论文由 NVIDIA 研究人员 Ting-Chun Wang、Arun Mallya 和 Ming-Yu Liu 共同撰写。NVIDIA 研究团队在全球拥有超过 200 名科学家,专注于 AI、计算机视觉、自动驾驶汽车、机器人和图形等领域。
感谢演员 Edan Moses 在 Netflix 上的《纸钞屋》中担任教授的英语配音,感谢他在以上最新 AI 研究的介绍视频中做出的贡献。