首页 > 最新资讯 > GTC21 | NVIDIA Maxine引爆实时视频体验
GTC21 | NVIDIA Maxine引爆实时视频体验

GTC21 | NVIDIA Maxine引爆实时视频体验

2021-04-17 14:34

#人工智能 #深度学习


GPU 加速的 SDK 现可用于构建虚拟协作和内容创作的应用程序。

 

下一次在虚拟会议或流式传输游戏、现场活动或电视节目时,NVIDIA Maxine 将可能成为焦点,今天,NVIDIA 首席执行官黄仁勋GTC 主题演讲中发布了 GPU 加速的软件开发套件。

来自视频会议、内容创作和流式传输提供商的开发者正在使用 Maxine SDK 打造基于视频实时的体验。可以轻松部署至 PC、数据中心或云端。

转向远程工作

虚拟协作不断发展,每天有 7000 万小时的网络会议,越来越多的全球组织正在寻求技术来支持不断增加的远程协作。

Pexip 是一个可扩展的视频会议平台,可实现不同视频会议系统之间的互操作性,它正寻求突破其视频通信产品的边界,以满足日益增长的需求。

Pexip 的 CTO 兼联合创始人 Giles Chamberlin 说:“我们正在探索 NVIDIA Maxine 功能(如音频降噪和虚拟背景)如何为各种规模的企业提供优质的视频会议体验。”

通过与 NVIDIA 合作,Pexip 有望提供 AI 技术支持的视频通信,以支持比面对面会议效果更佳的虚拟会议。

Pexip 联合多家在视频协作领域的企业,如 Avaya,去年 10 月,已将 Maxine 音频降噪技术融入其“空间”应用,现已实现虚拟背景,允许演讲者在演示中叠加视频。

Headroom 使用 AI 来解决视频会议的分神问题,这样参与者就可以在会议期间专注于互动。这包括人们在有疑问、记笔记、转录和智能会议总结时进行标记。

发现虚拟活动的人脸识别价值

研究表明,每年有 100 多万场虚拟活动,未来有更多的活动营销人员计划投资这些活动。因此,从活动举办方到视觉效果艺术家,每个人都在寻找更快、更高效的方法来创造数字体验。

其中包括 Touchcast,将 AI 和混合现实相结合,来重塑虚拟活动。Touchcast 使用 Maxine 的超分辨率功能来将1080p视频流转换并呈现为4K.。

Touchcast 创始人兼首席执行官 Edo Segal 表示:“NVIDIA Maxine 正在为视频通信的未来铺平道路,AI 和神经网络可以全新方式增强和丰富内容。”

另一个案例是 Notch 公司,Notch 公司创建的工具可为现场活动提供实时视觉效果和动态图形。Maxine 可为它提供 AI 驱动的实时面部和身体追踪以及背景移除功能。

艺术家可以在各种创意用例的现场表演环境中追踪和遮挡表演者,这一切都使用标准摄像头馈送,消除了使用特殊硬件的跟踪解决方案带来的挑战。

Notch 创始人兼总监 Matt Swoboda 说:“集成 Maxine SDK 非常简单,只需几天便可完成。”

视频流领域的应用

Twitch 每月有近 1000 万内容创作者,成为现场直播者也从未如此轻松。直播者正在寻找功能强大且易于使用的功能来吸引观众。

BeLive 提供了一个平台,为直播用户生成谈话节目,使用 Maxine 在云端处理其视频流,因此客户不必购买昂贵的设备。在云端运行 Maxine,用户可以完成高质量的背景替换,无需担忧他们在客户端中运行的硬件情况。

借助 BeLive,您可以轻松制作实时互动式通话节目,并流式传输至 YouTube 或 Facebook Live,参与者可以在世界各地进行通话。

OBS 是一个领先的流式传输和录制平台,一个免费的开源软件解决方案,被广泛应用于游戏流式传输和直播制作。现在,NVIDIA RTX GPU 的用户可以在制作过程中利用噪音消除功能提高音频清晰度。

开发者正在使用 Maxine SDK 构建虚拟协作和内容创作应用程序

了解 Maxine NVIDIA

NVIDIA Maxine 包括三个 AI SDK,涵盖了视频效果、音频效果和增强现实领域 — 每个都配有预训练好的深度学习模型,使开发者可以快速构建或增强其实时应用程序。

首先从 NVIDIA Video Effects SDK开始,企业现在可以应用 AI 效果来提高视频质量,而无需使用特殊的摄像头或其他硬件。具体功能包括:超分辨率,从360p 输入视频中实时生成720p 输出视频,以及减少伪影,消除缺陷以获得更清晰的图片。

视频降噪功能消除了视频捕捉过程中引入的低照度相机噪声,同时保留所有细节。为了隐藏杂乱的房间或其他视觉干扰,Video Effects SDK 会实时删除网络摄像头的源背景,因此只有用户的面部和身体显示在直播中。

NVIDIA 增强现实 SDK 使用标准网络摄像头实现实时 3D 人脸追踪,通过自动放大人脸并使人脸保持在摄像机视野范围内,以提供更具吸引力的虚拟通信体验。

借助这个SDK可以检测视频源图像中的人脸,追踪面部表情的运动,创建人脸的 3D 网格表示,使用视频追踪在 3D 空间中的人体运动,通过凝视估计来模拟眼神接触,还有很多其他功能。

NVIDIA Audio Effects SDK 使用 AI 从传入和传出的音频源中消除分散注意力的背景噪音,从而提高任何对话的清晰度和质量。

包括消除不需要的背景噪音(如狗叫或婴儿哭声),使对话更清晰容易理解。对于大空间的会议,还可以从背景中消除房间回声,使声音更加清晰。

开发者可以将 Maxine AI 效果添加到其现有应用程序中,或者使用 NVIDIA DeepStream(构建智能视频分析的 SDK)以及 NVIDIA Video Codec(在 Windows 和 Linux 上加速视频编码和解码的 SDK)从头开始开发新的应用程序。

Maxine 还可用于 NVIDIA Jarvis,一种用于构建对话式 AI 应用程序的框架,可提供世界级的语言处理功能,例如转录和翻译。

相关新闻