GTC22 | NVIDIA Maxine 利用 AI 的强大功能重塑实时通信
2022-03-28 09:55
#人工智能 #深度学习 #GTC22 分享到微信 分享到微博
最新版本为数百万用户实现一流的音频效果
人人都希望自己的话语得到有效传达。现在,越来越多的人会在居家办公时进行视频通话或直播。提高声音在线体验的关键在于提供丰富的音频功能,并避免出现回声卡点和狗叫声等背景噪音。
NVIDIA Maxine 提供了 GPU 加速且支持 AI 软件开发套件,可帮助开发者构建可扩展的低延迟音频和视频效果管线,提高通话质量和用户体验。
NVIDIA 在 GTC 大会上宣布,为了实现更好的音质,将为 Maxine 添加回声消除和基于 AI 的上采样技术。
回声消除可实时消除音频流中的回声,即使在模糊不清的通话过程中也能够保持高质量语音。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除。
音频超分辨率可使用基于 AI 的技术恢复较高频段中丢失的能量,提高低带宽音频信号的质量。Maxine 音频超分辨率支持将音频从 8 kHz(窄带)到 16 kHz(宽带)、从 16 kHz 到 48 kHz(超宽带)以及从 8 kHz 到 48 kHz 的上采样。较低的采样率(例如 8 kHz)通常会导致声音含糊不清,并会突出齿音等瑕疵,导致语音难以理解。
为了保持原始信号的保真度和清晰度,现代影视工作室通常使用 48 kHz(或更高)的采样率录制音频。音频超分辨率可帮助恢复时间久远的音频录音(例如源自磁带或其他低带宽介质的音频录音)的保真度。
弥合音质差距
大多数现代电信都使用宽带或超宽带音频。由于 NVIDIA 音频超分辨率可以实时上采样和恢复窄带音频,因此该技术可有效弥合传统铜质电话线与现代 VoIP 宽带通信系统之间的音质差距。
有了 Maxine,无论是在电话会议、呼叫中心还是各类直播中,实时通信都实现了巨大的飞跃。
自初次发布以来,Maxine 已为多家全球领先的视频通信、内容创作和直播提供商所采用。
据 Fortune Business Insights 称,预计到 2028 年,全球视频会议市场将由 2021 年的 63 亿美元增长到近 130 亿美元。
WFH 已成为一种生活方式
居家工作(或 WFH)已经成为各公司普遍认可的常态,而且各公司也正在调整新的期望值。
据分析公司 Gartner 估计,到 2024 年,将仅有四分之一的企业会议采用现场召开的方式,低于疫情前的 60%。
在过去两年的疫情期间,人们一直采用混合或远程办公,虚拟协作在美国发挥了重要作用。
但是,组织为了保持公司文化和工作场所体验,需要更高质量的媒体互动,而风险也会随之增加。
解决“鸡尾酒会问题”
但是,有时工作与家庭生活会发生冲突。因此,会议时常会充斥着孩子的吵闹声、户外施工声或紧急车辆警报声等背景噪音,导致电话会议出现短暂中断。
Maxine 可帮助解决这个由来已久的称为鸡尾酒会问题的音频问题。借助 AI,它可以过滤掉不需要的背景噪音,让用户无论是居家办公还是在路上,都能让通话另一方更清晰地听到自己的声音。
Maxine GPU 加速平台提供了一个端到端的深度学习管道,它集成了可定制的一流模型,通过标准麦克风和摄像头提供高质量功能。
展现你最佳的声音效果
除了受背景噪音影响之外,虚拟活动中的音频质量有时可能听起来比较微弱、缺少中低频率,甚至几乎听不见。
Maxine 支持实时上采样音频,因此声音更加饱满、深厚和清晰。
罗技:提升了耳机和 Blue Yeti 麦克风音效
为了更好地与热门耳机和麦克风交互,领先的外设制造商罗技采用了 Maxine。
罗技利用 AI 库将 Maxine 直接集成到 G HUB 音频驱动中,无需额外软件即可增强与设备的通信。Maxine 在 NVIDIA RTX GPU 中采用功能强大的 Tensor Core,让消费者可以实时处理麦克风信号。
当前,罗技在其 G HUB 软件中采用了 Maxine 先进的降噪技术。这使其可以消除干扰视频会议或直播会话的回声和背景噪音(例如风扇、键盘和鼠标点击声)。
罗技 G 总经理 Ujesh Desai 表示:“有了 NVIDIA Maxine,罗技 G 游戏玩家只需单击一下即可快速轻松地清除麦克风信号和消除不必要的背景噪音。您甚至可以使用 G HUB 测试麦克风信号,确保已接入 Maxine 设置。”
腾讯云提高内容创作者效率
腾讯云通过提供 NVIDIA Maxine 技术,助力内容创作者的生产制作,帮助他们轻松快速地添加创意背景。
NVIDIA Maxine 具有 AI 绿屏功能,因此用户无需使用传统的绿屏,即可通过高质量的前景和背景分离打造更加身临其境的临场感。将真实背景分离后,可以轻松地将背景替换为虚拟背景,或进行模糊处理营造场景深度效果。腾讯云将这种新功能作为软件即服务包提供给内容创作者。
“NVIDIA Maxine 的 AI 绿屏技术无需专用设备和照明,即可实现更加身临其境的高质量体验,帮助内容创作者创作作品。” 腾讯云音视频平台产品中心总监 Vulture Li 表示。
提升虚拟体验
NVIDIA Maxine 具有一流的实时 AI 音频、视频和增强现实功能,可内置于可定制的端到端深度学习管道中。
Maxine 提供的 AI 驱动的 SDK 可帮助开发者创建应用,提供音频和图像降噪、超分辨率、视线校正、3D 人体姿态估计和翻译功能。
Maxine 还能将语音实时翻译为文本,而且支持的语种越来越多。在 GTC 大会上,NVIDIA 演示了使用 Maxine 在英语、法语、德语和西班牙语之间进行互翻。
这些效果将令数百万人在任意设备上畅享引人入胜的高品质直播视频。