聚焦语音 AI:在 AR 眼镜上可视化语音和声音
2023-07-28 12:58
音频可以包含从人类语言到非语言声音等各种声音,例如狗吠和警笛声。在为听力困难的人设计无障碍应用程序时,该应用程序应能够识别声音并理解语义。
这种技术将有助于聋哑或听力有障碍的人可化语音,例如人类的对话和非语音声音。通过将语音和声音 AI 相结合,可以将这些可视化效果叠加到 AR 眼镜上,从而使用户能够看到并理解他们无法听到的声音。
根据世界卫生组织的统计,约有 15 亿人(占全球人口近 20%)患有听力损失。到 2050 年,这一数字将上升至 25 亿。
Cochl 是 NVIDIA 的合作伙伴,总部位于圣何塞。该公司是一家利用声音 AI 技术来理解各类音频的科技密集型初创企业。他同时也是 NVIDIA 初创加速计划的会员。通过提供尖端技术和 NVIDIA 专家的支持,该计划帮助初创企业更快地构建解决方案。
该平台可识别 37 种环境声音,并且 CochI 还加入了先进的语音转文本技术,使用户能够真正全方位地了解声音世界。
AR 眼镜可视化任何声音
AR 眼镜作为一个可视化声音的工具,有望极大改善听力损失者的生活。这项技术可以帮助提高他们的交流能力,使他们更容易理解和融入到周围的世界。
Cochl.Sense 和 NVIDIA Riva 在微软 HoloLens 2 上运行!
在此方案中,自动语音识别(ASR)使眼镜能够识别并理解人类的语音。这项技术可通过多种方式集成到眼镜中:
使用麦克风捕捉与聋哑人或听力有障碍者交谈的人的语音,然后使用 ASR 算法解释语音并将其转录为文本,最后将该文本显示在眼镜上,从而使聋哑人或听力有障碍者能够阅读并理解该语音。
ASR 还可以使眼镜能够响应语音命令,以便用户可以通过语音控制眼镜。
AR 眼镜还能在屏幕上显示所有对话(例如在驾车时转录地图上的语音指示)以及其他声音(例如紧急车辆的喇叭声、警报声以及风声)。
解决方案背后的技术
Cochl 在其软件堆栈中使用了 NVIDIA Riva 来增强其 ASR 功能。Riva 是一个使用 GPU 加速、完全可定制的 SDK,用于开发语音 AI 的应用程序。通过使用 Riva,该平台的功能得以扩展,能够理解包括非语音声音在内的各种声音。
Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:“我们测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。所以现在我们可以让我们的声音 AI 系统更加接近人类的听觉感知。”
“正如我们所观察到的,AR 眼镜最有可能在环境嘈杂的开放空间中使用。NVIDIA Riva 帮助我们在嘈杂的环境中也能准确转录语音,并为我们提供了无缝体验,可以集成到我们的 Cochl.Sense 平台上。”
辅助技术的未来
创建一个能像人类一样感知声音的通用 AI 系统是一项巨大的挑战。为了使 AR 眼镜更易于使用,需要更轻便的可穿戴技术。
尽管它们仍然是将声音和语音转化为视觉信息的理想媒介。通过集成机器听觉功能,AR 眼镜能够为世界各地的聋哑或听力障碍者带来更加安全、便捷和愉快的日常生活体验。
Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏式字幕和实现多个发言者的转录。为了给听力障碍者带来最佳体验,该公司正在探索分析并可视化音乐的方法,以帮助他们至少能够理解音乐的类型和情感。
该公司期待体验更多的 NVIDIA 解决方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。