聚焦语音 AI：在 AR 眼镜上可视化语音和声音

2023-07-28 12:58

音频可以包含从人类语言到非语言声音等各种声音，例如狗吠和警笛声。在为听力困难的人设计无障碍应用程序时，该应用程序应能够识别声音并理解语义。

这种技术将有助于聋哑或听力有障碍的人可化语音，例如人类的对话和非语音声音。通过将语音和声音 AI 相结合，可以将这些可视化效果叠加到 AR 眼镜上，从而使用户能够看到并理解他们无法听到的声音。

根据世界卫生组织的统计，约有 15 亿人（占全球人口近 20%）患有听力损失。到 2050 年，这一数字将上升至 25 亿。

Cochl 是 NVIDIA 的合作伙伴，总部位于圣何塞。该公司是一家利用声音 AI 技术来理解各类音频的科技密集型初创企业。他同时也是 NVIDIA 初创加速计划的会员。通过提供尖端技术和 NVIDIA 专家的支持，该计划帮助初创企业更快地构建解决方案。

该平台可识别 37 种环境声音，并且 CochI 还加入了先进的语音转文本技术，使用户能够真正全方位地了解声音世界。

AR 眼镜可视化任何声音

AR 眼镜作为一个可视化声音的工具，有望极大改善听力损失者的生活。这项技术可以帮助提高他们的交流能力，使他们更容易理解和融入到周围的世界。

Cochl.Sense 和 NVIDIA Riva 在微软 HoloLens 2 上运行！

在此方案中，自动语音识别（ASR）使眼镜能够识别并理解人类的语音。这项技术可通过多种方式集成到眼镜中：

使用麦克风捕捉与聋哑人或听力有障碍者交谈的人的语音，然后使用 ASR 算法解释语音并将其转录为文本，最后将该文本显示在眼镜上，从而使聋哑人或听力有障碍者能够阅读并理解该语音。

ASR 还可以使眼镜能够响应语音命令，以便用户可以通过语音控制眼镜。

AR 眼镜还能在屏幕上显示所有对话（例如在驾车时转录地图上的语音指示）以及其他声音（例如紧急车辆的喇叭声、警报声以及风声）。

解决方案背后的技术

Cochl 在其软件堆栈中使用了 NVIDIA Riva 来增强其 ASR 功能。Riva 是一个使用 GPU 加速、完全可定制的 SDK，用于开发语音 AI 的应用程序。通过使用 Riva，该平台的功能得以扩展，能够理解包括非语音声音在内的各种声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示：“我们测试了很多语音识别服务，但只有 Riva 提供了极高且稳定的实时性能。所以现在我们可以让我们的声音 AI 系统更加接近人类的听觉感知。”

“正如我们所观察到的，AR 眼镜最有可能在环境嘈杂的开放空间中使用。NVIDIA Riva 帮助我们在嘈杂的环境中也能准确转录语音，并为我们提供了无缝体验，可以集成到我们的 Cochl.Sense 平台上。”

辅助技术的未来

创建一个能像人类一样感知声音的通用 AI 系统是一项巨大的挑战。为了使 AR 眼镜更易于使用，需要更轻便的可穿戴技术。

尽管它们仍然是将声音和语音转化为视觉信息的理想媒介。通过集成机器听觉功能，AR 眼镜能够为世界各地的聋哑或听力障碍者带来更加安全、便捷和愉快的日常生活体验。

Cochl 还在探索语音 AI 的更多用例，例如为 AR 眼镜上的任何视频提供隐藏式字幕和实现多个发言者的转录。为了给听力障碍者带来最佳体验，该公司正在探索分析并可视化音乐的方法，以帮助他们至少能够理解音乐的类型和情感。

该公司期待体验更多的 NVIDIA 解决方案，包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。

精彩推荐