Sensory通过NeMo将NVIDIA AI运用于语音和视觉应用

2022-07-08 19:48

企业可以使用混合模型改进唤醒词、语音转文本、设备安全等。

你可能不了解 Todd Mozer，但却很有可能已经体验过该公司的技术——该公司已经为全球数十亿消费电子设备实现了语音和视觉 AI。

Sensory 于 1994 年创立于硅谷，致力于为行业巨头的移动设备提供先进的紧凑模型。如今，Sensory 为各种语音电子产品提供了互动性。LG 和三星不仅在手机，还在冰箱、遥控器和可穿戴设备中使用 Sensory。

CEO 兼创始人 Mozer 表示：“当我想让我的语音微波炉连接网络搜索食谱，并为我读出这个食谱时，混合计算方法就可以发挥作用。”

混合计算是一种结合云和本地计算资源的方法。

该公司的最新成果依靠于用于建立先进对话式 AI 模型的工具包 NVIDIA NeMo 以及用于其 Sensory Cloud 混合计算单元的 NVIDIA Triton 推理服务器。

让电子设备更智能

设备正在变得越来越强大。虽然市场上正在出现各种专用的推理加速器，但越好的模型往往越大，而且需要的内存也越多，所以基于边缘的处理有时并不一定是最好的解决方案。

而将设备连接到云可以为这些紧凑模型提供更好的性能。Mozer 表示，可穿戴设备、手机、汽车等设备都可以进行无线更新。

他表示：“云连接可以为更小、更准确的设备端模型提供更新。”

这实现了设备端的许多功能改进。Sensory 为客户提供语音转文字、文字转语音、唤醒词验证、自然语言理解、面部身份识别以及扬声器和声音识别等功能。

Sensory 还使用 NVIDIA Jetson 边缘 AI 模块将 Sensory Cloud 的力量带给更大的设备。

利用 Triton 进行推理

该公司的 Sensory Cloud 利用 NVIDIA Triton 运行语音和视觉模型。Sensory 围绕 Triton 构建的自定义云模型管理基础架构，使不同的客户能够运行不同的模型版本、部署自定义模型、启用自动更新并监控使用情况和错误。

Sensory 的客户可以将它作为一个容器部署到本地或云端，也可以完全用于私人用途，不向 Sensory 发送任何数据。

Triton 为 Sensory 提供了一个用于所有 Triton 通信和以最少的编码快速部署新模型的专用机器学习任务库。它还实现了一个方便新管道组装和扩展的异步动作管道。Triton 的动态批处理功能帮助提高 GPU 吞吐量并进行性能分析，以此实现推理优化。

Sensory 是 NVIDIA 初创加速计划的成员。这项全球计划为领先的初创企业提供支持。

将 NeMo 运用于混合云模型

Sensory 在 NVIDIA NeMo 的基础上进行了扩展，提升其所有云技术的准确性和功能。

NeMo 所改进的功能包括专有的特征提取器、音频流优化、可定制的词汇表、多语言模型等。

NeMo 模型现在支持 17 种语言。该公司称，凭借 Sensory 专有的功能改进，语音转文字的单词错误率很低，并始终处于最佳水平。

Mozer 表示：“Sensory 通过 NVIDIA Triton 硬件和 NVIDIA NeMo 软件实现了各项特征和功能的改进。这类混合云设置为客户提供了全新的 AI 功能。”

精彩推荐