GTC21 | NVIDIA Triton征服AI推理之海
2021-04-17 14:35
本周,超过六家公司分享了通过 NVIDIA Triton 推理服务器 (NVIDIA Triton Inference Server)进行深度学习的实践经验,Triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式,从而在生产环境中使用 AI。
例如,在一个 GTC 演讲中,大众集团 AI 工程师 Fabian Bormann 通过计算机视觉 Model Zoo 进行虚拟之旅,Model Zoo 是该公司内部团队和未来合作伙伴精心策划的解决方案库。
该汽车制造商将 Triton 集成到其“大众计算机视觉工作台”,以便用户为 Model Zoo 做出贡献,而无需担心它们是基于 ONNX、PyTorch,还是 TensorFlow 框架。Triton 简化了模型的管理和部署,这是大众在有趣的新环境中提供 AI 服务的关键,Bormann 在其 GTC 演讲的描述(会议E32736)中如是说。
Salesforce 以 Triton 基准测试销售
作为客户关系管理软件和服务的领导者,Salesforce 最近对 Triton 在一些大型 AI 模型(用于自然语言处理的 Transformer)上的性能进行基准测试。
“Triton 不仅具有出色的服务性能,而且还包含多个关键功能,例如动态批处理、模型管理和模型优先级。它的设置简单快捷,适用于包括 TensorFlow 和 PyTorch 在内的许多深度学习框架。”
Salesforce 高级研究经理 Nitish Shirish Keskar 在 GTC(会议 S32713)上介绍其工作时给予了上述评价。
Keskar 在最近的博客中描述了他的工作,验证了 Triton 在处理 100 个并发线程的同时,每秒可以处理 500-600 个查询 (QPS),并且在使用著名的 BERT 模型理解语音和文本时,延迟低于 200 毫秒。他在更大的 CTRL 和 GPT2-XL 模型上测试 Triton,发现尽管它们有数十亿个神经网络节点,Triton 仍然取得了惊人的 32-35 QPS。
与 Hugging Face 进行模型协作
超过 5000 家组织选择 Hugging Face,以借助其 7000 个自然语言处理 AI 模型来总结、翻译和分析文本。Hugging Face 产品总监 Jeff Boudier 将在 GTC(会议 S32003)上描述他的团队是如何通过引入 Triton 的流程在其模型上将 AI 推理性能提升了 100 倍。
Boudier 称:“我们与 NVIDIA 有着广泛的合作,因此我们的用户可以在 GPU 上运行模型时获得最优化的性能。”
Hugging Face 旨在将 Triton 与 NVIDIA 用于优化 AI 模型的软件 TensorRT 相结合,从而将处理 BERT 模型推理的时间缩短至不到一毫秒。他表示“这将推动先进技术的发展,开辟新的用例,为广阔的市场带来收益。”
大规模部署以进行 AI 推理
American Express 在一项 AI 服务中采用 Triton,该服务需要在 2 毫秒的延迟内运行,以实时检测每年 1 万亿美元的交易中的欺诈行为。
在吞吐量方面,微软在其 Azure 云服务上使用 Triton 支持 GrammarLink 背后的 AI。GrammarLink 是 Microsoft Word 的在线编辑器,预计每年可处理多达 5 万亿次查询。
鲜为人知但值得注意的是,纽约的 LivePerson 计划在其云服务中借助 Triton 运行数千个模型,为包括 GM Financial、Home Depot 和欧洲移动服务提供商 Orange 在内的 18000 位客户提供对话式 AI 功能。
伦敦 Intelligent Voice 的首席技术官将在 GTC(会议 S31452)上介绍了其 LexIQal 系统,该系统使用 Triton 进行 AI 推理,以检测保险和金融服务中的欺诈。
如今,他们已是使用 NVIDIA 进行 AI 推理的众多公司之一。仅去年一年,用户下载 Triton 软件的次数就超过 50000 次。
Triton 的“瑞士军刀”特性
Triton 日益受到青睐,部分原因就是它可以处理任意类型的 AI 推理工作,无论是以实时、批处理模式运行的工作,还是以流媒体服务的形式运行的工作,甚至是涉及到一系列模型或模型集成的工作。这种灵活性让用户无需为每种任务类型引入和管理自定义的推理服务器。
Triton 简化了使用基于各种框架的模型执行多种方式推理的工作,同时保持更高的吞吐量和系统利用率
此外,Triton 可确保高系统利用率,无论推理在云服务、本地数据中心还是网络边缘运行,都可确保在 GPU 之间均匀分配工作。其开放式、可扩展的代码也可让用户根据自己的特定需求自定义 Triton。
NVIDIA 也在不断改进 Triton。最近添加的模型分析器会梳理所有选项,以向用户显示适合其作业的最佳批尺寸(batch size)或每个 GPU 的实例数(instances-per-GPU)。新工具可以自动完成将 Tensorflow 或 PyTorch 中训练的模型转换并验证为 TensorRT 格式的工作;将来,它将支持在任何神经网络格式之间转换模型。
认识我们的推理合作伙伴
Triton 吸引了若干在其云服务中支持该软件的合作伙伴,包括亚马逊、谷歌、微软和腾讯。Allegro、Seldon 和 Red Hat 等其他合作伙伴在企业数据中心软件中支持 Triton,以用于包括 MLOps(AI DevOps 的扩展)在内的工作流程。
在 GTC(会议 S33118)上,Arm 将描述如何将 Triton 用作其直接在边缘网关上运行推理的神经网络软件的一部分。Dell EMC 的两名工程师将展示如何使用 Triton 将视频分析性能提升 6 倍(会议 S31437),NetApp 将讨论将 Triton 与固态存储阵列集成的工作(会议 S32187)。
如需了解更多信息,请报名参加 GTC 并查看 NVIDIA Triton 专家关于深度学习推理的两场介绍性会议(S31114、SE2690)中的一场。