NVIDIA Triton 助力蚂蚁集团打造新一代推理引擎

首页 > 最新资讯 > NVIDIA Triton 助力蚂蚁集团打造新一代推理引擎

2021-06-18 17:55

蚂蚁集团通过NVIDIA Triton推理服务器提供的高性能模型推理能力，实现了一个多模态、多模型的模型推理服务框架，助力多个业务场景实现高性能，延迟降低20%，吞吐提升2.4倍

蚂蚁集团是一家旨在为世界带来普惠金融服务的创新型科技企业。多模推理框架旨在解决视频和图文场景中多模联合高性能推理问题，既可以支持多种深度学习框架的模型（TensorFlow、PyTorch等），也能支持多个模型（分类、检测）一起解决同一问题，同时也要充分利用 GPU 性能优势，在延时和吞吐方面均提出了非常高的要求；多模推理框架在诸多业务场景中都取得了明显的性能提升，成为视频领域 AI 模型推理的最佳解决方案。

模型推理的挑战主要来自于吞吐和延时，同时多模场景还需要具备串联多模型的能力。

单模型推理面临的挑战：

1. 是否支持 Python backend 以及如何解决 Python GIL 的性能瓶颈

2. 是否可以使用 Multi-Stream 充分利用 GPU 的算力

3. 视频和图片的预处理性能如何提升

多模型推理面临的挑战：

1. 是否支持灵活的 DAG 处理能力，以编排整个处理流程

2. 是否可以同时加载多种深度学习框架的模型联合推理

蚂蚁集团选择采用 NVIDIA Triton 推理服务器，以解决新场景下模型推理引擎面临的挑战。

NVIDIA Triton 是一款开源软件，对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式，从而在生产环境中使用 AI。Triton 支持多模型ensemble，以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

Dynamic-batch 和 Multi-stream，以及对 TensorRT 的支持，同时配合 T4 的 GPU，将整体推理服务的吞吐能力大幅提升 2.4 倍，延迟降低 20%，既满足了业务的低延时需求，成本也降低了 50%。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库，能够与面向 MxNet、TensorFlow 和 PyTorch 的直接插件轻松实现框架整合，可优化深度学习框架的数据管道，解决当今计算机视觉深度学习应用的性能瓶颈问题。蚂蚁集团利用其图像预处理能力结合到 Triton 的 DALI backend，替换掉原来的解码、resize 等操作，端到端性能提升 20% 。

Metrics 和 Perf Analysis 有很强大的能力，可以快速定位开发调试，甚至是线上问题，对于开发和定位问题的效率有很大提升。

借助NVIDIA Triton 推理框架，配合 DALI 的图像预处理能力，以及 T4 GPU，多模型推理性能整体提升 2.4 倍，帮助蚂蚁业务在多模态业务场景中，以更低的成本构建了高性能的推理服务，同时更低的延迟降低了整条系统链路的响应时间，优化了用户体验。

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容