NVIDIA Triton 助力蚂蚁集团打造新一代推理引擎
2021-06-18 17:55
蚂蚁集团通过NVIDIA Triton推理服务器提供的高性能模型推理能力,实现了一个多模态、多模型的模型推理服务框架,助力多个业务场景实现高性能,延迟降低20%,吞吐提升2.4倍
蚂蚁集团是一家旨在为世界带来普惠金融服务的创新型科技企业。多模推理框架旨在解决视频和图文场景中多模联合高性能推理问题,既可以支持多种深度学习框架的模型(TensorFlow、PyTorch等),也能支持多个模型(分类、检测)一起解决同一问题,同时也要充分利用 GPU 性能优势,在延时和吞吐方面均提出了非常高的要求;多模推理框架在诸多业务场景中都取得了明显的性能提升,成为视频领域 AI 模型推理的最佳解决方案。
模型推理的挑战主要来自于吞吐和延时,同时多模场景还需要具备串联多模型的能力。
单模型推理面临的挑战:
1. 是否支持 Python backend 以及如何解决 Python GIL 的性能瓶颈
2. 是否可以使用 Multi-Stream 充分利用 GPU 的算力
3. 视频和图片的预处理性能如何提升
多模型推理面临的挑战:
1. 是否支持灵活的 DAG 处理能力,以编排整个处理流程
2. 是否可以同时加载多种深度学习框架的模型联合推理
蚂蚁集团选择采用 NVIDIA Triton 推理服务器,以解决新场景下模型推理引擎面临的挑战。
NVIDIA Triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式,从而在生产环境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。
Dynamic-batch 和 Multi-stream,以及对 TensorRT 的支持,同时配合 T4 的 GPU,将整体推理服务的吞吐能力大幅提升 2.4 倍,延迟降低 20%,既满足了业务的低延时需求,成本也降低了 50%。
NVIDIA DALI 是 GPU 加速的数据增强和图像加载库,能够与面向 MxNet、TensorFlow 和 PyTorch 的直接插件轻松实现框架整合,可优化深度学习框架的数据管道,解决当今计算机视觉深度学习应用的性能瓶颈问题。蚂蚁集团利用其图像预处理能力结合到 Triton 的 DALI backend,替换掉原来的解码、resize 等操作,端到端性能提升 20% 。
Metrics 和 Perf Analysis 有很强大的能力,可以快速定位开发调试,甚至是线上问题,对于开发和定位问题的效率有很大提升。
借助NVIDIA Triton 推理框架,配合 DALI 的图像预处理能力,以及 T4 GPU,多模型推理性能整体提升 2.4 倍,帮助蚂蚁业务在多模态业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。