NVIDIA发布TensorRT 6，突破BERT-Large推理10毫秒大关

首页 > 最新资讯 > NVIDIA发布TensorRT 6，突破BERT-Large推理10毫秒大关

2019-09-18 09:56

今日，NVIDIA发布了TensorRT 6，新版本能够为会话AI应用程序、语音识别、用于3D图像分割的医疗应用程序，以及基于图像的工业自动化应用程序带来大幅度提速。

TensorRT是一个高性能深度学习推理优化器和运行时刻，能够为AI应用程序带来低延迟、高吞吐量的推理。

新版本的TensorRT继续对其优化层集进行了扩展，为会话AI应用程序提供了必要的功能；并与框架更紧密地相集成，为用户在NVIDIA GPU上部署应用程序提供了便捷的路径。

TensorRT 6还推出了新的优化，能够在仅仅5.8毫秒内，通过T4 GPU完成BERT-Large的推理，这使得企业在生产环境中部署该模型，首次成为现实。

基于BERT的解决方案能够跨应用程序重用权重，而且具有极高的精度，为探索语言服务行业指出了新的方向。我们使用最近发布的TensorRT优化执行BERT-Base推理，新版本能够在2毫秒内完成推理。

为了确保与用户之间的互动性，自然语言理解（NLU）模型（例如：BERT）需要在10毫秒内完成推理。BERT-Base具有1.1亿个参数，能够为多个问答任务提供高精度；BERT-Large具有3.4亿个参数，在某些问答任务中，其甚至能够达到高于人类基线的精度水平。更高的准确性意味着企业客户可以获得更好的基于语言交互的用户体验，而部署它们的企业机构则可以获得更高的收益。

我们还在TensorRT Open Source Repo中发布了几个新的示例，使得用户可以更快地入门基于TensorRT的语言（OpenNMT、BERT、Jasper）、图像（Mask-RCNN、Faster-RCNN）和推荐（NCF）的加速应用程序。通过最新版本的Nsight Systems工具，用户可以进一步微调和优化深度学习应用程序。

TensorRT 6 亮点

---- 在NVIDIA T4 GPU上，通过新的优化，仅需5.8毫秒，就可以通过BERT-Large推理实时地实现超人水平的NLU准确度；
---- 使用新的API和Dynamic input shapes优化，能够轻松加速对会话AI、语音和图像分割应用程序；
---- 通过对Dynamic input批量大小的支持，加速具有波动计算需求（如在线服务）的应用程序；
---- 通过新的3D卷积层，医疗应用程序中图像分割的推理速度比CPU快5倍；
---- 通过优化2D U-Net加速工业自动化应用程序。

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容