NVIDIA 发布TensorRT 8,在推理方面取得重大突破
2021-07-21 19:49
TensorRT 8为医疗、汽车和金融领域的领先企业提供全球最快AI推理性能。
NVIDIA 于今日发布公司第八代 AI 软件TensorRT™ 8。该软件将语言查询推理时间缩短了一半,使开发者能够从云端到边缘构建全球最佳性能的搜索引擎、广告推荐和聊天机器人。
TensorRT 8 的各项优化为语言应用带来了创纪录的速度,能够在 1.2 毫秒内运行 BERT-Large ——全球最广为采用的基于 transformer 的模型之一。过去,企业不得不缩减模型大小,而这会导致结果出现大幅偏差。现在有了 TensorRT 8,企业可以将其模型扩大一倍或两倍,从而大幅提高精度。
NVIDIA 开发者计划副总裁 Greg Estes 表示:“ AI 模型正以指数级的速度增长。全世界对 AI 实时应用的使用需求正在激增。这使企业必须部署最先进的推理解决方案。最新版本的 TensorRT 引入了多项新功能,使企业能够以前所未有的质量和响应速度向其客户提供对话式 AI 应用。”
五年来,医疗、汽车、金融和零售等各个领域 27,500 家企业的超 35万名开发者下载 TensorRT 近 250 万次。TensorRT 可部署于超大规模数据中心、嵌入式或汽车产品平台。
最新推理创新
除了针对 transformer 的优化之外,TensorRT 8 还通过其他两项关键特性,实现了AI推理方面的突破。
其一是稀疏性,这是助力推动 NVIDIA Ampere 架构 GPU 性能提升的一项全新技术,它不但提高了效率,还使开发者能够通过减少计算操作来加速其神经网络。
其二是量化感知训练,开发者能够使用训练好的模型,以 INT8 精度运行推理,在这一过程中不会损失精度。这大大减少了计算和存储成本,从而在 Tensor Core 核心上实现高效推理。
广泛的行业支持
行业领导者已将 TensorRT 用于他们在对话式AI和其他各个领域的深度学习推理应用。
Hugging Face 是开源 AI 技术的领导者,其客户包括全球多个行业领域的大规模AI服务提供商。该公司正与 NVIDIA 开展密切合作,推出能够助力实现大规模文本分析、神经搜索和对话式应用的开创性 AI 服务。
Hugging Face 产品总监 Jeff Boudier 表示:“我们正在与 NVIDIA 开展密切合作,以基于 NVIDIA GPU,为最先进的模型提供最佳性能。Hugging Face 加速推理 API 已经能够为基于 NVIDIA GPU的 transformer 模型提供高达 100 倍的速度提升。通过 TensorRT 8,Hugging Face 在 BERT 上实现了 1 毫秒的推理延迟。我们十分期待能在今年晚些时候为我们的客户提供这一性能。”
全球领先的医疗技术、诊断和数字解决方案创新者 GE 医疗正在使用 TensorRT,助力加速早期检测疾病的关键工具——超声波计算机视觉应用,使临床医生能够通过其智能医疗解决方案提供最高质量的护理。
GE 医疗心血管超声首席工程师 Erik Steen 表示:“临床医生需要花费宝贵的时间来选择和评估超声图像。在 Vivid Patient Care Elevated Release 项目的研发过程中,我们希望通过在 Vivid E95 扫描仪上实施自动心脏视图检测,使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动。TensorRT 凭借其实时推理能力,提高了视图检测算法的性能,同时缩短了我们研发项目的产品上市时间。”
可用性
TensorRT 8 现已全面上市,并免费向 NVIDIA 开发者计划成员提供。用户还可从 TensorRT GitHub 库中获得最新版本插件、解析器和样本的开放源代码。