首页 > 最新资讯 > 使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

2023-08-01 20:29

#人工智能 #深度学习


使用指南:

 

访问 TAO 工具套件入门页面,查看教学视频和快速入门指南。

NGC 下载 TAO 工具套件和预训练模型。

 

 

图 2:NVIDIA TAO 工具套件体系

用于构建、完善和部署机器学习模型和算法的平台 Edge Impulse 将 TAO 工具套件集成到其边缘 AI 平台中。通过整合,Edge Impulse 现在可以提供先进的视觉 AI 功能和模型,并对其现有产品进行补充。开发者可以利用 TAO,使用该平台为任何边缘设备构建生产型 AI。

 

 

 

视频 2: 了解如何在一个 STM 微控制器上

部署使用 TAO 工具套件优化的模型

虽然 TAO 工具套件模型可以在任何平台上运行,但这些模型在使用 TensorRT 进行推理的 NVIDIA GPU 上才能实现最高吞吐量。在 CPU 上,这些模型使用 ONNX-RT 进行推理。一旦软件可用,将提供复制这些数字的脚本和配方。

 

 

最先进的视觉 Transformer

 

Transformer 已经成为 NLP 中的标准架构,这主要是因为自注意力架构,同时它们还因一系列视觉 AI 任务而广受欢迎。一般来说,基于 Transformer 的模型因为具有鲁棒性、可推广性和对大规模输入执行并行处理的能力,会优于传统的基于 CNN 的模型。所有这些优点都提高了训练效率,对图像损坏和噪声提供了更好的鲁棒性,并对不可视的对象更好地进行泛化。

TAO 工具套件 5.0 为流行的 CV 任务提供了几种最先进的(SOTA)视觉 Transformer ,具体如下。

 

表 2:具有尺寸和精度的 FAN 主干

 

 
 

全局视野视觉 Transformer

 

全局上下文视觉 Transformer(GC-ViT)是 NVIDIA Research 的一种新架构,可实现非常高的准确性和计算效率。GC-ViT 解决了视觉 Transformer 中缺乏诱导性偏差的问题 。通过使用局部自注意,它在 ImageNet 上使用较少的参数获得了更好的结果。

局部自我注意与全局视野自我注意相结合,可以有效地模拟长距离和短距离的空间交互。图 6 显示了 GC-ViT 模型体系结构。有关更多详细信息,请参见 Global Context Vision Transformers (https://arxiv.org/pdf/2206.09959.pdf)。

 

表 3:具有尺寸和精度的 GC-ViT 主干

 

 
 

DINO

 

DINO(具有改进去噪锚框的检测 Transformer)是最新一代检测 Transformer(DETR),达到了一个比上一代更快的训练收敛时间。Deformable DETR (D-DETR)至少需要 50 个 epochs 才能收敛,而 DINO 可以在 COCO 数据集上在 12 个 epochs 内收敛。而且,与 D-DETR 相比,它还实现了更高的精度。

DINO 通过在训练期间去噪实现更快的收敛,这有助于提案生成阶段的二分匹配过程。由于二分匹配的不稳定性,类 DETR 模型的训练收敛速度较慢。二分匹配减少了对人工和计算繁重的 NMS 操作的需求。但是,它通常需要更多的训练,因为在二分匹配期间,不正确的基本事实也可以与预测相匹配。

为了解决这个问题, DINO 引入了有噪声的正负真实框来处理“无对象”场景。因此,DINO 的训练收敛得非常快。更多信息,请参阅 DINO:  带有改进的去噪锚框的 DETR,可用于端到端对象检测(https://arxiv.org/pdf/2203.03605.pdf)。

图 7:DINO 架构

TAO 工具套件中的 DINO 是灵活的,可以与传统的 CNNs 主干(如 ResNets )和基于 Transformer 的主干(如 FAN 和 GC-ViT)相结合。表 4 显示了在各种版本的 DINO 和常用的 YOLOv7 上 COCO 数据集的准确性。有关更多详细信息,请参见 YOLOv7: 为实时物体检测器设置了新的先进技术的可训练的免费套件(https://arxiv.org/pdf/2207.02696.pdf)。

 

目标检测和分割之外的 CV 任务

 

除了传统对象检测和分割,NVIDIA TAO 工具套件也加速了其他的各种 CV 任务。TAO 工具套件 5.0 中新增的字符检测和识别模型使开发人员能够从图像和文档中提取文本。文档转换实现了自动化,并加速了在保险和金融等行业的用例。

当被分类的对象变化很大时,检测图像中的异常是有用的,但不可能用所有的变化进行训练。例如,在工业检测中,缺陷可以是任何形式的。如果训练数据之前没有发现缺陷,那么使用简单的分类器可能会导致许多遗漏的缺陷。

对于这样的用例,将测试对象直接与黄金参考进行比较将获得更好的准确性。TAO 工具套件 5.0 的特点是暹罗神经网络,在该网络中,模型计算出被测对象和黄金参考之间的差异,以便在对象有缺陷时进行分类。

用于工作流程集成的 REST API

TAO 工具套件是模块化和云原生的,这意味着它可以作为容器使用,并且可以使用 Kubernetes 进行部署和管理。TAO 工具套件可以作为自管理服务部署在任何公共或私有云、DGX工作站上。此外 TAO 工具套件提供定义完善的 REST API,使其易于集成到您的开发工作流程中。开发人员可以调用 API 端点来执行所有训练和优化任务。这些 API 端点可以从任何应用程序或用户界面调用,然后通过远程触发进行训练作业。

 

 

图 10:在各种 GPU 上优化的 TAO 工具套件

和公共模型之间的性能比较

 

开放灵活,具有更好的支撑

 

因为 AI 模型是基于复杂的算法预测输出的,这可能会使人们很难理解系统是如何做出决定的,并且很难调试、诊断和修复错误。可解释人工智能(XAI)通过解释 AI 模型如何做出决策来应对这些调整。这不仅有助于人类理解 AI 输出背后的推理过程,也使诊断和修复错误变得更容易。这种透明度有助于建立对 AI 系统的信任。

为了提高透明度和可解释性,TAO 工具套件将以开源形式提供。开发人员将能够从内部层查看特征图,并绘制激活热图,以更好地理解人工智能预测背后的推理过程。此外,访问源代码将使开发人员能够灵活地创建定制的 AI,提高调试能力,并增加对其模型的信任。

NVIDIA TAO 工具套件现已推出,可通过 NVIDIA AI Enterprise (NVAIE) 购买。NVAIE 为公司提供关键业务支持、NVIDIA AI 专家答疑以及优先安全修复。了解 NVAIE (https://www.nvidia.com/en-us/data-center/products/ai-enterprise/) 并获得 AI 专家的指导。

 

图 11:TAO 工具套件 5.0 与各种 AI 服务集成

 

总结

TAO 工具套件提供了一个平台,任何开发者在任何服务、任何设备上都可以使用,可以轻松地迁移学习他们的自定义模型,执行量化和修剪,管理复杂的训练工作流程,并在无需编码的情况下执行人工智能辅助注释。

*为提供 TAO 工具套件 5.0 版本的准确信息,本文已在原版基础上进行了修订。

 

相关新闻