首页 > 最新资讯 > Jetson Xavier NX 在图像识别与智能诊断中的应用测评
Jetson Xavier NX 在图像识别与智能诊断中的应用测评

Jetson Xavier NX 在图像识别与智能诊断中的应用测评

2020-06-18 18:55

#人工智能 #深度学习 #Jetson


上个月,NVIDIA CEO 黄仁勋在 NVIDIA GTC 2020 主题演讲中发布了新的边缘端开发工具——Jetson Xavier NX。

这款嵌入式平台通过外形小巧的模组系统,将超级计算机的性能带到了边缘端,高达 21 TOPS 的加速计算能力可并行运行现代神经网络,并处理来自多个高分辨率传感器的数据。

据官方称,其性能比其被广泛采用的前身 Jetson TX2 高出 10 倍以上,且具有云原生支持,使开发者可以在嵌入式和边缘设备上构建和部署高质量的软件定义功能,可以广泛应用于无人机、便携式医疗设备、小型商业机器人、智能摄像头、高分辨率传感器、自动光学检测、智能工厂和其他 IoT 嵌入式系统等高性能 AI 系统。

NVIDIA Jetson Xavier NX 的推出吸引了众多行业大咖第一时间入手测评,除了知乎上的科技爱好者,相关实验室的研究人员也加入其中。

主题演讲后,相关实验室拿到了 Jetson Xavier NX 开发者套件,并在随后一周内,结合实验室相关研究内容,对各种图像智能识别与医学图像智能诊断模型在 Jetson Xavier NX 上的部署结果,做了相应的测试工作,测评结果一如既往的出色。接下来,就在这里和大家分享下 NVIDIA 这一次在小容量高性能上的突破,以及开箱体验和测评结果。



由于是测评用机,除了 Jetson Xavier NX 开发者套件之外,NVIDIA 还为该实验室提供了两张烧写好的 SD 卡,和一个 250G 的 M.2 NVME SSD 固态硬盘,以及一个 H390 耳麦。

Jetson Xavier NX 开发者套件的包装盒大约是 Jetson Nano 开发者套件包装盒的两倍大,打开包装盒后可以看到,里面有一半的空间留给了电源适配器。

经过认真对比参数,Jetson Xavier NX 开发者套件和 Jetson Xavier 套件共用同样配置的电源适配器,都是 19V 3.42A,由于从美国发来的适配器插头是美标的,因此在测试时直接使用了 Jetson Xavier 套件的电源适配器。这里需要注意,Jetson Nano 开发者套件的 12V 电源适配器是无法给 Jetson Xavier NX 开发者套件供电的。



打开外包装后,可以看到 Jetson Xavier NX 开发者套件和 Jetson Xavier 套件相比要更加轻量级,在尺寸上接近于 Jetson Nano 开发者套件。

但 Jetson Xavier NX 开发者套件相较 Jetson Nano 开发者套件多了一个风扇,多了一个 M.2 NVME 的接口,并将原有的 M.2 接口也一并移到了套件下方,更加便于安装。

而且 Jetson Xavier NX 开发者套件已经预先安装了一个 M.2 接口的无线/蓝牙适配器,天线也通过绕线器妥帖地收纳好了。其他接口和新版的 Jetson Nano 开发者套件基本上是一致的,两个 CSI 接口、四个 USB 3.1 接口(注意是 3.1)、一个 HDMI 接口、一个 eSATA 接口、一个有线网卡接口以及两排 GPIO 接口。

另外,Jetson Xavier NX 开发者套件和 Jetson Nano 开发者套件一样,选用了 mirco SD 卡作为系统载体,更加便于系统烧写和多个版本的保存。

需要注意的是,虽然在 Jetson Xavier NX 开发者套件上也有一个 micro-USB 接口,但这个接口仅用于数据传输,并不能像在 Jetson Nano 开发者套件上那样可以供电。

根据官方信息,Jetson Xavier NX 模组和 Jetson Nano 模组引脚兼容,支持共享硬件设计,用户利用 Jetson Nano 模组的载板即可升级到 Jetson Xavier NX。这对于正将 Jetson Nano 用于产品开发的项目组来说是一种备选的性能升级方案,也是一种双重保障。



Jetson Xavier NX 开发者套件和新版 Jetson Nano 开发者套件的对比,上方为 Jetson Xavier NX 开发者套件,下方为 Jetson Nano 开发者套件

根据官方公布的数据,Jetson Xavier NX 模组只有 70mm×45mm,这个和 Jetson Nano 模组外形一样小巧的模块搭载了六核 NVIDIA Carmel ARM 处理器,GPU 则是拥有 384 个 NVIDIA CUDA 核心的 NVIDIA Volta 架构显卡,同时还配备了 48 个 Tensor 核心,显存和内存共用 8GB 的 LPDDR4x,存储则为 16GB eMMC 5.1,支持 2×4K 60Hz 视频解码,提供了 21 TOPS 的 AI 算力,功耗却最高仅有 15W。

这些出色的性能指标和功率优势与一组丰富的 IO 相结合,利用小巧的外形、传感器众多的接口和出色性能,可以为所有嵌入式 AI 系统和边缘系统带来新功能。



和 Jetson 平台前期推出的其他产品一样,Jetson Xavier NX 的核心竞争力是其机器推理性能。除了 CPU 和 GPU,Jetson Xavier NX 内还设计有DLA(Deep Learning Accelerator,深度学习加速器)和 PVA(Programmable Vision Accelerator,可编程视觉加速器)单元。Volta GPU 与 DLA 核心的结合,使其在低功耗平台上构筑了强大的处理能力。

为了展示该系统的机器学习推理能力,NVIDIA 为 Jetson 平台提供了大量软件开发套件以及手动调整框架,预先为开发者做了大量繁重的准备工作,使他们能充分利用 GPU 中的 DLA 单元。

而且 Jetson Xavier NX 现在具有云原生支持,开发者可以在嵌入式和边缘设备上构建和部署高质量的软件定义功能。NVIDIA NGC 和 NVIDIA Transfer Learning Toolkit 提供的经过预先训练的 AI 模型,可以为开发者提供一条通往训练过并优化过的 AI 网络的捷径,而到 Jetson 设备的容器化部署则可以实现灵活、无缝的更新。

结合该实验室相关研究内容,其研究人员针对各种图像智能识别与医学智能诊断模型在 Jetson Xavier NX 上的部署结果做了相应的测试工作。

在这一过程中,Jetson Xavier NX 的优势在于 Jetson平台提供的高速推理引擎 TensorRT。TensorRT 使用 CUDA C 进行编程,在 GPU 上做推理的计算。针对一个训练好的模型,TensorRT 可以通过网络层及张量合并、低精度运算、内核自动调整、动态张量内存等操作,对计算流图进行优化,实现推理加速。

在实际使用中,基于医学图像数据集以及其他相关数据集,实验室研究人员在 Jetson Xavier NX 上对于几种较常用的深度学习图像分类模型、图像识别模型以及图像分割模型进行了测试,TensorRT 加速前和加速后的实测结果如下图所示。



从上图可以看出,对于各种图像分类、图像分割、图像识别的深度学习模型,TensorRT 都有着明显的加速性能。

在未启用半精度模式的情况下,大多数模型都获得了两倍以上的加速效果,加速性能最好的是 119 层的 DenseNet,居然加速了五倍。

而真正能够展现 Jetson 平台加速性能的还是要看 FP16(单精度)模式下的加速性能,大多数模型都获得了四倍以上的加速性能,特别是 119 层的 DenseNet 和 151 层的 DenseNet,在 FP16 模式下展现出了惊人的八倍多的加速性能,这为基于复杂模型的实时推理提供了更多的可能性。

值得一提的是,实验室研究人员还针对多个医学图像智能诊断场景进行了测试,并发现 FP16 模式的加速推理不会对推理准确度带来明显影响,准确度偏差一般在 0.5% 以内,这个精度损失在实际应用部署中基本上可以忽略不计。

以上数据仅为单张图片的推理测试,在大型并发处理需求的情况下,FP16可以发挥更好地性能。

针对当前 NVIDIA 已经推出的多种 Jetson 平台——Jetson Xavier、Jetson Xavier NX、Jetson TX2 和 Jetson Nano,我们也对 TensorRT 在 FP16 模式加速之后的推理性能做了一下横向对比测试,实测结果如下图所示。



从测评结果可以看出, Jetson Xavier NX 的性能和此前同等价位的 Jetson TX2 相比,普遍有两倍左右的提升,部分模型可以达到四倍的性能提升。对于此前根据预算拟采用 Jetson TX2 的项目,可以毫不犹豫地改选 Jetson Xavier NX 了。

而和引脚兼容、可直接共享硬件设计的 Jetson Nano 相比,性能普遍有四倍以上的提升,部分模型甚至可以达到十倍的提升。如果在产品中已经使用了 Jetson Nano,但对产品性能有更高的期望,Jetson Xavier NX 是一个很好的备选升级方案。

当然和目前性能最好的 Jetson Xavier 相比,性能还是有差距的,大家可以根据项目的具体需求选择最适合的产品方案。

实验室研究人员还在 Jetson Xavier NX 平台上测试了最新的 Yolov4 框架。此前 Yolo 系列的框架一般只在 Jetson 平台上加载 tiny 版本,这一次 Yolov4 提出了五大改进和二十多个技巧,无论在精度和速度上都较 Yolov3 有了很大的提升,为在性能受限的嵌入式设备上部署检测程序提供了可能。

经实测,在 Jetson Xavier NX 平台上加载 Yolov4 全模型,并对 1920X1080 分辨率的视频流进行检测,在 Darknet 提供的测试程序下可以达到 4.0fps,经 TensorRT 在 FP16 模式加速之后可以达到 7.5fps,相应的测试数据在以上两个图表中都有列出。如果采用 TLT 工具对 Yolov4 全模型进行适当剪枝,预期可以将帧频提高到 20fps 以上。



研究人员还将之前基于医学图像的智能识别与诊断算法部署到了 Jetson Xavier NX 平台上,在同时加载了两个分类模型和一个分割模型的前提下,可以达到 17fps。



此外,研究人员还将之前做的基于传统图像处理方法实现的无人机河道异物监测应用,部署到了 Jetson Xavier NX 平台上,对 1920X1080 分辨率的视频流进行检测,可以达到 30.5fps,能够完全满足实时性的要求。

这说明,无论是否用到了 GPU 加速,Xavier NX 的性能表现都可圈可点。目前还有很多视觉算法仍处于非常传统的阶段,无法通过 GPU 或 Tensor Core 加速,只能依靠 CPU 来进行运算,在这些场景下,Jetson Xavier NX 也有其用武之地。



综合考虑成本和性能,Jetson Xavier NX 在 Jetson 系列中是价格与性能均衡考虑下的很好的选择,可以助力实现 AI 应用在边缘端的部署,实为居家旅行必备之良品。

相关新闻