清华大学赵明国教授评测Jetson AGX Xavier性能
2019-04-19 09:00
作者系清华大学自动化系赵明国教授,本科、硕士、博士分别毕业于哈尔滨工业大学精密仪器、空间工程及力学、机器人学院。他同时担任IEEE成员、RoboCup 中国委员会成员,拥有丰富的专利。研究领域包括被动及动力行走理论;双足机器人的中心模式发生器控制;腿式机器人的运动和控制;自主自行车及其导航等。本文由赵明国授权发布。
NVIDIA Jetson AGX Xavier的GPU有512个核,是Jetson TX2的两倍,并且搭载了深度学习加速器,以及视觉加速器。Xavier的CPU表现也有了提升,从原来的6核提升到了8核,速度变为原来的两倍,Xavier的内存也由原来的8GB提升为16GB。这些提升对于我们的机器人来讲是至关重要的,因为机器人不仅仅需要板载深度学习运算,还需要一些控制算法运行在CPU上面,以及用于通信等,Xavier在这方面的提升进一步提高了我们机器人的性能。
我们的自平衡自行车利用Xavier解决实时跟踪目标人物的问题,之前我们使用TX2,同样的算法Xavier的速度是TX2的两倍多。当然,Xavier还有更大的本领,主要集中在TensorRT的加速上,我们之后也会进一步挖掘Xavier的强大性能,为我们的机器人增加更多需要高性能计算的本领。
非常贴心的一点是,开发和调试深度学习AI应用程序所需的所有工具都包含在NVIDIA的JetPack软件包中,省去了很多配置环境的时间。
除了功能强大外,Xavier的能耗依然保持较低的水平,对于我们的未连接到电网而是使用自身电池并且电能有限的机器人来说,这一点很重要。
Xavier在机器人上的实时表现非常强大,允许快速、独立且准确地在现场处理信息,可以在不连接云的情况下进行简单的学习和快速的神经网络推导,而无需将数据发送回服务器进行处理和返回。
评测实景拍摄
这是一款功能齐全的小型计算系统,Xavier芯片本身设计为完整的商业现货(COTS)系统,整个平台的尺寸不超过105mm x105mm。
NVIDIA提供完整Jetson AGX Xavier开发套件。该套件提供了模块运行所需的一切,包括电源、散热器,以及一块非常重要的分接板。这块分接板提供各种I/O接头和端口,从标准的双 USB Type-C 3.1、HDMI和千兆以太网端口,到用于相机连接的MIPI CSI-2连接器等更专业的接口,以及40pin GPIO连接器等一系列典型的开发板接头。
Jetson AGX Xavier最厉害的地方在于,其提供了PCIe Gen4 x16以及M.2 PCIe x1通用扩展插槽,可用于连接WiFi或蜂窝网络模块等附加设备,可为傲视群雄。
Xavier芯片作为系统的大脑,是NVIDIA迄今为止最大、最复杂的SoC,是Arm生态系统的重量级产品之一,在350mm²的面积上集成了90亿晶体管。Xavier芯片的四周为16GB LPDDR4X内存、 32GB eMMC闪存以及供电模块等其他核心组件。
Xavier芯片主要由NVIDIA自研的Carmel架构8核64位CPU和Volta架构512 CUDA处理器GPU这两大模块组成,这两部分电路占据了芯片的大部分空间。
8个CPU核心被平均分配为4个集群,每个集群都有一个独立的时钟平面,并在2个CPU核心之间共享2MB L2缓存,在其之上,4个集群共享4MB L3缓存。目前关于全新Carmel架构的信息很少,只知道它是之前Denver架构的继任者,其设计特点是强大的动态代码优化能力。NVIDIA只对外表示Carmel是一个10宽度的超标量架构(10个执行端口, 非10宽度解码),并且支持ARMv8.2+RAS指令集。
Xavier的GPU源于Volta架构,内部结构被划分为4个TPC(纹理处理集群),每个TPC具有2个SM(流式多处理器 ),每个SM集成64个CUDA核心,共计512个CUDA核心,其单精度浮点运算性能为2.8Tflops,双精度为1. 4Tflops。此外Xavier还从Volta那里继承了Tensor Core,其8bit运算性能为22.6Tops,16bit运算性能为11.3Tops。
除了CPU和GPU,Xavier内还设计有全新的DLA(Deep Learning Accelerator,深度学习加速器 )和PVA(Programmable Vision Accelerator,可编程视觉加速器 )单元,其中DLA是一种新型的机器推理加速专用单元,其INT8计算性能高达11.4Tops;PVA则是一种更传统的视觉计算单元,在视觉管道中位于ISP之后,它能以比GPU或DLA更高效的处理对象检测等基本任务,将图像分割成对象后转发到GPU或DLA上进行后续处理。