首页 > 最新资讯 > 使用 NVIDIA UFM Cyber-AI 安全、智能地管理数据中心
使用 NVIDIA UFM Cyber-AI 安全、智能地管理数据中心

使用 NVIDIA UFM Cyber-AI 安全、智能地管理数据中心

2021-07-20 16:49

#人工智能 #深度学习


如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。
更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的 IT 经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA 以图形处理能力和出色 GPU 计算性能而闻名,广泛应用于各个研究领域。同时, NVIDIA 也是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU 以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

 

NVIDIA UFM Cyber-AI

为 InfiniBand 数据中心带来变革

 

NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平台提供增强的实时网络遥测功能,并结合了 AI 智能和先进的分析技术,让 IT 经理能够发现运营异常,甚至预测网络故障。这既提高了安全性和数据中心的正常运行时间,又降低了整体运营费用。

UFM Cyber-AI 的独特优势在于它能够捕获丰富的遥测信息并采用 AI 技术来识别事件之间的隐形关联,从而检测到异常的系统和应用行为,而且在引发组件或系统故障之前就能识别到性能的下降。UFM Cyber-AI 甚至可以实时采取修正措施。该平台能够学习数据中心的典型运行模式,并根据网络遥测数据(包括流量模式、温度等)检测异常使用情况。

 

UFM Cyber-AI 基本原理

 

如图 1 所示,UFM Cyber-AI 包含三个不同的层级。

 

图 1 UFM Cyber-AI 的各层

 

输入遥测:以多种方式从网络中采集信息并学习:

网络中各种元素的遥测信息

网络拓扑结构(租户或应用的连接与资源分配)

网络设备特性和功能

处理模型:包含若干模型,如:用于数据准备的提取、转换和加载(ETL)处理引擎。它还包含用于对比的聚合、数据存储和分析模型。UFM Cyber-AI 使用用于异常检测和预测的机器学习(ML)技术和AI模型来学习数据中心网络组件(线缆、交换机、端口、InfiniBand 网卡)的生命周期模式。

输出 dashboard:一个显示中央 dashboard 的可视化层,让网络管理员和云编排人员可以查看警报和建议,以提高网络利用率和效率并解决网络健康问题。dashboard 分为两个主要类别:可疑行为链接分析,每个类别都包含警报和预测部分(图 2)。

 

图 2 :UFM Cyber-AI 预测  Dashboard

 

UFM Cyber-AI

功能丰富、简洁直观的自定义网络管理器

UFM Cyber-AI 还支持自定义网络警报,或查看随时间变化的异常情况,以及不同时间维度情况。通过使用基于小时或星期参数的聚合网络统计数据,可基于可能偏离正常操作使用的测量结果来设置阈值和配置通知。例如可以使用预定义阈值来识别有问题的线缆。

内置分析功能将当前的遥测信息与基于时间的汇总信息进行比较,以检测系统使用或流量模式中任何可疑的增加或减少并立即通知系统管理员。UFM Cyber-AI 还通过链路或端口遥测信息提供数据中心租户或应用警报,并识别与底层 PKEY 相关的统计数据及其相关节点。

目前只有 UFM Cyber-AI 提供支持预测性维护的链路故障预测等功能。通过在早期阶段监测性能下降情况,UFM Cyber-AI 可以预测潜在的链路或端口故障,使管理员能够进行及时维护进而规避数据中心的故障停机。

 

NVIDIA Morpheus 赋能未来

 

要为 InfiniBand 带来最强大的网络管理解决方案,就必须通过不断创新来应对当今数据中心管理的复杂性。NVIDIA 计划将 NVIDIA Morpheus 与 UFM Cyber-AI(图 3)进行集成,以从其他数据中心元件中获取更多遥测信息,例如基于服务器或机架的组件遥测或 DPU、GPU 和应用计数器。

我们甚至可以提供一个可以直接与 Kafka(一个用于高性能数据流水线、流分析和数据整合的开源分布式事件流平台)等其他 API 对接的附加层。用户可以使用该集成对开发者定义的操作系统异常进行特定检测,例如在一个专门用于生命科学研究的系统上进行加密挖掘检测。

 

图3  UFM Cyber-AI 与 Morpheus 框架集成示例

 

Morpheus 是一个为网络安全开发者提供高度优化 AI 流水线和预训练 AI 功能的开放 AI 应用框架。这些功能能够即时检查整个数据中心架构中的所有网络流量。Morpheus 通过提供以下功能将数据中心的安全提升到全新的水平:

动态保护

实时遥测

自适应策略

用于检测和处理网络安全威胁的网络防御措施

 

图4  UFM Cyber-AI 作为灵活可扩展平台的示例

 

随着 Morpheus 与 UFM Cyber-AI 设备的集成,NVIDIA 可以提供出色、完整的解决方案,为关键数据中心提高灵活性和可扩展性,并为开发者提供支持。通过自定义异常检测和与其他标准化 API 的对接,UFM Cyber-AI 可以成为任何多租户数据中心或云原生基础设施的一项灵活资产。

相关新闻