华为DCN。目的驱动的数据中心网络:新的网络管理解决方案

现代数据中心网络基础设施的日益复杂性导致需要优化以实现最佳性能和可靠性的参数数量急剧增加。华为的意图驱动网络解决方案旨在提高管理员对网络流程的认识,并帮助快速发现新出现的问题:它们旨在创建符合“从自动化到自治”原则的自我调节和自我管理的网络。







今天,我们将在不参考网络设备的特定模型的情况下,告诉您FabricInsight产品的新功能如何体现“从自动化到自治”的原则。实际上,近年来,不仅其组成发生了变化,而且出现了许多新的场景,这些场景使确定网络的当前状态并预测其中可能存在的问题成为可能。







数据中心开发的四个阶段



确定数据中心网络发展的载体,不难看出传统数据中心架构如何逐渐陷入虚拟化系统的冲击之下,然后幸免于向云的大量资源和服务迁移,现在接近人工智能系统和400 Gbps高速接口的广泛引入。需要AI功能来构建无损以太网,并创建完全不受延迟影响的应用程序。



人工智能应用的另一个领域是数据中心分析和监控。我们必须从一种思想出发,该思想意味着对某些“黑匣子”的状态进行功能上有限的监视,而对于一切已为人所知的完全透明的网络的概念已经有了。







作为构建数据中心网络的主要基础设施网络单元,华为现在提供了具有400 Gbps上行链路的四槽,八槽和十六槽CloudEngine 16800交换机系列。它们的发布定于今年。在新产品中,我们还注意到CloudEngine 6881和6863 ToR交换机分别构建在我们自己的元素基础上,分别具有10和25 Gbps接口。







下图显示了具有经典正交架构的CloudEngine 16800系列交换机的型号,这些交换机配备了从前到后的冷却系统,以及具有10、40和100 Gb / s接口的兼容线卡。



在CloudEngine 16800的重要基本功能中,我们着重介绍了它与NSH(网络服务标头)一起使用的能力,该功能允许实现跨数据中心的多个交换机分布的微分段(虚拟机级别的隔离),提供广泛的遥测功能并分析网络边缘的流量(边缘智能) )使用基于华为AI芯片的人工智能技术。



V1R19C10将真正具有革命性。正是在这种情况下,应实现许多期待已久的功能,包括基于EVPN VXLAN路由中的第一和第四类路由的,不具有M-LAG(多交换机链路聚合)形式的“跳线”的EVPN多宿主。







熟悉的架构和新的可能性



该图显示了三层“工厂”无阻塞交换的熟悉的正交体系结构。它的主要优点包括“工厂”板,线卡,连接器和基于变速风扇的吹风系统的最佳布置。







BFD(双向转发检测)协议是在新交换机模型上实现的硬件,并且可以在IPv6地址空间中配置VXLAN,这一点很重要。基本架构保持不变,并基于处理器,协处理器和转发芯片。图中显示了每个节点的功能。 2020年的主要变化是,在旗舰交换机中向华为自有芯片的过渡,使其与Broadcom的同类产品完全竞争。







对网络服务标头操作的支持允许新交换机更改默认的VXLAN数据包路由,并启用防火墙(FW),入侵检测系统(IDS),负载平衡器(SLB)和NAT等服务。







让我们简单地回到前面提到的分割微分段。借助相同NSH的新Huawei ToR交换机,您可以在虚拟机名称级别隔离工作负载。这些机器可以根据端口号,高级协议等在子网级别上进一步分组,从而形成应用程序组。







全方位的遥测数据



使用几种主要协议实时收集来自设备的信息。 ERSPAN +的任务是收集TCP报头,以便随后对数据中心中的TCP流进行详细分析。使用gRPC协议和流表来挖掘其他数据。所有这些都是通过Protobuf通过UDP收集的。







华为运维工具的主要发展方向是从人工或半自动网络控制向基于人工智能技术的全自动控制过渡。相当大的站点的全方位遥测系统会产生大量数据,只有使用AI才能在短时间内进行分析。这对于那些无法接受故障和停机的数据中心尤其重要。







首先,旨在预防网络问题的预防措施包括监视网络的“运行状况”:监视信道负载,确定数据包丢失的原因(例如,查找与一天中某个时间或应用程序运行时间的相关性),检测“瓶颈(容量预测),等等



。如果仍然发现问题,1-3-5原则提出华为有助于最大限度地减少诊断和恢复时间:一分钟搜索,三分钟本地化,五分钟消除问题。为了保持在此框架内,华为产品支持不断扩展的典型故障自动检测列表。







V100R019C10型适用于小型数据中心



V100R019C10的主要创新之一是在所有类型的场景中都支持基于遥测数据的可视化。实际上,我们正在谈论网络中任何变化的可视化显示。此外,该设备现在能够识别出超过75种某些问题的根本原因,并有助于概述消除这些问题的措施(启动脚本等)。



重要的新闻是,独立版本(包括iMaster NCE和FabricInsight)主要用于不需要多个服务器来管理网络的小型数据中心。







许可证制度的变化



为了更好地了解FabricInsight的功能特性,应该解释一下华为网络产品分销业务模型中发生了哪些变化。如果交换机的数量未达到一百个,则此选项被分类为独立版本,意味着许可证为N1。由三个或更多服务器组成的集群已经捆绑了一个大数据分析平台。建议将包含数百个交换机的高级解决方案与用于分析网络流量的工具一起使用。这三个选项均允许具有N1许可证的FabricInsight功能。







任何许可都意味着要使用整套遥测工具和场景1-3-5,只有高级解决方案中可用的TCP流分析工具除外。







剩下的要告诉您有关为标准和高级解决方案设计的服务器配置。当前,一个单独的节点(一个节点)仅在Taishan 200服务器上可用,一个三节点群集需要16个或更多的计算核心,128 GB的RAM等(参见图)。数据磁盘的大小直接取决于统计信息应存储多长时间。







KPI监控



让我们仔细看一下KPI监视。要使用它,设置一个时间间隔和特定的阈值就足够了,将根据接收到的遥测数据来检查其实现。可用的度量标准类型很多,包括:



  • CPU和内存使用情况;
  • 使用FIB / MAC;
  • 使用芯片的三元关联存储器(TCAM);
  • 端口参数;
  • 队列缓冲区的大小;
  • 不同的AI Fabric指标;
  • 光模块的信号电平,温度等参数;
  • 数据包丢失。








初步检查



预验证工具还可以对遥测数据进行操作。 CT扫描仪使您能够了解网络上是否发生了某些不需要的事件。一些指标与“工厂”的KPI监视指标一致(主要与容量和性能有关)。其余的基于顶级分析(VXLAN,BGP等)和配置分析的结果。启动CT扫描仪后,它将收集必要的信息并生成有关网络状态的综合报告。







必须定期进行此类检查,并在它们之间预先确定时间间隔。这使得更容易及时发现网络中出现的趋势,包括周期性和非周期性的变化。这使您可以更全面,更快速地了解实际情况。此外,可以选择任何特别感兴趣的参数以进行更详细的监视。







设备问题



通过监视,您可以识别在设备级别出现的各种问题。在这种情况下,验证的对象是一个开关,该开关中已注册的36个操作参数可以检测29种类型的故障。



图表中的表格列出了故障的类型。交换模型,使FabricInsight能够检测到问题; FabricInsight使用的功能;发现问题时自动采取的措施(警告,建议,脚本启动)。







假设设备资源短缺,导致服务水平下降。系统日志中的数据与FIB资源的遥测数据相结合,使您可以在手动检查模式下快速评估情况。







根本不可能在硬件级别发生循环,因为该设备不允许将这样的错误引入配置中。但是,例如,如上图所示,由于软件开关配置不正确,可能会在第二级(虚拟机级)出现环路。使用FabricInsight,您不仅可以检测到问题,还可以隔离网络的所需部分,以消除其对整个“织物”功能的影响。







网络问题



根据可用于分析的18个指标,FabricInsight确定了10种类型的网络问题。该图提供了它们的完整列表,以及(对于设备问题而言)交换机模型使FabricInsight能够检测到问题,使用的功能和可用的自动操作。







假设光模块退化或故障会导致其性能下降:链路变得不稳定。这些情况不规则地发生并且难以再现。这可能需要很长时间才能找到问题。使用FabricInsight,您可以立即注意到信号电平的下降或模块两端电压的变化。







fabricInsight网络诊断程序还可以迅速识别缓冲区问题,该问题通常在具有大量致力于大数据处理的服务器的系统中发生。传统的NMS(网络管理系统)每五分钟检查一次与缓冲区相关的参数。FabricInsight遥测功能可以将这些间隔降低到100ms,甚至可以检测到最短的微事件。







协议级别的问题



FabricInsight能够识别六种类型的问题,包括M-LAG中两个主交换机之间的冲突;相邻交换机之间的交互等问题。使用交换机V200R005C00及更高版本时,此功能可用。







考虑主交换机的冲突。利用M-LAG技术的所有优点,如果发生链路中断和对等网络故障,系统中将出现两个主交换机。FabricInsight能够通过不断监视对等链接和DFS的状态来主动应对这种情况。







覆盖网络问题



通过监视十种不同的指标,可以识别出七种类型的覆盖网络问题。FabricInsight可以检查VXLAN许可证状态,查找配置错误,检测子接口崩溃等。响应选项与前面所述的选项相似。







服务问题



监视七个指标以识别六种类型的服务级别问题。可以检测到IP地址冲突,连接问题,TCP SYN泛洪攻击等,请注意,要支持FabricInsight的这些功能,可能需要使用TCP流分析器。



纵观故障排除,FabricInsight不仅仅是一个设备收集器,而是一个可扩展的脚本库,可解决各种问题类型。







从自动化到自主



总而言之,可以说意图驱动网络的思想基于三阶段响应模型,该模型包括信息收集,使用AI对其进行分析以及更改网络状态(包括在自动模式下)的建议。



***



谨在此提醒您,我们的专家会定期举办有关华为产品及其使用技术的网络研讨会。未来几周的网络研讨会列表可在此处获得



All Articles