华为CloudFabric 2.0:智能数字银行中的数据中心网络解决方案应该是什么样的

在在线举行的2020年华为FSI周上,华为数据传输产品线的首席技术官丹尼尔(Daniel Tang)用易懂的语言讲述了该公司在数据中心网络解决方案方面的最新进展,这些最新进展使数据中心能够从“仅云”转变为云真正的智能。同时,他短暂参观了这一转变的背景。







消费者银行业务发生了什么变化



在中国,即使是大约五年前,获得贷款也不是一件容易的事-当然,对于一个凡人来说。需要填写大量文件,将其发送或带到银行分支机构,甚至可能排队等候,然后回家,以等待决定。等待多少时间?从一周到几个月,结果如何。



到2020年,该程序已大大简化。我最近进行了一个小实验-我试图通过银行的移动应用程序获得贷款。在智能手机屏幕上轻按几下-系统会在最迟一刻钟的时间内答应我。但是在不到五分钟的时间内,我收到了一条推送通知,指示我可以依靠多少贷款额。同意,与五年前相比,取得了令人瞩目的进展。奇怪的是,在最近的过去中,它花了整整几天的时间。







因此,以前,大部分时间都花在了数据验证和人工评分上。问卷和其他文件中的所有信息都必须输入到银行的IT系统中。但这仅仅是磨难的开始:银行员工亲自检查了您的信用记录,然后做出了最终决定。他们在17:00或18:00离开办公室,在周末休息,因此该过程可能会持续很长时间。



这些天情况有所不同。通常,将数字银行许多任务中的人为因素排除在外。评估(包括反欺诈和AML检查)是使用智能算法自动执行的。这些汽车不需要休息,因此它们每周七天全天候运行。此外,决策所需的大量信息已经存储在银行数据库中。这意味着判决的通过时间比“意大利古代”要短得多。



通常,较早使用银行数据中心来解决“注册”类型的问题。长期以来,它只不过是一个会计中心,本身没有产生任何东西。如今,创建产品的越来越多的“智能”数据中心...它们用于复杂的计算,并有助于从原始数据集中获取情报-实际上是具有高附加值的知识。此外,连续数据挖掘-当然,如果准备正确的话-最终会进一步提高流程效率。







这些转变不仅发生在金融领域,而且实际上发生在所有商业领域。对于各种各样的公司(对于我们来说,作为解决方案制造商),数据中心现在是世界上的主要支持,而智能开发之间的竞争比以往任何时候都更加激烈。甚至在五年前,与数据中心都隶属于云技术这一事实进行争论一直是主流,这意味着可以灵活地扩展用于计算和数据存储的总分布式资源池的能力。但这是智能解决方案的时代,在数据中心,我们可以持续进行数据挖掘,将获得的结果转换为非凡的性能提升。在金融部门,这些变化正导致以下事实:贷款申请的评估正在大大加快。或者,例如,它们使即时为特定银行客户推荐最合适的金融产品成为可能。



在公共部门,电信,能源行业中,当今的数据智能处理有助于数字化转型,极大地提高了组织的生产率。自然,新情况将形成新需求,不仅与计算资源和数据存储系统有关,而且与数据中心的网络解决方案有关。



什么是“智能数据中心”









在华为,我们已经确定了“智能数据中心”时代的三个主要数据中心挑战。



首先,需要非凡的带宽来处理永无休止的新数据流。...根据我们的观察,在过去五年中,数据中心中存储的数据量增长了十倍。但是,更令人印象深刻的是,访问此类数据时会产生多少流量。在“注册类型”的数据中心中,所有这些信息都被用来解决会计问题,并且常常使人自重,而在新类型的数据中心中,它“起作用”-我们需要提供持续的数据挖掘。结果,在访问存储的数据单元时,执行的迭代比以前多10-1000倍。例如,在训练AI模型时,在后台几乎不间断地执行计算任务,同时神经网络算法不断发挥作用,以增加系统的“智能性”。因此,不仅存储的数据量在增长,而且访问它们时所产生的流量也在增长。因此,新的数据存储服务器型号上越来越多的一百二十个千兆端口完全不是电信供应商的心血来潮。



二,数据包不丢失在2020年,绝对必须。无论如何,从我们的角度来看。以前,这样的损失对于银行数据中心的工程师而言并非难事。瓶颈是处理能力和存储效率。但是在过去五年中,这两项指标的行业平均值在全球范围内均已显着提高。自然,网络基础设施的效率成为数据中心工作的瓶颈。与我们的顶级客户之一合作,我们发现丢包率增加的每个百分比都有可能使AI模型的训练效率减半。因此,对计算资源和数据存储系统使用的生产率和效率产生了巨大影响。那是需要克服的支持将简单数据中心转变为智能时代的数据中心。



第三,重要的是无缝地,无缝提供服务。现代数字银行业务已经向人们传授并正确地传授了一个事实,那就是金融机构的服务可以甚至更确切地说必须全天候24/7可用。一个常见的情况是:一个疲惫不堪的企业家,每天的日常事务混乱,迫切需要额外的资金,在午夜时分醒来,想找出他可以依靠的信贷额度。路径被切断:银行不再有机会暂停DC的工作以修复或升级某些设备。



我们的CloudFabric 2.0解决方案经过精心设计,可以应对这些挑战。它支持最高的吞吐量,智能数据中心网络管理以及自动驾驶网络(ADN)的完美运行。



CloudFabric 2.0中用于智能数据中心的功能









关于高吞吐量,我们不仅依赖于网络解决方案的可扩展性,还依赖于与它们合作的灵活性。例如,CloudEngine系列的华为数据中心交换机成为业界同类产品中的首款设备,该设备具有用于神经网络实时计算的嵌入式处理器,除其他功能外,还帮助解决了网络基础架构中的问题并防止了数据包丢失(这是使用iLossless算法实现的,包括针对iNOF RoCE场景)。但是,当然,实际带宽也很重要。包括对400 Gb / s接口的支持以及与当前广泛的十,四十和一百吉比特连接的向后兼容性非常重要。



基础架构的支持节点还必须能够以高密度的连接(所谓的高密度场景)工作,并具有解决方案显着扩展的可能性。我们的旗舰数据中心模型CloudEngine 16800最多支持48个端口,每个插槽400 Gbps,是最接近的竞争对手的三倍。



对于整个系统,扩展每个机箱可扩展性吞吐量的可能性也令人印象深刻-每个机箱768个端口400 Gbps的端口,是其他市场参与者所允许的解决方案的六倍。这使我们有理由将CloudEngine 16800称为赢得AI时代最强大的数据中心交换机。







网络解决方案的智能组件也脱颖而出。特别地,为了确保数据分组的零丢失水平也是必要的。为了达到这个结果,我们使用了最先进的技术,包括用于“神经网络”计算的集成AI处理器以及前面提到的iLossless算法。在为领先客户进行项目时,我们坚信这些解决方案可以在至少两种常见情况下显着提高系统性能。



首先是训练AI模型。它需要使用TensorFlow持续访问庞大矩阵或“繁重”运算的数据和计算。我们的iLossless能够将训练型AI模型的生产率提高27%-在真实案例中得到证明,并通过Tolly Group实验室测试进行了验证。第二种情况是提高存储系统的效率。反过来,利用我们的开发可以将其提高大约30%。



除其他事项外,我们与客户一起努力尝试开发我们的发展所带来的新机会。我们有信心,通过改进数据中心基于以太网的交换结构,我们可以将具有存储网络的高性能数据中心结构转换为单一,一致的基于以太网的基础架构。因此,不仅要提高AI模型学习过程的生产率并改善对软件定义的数据存储的访问,而且还要通过相互集成和合并在物理级别独立的垂直网络来显着优化数据中心的总拥有成本。







我们的许多客户都喜欢推出这些新功能。其中之一就是华为本身。特别是,这是我们公司集团中的一部分华为云。我们与该部门的同事紧密合作,确保通过保证他们没有数据包丢失,我们有动力明显改善他们的业务流程。最后,在我们的“内部”成就中,我们注意到以下事实:在全球最大的AI集群Atlas 900中,我们能够提供用于训练人工智能的计算能力,其级别超过1,000 petaflops-计算机中的最高水平今天的工业。



另一个高度相关的方案是使用全闪存系统的云数据存储。按照行业标准,这是一种非常时尚的服务。增加计算资源和扩展存储设施自然需要数据中心网络解决方案领域的先进技术。因此,我们将继续与华为云合作,并使用我们的网络解决方案实施越来越多的应用场景。



ADN网络今天可以做什么









让我们转向自治网络(ADN)。毫无疑问,从技术角度来看,软件定义的网络(软件定义的网络)是对数据中心网络组件的管理迈出的自信的一步。 SDN概念的应用程序实现极大地加快了数据中心网络层的初始化和配置。但是,当然,它提供的功能不足以完全自动化数据中心的运维。要走得更远,需要解决三个主要挑战。



首先,在数据中心的网络基础结构中,尤其是在金融部门,与提供服务和为其设置相关的机会越来越多。能够自动将服务级别意图转换为网络层非常重要...



其次,它也归结为验证此类增量供应命令。可以理解,很久以前,数据中心网络已经基于成熟的甚至过时的方法进行了配置。您如何确保其他自定义设置不会破坏您的调试过程?自动验证新的附加设置是必不可少的。精确自动,因为数据中心中的现有设置通常过大。手动解决几乎是不可能的。



第三,出现了有效迅速消除网络基础设施中的问题的问题...当自动化达到高水平时,数据中心的管理员和服务工程师将不再能够实时跟踪网络上发生的情况。他们需要一个工具包,该工具包每天可以使成千上万个更改的网络始终透明地对他们透明,并需要建立基于知识图的数据库来快速处理问题。



ADN可以帮助我们应对迁移到真正智能数据中心的挑战。具有自主控制权的网络(特别是在IoT和V2X的交界处从邻近行业迁移到数据中心的世界)的思想使我们可以重新考虑数据中心网络不同级别的自动化方法。







目前,在管理数据中心网络的自主权方面,我们已经达到L3级(条件自动化)。这意味着高度的数据中心自动化,在这种情况下,仅在特定条件下才需要逐点进行人工干预。



同时,在许多情况下,完全自动化也是可能的。我们已经与客户合作,作为根据ADN概念进行数据中心网络全面自动化的联合创新计划的一部分,主要是在解决网络问题的过程中,并且与其中最紧迫和最耗时的事情有关,我们已经取得了成功:例如,在我们的帮助下在数据中心网络中,智能技术可以自动关闭约85%的最常见故障场景



此功能是在O&M 1-3-5概念的框架内实现的:一分钟用于确定是否已发生故障或确定故障的风险,三分钟用于确定根本原因,五分钟用于建议如何消除它。当然,就目前而言,做出最终决定需要人的参与,特别是选择可能的决定之一并发出执行决定的命令。有人必须对选择负责。但是,基于实践,我们认为该系统即使在当前的实施中也可以提供高质量和适当的解决方案。



简而言之,这是智能数据中心架构师在2020年面临的一些最具挑战性的挑战,而我们实际上已经处理了这些挑战。例如,CloudFabric 2.0已包含用于将请求从服务层传输到网络层以及用于自动验证设置的功能。







我们很高兴我们的成就得到认可-今年,我们因CloudEngine 16800交换机获得了Gartner Peer Insights客户选择奖和F&S全球数据中心交换机技术领导奖,该奖项以出色的吞吐量而获得认可,最高密度的400 Gigabit接口,系统的整体可扩展性以及智能技术,这些技术尤其可以将数据包丢失的程度降低到零。



All Articles