大型企业的网络即服务:非标准案例



如何在不停止生产的情况下升级大型企业的网络设备Linxdatacenter项目管理经理Oleg Fedorov谈到了心脏直视手术模式下的大型项目。 



在过去的几年中,我们看到客户对与IT基础架构的网络组件相关的服务的需求不断增长。几乎所有领域对企业的IT系统,服务,应用程序,监视和运营管理的连通性的需求,迫使当今的公司越来越重视网络。  



请求范围-从确保网络弹性到通过购买IP地址块创建和管理客户端自治系统,根据组织的策略配置路由协议和流量控制。



对于构建和维护网络基础结构的复杂解决方案的需求也日益增长,主要是来自客户的网络基础设施是从头创建或在道德上已经过时,需要进行认真的修改。 



这种趋势与Linxdatacenter自己的网络基础设施的发展和复杂性相吻合。通过连接到远程站点,我们扩展了我们在欧洲的业务范围,进而需要改善网络基础架构。 



该公司为客户推出了一项新服务,即网络即服务:我们会处理客户的所有网络任务,使他们能够专注于自己的核心业务。



2020年夏天,我想谈谈这个方向上的第一个大型项目。 



在开始时 



一家大型工业企业向我们求助,以对其一家企业的基础设施的网络部分进行现代化改造。需要用新设备替换旧设备,包括网络核心。



企业对设备的最后一次现代化发生在大约10年前。企业的新管理层决定从最基本的物理级别的基础架构升级开始,改善连接性。 



该项目分为两个部分:服务器园区和网络设备的升级。我们负责第二部分。 



这项工作的基本要求包括在执行工作期间最大程度地减少企业生产线的停机时间(在某些领域,完全消除停机时间)。任何止损-客户的直接经济损失,在任何情况下都不应发生。考虑到企业24x7x365的操作模式,并考虑到企业实践中完全没有计划内的停机时间,实际上,我们的任务是进行心脏直视手术。这成为该项目的主要特色。





这项工作是根据从远离核心的网络节点移动到更近的节点以及从影响生产线运行的节点到直接影响这项工作的节点移动的原则进行计划的。 



例如,如果您在销售部门使用网络节点,则由于该部门工作导致的通信中断不会以任何方式影响生产。同时,这样的事件将帮助我们(作为承包商)检查所选方法在此类节点上的正确性,并在调整了操作后继续进行项目的下一阶段。 



不仅有必要更换网络中的节点和电线,而且有必要正确配置所有组件以使解决方案整体正常运行。正是通过这种方式对配置进行了测试:在离内核一定距离的地方开始工作,我们为自己赋予了“犯错的权利”,而又没有危害企业运营的关键领域。 



我们确定了不影响生产过程的区域以及关键区域-车间,装卸区,仓库等。在关键区域,客户分别同意了网络每个节点的允许停机​​时间:1到15分钟...完全避免单个网络节点的断开是不可能的,因为必须将电缆从旧设备物理地切换到新设备,并且在切换过程中,还必须解开电线的“胡须”,这是在几年的运营过程中形成的,没有适当的照顾(外包工作的后果之一)关于电缆线的安装)。



这项工作分为几个阶段。



阶段1-审核。准备和批准工作计划方法,评估团队的准备情况:客户,执行安装的承包商和我们的团队。



第2阶段-制定进行工作的格式,并进行深入详细的分析和计划。我们选择了一个清单格式,其中包含操作的顺序和顺序的确切指示,直至通过端口切换跳线的顺序。



阶段3-在不影响生产的橱柜中进行工作。估计和调整后续工作的停机时间。



阶段4-在直接影响生产的机柜中进行工作。估算和调整最后阶段的停机时间。



阶段5-在服务器机房中进行工作以切换其余设备。在新内核上的路由上运行。



第6阶段-系统核心从旧网络配置到新网络配置的顺序切换,以实现整个系统复合体(VLAN,路由等)的平稳过渡。在此阶段,我们连接了所有用户并将所有服务转移到新设备上,检查连接的正确性,确保没有任何企业服务停止,并确保在出现任何问题时将它们直接连接到内核,从而更容易消除故障排除和最终设置。 



胡子发型



由于艰难的初始条件,该项目也具有挑战性。 



首先,它是网络的大量节点和部分,具有复杂的拓扑结构和根据用途分类的电线。必须将这些“胡须”从壁橱中取出,并精心“梳理”,弄清楚哪根电线从何处何处引出。 



它看起来像这样:





所以:





或像这样: 





其次,对于每个这样的任务,有必要准备一个描述过程的文件。 “我们将X线从旧设备的端口1中取出,将其插入新设备的端口18中。”听起来很简单,但是当您在初始数据中有48个完全堵塞的端口并且没有空闲选项(我们记得大约24x7x365)时,唯一的解决方法是分块工作。一次可以从旧设备中拔出的导线越多,可以将它们组合起来并插入新的网络硬件中的速度就越快,从而避免了网络中断和停机时间。 



因此,在准备阶段,我们将网络分为多个块-每个块都属于一个特定的VLAN。旧硬件上的每个端口(或其中的一个子集)都是新网络拓扑中的VLAN。我们将它们分组如下:交换机的第一个端口位于用户网络中,位于中间(生产网络),最后位于接入点和上行链路。 



这种方法可以拉出和梳理旧设备,而不是一次拔出一根电线,而是一次拔出十到十五根电线。这多次加速了工作流程。  



顺便说一下,这是梳理后壁橱里电线的样子: 





或者,例如,像这样: 





在第二阶段完成之后,我们休息了一下,分析错误和项目动态。例如,由于提供给我们的网络图中的不正确,立即出现了一些小缺陷(图中不正确的连接器是购买的不正确的跳线,需要更换)。 



必须暂停,因为从服务器端正常工作时,即使过程中出现很小的故障也是不可接受的。如果目标是确保网络部分的停机时间不超过5分钟,则不能超过该时间。与时间表的任何可能偏差都必须与客户协商。 



但是,通过初步计划和将项目划分为多个部分,可以满足所有地区的计划内停机时间,并且在大多数情况下,完全无需计划停机时间即可。 



时间挑战-COVID下的项目 



但是,还有一些其他并发症。当然,冠状病毒是障碍之一。 



大流行开始使工作变得复杂,在工作过程中,所有参与该过程的专家都不可能出现在客户现场。只有安装人员才被允许进入现场,并通过Zoom的房间进行控制-我来自Linxdatacenter的一名网络工程师作为项目经理,由客户端的网络工程师负责工作的制作,并由团队进行安装工作。



在工作过程中,出现了无法解决的问题,因此需要即时进行调整。因此,可以快速防止人为因素的影响(方案中的错误,确定界面活动状态的错误等)。



尽管在项目开始时远程工作格式似乎并不常见,但我们很快适应了新情况并进入了工作的最后阶段。 



我们运行了一个临时的网络配置配置,以同时运行两个网络核心,新旧并行,以确保平稳过渡。但是,事实证明,没有从新内核的配置文件中删除多余的一行,并且没有发生过渡。这使我们花了一些时间来寻找问题。 



事实证明,主要流量已正确传输,并且控制流量未通过新核心到达节点。由于将项目明确划分为多个阶段,因此可以快速确定出现问题的网络部分,并确定问题并加以解决。 



结果是



项目的技术成果 



首先,创建了新企业网络的新核心,为此我们构建了物理/逻辑环。这样做的方式是使网络中的每个交换机都有一个“第二个肩膀”。在旧网络中,许多交换机通过一条路由,一条路肩(上行链路)连接到核心。如果将其撕裂,则交换机将变得完全不可访问。而且,如果通过一个上行链路连接了多个交换机,那么事故将使整个企业的整个部门或生产线瘫痪。 



在新网络中,即使是非常严重的网络事件,在任何情况下都无法“杀死”整个网络或其重要部分。 



90%的网络设备已更新,媒体转换器(信号传播媒体转换器)已停用,并且通过连接到PoE交换机(通过以太网供电)的PoE交换机,不再需要专用于电力设备的电源线。 



此外,在服务器机房和现场机柜中的所有光纤连接均已标记-在所有关键通信中心。这样就可以准备网络中设备和连接的拓扑图,以反映其当前的实际状态。 



网络图



从技术角度来看,最重要的结果是:相当大规模的基础架构工作得以迅速进行,而不会对企业的运营造成任何干扰,并且对企业人员几乎是看不见的。 



该项目的业务成果



我认为,该项目主要是从技术角度而不是从组织角度来看很有趣。困难主要在于计划和思考执行项目任务的步骤。 



该项目的成功使我们可以说,在Linxdatacenter服务组合内开发网络方向的举措是公司发展的正确选择。负责任的项目管理方法,有效的策略,清晰的计划使我们能够在适当的水平上进行工作。 



确认工作质量-客户要求在其俄罗斯其他站点继续提供网络现代化服务的请求。



All Articles