Uma.Tech如何开发基础设施

我们推出了新服务,流量增加了,更换了服务器,连接了新站点并重新设计了数据中心-现在我们将讲这个故事,我们从五年前开始介绍您



五年是总结中间结果的典型时间。因此,我们决定谈论基础设施的开发,这是我们感到自豪的,它在过去的五年中经历了令人惊讶的有趣发展道路。我们已经实施的定量更改已变成定性更改;现在,基础架构可以在过去十年中期的理想模式下运行。



我们为可靠性和负载要求最严格的最复杂项目提供工作,包括PREMIER和Match TV。在体育广播和受欢迎的电视连续剧的首映式上,要求以兆位/秒的速度返回流量,我们很容易实现这一点,并且以如此高的速度工作对我们来说早已司空见惯。五年前,在我们的系统上工作的最困难的项目是Rutube,此后一直在开发,以增加数量和流量,在计划工作量时必须考虑到这一点。



我们讨论了如何开发基础架构的硬件(“ Rutube 2009-2015:硬件的历史”)并开发了负责视频上传的系统(“从每秒0到700吉比特-俄罗斯最大的视频托管网站之一如何上传视频) ”),但是自从编写这些文本以来,已经花费了很多时间,已经创建并实施了许多其他解决方案,其结果使我们能够满足现代要求,并具有足够的灵活性来重新构建新任务。







我们正在不断开发网络核心。如上一篇文章所述,我们在2015年切换到了Cisco设备。然后都是10 / 40G,但是出于明显的原因,几年后他们升级了现有的机箱,现在我们也积极使用25 / 100G。







长期以来,100G链路既不是奢侈的(相反,这是我们这个时代的紧迫要求),也不是稀罕的(越来越多的运营商以这种速度提供连接)。但是,10 / 40G仍然很重要:通过这些链接,我们继续将流量较小的运营商连接起来,而目前使用不大容量的端口是不切实际的。



我们创建的网络核心值得单独考虑,稍后将成为单独文章的主题。在那里,我们将深入研究技术细节,并在创建技术细节时考虑我们的行为逻辑。但是,由于亲爱的读者们,您的关注不是无限的,所以现在我们将继续以更具示意性的方式绘制基础架构。



视频服务服务器迅速发展,为此我们付出了很多努力。如果以前我们主要使用2U服务器,每个服务器具有4-5个网卡,每个网卡具有两个10G端口,那么现在大部分流量是从1U服务器发送的,其中有2-3个网卡,每个卡具有两个25G端口。 10G和25G的卡的价值几乎相等,更快的解决方案可让您同时提供10G和25G。结果是明显的节省:更少的服务器组件和连接的电缆-更少的成本(和更高的可靠性),组件占用的机架空间更少-每单位面积可容纳更多服务器,因此租金成本更低。



但是更重要的是速度的提高!现在有了1U,我们可以提供超过100G!这是在某些俄罗斯大型项目称“实现”带有2U的40G归还的情况下的。我们会有他们的问题!







请注意,我们仍在使用只能在10G上运行的网卡。该设备运行稳定且对我们非常熟悉,因此我们没有丢弃它,而是找到了新的应用程序。我们将这些组件安装在视频存储服务器中,对于一个或两个1G接口显然不足以有效运行,这里证明是10G卡才有意义。



储物系统也在增长。在过去的五年中,它们已从十二个磁盘驱动器(12x HDD 2U)变为三十六个磁盘驱动器(36x HDD 4U)。有些人害怕使用如此宽敞的“尸体”,因为如果一个这样的底盘发生故障,可能会威胁到生产力,甚至是工作能力! -对于整个系统。但这对我们而言不会发生:我们在地理分布的数据副本级别提供了冗余。我们将机箱分散到不同的数据中心(总共使用了三个),这可以避免在机箱故障和平台掉落的情况下出现问题。







当然,这种方法使硬件RAID变得多余,而我们放弃了。通过消除冗余,我们同时提高了系统的可靠性,简化了解决方案并消除了潜在的故障点之一。回想一下,我们的存储系统是“自制的”。我们完全有意为此付出了努力,结果使我们完全满意。在过去的五年中,我们多次更换了



数据中心。自从上一篇文章撰写以来,我们仅更改了一个数据中心-DataLine-随着我们基础架构的发展,其余部分都需要更换。站点之间的所有传输均已计划。



两年前,我们迁移到MMTS-9内部,搬到了一个具有高质量维修,良好的冷却系统,稳定的电源且没有灰尘的站点,该站点过去常常覆盖所有表面的厚层,并且还严重阻塞了设备内部。选择优质的服务-无尘! -成为我们搬家的原因。







几乎总是“一次穿越等于两次生火”,但是每次迁移的问题都不尽相同。这次,在一个数据中心内部移动的主要困难是由光学交叉连接“提供”的-它们之间的楼层丰富,而电信运营商没有将它们合并为一个交叉连接。 MMTS-9工程师帮助我们更新和重新规划交叉口的过程可能是迁移过程中最困难的阶段。



第二次迁移发生在一年前,在2019年,我们从不太理想的数据中心迁移到O2xygen。此举的原因与上面讨论的原因类似,但由于原始数据中心对电信运营商的吸引力不足,这些问题得到了补充-许多提供商不得不自己“赶上”这一点。







将13个机架迁移到MMTS-9中的高质量站点,不仅可以将其定位为操作员(几个机架和“转发”操作员),而且还可以将其用作主要位置。这在某种程度上简化了从不太理想的数据中心的迁移-我们将大部分设备从该数据中心移到了另一个站点,O2xygen负责开发,在那儿发送了5个带有设备的机架。



如今,O2xygen已经是一个成熟的平台,我们需要的运营商可以在此平台上“崭露头角”,而新的运营商则可以继续连接。对于运营商而言,氧气在战略发展方面也很有吸引力。



我们绝对是在迁移的主要阶段过夜,并且在MMTS-9内迁移到氧气时,我们遵守了这一规则。我们强调无论机架数量多少,我们都严格遵守“夜间移动”的规则!当我们移动20个机架并在一夜之内完成它时,甚至有一个先例。迁移是一个相当简单的过程,需要准确性和一致性,但是在准备过程中,移动时以及部署到新位置时,这里都有一些技巧。如果您有兴趣,我们随时可以详细介绍有关迁移的信息。



结果我们喜欢五年发展计划。我们已经完成了跨三个数据中心的新的弹性基础架构的建设。我们已经极大地提高了流量交付的密度-如果最近我们对使用2U的速度达到40-80G感到高兴,现在对我们来说,使用1U的速度提供100G是正常的。现在,我们已将万亿流量视为司空见惯。我们准备进一步发展我们的基础架构,事实证明该基础架构具有灵活性和可扩展性。



题:亲爱的读者,在接下来的课文中,您想对您说些什么?为什么我们开始构建自制存储系统?关于网络核心及其功能?关于数据中心之间迁移的技巧和复杂性?关于通过选择组件和微调参数来优化发行决策?关于借助数据中心内的多个冗余和水平可伸缩性来创建可持续解决方案的问题,这些解决方案是在三个数据中心的结构中实现的?



作者:Petr Vinogradov-Uma.Tech技术总监仓鼠



All Articles