我们如何将统计异常转变为服务:将云存储推向新高度

图片



几乎所有企业都面临着浮动的负担:现在保持沉默,然后是一场狂风。您不必走得太远,例如:



  • 在线商店的流量可能会根据一天中的时间或季节而大幅波动;
  • 公司的内部服务可能会连续数周处于“空”状态,并且在提交季度报告的前夕,他们的出勤率将急剧上升。


在削减的范围内,我们将讨论如何通过引入具有自定义IOPS的新存储层来帮助客户解决此问题。



关于磁盘的几句话



我们所有的客户都希望做一件事-以获得价格合理,可满足业务流程要求的可靠基础架构。因此,作为云提供商,我们面临着构建服务和服务的任务,因此我们可以轻松地为每个客户找到最佳解决方案。

以前,我们有两个存储层:st2和gp2。我们内部术语中的数字“ 2”表示较新的改进版本。



st2:标准(HDD) -廉价,廉价的SAS HDD介质。非常适用于IOPS不是很关键但带宽很重要的服务。



它们的参数如下:响应时间-不超过10毫秒,磁盘性能从2000 GB-1000 IOPS到2000 GB-500 IOPS,吞吐量随着每千兆字节的增长而增长,对于相同的2000 GB,吞吐量达到500 MB / s。



gp2:通用(SSD) -更昂贵,更快的SAS SSD驱动器。适用于对IOPS要求更高的客户。例如-在线商店的数据库。



Gp2参数在SLA中指定。 IOPS的性能按卷计算-每GB有10 IOPS。顶部栏为10,000 IOPS。此类磁盘的响应时间不超过2毫秒。这是一个相当高的性能,能够完成97%的业务任务。



在多年的工作中,我们积累了许多与客户有关的统计信息和专业知识,并注意到其中有些并不完全适合在两个驱动器选项之间进行选择。例如,某人可能想要更好的性能,而不是每千兆字节10 IOPS。或浮动负载无法使其停止在其中一种类型上,并且需要为高峰时间付费,但是定期空闲容量也不是一种选择。



您可以模拟一个简单的主题案例。在大流行期间,一家公司需要为员工发行通行证。这样他们就可以安全地在莫斯科周围行驶。工作人员很大,有两千人。发布命令以紧急更新公司CRM系统中的个人数据。说到做到。一千多人同时赶赴更新信息。但是节俭的人从事CRM。几乎没有分配容量。没有人期望超过十个人会同时爬进去!一切都下降了,再也无法上升。业务流程已被破坏,人们坐在家里,害怕被罚款。而且,如果有机会灵活地“调整”云中磁盘的性能,它们将在短时间内提高IOPS,然后按原样返回,从而消除或显着减少了CRM停机时间。



一方面,情况很奇怪;有这种需求的客户比例不是很大。小型提供者甚至会将其存在视为统计异常,并且不会采取任何措施。另一方面,新级别存储的组织将使我们能够为所有客户增加服务的灵活性。这意味着我们必须这样做。



如果您长期关注我们的博客,那么您可能还记得这篇文章,其中谈到了有关使用Dell EMC ScaleIO(现为PowerFlex OS)的一系列实验及其在CROC Cloud中的实现。不管怎样,我们建议您先熟悉一下它以获得一般理解。



笼统地说:ScaleIO(DellEMC首先将ScaleIO重命名为VxFlex OS,从2020年6月25日起改为PowerFlex OS)是一种超级通用且可靠的软件定义存储SDS。可靠性是我们的要求#0。因此,构成存储池一部分的每个节点都安装在单独的机架中,这样就排除了在数据中心或机架本地部分断电的情况下丢失数据的可能性。



如果磁盘,服务器或整个机架发生故障,我们将有足够的时间将数据复制到其他主机,然后替换发生故障的元素。如果两个机架一下子死了,那么什么也不会丢失。在这种情况下,群集将进入紧急模式,从磁盘写入和读取数据将受到限制,但是在恢复与“下降”机架的连接后,PowerFlex OS本身将接管数据重建和群集恢复的过程。顺便说一句,这个过程通常只需要花费几分钟。



当然,这是紧急情况-无法读取和写入的应用程序将立即“掉下来”,但是即使丢失了如此大的基础架构也不会破坏数据。尽管在涡轮机大厅的不同部分中两个机架发生故障的可能性非常小,但这并不意味着不应将其考虑在内。



就多功能性而言,PowerFlex OS(以前为ScaleIO)也是满足我们要求的理想选择。实际上,这是一个构造函数,随时可以接受任何工作负载,并且能够“接受”慢速SATA / SAS HDD,快速SSD和超快速NVME驱动器。这的确是事实-它已经在开发和运营团队的众多阶段和测试台上进行了测试,实际上,您可以使用任何旧铁杆或木棍来组装集群



音乐从五到六



让我们看一下其中一个场景,在该场景中,客户可能需要灵活的性能,并以实际示例为例。在我们的客户中,有乐器商店网络。该公司的技术人员跟踪每天和每小时有多少访客访问他们的站点。这甚至反映在我们的SLA中:从17:00到18:00,商店会收到最大数量的客户,因此不应进行技术工作或停机。



标准计算惯例是在24小时内分配100%的负载。事实证明,每小时大约4%。对于音乐商店的连锁店来说,这个特定的小时“重”不是4,而是10%,即成千上万的访客和顾客。



因此,如果在这个“黄金”时间内,他们的磁盘变得像魔术一样快,那对客户来说将非常方便。客户变得更胖,其余时间他们照常工作。用两种类型的光盘很难达到这种效果。



现在,我们有机会在最繁忙的时间为客户提供至少30,至少5万次IOPS,并在其余时间将性能保持在正常水平。我们称这种存储io2为:Ultimate(SSD)。基于此类存储的磁盘响应时间不超过1毫秒!



再说一次可靠性:st2,gp2和新的io2是独立的,在PowerFlex集群中彼此独立。



如果以前客户选择了磁盘并获得了固定的性能,那么现在他可以选择并配置它的性能。不论音量大小。其理念如下:您可以从众多提供商那里获得巨大而又快速的磁盘,但是您准备好100%地为它付费吗?



如何管理



有两种管理性能的方法:通过Web界面的老式方法和使用API​​的方法。这样就可以编写简单的脚本,这些脚本可以按计划“加速”或“减速”磁盘,并因此节省了资金。



早先我们可以承担客户所需的任何负载,而现在我们可以以最优惠的价格做到。



这就是实际的样子。





增加云基础架构的敏捷性是一个相关且非常正确的趋势。您不能告诉客户:“接受他们提供的东西,否则就不会发生!” 他必须能够决定所需的资源,时间和数量。如此灵活而可靠的解决方案就是未来。



我们保证为我们提供服务:SLA中详细说明了所有参数,并且您可以指望“纸面”数字不会与实际数字相背离。

以及如何检查您的云提供商,我们已经在上一篇文章中写过



All Articles