华为OceanStor Dorado 18000 V6:高端

我们认为,OceanStor Dorado 18000 V6会成为真正的高端存储系统,并且在未来几年中会有大量积压。同时,我们消除了人们对全闪存存储的普遍担忧,并展示了华为如何最大程度地利用它们:端到端NVMe,SCM上的额外缓存以及大量其他解决方案。









新数据格局-新数据存储



在所有行业中,数据操纵的强度都在增加。银行业就是一个很好的例子。在过去的几年中,银行交易的数量增加了十倍以上。正如BCG研究显示,仅在俄罗斯,从2010年到2018年,使用塑料卡进行的非现金交易数量增长了30倍以上,从每人每年5.8增长到172。首先,关键是小额支付的成功:我们大多数人已经类似于网上银行,而银行现在就在手头上-正在电话上。



信贷机构的IT基础架构必须准备好应对此类挑战。这确实是一个挑战。除其他外,如果银行较早地需要确保仅在工作时间内提供数据,则现在是24/7。直到最近,5ms还被认为是可接受的延迟标准,那又如何呢?现在即使1毫秒也太多了。对于现代存储系统,目标是0.5毫秒。



可靠性也是如此:在2010年代,根据经验得出的结论是,它足以将其水平提高到“五打”(99.999%)。没错,这种理解已经过时了。在2020年,对于企业来说,对存储的需求为99.9999%,对整体架构的需求为99.99999%,这是绝对正常的。这根本不是一时​​兴起,而是迫切需要:要么没有时间来维护基础架构,要么很小。







为了清楚起见,将这些指标投影到货币平面上很方便。最简单的方法是通过金融机构的例子。上图显示了世界排名前10名的银行在一个小时内的收入。仅对于中国工商银行来说,这不少于500万美元,而中国最大的信贷机构的IT基础架构一小时的停机时间将损失多少(计算中仅考虑利润损失!)。从这个角度来看,很明显,减少停机时间和提高可靠性(不仅减少百分之几,甚至减少百分之几)是完全合理的。不仅是出于提高竞争力的原因,而且还仅仅是出于维护市场地位的原因。



其他行业也在发生可比的变化。例如,在航空旅行中:在大流行之前,航空交通量逐年增长,许多人几乎像出租车一样开始使用它。对于消费者模式,社会有着完全可访问服务的根深蒂固的习惯:到达机场后,我们需要Wi-Fi连接,访问支付服务,区域地图等。因此,公共空间中基础设施和服务的负担增加了很多倍。甚至在一年前,我们认为还可以接受的方法,基础设施和建筑正在迅速过时。







切换到全闪存还为时过早吗?



为了解决上述问题,从AFA性能的角度来看,最适合使用全闪存阵列,即完全基于闪存构建的阵列。除非直到最近,否则人们仍然怀疑它们的可靠性是否与基于HDD的装配式和混合式装配的可靠性相当。毕竟,固态闪存具有诸如两次故障之间的平均时间或MTBF之类的指标。很明显,由于I / O操作导致的单元性能下降。



因此,如果订购SSD寿命长,如何防止数据丢失的问题笼罩着全闪存的前景。备份是通常的选择,但是根据现代的要求,恢复时间会过长。另一种解决方法是在主轴驱动器上建立第二级存储,但是该方案失去了“严格闪存”系统的某些优势。



但是,这些数字却相反:包括谷歌在内的数字经济巨头的统计数据表明,近年来,闪存的可靠性是硬盘的几倍。此外,无论是在短期内还是在较长时间内:平均而言,闪存驱动器故障需要四到六年的时间。就数据存储可靠性而言,它们绝不亚于主轴磁驱动器,甚至不亚于主轴磁驱动器。







支持主轴驱动器的另一个传统论点是它们的承受能力。毫无疑问,在硬盘上存储TB的成本仍然较低。而且,如果仅考虑设备成本,那么在主轴驱动器上保持1 TB的成本要比固态驱动器便宜。但是,在财务计划的背景下,购买特定设备不仅很重要,而且很长一段时间(从三到七年)拥有该设备的总成本也很重要。



从这个角度来看,一切都完全不同。即使我们排除了重复数据删除和压缩(通常在闪存阵列上使用重复数据删除和压缩,并使它们的操作更经济地获利),仍然保留了诸如托架占用的机架空间,散热和功耗等特性。根据他们的说法,同花顺将战胜其前辈。结果,考虑到所有参数,闪存系统的TCO通常几乎是主轴驱动器或混合驱动器上阵列的一半。



根据ESG报告,Dorado V6全闪存存储系统实际上可以在五年的时间内将拥有成本降低78%,包括通过有效的重复数据删除和压缩以及低功耗和散热。德国分析公司DCIG还建议将它们用作当今可用的最佳TCO。




固态驱动器的使用可以节省可用空间,减少故障次数,减少维护解决方案的时间以及减少存储系统的能耗和散热。事实证明,从经济角度而言,AFA至少可以与主轴驱动器上的传统阵列相提并论,但往往会超过它们。







华为的皇家同花顺



在我们的全闪存存储中,排名最高的是高端系统OceanStor Dorado 18000 V6。不仅在我们中间:在整个行业中,它保持了速度记录-最高配置中多达2000万个IPOS。此外,它非常可靠:即使两个控制器一次飞行,或者最多一个接一个地运行七个控制器,或者一次运行整个引擎,数据仍然可以保留。连接到其中的AI赋予了``万分之一''的巨大优势,包括管理内部流程的灵活性。让我们看看如何实现所有这些。







在很大程度上,华为具有领先优势,因为它是市场上唯一一家完全自己制造数据存储系统的制造商。我们有自己的电路,我们的微代码,我们的服务。



OceanStor Dorado系统中的控制器基于华为专有和制造的处理器Kunpeng 920构建,它也使用我们的智能底板管理控制器(iBMC)。可以优化故障预测并提供设置建议的AI芯片,即Ascend 310,以及I / O板-智能I / O模块,也很容易实现。最后,固态驱动器中的控制器由我们设计和制造。所有这些都为制定整体平衡的高性能解决方案奠定了基础。







, . 40 OceanStor Dorado 18000 V6 metro- : IOPS, - .








NVMe



华为最新的存储系统支持端到端NVMe,我们之所以重点关注它。传统的存储访问协议是在古老的IT上开发的:它们基于SCSI命令(您好,1980年代!),该命令具有许多功能以确保向后兼容。无论采用哪种访问方法,在这种情况下协议开销都是巨大的。结果,使用SCSI相关协议的存储的I / O延迟不能低于0.4-0.5毫秒。反过来,NVMe(非易失性内存Express)是为处理闪存而创建的协议,并且为了避免向后兼容而摆脱了束缚,因此将延迟降低到0.1毫秒,这不仅在存储系统上,而且在整个堆栈上,从托管驱动器。不奇怪,NVMe在可预见的未来与数据存储的发展趋势保持一致。我们还对NVMe进行了投资-并逐渐远离SCSI。如今,包括Dorado系列在内的所有华为存储系统都支持NVMe(尽管端到端,它仅在高级Dorado V6系列型号上实现)。







FlashLink:少数技术



整个OceanStor Dorado系列产品的基础技术是FlashLink。更确切地说,该术语涵盖了一系列可确保高性能和可靠性的技术。这包括重复数据删除和压缩技术,RAID 2.0+数据分发系统的功能,“冷”和“热”数据的分离,全条带顺序数据记录(将随机写入,新数据和修改过的数据汇总到一个大堆栈中并顺序写入),从而提高了速度读写)。



除其他外,FlashLink包括两个重要组件-损耗均衡和全局垃圾收集。值得单独居住在他们身上。



实际上,任何SSD都是具有大量块和确保数据可用性的控制器的微型存储系统。并且除其他外,由于来自“被杀死的”细胞的数据被转移到“未被杀死”的细胞的事实而被提供。这样可以确保可以读取它们。有多种用于此传输的算法。通常,控制器会尝试平衡所有蓄电池的磨损。这种方法有一个缺点。当数据在SSD内移动时,其执行的I / O数量将大大减少。目前,这是必要的邪恶。



因此,如果系统具有许多固态驱动器,则其性能曲线上会出现“锯”,并且起伏很大。问题在于池中的一个驱动器可以随时开始数据迁移,并且一次删除了阵列中所有SSD的整体性能。但是华为工程师想出了避免“锯”的方法。



幸运的是,驱动器中的控制器,存储控制器和来自华为的微码都是“本机”,OceanStor Dorado 18000 V6中的这些进程是在阵列的所有驱动器上集中启动的。而且,在存储控制器的命令下以及恰好在I / O上没有重负载时。



: , -, , , : Wear Leveling, .




此外,与竞争制造商的存储系统相比,系统控制器可以看到驱动器每个单元中发生的情况:他们被迫从第三方供应商处购买固态介质,这就是为什么此类存储的控制器无法获得单元级详细信息的原因。



结果,OceanStor Dorado 18000 V6在损耗均衡期间的性能损失非常短,并且主要在没有其他过程受到干扰的情况下执行。这样可以在一致的基础上提供较高的一致性能。







什么使OceanStor Dorado 18000 V6可靠



在现代数据存储系统中,可靠性分为四个级别:



  • 在驱动器级别的硬件;
  • 在设备级别的体系结构;
  • 与软件部分一起进行架构设计;
  • 累积的,是指整个决策。


回想一下,由于我们公司设计和制造了存储系统本身的所有组件,因此我们确保了这四个级别中每个级别的可靠性,并且能够全面跟踪当前在哪个级别上发生的情况。







硬盘的可靠性主要由前面所述的损耗均衡和全局垃圾回收来保证。当固态硬盘看起来像系统的黑匣子时,它不知道单元中的电池如何磨损。对于OceanStor Dorado 18000 V6,驱动器是透明的,这使得均匀地平衡阵列中的所有驱动器成为可能。因此,事实证明,这大大延长了SSD的寿命,并确保了其操作的高度可靠性。







而且,其中的其他冗余单元会影响驱动器的可靠性。除了在存储系统中的简单保留之外,还使用了所谓的DIF单元,其中包含校验和以及其他代码,以保护RAID阵列级别的数据,从而避免单个数据块因单个错误而保存。







SmartMatrix解决方案是架构可靠性的关键。简而言之,这是四个控制器,它们作为一个引擎的一部分位于被动背板上。两个这样的引擎(分别带有八个控制器)通过驱动器连接到公共机架。由于有了SmartMatrix,即使八个控制器中的七个停止工作,仍可以访问所有数据(包括读写)。而且,如果您丢失了八个控制器中的六个,您甚至可以继续缓存。







同一无源背板上的I / O卡可用于前端和后端的所有控制器。使用这种全网格连接方案,无论发生什么故障,都始终保留对驱动器的访问。







在存储系统可以防御的故障场景中,最适合谈论架构可靠性。



如果两个控制器(包括同时发生)“掉落”,则该存储设备将在没有任何损失的情况下生存下来。由于任何高速缓存块在不同的控制器上肯定还有另外两个副本,也就是说,总共存在三个副本,因此可以实现这种稳定性。至少有一个在不同的引擎上。因此,即使整个引擎(使用其所有四个控制器)停止工作,也可以确保缓存中的所有信息都将被保存,因为缓存将在其余引擎中的至少一个控制器中复制。最后,通过菊花链连接,您可能会丢失多达七个控制器,即使以两个为一组来消除它们-同样,所有I / O和来自高速缓存的所有数据都将被保存。







与其他制造商的高端存储相比,即使在两个控制器或整个引擎失效后,只有华为提供了完整的数据保护和完整的可用性。大多数供应商都使用带有驱动器连接到的所谓控制器对的电路。不幸的是,在这种配置下,如果两个控制器发生故障,则可能会丢失对驱动器的I / O访问。







,,没有客观地排除单个组件的故障。在这种情况下,性能将降低一段时间:必须重建路径,并恢复相对于那些已开始写入但尚未写入或请求读取的块的I / O操作的访问。 OceanStor Dorado 18000 V6的平均重建时间约为1秒钟-大大低于其业内最接近的同类产品(4秒)。这要归功于同一个无源底板:当控制器发生故障时,其他控制器立即看到其I / O,尤其是未添加哪个数据块;结果,最近的控制器接管了该过程。因此,仅需一秒钟即可恢复性能。应该补充的是,间隔是稳定的:每个控制器一秒钟,第二个,等等。







在OceanStor Dorado 18000 V6无源背板中,所有板卡都可用于所有控制器,而无需任何其他寻址。这意味着任何控制器都能够在任何端口上拾取I / O。无论前端端口I / O进入何处,控制器都将准备工作。因此-内部转帐的最小数量和明显的平衡简化。



前端平衡是使用多路径驱动程序执行的,并且平衡是在系统内部另外执行的,因为所有控制器都可以看到所有I / O端口。







传统上,所有华为阵列的设计方式都不会有单点故障。无需重新启动系统,即可“热”更换其所有组件:控制器,电源模块,冷却模块,I / O板等。







诸如RAID-TP之类的技术还可以提高整个系统的可靠性。这是RAID组的名称,它允许您对最多三个驱动器的同时故障进行对冲。此外,持续重建1 TB所需的时间少于30分钟。最佳记录结果-比同等数量的主轴驱动器快八倍。因此,可以使用容量非常大的驱动器,例如7.68甚至15 TB,而不必担心系统的可靠性。



重要的是,重建不是在备用驱动器中进行,而是在备用空间中进行-保留容量。每个驱动器都有用于灾难恢复的专用存储空间。因此,恢复不是根据“多对一”方案进行的,而是根据“多对多”方案进行的,因此有可能大大加快该过程。只要有可用容量,恢复就可以继续。







另外,还应提到从多个存储中解决方案的可靠性-在城域集群中,或者在华为的术语中是双活。这种方案在我们的数据存储系统的整个模型范围内均受支持,并且可以与文件访问和块访问一起使用。此外,在块上,它既可以通过光纤通道又可以通过以太网(包括iSCSI)运行。



从本质上讲,我们正在谈论从一个存储系统到另一个存储系统的双向复制,在复制系统中,为复制的LUN分配与主存储系统相同的LUN-ID。该技术的工作主要是由于来自两个不同系统的缓存的一致性。因此,对于主机来说,它来自哪一侧绝对是完全相同的:在这里和那里看到的逻辑磁盘都是相同的。因此,没有什么可以阻止您部署跨越两个站点的故障转移群集。



对于仲裁,使用物理或虚拟Linux计算机。它可以位于第三个站点,并且对资源的要求很小。一种常见的方案是专门租用一个虚拟站点来托管仲裁VM。



该技术还可以扩展:具有异步复制功能的两个存储-一个城域集群中的一个附加平台。







从历史上看,许多客户形成了一个“存储动物园”:一堆来自不同制造商,不同型号,不同世代,功能不同的存储系统。但是,主机的数量令人印象深刻,并且通常是虚拟化的。在这种情况下,管理的优先任务之一是为主机快速,统一和方便地提供逻辑磁盘,最好采用不深入研究这些磁盘物理位置的方式。这正是我们的OceanStor DJ软件解决方案的目标,该解决方案可以统一管理各种存储系统并从中提供服务,而无需绑定到特定的存储模型。







与AI相同



如前所述,OceanStor Dorado 18000 V6具有内置有人工智能算法的处理器-Ascend。它们首先用于预测故障,其次用于形成调整建议,这也可以提高存储的性能和可靠性。



预测期为两个月:AI机器认为这很可能会在此期间发生,是时候进行扩展,更改访问策略等了吗?预先给出了建议,这使得可以提前安排窗口进行系统维护。







华为AI发展的下一阶段涉及将其推向全球水平。在服务维护期间-故障转移或建议-华为从所有客户存储库中收集日志系统中的信息。根据收集的数据,对发生的或潜在的故障进行分析,并提出全局建议-不是基于一个特定的存储系统或什至十几个存储系统的功能,而是基于成千上万个此类设备正在发生和正在发生的事情。该样本非常庞大,并基于此样本,AI算法开始快速学习,从而使预测更加准确。



兼容性









在2019-2020年间,有很多关于我们的硬件如何与VMware产品交互的影射。为了最终阻止它们,我们负责任地宣布:VMware是华为的合作伙伴。所有可想象的测试都是针对我们的硬件与其软件的兼容性而进行的,因此,在VMware网站的硬件兼容性列表中,没有任何保留地指明了我们生产中的当前可用存储系统。换句话说,在VMware软件环境中,您可以使用具有全面支持的华为存储(包括Dorado V6)。







我们与Brocade的合作也是如此。我们将继续与我们的产品互动并进行互操作性测试,以确保我们的存储系统可与最新的Brocade FC交换机完全互操作。







下一步是什么?



我们将继续开发和改进处理器:它们变得更快,更可靠,性能也在不断提高。我们还在改进AI芯片-在它们的基础上,生产的模块可加速重复数据删除和压缩。那些有权使用我们的配置器的人可能已经注意到,在Dorado V6型号中,这些卡已经可以订购。



我们也正在朝着在存储类内存上增加额外的缓存的方向-具有低延迟(每次读取大约十微秒)的非易失性内存。其中,SCM可以提高性能,特别是在处理大数据和解决OLTP任务时。在下一次更新之后,应该可以订购SCM卡。



当然,文件访问功能将在整个华为数据存储产品系列中扩展-请随时关注我们的更新。



All Articles