在线密集型SRE:我们会将所有内容分解为基础,然后对其进行修复,再将其分解几次,然后对其进行重建

让我们打破一些东西吗?否则,我们会构建,构建,修复和修复。无聊是凡人。



让我们分解一下,以便对此一无所有-我们不仅会因为这种愤怒而受到称赞。然后,我们将重建所有内容-如此之多,以至于它会变得更好,更容错并且更快。



我们会再次打破它。



您是否认为这是使用我们所有航天中最秘密的仪器-大俄罗斯太空锤的竞赛?



不,这是在线SRE密集型。碰巧每个Slurm SRE课程永远不要,而且要有别于以前的东西。仅仅因为您永远都不会猜到,在一个庞大的复杂系统中,每秒有成千上万的用户与之连接,观众本身就是数百万,它可能会掉下来,破裂,沉闷,故障以及其他数百种方式破坏SRE工程师职责转移的情绪。



在12月,我们将举行另一场SRE密集课程



图片



让我们安排一次小型回顾。考虑一下几年前HR如何在公司中寻找更多DevOps工程师的竞赛。奖品已更改。现在,他们像跟踪系统“ Pantsir-C1”一样,检查周围区域,寻找SRE工程师。我在文章“ Google开发人员Eugene Varavva中说过。 “如何用5个词来形容Google ”,SRE工程师在Google的生活以及此类公司如何也缺少SRE专家。在12



月的在线密集Slurm SRE中,从10:00到19:00的三天中,您将学习如何在资源有限的情况下确保速度,容错能力和站点可用性,消除IT事件并进行汇报,以免问题再次发生。



演讲者:



伊万·克鲁格洛夫(Ivan Kruglov)。 Databricks的高级软件工程师。在企业公司中具有分布式交付和消息处理,BigData和Web堆栈,搜索,内部云构建,服务网格方面的经验。



帕维尔·塞利瓦诺夫(Pavel Selivanov)。 Mail.ru云解决方案的高级DevOps工程师。基于数十种已构建的基础结构和数百条书面的CI / CD管道。 Kubernetes认证管理员。编写了有关Kubernetes和DevOps的几门课程。在俄罗斯和国际IT会议上定期演讲。



一切都会变得艰难,变幻莫测,而且在实践中也会变得如此。您将构建,破坏和修复-有时会以各种顺序进行。



建立:您必须为包含多个微服务的站点制定SLO,SLI,SLA指标;开发将支持他们的体系结构和基础架构;建立,测试和部署站点;配置监视和警报。



休息:您将考虑SLO恶化的内部和外部因素:开发人员错误,基础架构故障,访问者涌入,DoS攻击。学习了解弹性,错误预算,测试实践,中断管理和操作负载。



修复:您将受过训练,可以在最短的时间内快速有效地组织应急小组的工作:与同事联系,通知利益相关者并确定优先级。



研究:您将可以根据SRE解析该网站的方法。分析事件。确定将来如何避免它们:改善监视,更改体系结构,开发和运营方法,法规。自动化流程。



在线SRE密集型模拟真实条件-恢复服务性能的时间将非常有限。就像在现实生活中一样,就像在实际工作中一样。



您可以在此处找到SRE课程的条款,以及学习整个课程



在线密集课程计划于2020年12月进行。对于那些提前付费参加的人,我们准备了折扣。



您准备好接受激烈的训练,挑战性挑战和突发事故了吗?



只是不会。专业将会成长。



All Articles