您的位置:首页 > IT科技 >

为弹性构建Gremlin的混沌工程很早就暴露了漏洞

时间:2020-04-18 15:57:22 来源:互联网

站点可靠性工程师的工作,也称为SRE,通常的特点是将工程原则引入基础设施和操作问题,重点是创建可靠和可扩展的系统。

大多数SRE工作描述没有补充的是,这项工作还需要一种类似于消防员的能力,他们必须向燃烧的建筑物充电,并迅速找到火灾的根本原因。

“在大规模事件中,你真的需要能够快速行动,”克里姆林宫公司的主要现场可靠性工程师塔米·布托(图左)说。“如果你更快地发现事件,那么你就有更好的机会降低冲击,这样你就可以控制爆炸半径。 如果你在厨房的平底锅里着火了,然后把它扑灭,那就比等到你的房子着火要好得多。

布托和硅谷媒体的移动直播工作室CUBE的主持人约翰·弗里尔进行了交谈。 与她一起的还有格里姆林市场营销高级副总裁阿尔伯托·法罗纳托(图右),他们讨论了公司通过测试和即将举行的免费大型活动来保护复杂系统的方法。

克里姆林宫自诩为世界上第一个通过将失败转化为恢复能力来建立更可靠的互联网的混乱工程服务机构。 其目标是在复杂系统出现故障之前进行安全实验,并使企业损失数百万美元。

法罗纳托解释说:“与其说是制造混乱,不如说是管理我们现有系统中的混乱,并在漏洞制造问题之前暴露出漏洞。 “你需要一个根本不同的方法去寻找你的弱点所在,然后再发生。

这种做法在大型金融机构,如国家澳大利亚银行(National Australia Bank)中尤其有帮助。

“我们将进行大规模的灾难恢复,”布托说。 “这就是在一个未知的位置上,您将失败的整个数据中心到一个秘密数据中心。 原因是你正在检查,以确保在核爆炸中一切正常,你必须每个季度都这样做。

大流行迫使克里姆林宫进行自己的故障转移手术。 该公司每年一度的混沌会议已经过渡到一个免费的虚拟活动,名为FailoverConf,计划于4月21日举行。

法罗纳托说:“我们很快成为一家公司,并创建了一个新的在线活动,为社区中的每个人提供机会。 “如果你想从最好的方面了解如何在系统、人员和流程之间建立业务连续性,这是一个对弹性感兴趣的人的会议。

免责声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,并不代表本站赞同其观点和对其真实性负责。如有侵权行为,请第一时间联系我们修改或删除,多谢。
精选展示

Copyright © 2021 山西商业网 All Rights Reserved