首页 >> 互联网 >

为不可避免的事情做准备技术失败时应遵循的5个步骤

2024-10-15 07:20:02 来源: 用户: 

大家好,今日小经来聊聊一篇关于为不可避免的事情做准备技术失败时应遵循的5个步骤的文章,现在让我们往下看看吧!

相关:为什么每个小型企业都需要备份和灾难恢复计划

在Atlassian,我们提出了五个价值观,指导我们如何应对事件并最大程度地减少干扰。关于“价值”的文章很多,但它们不仅仅是挂在墙上的好东西。我们的工程师希望这些价值观能够指导他们在压力下做出艰难的决定。

每个值都映射到事件响应的特定组成部分。我在这里分享它们,希望它们也对您的组织有用。

检测

价值:Atlassian在我们的客户之前知道

精心设计的服务将具有足够的监视能力,以在发生问题之前检测并标记任何问题。如果您的团队没有在迫在眉睫的问题上影响到客户之前就获得通知,那么您需要改进监视和警报。

响应

值:升级,升级,升级

工程师可以决定的最糟糕的事情是,他们不想唤醒某人,因为这可能不是他们的问题。没有人应该介意为事件惊醒并发现不需要它们。但是他们会介意是否应该在应该被唤醒时不被唤醒。我们应该在同一个团队中,并且队友彼此支持。

恢复

价值:东西发生;快速清理

客户不在乎您的服务为何会中断,而只是想尽快恢复它。毫不犹豫地迅速解决事件,以便最大程度地减少影响。

如果您是技术负责人,并且知道可以通过快速重启来恢复服务,但是您也可以花时间调查服务仍处于故障状态的原因,该怎么办?该值指导您的答案:立即还原并稍后找出原因;客户体验至上。

学习

价值:永远无罪

突发事件是运行服务的一部分。通过使团队负责而不是分摊责任,我们所有人都会有所进步。人为错误绝不是重大事件的有效根本原因。那位工程师为什么能够将开发版本部署到生产环境?命令行输入错误如何造成如此破坏性的影响?

怪罪永远不是适当的回应。找出缺少的保障措施并将其落实到位。

提高

价值:永远不会两次发生相同的事件

确定根本原因并确定将阻止整个事件再次发生的更改。相同的虫子可以在其他地方叮咬吗?什么情况下可能导致程序员引入此错误?承诺在特定日期提供特定更改。

有了这些价值之后,下一步就是确保将它们付诸实践。我们每月举行一次会议,讨论如何实施这些方法,并剖析不采用这些方法的场合。我们呼吁人们关注他们-而不关注他们。并且我们已将它们添加到文档中以进行事件响应。

服务中断是一件大事:AWS事件影响了前100名零售商中的54家,而这只是一个行业领域。您的足迹可能要小得多,但是按比例来讲,中断对您和客户的影响可能都是破坏性的。为您的工程师提供必要的帮助,以便他们在关键时刻做出艰难的决定。他们和您的客户都会感谢您。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章