根据 Netflix 的说法,“避免失败的最好方法就是不断失败。” 2007 年初,Netflix 推出了流媒体服务,作为其订阅者的免费附加服务。由于流媒体服务是基于垂直大小的服务器机架内的软件构建的,因此一次重大数据 股东电话号码数据 库损坏导致混乱并导致 3 天的停机。最终,这种集权模式成为他们失败的最大根源。 当 Netflix 转向更加分布式的微服务框架时,可以立即定位并处理瞬时中断,而无需整个系统停机。技术人员模拟了这个新的分布式系统中的故障和损坏,以使其做好处理可能出现的任何异常的准备。

大多数人在开始使用之前都会测试某些东西是否有效,而 Netflix 则测试了哪些东西不起作用,以确保他们的系统能够处理意外情况并使其几乎坚不可摧。采用混沌工程的价值观和技术催生了 Chaos Monkey。 开放以维持混乱的流程,以确保弹性和增长2 “最好的流程是从不同的角度构建的,”Wrike 客户成功全球主管 Adler Chan 说道。 “运行边缘场景可以确保即使给定的流程在大部分时间都可以正常工作,事情也可能并且将会发生。