博客

首页>9是谎言:追求持续可用性

9是谎言:追求持续可用性

Anirban Chatterjee.
2018年10月23日

大多数IT组织喜欢将自己视为不断改进。最好的人不断投资建立新技能，部署新的基础架构，获取新工具，创建新流程，甚至在调整他们已经拥有的内容，以便将更多的效率和生产力从其环境中拧出。很多都是迁移到云端，作为云服务提供商（或CSP），快乐地广告三，四个甚至五个可用性（例如，99.999％的正常运行时间）。许多IT从业者在他们的时候采取胜利圈删除麻烦的遗留硬件、应用程序或工具以简化IT操作并避免未来的中断。

因此，在最近的一项调查中，向正常运行时间研究所(451研究所的一个部门)报告宕机的受访者比例实际上在过去一年增加了24%，这让我感到有点震惊。你可以看到他们的报告这里。有点抛出我们整个实践的价值，不是吗？

基础设施问题导致宕机

当你挖掘这些中断的原因时，事情会变得更加令人担忧。由于故障不可避免的假设，IT组织越来越多地部署了基础设施，因此应用程序基础设施应以故障耐受性为一阶要求设计。这就是现代数据中心使用的原因虚拟化,集装箱化和云Orchestration Technologies作为Applications的抽象硬件的工具 - 所以当发生性能问题时，它们可以无缝重新定位并重新启动。

不幸的是，当出现停电或网络中断时，这些技术毫无用处，自2016年以来公开报道的中断中有61%是这种情况。特别是断电，是向正常运行时间研究所报告的故障的最大原因2018年报告，申请调查的三分之一的组织。

这对我来说无所谓-你们有些人可能会想-我很聪明，把所有重要的工作负载都移到了云上，所以我不必担心这些事情。再想想。该报告还显示，31%的宕机是由第三方——colo、托管提供商或公共云平台——造成的。

具体的例子

我们中的许多人都受到了西南航空、达美航空和英国航空在2016年夏天开始的12个月内经历的重大故障的影响(由a路由器失败，一种停电和一个电涌，分别）。需要更多？以下是最近的例子 - 从今年的所有例子。

恶劣的天气造成了在Equinix数据中心的停电在弗吉尼亚 - 为一些人敲掉服务AWS必威亚洲体育官网登陆客户，包括Alexa, Slack和Atlassian。(如果你认为Equinix团队没有为风暴相关的电力中断进行训练，请阅读他们2015年的博客，标题宿命，“灾难或哑弹，Equinix总是准备好当风暴袭击”。)
云服务提供商Iomart遭受了一个主要的网络中断数十家英国企业的网络被切断超过12小时。这次停电是由一位农民在挖沟时切断了一根光纤电缆造成的。
一个澳大利亚国家银行断电敲掉了一个大型机，影响了自动取款机，付款处理和网上银行5小时。
Azure北欧数据中心的存储服务由于外部温度升高和湿度升高，因此下降了11个小时。那个升高的温度？64°F（18°C）。

转过身来

这些数字显然朝着错误的方向移动。我们如何扭转这一趋势？

部分原因是，部分原因是，只有很少的组织都做了有意义的研究，了解最初导致他们的中断的系统问题，以及这些中断实际上是多少（仅仅43％的时间由Uptime Institute调查的43％完成一个分析）。但是这里有两个想到的想法，因为你试图将你的IT组织朝着更像田园诗般的田园诗没有中断的生活。

留意技术欠税。
数字转型不再只是一个流行词——它是每个地区和行业的it组织的一种新的生活方式。但是，当您用于基础设施的技术正在迅速变化时，很容易发现您对遗留技术资产的投资不足，无法使它们平稳运行。保持对现有本地基础设施的健康和流通状况的警惕是至关重要的，即使您是搬到云端。
即使在它不拥有的资产上，也保持完整的可见性。
恕我直言，就因为你将应用迁移到云这并不意味着您可以放弃查看和跟踪任何基础设施运行状况的职责——无论它是由云提供商托管的，还是“留在”您自己的数据中心。确保任何技术过渡计划都包含保持整体可见性的元素混合它基础设施环境，因此当基础设施问题即将影响用户所依赖的关键服务时，您将获得早期警告。

在Zenoss，我们专注于在确保我们的客户方面十年的投资保持完整的可见性他们遗留的基础设施，云中的资源，以及介于两者之间的。这为他们提供了预警系统预测问题可以使用正确的集成，使IT运营团队能够实现快速解决问题在发送任何生气文本或推文之前。Zenoss云是，今年早些时候发布，将这些功能带到了一个带有SaaS平台的下一个级别可扩展到任何环境你要关注它——使你的团队专注于重要的服务交付项目。要了解更多内容或查看演示，请伸出援手!