数据中心宕机频发 你从中得到了什么教训

对于数据中心而言,宕机是一件十分难以承受的事情,甚至可以说是灭顶之灾。根据调研机构Gartner公司报告说,数据中心宕机平均每分钟成本为5600美元,因此可以想象一小时、两小时的宕机可造成的损失有多大。近几年,数据中心宕机事件频繁发生,我们也从中得到了一些教训,本文将从几个方面简单为大家介绍下平时在运营数据中心时需注意的事项。

对于数据中心而言,宕机是一件十分难以承受的事情,甚至可以说是灭顶之灾。根据调研机构Gartner公司报告说,数据中心宕机平均每分钟成本为5600美元,因此可以想象一小时、两小时的宕机可造成的损失有多大。近几年,数据中心宕机事件频繁发生,我们也从中得到了一些教训,本文将从几个方面简单为大家介绍下平时在运营数据中心时需注意的事项。

尽管在2018年,我们仍然看到的大多数数据中心中断。

根据Uptime Institute今年夏天公布的调查结果,近三分之一的数据中心在过去一年中发生了中断,而前一年则为25%。但这一增长并不是由于一些致命的新恶意软件造成的。

相反,导致停机的三大原因是断电(33%),网络故障(30%)以及IT或软件错误(28%)。

最重要的是,80%的数据中心经理表示他们最近的停机是可以预防的。

您无法阻止雷击(例如9月份在圣安东尼奥市Microsoft Azure数据中心的雷击)或零日漏洞攻击。攻击。但是,通过适当的规划和数据中心设计,由于意外的天气事件,攻击,常规人为错误或未打补丁的系统导致的中断,是可以最大限度地减少的。

在中断发生后,使数据中心快速启动并运行同样重要。根据咨询公司ITIC今年的报告,一小时的数据中心运营商平均停机时间为260,000美元,而五分钟的停机时间仅为2,600美元。

基础设施冗余仍然有效

在最基本的层面上,数据中心系统需要备份。备份电源和冷却系统,备份数据,甚至备份整个数据中心。

备份工作。据Uptime称,拥有2N冷却和电源架构的数据中心。换句话说,一个完全冗余的镜像系统,去年有22%的用户经历了停电。与那些选择更便宜,不完全冗余的N+1方法的人相比,减少了三分之一的中断,其中他们的33%报告了停电。

完整数据中心的备份可提供更高的可靠性。根据Uptime的数据,40%的数据中心经理表示他们会在两个或多个站点上复制工作负载和数据。

“如果你有一个数据中心并且有雷击,那么你就会失败,”SSH Communications Security首席技术官Markku Rossi表示。“你应该有一个辅助数据中心,它们之间存在物理隔离,因此它们不依赖于相同的能源。”

他补充说,没有任何数据中心能够免受这个问题的影响,他指的是微软中美洲数据中心的9月份数据中心。

“进行第二次设置并能够立即进行失效备援,”他说。

无论什么备份系统到位,规划和测试都是关键,Rossi补充说,规划需要考虑当今数据中心的复杂性,其中问题可能引发其他问题。

他使用了最近在物理维护期间发生的GitHub中断作为例子。“他们在几分钟内修复了物理问题,但需要24小时才能使数据正确同步,”他说。

数据中心经理需要查明潜在的问题区域,然后在发生事情时准备好工具和流程。

Rossi说:“专注于建立流程,建立你为失败做准备所需的心态。”

加强数据中心

数据中心管理人员应该从最近发生的与恶意软件相关的中断中吸取的最大教训之一就是,拥有一个强化的perimeter已经不够了,攻击者会通过的。

显然,保持防御最新,以防恶意软件进入是至关重要的。但数据中心管理人员必须准备好二级保护。

其中包括恶意流量检测机制,网络防御(如分段)和最低权限的访问和通信方法。

几乎所有的数据中心停机都是由于糟糕的规划和投资决策,加上流程不良或无法遵循流程,Uptime Institute研究执行主任Andy Lawrence在6月份的报告中写道。“几乎所有由正常运行时间研究所报告或研究的故障以前都发生过,而且通常有很好的文档记录。”

闪电袭击和新型恶意软件可能占据所有头条新闻,但最基本的还是要关注其恢复能力方面。

(原标题:今年数据中心宕机的教训:关注基本面)

本文来自信息化观察者网,转载请注明出处。

 

注:本站文章除标明原创外,均来自网友投稿及分享,如有侵权请联系dongxizhiku@163.com删除。

         

发表评论