IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

六项事前规划 可帮助IT部门预防云服务中断

2013年03月19日
支点网/支点网

尽管云计算为IT部门带来了惊人的效益,但它始终只是个技术平台。由于管理的不完美,问题总会发生。实践证明IT可以提供帮助,但在一些情况下,也可能会扩大人为失误的影响。因此,改变管理手段和持续监控等基本的IT规划是必要的。那么,如何通过规划避免云服务中断呢?

1.安装特定警报

用少量的投资为重要基础设施安装特定警报,并确保警报声超过噪音。添加警报系统升级通知,以确保在问题影响关键业务之前得到解决。

2.每天检查数据表

即使拥有最先进的报警和报告系统,“经验”仍然是最优秀的管理工具,尤其是当大量数据被杂乱混合时。定期观察设备内存、CPU和接口使用的历史性能数据表。允许管理员建立、调整性能数据表,以确保用户受到影响前主动解决报警阈值。

3.创建有针对性的示意图

通过监视重要的网络设备收集详细数据,其用途是无限的。但是,没有什么能够取代大屏幕上的红色警报。创建示意图,包含特定组件的关键网络设备总体状况等。例如,在墙上安装一个显示核心网络设备的启动/关闭状态的60英寸LED显示图。

4.控制人为错误造成的宕机

迄今为止最严重的宕机始发于人为错误,而事件的发生只是由于很常见的网络问题引起。一天输入大量的神秘命令行接口(CLI)命令数百次,迟早会发生意外的灾难。配置错误问题很难解决,所以请确保进行夜间设备配置备份工作。

5.创建问题解决方案

你不需要为每一个可能出现的问题列出详细的处理方案,但你至少需要准备一个简洁的电子表格。合理地列举可能出现的问题,这可以帮助你确定风险领域,并加快团队成员的初始故障排除步骤。同时,列表上还要包括团队成员的紧急联系方式。不管怎么说,凌晨2点在VPN(虚拟私人网络)将问题解决总比第二天8点在办公室解决要好。

6.预防问题扩张

即使你已经做好万全准备,有时宕机事件还是会不可抑制的发生。为了防止问题的扩大,你需要合理的报警管理系统,借此保证合适的团队能被及时通知。例如,如果一个文件被错误删除,IT生产人员将被及时通知解决问题,这会让你体验到意想不到的改变。

发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

SaaS和工程堆栈将成未来企业云产品组合要素
SaaS和工程堆栈将成未来企业云产品组合要素我们正处在云计算的长期炒作期之中,这就是说,有没有评估和评价不同云选项的明晰...
2013年企业混合云将成趋势 业务创新快速化
2013年企业混合云将成趋势 业务创新快速化在这个风起“云”涌的时代,缤纷多彩的云上创新应用和业务,给我们带来了全新的数...

本类热点