如何设计问题管理流程将事故影响最小化 - 业界

“休斯敦，我们遇到问题了”，这是来自科学和技术界最伟大的语录之一。

然而从技术上来说，当他们用无线电告知在休斯敦的任务控制台时，阿波罗13号的工作人员应该说：“我们遇到了事故”，因为问题是事故表面下的未知原因。

事故是任何不属于标准服务运转部分的事件，能引起或是可能造成服务中断或是服务质量下降。谢天谢地，像任何组织良好的项目一样，休斯敦拥有一个中止计划，再加上宇航员们的足智多谋，他们最终能够平安地返回地面。

这是一起事故或危机管理的典型案例，目的是尽可能快地恢复服务运转的正常状态，从而将对运行的不利影响降至最低。拥有到位的事故管理计划以及应急响应团队来确保处理任何事故，应该成为任何组织的标准惯例。无论是天灾人祸、恶意攻击或是员工的疏忽，都应该被快速地处理，从而可以继续正常的服务。事故是每天业务生活的一部分，应该有帮助台（help desk）或IT支持人员来处理不太严重的问题，并有紧急响应团队来处理重大的事故。但是，究竟有多少组织拥有问题管理团队呢？

问题的定义是某个或多个事故的未知原因，问题管理流程涉及到判断此类事故表面下的原因，然后找到一个永久的解决方案。它不同于事件管理，因为它的关注点在于问题的解决而不是事件本身的响应速度，以防止它恶化成事件。

在阿波罗13号甲板上的事故引起了细致的调查以便判断问题的根源。然后用这方面的知识，以确保在未来的任务中问题不会再出现。这种类型的事件后分析可以起到至关重要的作用，确保企业网络运营保持不间断高效运行。没有它，宕机时间会延长，并且时间和金钱可能会浪费在处理重复的事故上。

让我们举个简单的例子来突出事件管理和问题管理间的差异：某个出问题的网络文件服务器无法让雇员们访问他们的文档。事件响应团队可能仅是重启服务器以便快速地恢复访问。问题响应团队则会找到让服务器宕机的原因，以便能修正并防止问题再次发生（请注意，问题管理不同于吸取经验教训的工作，后者是评审事故是如何处理的，看是否能改善未来事故的处理）。

尽管问题解决和事件响应是有关联的，但它们不一定要求同样的技能，因此参与到这两个流程的人员也是不同的。一些人可能知道如何恢复最近一次的数据库备份，但是不了解造成数据库崩溃的首要原因是什么。问题解决更加倾向于取证和追溯发生了什么引发了事件，而事件管理要求关于如何恢复一个系统的更具有可操作性的知识。

问题通常可由之后多个有类似症状的事故辨识——例如跨整个网络的电脑病毒传播并影响它们的性能——或者是从有重要影响的单个事故来辨识的，比如前面提到的情况：没人能访问某个特殊服务器上的文件。

一旦成功地诊断出事故表面下的原因，它就成了“已知错误”，随后的任务就是找到一个合适的变通方法或永久的解决方案。变通方法应该只用于将问题的影响最小化，直到找到永久的解决方案，并且问题应该归为已知的错误。

辨识问题根本原因的技术之一是使用因果图（Ishikawa diagram，也叫“鱼骨图”），是用来映射事件起因的工具。潜在的原因通常被归类如人、流程、策略、硬件、软件和环境，在这些类中，任何来源的变化都能帮助找出问题的原因所在。其它技术如阿波罗根源分析方法（Apollo Root Cause Analysis）也能用来辨识原因和寻找解决方案。

尽管问题管理与事故管理是紧密关联的，但是在需要快速的解决事故和需要找到问题长期的解决方案间，两者可能有冲突。还是用前面的例子，立刻重启文件服务器可能破坏有用的诊断信息来辨识问题的原因。解决这个冲突的方法之一，是事先达成一致需要什么诊断信息，在恢复服务前允许的诊断时间，以及试图解决该问题会需要的那些必要资源。

问题管理的主动性方法是努力在事故发生前辨识和解决问题。这涉及到对日志报告和帮助台请求的趋势分析，接着是相关的新闻组用来对别处发生的问题进行提前预警，以及针对的支持行动。

问题管理流程目的是减少业务中事故和问题的次数、严重性和恶劣影响，并且预防与这些错误相关的事故再次发生。团队的成功可以很容易地监控问题诊断和解决的平均时间、重复问题的发生次数、以及重大事故的发生次数，并以此来衡量。拥有到位的问题管理流程会帮助任何组织减少重复的事故发生，并通往更为可靠的网络和应用环境之路。

如何设计问题管理流程将事故影响最小化
2011-10-31 TechTarget中国

延伸阅读

热文

如何设计问题管理流程将事故影响最小化 2011-10-31 TechTarget中国

延伸阅读

热文

如何设计问题管理流程将事故影响最小化
2011-10-31 TechTarget中国