Nagios是一种开源软件网络监视工具。这个软件工具是免费的、功能强大的和有灵活性的。学习和应用这个软件比较困难,但是,这个软件能够减少跟踪你的机构的IT基础设施的工作状况所需要的大量的时间。
我在这个分为两部分的讲座的第一部分主要介绍Nagios的有用性和结构。在第二部分,我将介绍一些配置的例子并提出一些忠告。
要理解Nagios的有用性,考虑一下由一个或者更多的管理员负责的一个典型的IT基础设施。甚至一家小公司也有许多硬件,这些硬件上运行许多服务和软件。大型企业也许有数百台或者数千台硬件设备在运行。大型企业也许都有非集中管理的业务。这就意味着这些非集中管理的IT基础设施不能在物理上看到其中许多机器。
一般来说,每一台硬件设备都有一套独特的软件产品在上面运行。面对需要监视的多种硬件和软件,管理员不可能关注到每一个具体的物品。在这种情况下,默认的方式就是在发生服务中断的时候迅速做出反应。更糟糕的情况是在最终用户提出投诉的时候才知道发生了问题。
除了明显的公共关系问题之外,发现故障再进行处理本身就存在效率不高的问题。如果早一些发现问题,也许几分钟就可以排除故障。如果发现得晚,排除故障就可能非常消耗时间。例如,一个数据库的存储空间用完了。如果在硬盘的最后一个字节的存储空间用完之前进行维护就很容易。如果等到由于不能写入记录数据而造成系统停机之后再进行维护就比较困难。
因此,有一个能够提供帮助的自动化的工具对于系统管理员来说是非常有用的。这些工具采用网络管理软件通用的名称,所有的工具都有如下的功能:
·不断跟踪在基础设施中运行的所有的服务和机器。
·在小故障发展成为大故障之前报警。
·从一个中心位置实施管理,减少物理接触每一台设备的需求。
·提供一个显示整个系统状态和突出问题的可视化的表现方式。
阻碍网络管理软件更广泛应用的两个主要问题是:
·价格非常昂贵。
·对于指定环境的配置需要大量的时间。
Nagios是一种开源软件的网络管理工具。这就解决了价格昂贵的问题。这个软件也需要大量的配置时间。不过,有一些建议可以减轻配置的负担。这些建议将在以后的文章中介绍。
Nagios的结构
Nagios应用软件在一台中心服务器上运行,这个中心服务器可以采用Linux或者Unix操作系统。每一台需要监视的硬件都运行一个与中心服务器进行通信的Nagios软件的后台程序。中心服务器根据读取的配置文件中的指令与远程的守护程序进行联系,并且指示远程的守护程序进行必要的检查。虽然这个应用程序必须在Linux或者Unix操作系统上运行,但是,远程机器可以是任何能够与其进行通信的硬件。
根据远程机器的应答,Nagios将根据配置以合适的行动进行回应。根据需要进行的远程测试的类型,Nagios将通过本地的机器进行测试(例如,检查一台具体的值是否加入到数据库中)。如果检查返回的值不正确,Nagios将通过一种或者多种方式报警。这也是根据配置采取的行动。
现在,让我们进入第二讲。我将提供一些配置Nagios工具软件的例子。
翻译:东缘