大约有20%以上的NetBackup备份/恢复失败是由通讯故障引起的,而不是NetBackup自身的问题。而且在处理这些故障时,用户往往忽略通讯问题的可能。这是因为一般的应用系统在安装NetBackup之前已经有业务系统(如,Oracle)在正常运行;用户一般会进行简单的名字解析配置, 并使用ping 命令验证通过。但事实上,上述这些并不能完全保证NetBackup备份/恢复任务 正常运行, 因为:
· NetBackup进程流较一般应用程序更为复杂,要求精心规划和实施名字解析、端口使用及防火墙策略。
· 备份应用会产生海量猝发网络流量,要求更为健壮的网络环境。
症状常见的通讯问题可能表现为:
· 同一个客户端,文件系统备份正常,数据库备份失败。
· 新加的Media Server或Client,不能正常工作。
· 备份任务挂起。 常见的通讯问题引起的NetBackup错误代码有:23、24、25、40、41、42等。
要深入分析并解决备份和恢复中的通讯问题,必须深入了解NetBackup的进程流,但如果遵循一些简单有效的原则,就可以避免、解决大部分的通讯问题。
正确设置NetBackup通讯相关项
首先,要正确设置NetBackup通讯相关项,包括:
1. 确认NetBackup主机名称。
a. NetBackup主机名可以从hostname (短名)、FQDN (Fully Qualified Domain Name,正式域名、长名 )及 virtual name (集群网络资源名)中选择。
b. 一旦确定,坚持统一在所有NetBackup场合(Policy, Server Lists)使用,并保持大小写一致。
2. 确保每个需要服务器权限的NetBackup主机,出现在Server List中并且名称无误。
a. 对于Unix/Linux主机,Server List在/usr/openv/netbackup/bp.conf 配置文件的最前端。
b. 对于Windows主机,Server List在注册表项HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\Server中
3. 确定NetBackup主机与其它主机通讯时所使用的端口范围(Port Range)。建议使用默认值:
a. 侦听端口:13724,1556
b. 向外通讯源端口范围:512-65535
4. 指定NetBackup通讯用网络接口,即,Required Interface。当一台NetBackup主机有多个网络接口及IP地址时,推荐设置一个固定IP地址由于与其它主机通讯。
a. 对于Unix/Linux主机,在bp.conf中加入一行:REQUIRED_INTERFACE = ip地址或网卡主机名 (所谓网卡主机名可以是现有hostname, FQDN, virtual name,也可以是一个任意名字,该名称要通过etc/hosts 或 DNS 解析为指定NetBackup通讯用IP地址)
b. 对于Windows主机,可以在注册表中设置该项:HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\ REQUIRED_INTERFACE
5. 检查通讯超时设置:
a. Client Read Timeout,这是一个客户端属性,缺省值为300秒,对于数据库备份建议则加到900以上。
b. Client Connection Timeout,这是一个服务器属性,应当随着Client Read Timeout的增加而增加。
检查操作系统及网络设备的通讯设置
然后,检查操作系统及网络设备的通讯设置
1. 确定IP地址 ,包括:
a. 主机是否有多个网卡
b. 主机是否有多个IP地址,和网卡如何对应,是否有浮动IP
2. 检查名字解析 (etc/hosts, NIS, DNS)
a. 推荐使用本地文件 etc/hosts 作为首选方法,把所有NetBackup主机包含在内,并保持在所有主机上解析一致
b. 如果使用DNS/NIS/WINS ,可以将其作为第二解析方法,同时特别注意要正确设置反向解析。检查命令为:
i. nslookup –qt=ptrip_address
ii. hostip_address
c. 如果存在名称和IP地址的多对多关系,建议添加一个NetBackup专用别名,并解析为NetBackup专用IP地址。例如,指明为ClientA, NetBackup专用IP地址为10.10.10.1,则可以可以:
i. 在etc/hosts中加入“10.10.10.1 ClientA ClientA_NBU”
ii. 在 bp.conf中设置“REQUIRED_INTERFACE = ClientA_NBU”
d. 不能忽略回环地址解析,确保 etc/hosts 文件的第一行是“127.0.0.1 Localhost”。
3. 确保网卡与其直接连接的交换机端口工作模式相同(全双工、半双工、自动协商),建议使用全双工。
4. 检查防火墙设置 ,如果NetBackup使用缺省端口通讯,对于任意一个NetBackup主机,防火墙可以如下设置:
a. 开放其它所有NetBackup主机的使用端口范围512-65535到 该主机的侦听端口的内向通讯(Inbound Calls)。
i. NetBackup客户端的侦听端口是13724(Vnetd)
ii. NetBackup服务器的侦听端口是13724和1556(PBX)
b. 开放每一台NetBackup主机的使用端口范围512-65535到其它所有NetBackup主机的13724 /1556侦听端口的外向通讯(Outbound Calls)。 注意:防火墙有多种形式,除专用硬件防火墙外,还可以是策略设置复杂的第三层交换机/路由器或者运行在主机的软件防火墙。常用通讯检查工具/命令
1. Ping,用来 检查IP层通讯
2. telnethost_name port_name 检查TCP层通讯
a. etc/hosts 定义hostname
b. etc/services 定义port name
3. bpclntcmd 检查NetBackup应用层通讯
4. AppCritical 网络诊断工具SAS
a. 下载地址http://www.apparentnetworks.com/sas/330/
b. 运行后需要把生成的xml文件发送给Symantec,来生成测试报告。注意报告中的两个重要指标不能太高:
i. 丢包率
ii. 重发率
常用通讯相关日志
如果不能独立解决问题,可以收集如下日志信息,提供给Symantec 技术支持工程师分析:
– bpcd (客户端NetBackup Communication Daemon)
– bprd (Master server端NetBackup Request Manager)
– OS system log(如Event log, Syslog, Messages)
– Hardware logs (网络交换机或路由器日志 )
原文链接:http://storage.it168.com/a2011/0328/1171/000001171196_all.shtml