征文：四大要点管理维护双机热备系统下_中国IT运维网www.cnitom.com

三、Oracle 9i数据库的日常性维护

在Oracle数据库中，我们可以通过观测一定的表或视图来了解当前空间的使用状况，进而作出可能的调整决定。通过对表空间的自由空间的观察，可用来判断分配给某个表空间的空间是太多还是不够。关于自由空间的管理，可以利用Export及Import命令卸出和装入表空间可以释放大量的空间，从而缓解增加另外的数据文件的要求。

如果包含具有高插入(insert)和更新(update)活动的表的表空间中自由空间的比重下降到了15%以下，要为此表空间增加更多的空间。对于一个基本是静态表数据的表空间，如果有多于20%的自由空间，则可以考虑减少分配给它的文件空间量。减少SYSTEM表空间的空间量比较困难，因为那要重建数据库。

为了防止表或索引被过分扩展，及时实现对数据库的调整，用户应当经常对有关对象进行观察。我们可以利用export卸出表，然后删除表，再利用import命令将表装入，这样，可以将不连续的区域合并成一个连续的空间。

ORACLE 9i数据库在AIX运行维护过程中，经常会遇到使用Shutdown（只有Internal用户有此权）命令不能关闭数据库的故障。不能关闭数据库是因为数据库有未提交事务，此时可用Shutdown Abort命令关闭数据库，但是所有未提交事务将被废弃。

有时候，系统管理员会发现数据库Client端经常无故发生死机的情况，此时可在Server端使用Platinum EPM产品确认问题所在。使用EMP可以监控系统的运行，最有可能的原因是，用户因为误操作在数据库中发生死锁，引起Client 死机。经确定进程号后，到ORACLE用户下，使用“KILL －9进程号”命令，即可释放死锁，解决Client端死机问题。

四、保护磁盘阵列的数据安全

企业运行的重要数据平时都保存在磁盘阵列上，因此对磁盘阵列的日常运行维护就显得十分重要。需要做以下及几个方面的工作：

及时检查运行日志文件

磁盘阵列的日志文件详细记录了磁盘阵列内部运行情况，包括发生的每个事件序列号、严重级别、相关的服务器IP地址、有关设备的具体位置及事件发生的时间等内容，这些信息对于诊断和排除磁盘阵列故障十分有用。做好日志文件的日常管理工作，往往能起到防患与未然的作用。

采用RAID数据冗余技术，即使有一个物理磁盘损坏，也不会影响系统正常运行和数据的I/O，用户也仍能够正常访问服务器，这时故障不易被察觉，但阵列实际上已处于安全临界状态，下一步就会面临着突然宕机和存储数据随时丢失的危险，日志文件及时将这一情况记录在册，损坏的磁盘记录为下线(off line)，其所在阵列记录为临界状态(critical)，通过检查日志就能够及时发现阵列运行中存在的这个错误和隐患，迅速排除故障，保证阵列始终处于安全运行状态。

定期检查数据一致性

数据冗余是磁盘阵列主要技术之一，磁盘阵列通过数据冗余达到容错目的，但是由于各种原因，难免会遇到冗余数据与主数据块（Primary Data）不一致的情况，结果造成数据失效甚至宕机等现象。一致性检查能及时发现和纠正潜在的错误数据，保证阵列中数据的完整性。通过对RAID互为镜像的磁盘数据一致性检查，或者主数据块进行重新校验，将产生的校验数据与冗余数据比较，都能发现不一致的错误数据。一致性检查一般间隔时间以每周1～2次为宜。

建立热备用磁盘

热备用磁盘也是RAID技术的又一项技术，当磁盘阵列中一个正在使用的物理磁盘发生故障后，一个待机的磁盘会立刻上线，代替此故障盘，阵列控制器根据逻辑驱动器上的冗余数据，通过校验算法把原来存储在故障盘上的数据重建到热备用磁盘上。

成为热备用磁盘必须有三个条件：一是有不小于故障盘的容量；二是平时不得存储任何数据，也就是闲置不用；三是阵列控制器自动重建数据功能有效。在一个阵列中，只能有一个热备用磁盘。热备用磁盘增加了一次数据逃生的机会，系统管理员要及时更换发生故障的磁盘，并指定新的热备用磁盘。

定时备份重要数据

配备了磁盘阵列并不意味着可以高枕无忧了，对于重要业务数据一定要备份。数据备份的介质可以是磁带、可读写光盘，也可以还是磁盘。备份方式可以是通过操作系统本地备份或通过网络系统远程备份，目前可以采用DAS、NAS或SAN方式来进行数据备份。

在本方案中，对于7133磁盘阵列运行维护时，主要是通过它前面面板本身自带的指示灯来判断有无异常情况，也可以通过AIX的如diag、errpt和smit ssaraid等命令来运行和管理磁盘阵列。

Case study：7133硬盘故障的判断与处理

举例说明，我们有时候会在AIX系统中用#errpt –aj|more命令查看到有描述为“pdiskx error”，级别显示为“H”类型显示为“P”。该报错的服务器所连接的存储阵列很有可能发生物理硬盘损坏的故障，这时用户可以用以下命令察看7133 RAID的状态。

在AIX系统中用#smitty ssaraid

这时，系统将列出所有定义的SSA RAID阵列的状态（List Status of all Defined SSA RAID Arrays），当RAID中的硬盘出现问题时，此RAID的状态是“degraded”。这时可用以下命令判断硬盘是否被阵列删除：

在AIX系统中用#smit ssaraid

图3

这时，系统将运行列出/标识 SSA物理磁盘（List/Identify SSA Physical Disks），列出删除阵列磁盘（List Rejected Array Disks），如果看到pdiskx被阵列剔除，说明该pdiskx存在物理故障，可采取更换该pdiskx的物理硬盘的办法来解决。

Case Study：从双机热备升级为SAN

目前大部分企业使用7133 磁盘阵列所采用的主要架构为 HA（双机热备）架构，基本架构为两台IBM 小型机连接一台 IBM 的 7133 磁盘阵列做 HACMP 架构。随着企业应用的不断增长，数据量的不断增加，企业初期配置的存储设备已经远远不能满足用户对性能及存储容量的需求，企业对存储设备的更新迫在眉睫。

为解决企业对容量扩展及对性能提升的需求，因此考虑了升级方案，将企业原有架构中的 7133 磁盘阵列替换为 IBM的 DS 系列光纤磁盘阵列，同时将原来7133 磁盘阵列中的数据平滑安全的迁移到新的 DS 光纤磁盘阵列中，并且在迁移过程中，尽量不中断企业应用。同时考虑到设备利旧问题，将企业原有的 7133 磁盘阵列用作的数据库备份系统，从而提高整体系统的性能。

图4

升级方案一般为IBM DS 系列产品, IBM DS系列最近两年经过了不少升级与换代，现在主流产品为DS4800/DS4700等等4Gb光纤磁盘阵列，兼顾其他DS系列产品，如 4500/4800/6800，使用8口的 SAN 交换机和数据迁移服务软件，可实现平滑迁移用户数据,保持用户日常应用的正常运行。现有 7133 存储设备可以作为数据库备份设备继续使用，因而可保护前期投资,降低未来投入。

图5

整个方案通过提高存储网络性能从而进一步提高整个 IT 系统的整体性能；引进 SAN 光纤交换连接技术，从而提高 IT 系统的灵活性，可以更方便的引进、更新系统；可以支持各种高级的数据备份技术，包括远程拷贝、时间点拷贝等等，简易 GUI 管理,实现资源利用最大化利用。拥有统一的硬件平台，图形化管理更为方便。

作者：谷和启，长期从事于网管，系统运行维护等工作。

征文：四大要点管理维护双机热备系统 下

征文：四大要点管理维护双机热备系统下