一、项目背景与内容
中国联通193长途计费广州中心同时肩负着区域(华南区9省市)计费和广东省中心的职责,因业务发展的需要,中心需搬到10多公里以外的新机房。原系统状况如下图所示:


本次机房搬迁涉及的设备主要有:3台HPN4000服务器,3台HPD280小型机,1台HP C360工作站,1台HP LC2000服务器,HP的M30、FC60、VA7400磁盘阵列,CISCO的2台WS-C5505交换机、2台7206、2台3660和2台2611路由器、2台2948交换机以及基带MODEN、PIX防火墙等。由于是在线生产系统,要求计费应用不能中断,软件切换方案可回退,且保证全过程的数据完整。
二、系统整体搬迁方案与实施
(一)网络设备迁移
1、临时环境搭建及联调测试、调通网桥:
第1步:拆分备用网络设备
区域中心备用网络设备——将7206-2、5505-2上的连接分别转移到7206-1、5505-1上,并作相应配置调整,从现有局域网中拆卸7206-2、5505-2但保持设备空转;
省中心备用网络设备——在老机房利用1台Catalyst2948实现Catalyst2948G-L3的功能;利用1台Cisco3660或者使用几台Cisco2610路由器实现Cisco3660-1和Cisco3660-2的功能,并为临时替代路由器配备对应的基带Modem和相应配置,搭建临时网络环境。
第2步:对剩余设备进行运行测试、调通网桥
在老机房和新机房分别采用光电收发器,或网桥设备将新老机房间的网桥进行连通,光电收发器出口采用RJ45接头连接到一台交换机上。
第3步:用备用设备搭建临时网络环境,接管现有设备
区域中心备用网络设备——用7206-2、5505-2搭建同7206-1、5505-1配置相同的局域网络,接管7206-1、5505-1构成的网络,但7206-1、5505-1保持空转;应用主机连接到备用环境中。
省中心备用网络设备——保持临时网络环境与现有环境同时运行,将广域网线路切换到临时网络环境中,并将广域网线路调通。将D280+VA在广域网线路调通后连接到临时网络环境中。
第4步开始临时网络运行测试
2、网络设备搬迁,H型网络结构搭建、联调:
第5步:网络设备搬迁。
将替换下来的区域中心、省中心网络设备搬到新机房。
第6步:H型网络结构搭建、联调。
在新机房搭建区域中心和省中心网络环境,修改老机房网络设备参数,通过网桥设备将新老机房的网络环境同老机房网络环境进行联通,形成H型网络结构。
(二)区域主机迁移
第7步:区域中心备用主机试运行测试:采用运行数据模拟实际运行环境方式,对HP N4000-1、N4000-2、磁盘阵列HP M30进行模拟运行测试。
第8步:区域中心备用主机搬迁、联调:将备用主机HP N4000-1、N4000-2、磁盘阵列HP M30搬到新机房。并在新机房搭建主机应用环境。修改网络配置,在保持网络联通的情况下,用新机房主机接管老机房主机应用。同时保持老机房主机空转。一旦发现新机房主机出现问题,可迅速恢复到老机房运行环境。
第9步:区域中心备用主机应用切换。
第10步:区域中心备用主机运行观察。
(三)区域中心广域网切换
第11步:切换广域网:将海口、昆明、贵阳的64K广域网线路切换新机房网络设备上;连接到Motorola6560-1上的广域网线路(包括成都、重庆、武汉、长沙、南宁、全网中心)不需要切换,而是通过局域网网桥线路将Motorola6560-1连接到新机房网络的Catalyst5505-1上;调通广域网线路。
第12步:监测切换后系统运行状况。
(四)省中心主机迁移
在第7步中配置D280+Autoraid作为后备话单下发功能,第8步中完成后备D280+Autoraid随区域中心主机一同搬到新机房。
第13步:切换话单下发应用到新机房后备主机。
第14步:观察切换结果
第15步:将老机房D280+VA搬到新机房,并安装,代替后备主机运行话单下发功能。
第16步:观察切换结果。
(五)省中心广域网切换
第17步:切换广域网线路和应用:将地市广域网线路切换到新机房,并调通。同时保持局域网桥连接新老机房设备。
第18步:切换后系统运行测试2天。
(六)新机房恢复系统原状
第19步:老机房设备搬迁:将老机房剩余网络、主机设备搬到新机房。
第20步:恢复网络原状;系统恢复后48小时测试。
三、主机系统切换方案介绍
搭建环境
将N4000_1、N4000_2及M30的应用切换到N40003与FC60,之后搬迁至新机房。
将N4000_1、N4000_2和M30配置成老机房的运行模式。
启动N4000_1、N4000_2集群管理系统软件。
启动N4000_1、N4000_2 Oracle并行数据库。
观察N4000_1、N4000_2系统是否运行正常。
启用N4000_1接管N4000_3进程
停止各省中心的发送话单至N4000_3的话单发送进程,并等待各省中心的上传话单已被N4000_3取走。
等待N4000_3处理完当前的数据(包括分拣、入库、下发)。
等待各省中心接收完N4000_3下发的清单数据。
修改各省中心主机的hosts文件,将各hosts 文件的N4000_3主机IP地址10.116.3.19改为10.116.3.17(避免重建传输队列)。
启动N4000_1上的MQ队列管理器,话单接收进程,话单发送进程,话单分拣进程,话单入库进程。
重启各省中心MQ队列管理器、重启各省中心的清单文件接收进程及原始话单发送进程(话单文件将发送至N4000_1)。
观察N4000_1主机是否正常接收到上传的原始话单文件,原始话单文件是否正常分拣计费,清单文件文件是否正常入库,清单文件是否正常下发至各省中心主机,各省中心是否正常接收清单文件话单。
停止N4000_3进程
停止N4000_3的话单接收及发送进程。
停止N4000_3的分拣及入库进程。
停止N4000_3的MQ队列管理器。
备份N4000_3主机上的所有数据文件(包括原始话单,清单文件),用exp将数据库的每个详单表导成文件并备份至磁带。
将N4000_3主机及FC60磁盘阵列搬迁至新机房,并配置成老机房的运行模式,启动操作系统及数据库并检验系统运行正常。
四、主要风险分析与规避
1、设备搬迁中的损坏风险:通过与各原厂家合作(由各厂家对其设备的核心部件拆卸、打包、搬运、安装等)来规避。
2、系统切换过程中出现故障的风险规避:首先在老机房对后备环境进行运行测试,测试过程中原有网络、主机保持原有状态,但不运行业务进程,一旦发现后备系统出现问题,可立即将系统应用切换到原有系统,保证业务正常运行。后备系统测试通过后,正式接管原有系统,原有系统环境设备首先搬迁到新机房,并在新机房搭建运行环境。接下来进行广域网线路切换,在广域网切换过程中,新老机房的系统均保持运转,只是同时只有一套系统运行业务进程。如果在广域网切换的过程中发生广域网线路无法顺利切换、新机房系统无法正常切换,则将广域网连接恢复连接到老机房状态,保证业务正常运转。
3、临时系统运行不稳定的风险规避:在老机房进行临时系统测试时,网络与主机测试都最少48小时,以便让问题在测试期间均能反映出来。
4、数据出现不可恢复的丢失或损坏等风险规避:在搬迁过程期间,每天用磁带机对所有涉及到的所有数据进行备份。
上述方案经过2个多月的精心准备,于2002年7月份开始实施,历时1个多月顺利完成,至今运行稳定。