현상 : 111939.MIS001-00!DBBL.1565: CMDTUX_CAT:1395: WARN: Slow BBL response, machine= mis3
111949.MIS001-00!DBBL.1565: CMDTUX_CAT:1394: ERROR: BBL partitioned, machine= mis3
원인 : Network문제 또는 Network이 혼잡하거나 CPU의 과부하인 경우 발생(SAN 환경인지 확인)
(RESOURCES section에 지정된 (SANITYCAN * SCANUNIT)초 동안에 BBL은 반복적으로 Machine의 온전성을 Check하여 DBBL??OK Message를 보낸다.
만약, Message가 (BBLQUERY * SCANUNIT)초 이전에 Machine으로부터 Message가 도착하지 않으면 DBBL은 경고 OK Message를 서버의 동작상태를 ULOG에 출력한다.
그리고 나서, Network를 재확인 한다. 그래도 실패하면 DBBL은 Machine를 Partition할 것을 고려한다.)
조치 : 이 메시지는 Network가 혼잡하거나 Machine의 과부하 된 것을 가르키며, Machine이 Partition될어질 위험이 있으며 다음과 같은 사항을 ?改瞞?한다.
- Network이 정상적으로 운영되는 Network의 상태를 Check해야 한다.
- Client와 Tuxedo 시스템간 Network의 과부하를 Check해야 한다.
- 두 Machine 사이의 Networking 문제 및 Network 응답이 느리게된 원인을 Check해야 한다.
- 작동 중 BBL의 수행을 방해하는 Machine의 CPU 과부하를 Check해야 한다.
- DBBL의 Message queue 수행을 방해하는 Master machine의 CPU 과부하를 Check해야 한다.
- 만약, BBLQUERY parameter가 SANITYCAN parameter 보다 크다면 BBLQUERY parameter 값을 조정해야 한다.(10여 초 이상의 차이는 대부분의 환경 하에서 유사한 경고를 예방할 수 있다.)
1.마스터(Master) 노드 장애 시
- 마스터(Master) 머신의 기능을 백업(BackUp) 머신으로 이전.
- 복구 순서
① 백업(BackUp) 머신을 Acting 마스터로 전환한다.
('tmadmin'의 'master' 명령어 사용)
② 장애가 난 마스터에 Tuxedo 관련 프로세스가 남아 있으면 메모리에서 다운 로드한다
③ 장애가 복구된 후 마스터에 Tuxedo 관련 프로세스들을 띄운다.
(Acting 마스터에서 'tmboot' 명령의 -B와 -L 옵션을 이용한다.)
④ 원래의 마스터 머신으로 마스터를 전환한다.
(원래의 마스터(Master) 머신에서 'tmadmin'의 'master' 명령어를 사용한다.)
2.Slave Node 장애시
- 복구 순서
① 장애가 발생한 Slave 머신에 Tuxedo 프로세스가 남아 있으면 메모리에서 다운 로드한다
② 장애가 발생한 Slave 머신의 정보를 지운다.
(마스터 머신에서 'tmadmin'의 'pclean' 명령어 사용)
③ 장애가 복구된 후 해당 머신의 Tuxedo 프로세스를 띄운다.
(-마스터 머신에서 'tmboot' 명령의 -B와 -L 옵션을 이용한다.)
'▶ Tuxedo > 오류 메시지(Tuxedo)' 카테고리의 다른 글
GP_CAT:1356: ERROR: pifreg: can not open registry database (0) | 2010.07.09 |
---|---|
CMDTUX_CAT:1395: WARN: Slow BBL response, machine=CCRSL10 (0) | 2010.07.09 |
CMDTUX_CAT:1392: ERROR : BBL partitioned, machine=DONGGU (0) | 2010.07.07 |
CMDTUX_CAT:1392, CMDTUX_CAT:1394 (0) | 2010.07.07 |
CMDTUX_CAT:423: WARN: One-phase commit - xa_commit returned XAER_NOTA (0) | 2010.07.07 |