주식회사 누리아이티

정보자산의 보안강화를 위한 다계층 인증SW (BaroPAM) 전문기업.

▶ Tuxedo/오류 메시지(Tuxedo)

CMDTUX_CAT:1395, CMDTUX_CAT:1394

누리아이티 2010. 7. 7. 11:57

현상 : 111939.MIS001-00!DBBL.1565: CMDTUX_CAT:1395: WARN: Slow BBL response, machine= mis3
       111949.MIS001-00!DBBL.1565: CMDTUX_CAT:1394: ERROR: BBL partitioned, machine= mis3
 

원인 : Network문제 또는 Network이 혼잡하거나 CPU의 과부하인 경우 발생(SAN 환경인지 확인)
       (RESOURCES section에 지정된 (SANITYCAN * SCANUNIT)초 동안에 BBL은 반복적으로 Machine의 온전성을 Check하여 DBBL??OK Message를 보낸다.
       만약, Message가 (BBLQUERY * SCANUNIT)초 이전에 Machine으로부터 Message가 도착하지 않으면 DBBL은 경고 OK Message를 서버의 동작상태를 ULOG에 출력한다.
       그리고 나서, Network를 재확인 한다. 그래도 실패하면 DBBL은 Machine를 Partition할 것을 고려한다.)
 

조치 : 이 메시지는 Network가 혼잡하거나 Machine의 과부하 된 것을 가르키며, Machine이 Partition될어질 위험이 있으며 다음과 같은 사항을 ?改瞞?한다.
         - Network이 정상적으로 운영되는 Network의 상태를 Check해야 한다.
         - Client와 Tuxedo 시스템간 Network의 과부하를 Check해야 한다.
         - 두 Machine 사이의 Networking 문제 및 Network 응답이 느리게된 원인을 Check해야 한다.
         - 작동 중 BBL의 수행을 방해하는 Machine의 CPU 과부하를 Check해야 한다.
         - DBBL의 Message queue 수행을 방해하는 Master machine의 CPU 과부하를 Check해야 한다.
         - 만약, BBLQUERY parameter가 SANITYCAN parameter 보다 크다면 BBLQUERY parameter 값을 조정해야 한다.(10여 초 이상의 차이는 대부분의 환경 하에서 유사한 경고를 예방할 수 있다.)

       1.마스터(Master) 노드 장애 시
         - 마스터(Master) 머신의 기능을 백업(BackUp) 머신으로 이전.
         - 복구 순서
           ① 백업(BackUp) 머신을 Acting 마스터로 전환한다.
              ('tmadmin'의 'master' 명령어 사용)
           ② 장애가 난 마스터에 Tuxedo 관련 프로세스가 남아 있으면 메모리에서 다운 로드한다
           ③ 장애가 복구된 후 마스터에 Tuxedo 관련 프로세스들을 띄운다.
              (Acting 마스터에서 'tmboot' 명령의 -B와 -L 옵션을 이용한다.)
           ④ 원래의 마스터 머신으로 마스터를 전환한다.
              (원래의 마스터(Master) 머신에서 'tmadmin'의 'master' 명령어를 사용한다.)
       2.Slave Node 장애시
         - 복구 순서
           ① 장애가 발생한 Slave 머신에 Tuxedo 프로세스가 남아 있으면 메모리에서 다운 로드한다
           ② 장애가 발생한 Slave 머신의 정보를 지운다.
              (마스터 머신에서 'tmadmin'의 'pclean' 명령어 사용)
           ③ 장애가 복구된 후 해당 머신의 Tuxedo 프로세스를 띄운다.
              (-마스터 머신에서 'tmboot' 명령의 -B와 -L 옵션을 이용한다.)