[운영일지] 와탭 시스템으로 운영하기 – Process monitoring

저희 와탭 에서는 자사 제품(SMS, APM)을 이용해서 자체적으로 모니터링을 하며 서비스를 운영하고 있습니다.

서버 모니터링 서비스의 무료 버전은 데이터 저장이 하루밖에 되지 않아, 유료인 Pro 상품을 구매하여 데이터 저장 기간을 1년으로 한 후 모니터링을 하고 있습니다. (당연히 회사의 내부구매로 돈은 지불하지 않습니다. 관리팀 몰래 사용중)

얼마 전 Web 서버에서 알림이 발생해 와탭의 Dashboard 와  Process  모니터링을 통해 문제를 사전에 예방할 수 있었습니다. 당시 상황을 회상하며 어떻게 문제원인을 찾을 수 있었는지 일기 형식으로 나열을 해보려고 합니다. 당시에 사진을 찍을 수 있는 부분들은 사진을 찍었고,  못찍은 부분들은 본 내용을 작성하면서 캡쳐한 부분들입니다.

일기 형식이다 보니 1인칭 시점에서 나열한점 참고하시기 바랍니다.

오전 8시 40분, 사무실 도착

문을 열고 사무실에 들어섰다. 바쁘게 출근한 후 창밖을 바라보며 잠시 맘을 달래본다. 내 자리 오른쪽은 선정릉이 보인다. 항상 점심에 산책을 하려고는 하지만 마음이 급해서 그런지 잘 되지는 않는다.

출근후 마음이 안정되고 정면을 바라본다.

저 Dashboard는 이번에 사무실을 옮기며 마련한 TV 다.

모니터링을 제대로 하려면 상황판이 있어야 한다는 주장을 세워서 관리팀에 강력히 요청해 4대의 TV를 획득했다. 그래서 그런지 Dashboard를 보면 뿌듯하다. 설치 한 건 정말 잘 한 것 같다.

과거를 회상하며 커피를 마시기 위해 바(Bar)로 이동한다.

8시 45분 , 문제의 징후 발견

미리 출근한 대표님이 바에 앉아 있다. 뭔가를 하시는거 같다. 미국 출장을 다녀오신후 출근이 빨라지신듯 하다. 좀 늦게 오셔도 될 텐데 너무 일찍 출근하시는 듯 하다.

커피를 마시며 상단에 있는 화면을 확인한다.

2번 Dashboard 화면에 Warning 이 보인다. 뭐지?

Warning 이 발생한 서버를 클릭 해본다.

CPU 는 많이 쓰지 않는데 메모리를 100%에 가깝게 많이 쓰고 있다. 뭐 때문이지?

firefox 가 4.11 GB 나 사용하고 있네? 뭔가 문제가 생긴 것 같다.
언제부터 firefox 가 실행되었는지 확인을 해봐야겠다.

이런 13일 부터 메모리가 계속해서 증가 하고 있네 …

8시 47분 , firefox 종료

웹서버에 접속을해서 firefox를 종료해야겠다. 누군가 웹서버에서 firefox를 띄워 놓고 종료를 안 한듯하다.

firefox를 종료하니 메모리가 정상으로 돌아왔다.

8시 50분 , 문제 해결 완료

혼자서 분주하게 Dashboard 앞에서 작업을 하고 웃는 모습을 보신 대표님이, 무슨 일인지 물어보셨다. 대표님에게 간단하게 내용을 설명해드렸더니, 내용을 들으시고 씨이~익 웃으며 가신다.

오늘도 점수를 따고, 하루를 시작했다!

정리

Memory 알림을 설정해놓고, Memory 알림이 발생하여 Dashboard에서 해당문제를 식별후 Process 모니터링을 이용해서 특정 Process의 상태를 분석하고, 빠른시간에 원인을 해결 할 수 있었습니다.

해당 설정은 아래와 같이 할 수 있습니다.

1 . 와탭을 이용해서 CPU, Memory, Disk 의 알림을 설정한다.

서버선택 > 서버 > 알림 메뉴

2 . 알림이 발생하면 Dashboard 에서 어느 서버에 문제가 발생했는지 확인할 수 있다.

3 . 문제가 생긴 서버를 선택하면 해당 서버의 요약화면을 볼 수 있다.

4. 프로세스 메뉴에서 문제를 발생시킨 프로세스를 확인할 수 있다.

서버선택 > 서버 > 프로세스 > 특정 프로세스  메뉴