저희 와탭 에서는 자사 제품(SMS, APM)을 이용해서 자체적으로 모니터링을 하며 서비스를 운영하고 있습니다.
서버 모니터링 서비스의 무료 버전은 데이터 저장이 하루밖에 되지 않아, 유료인 Pro 상품을 구매하여 데이터 저장 기간을 1년으로 한 후 모니터링을 하고 있습니다. (당연히 회사의 내부구매로 돈은 지불하지 않습니다. 관리팀 몰래 사용중)
얼마 전 Web 서버에서 알림이 발생해 와탭의 Dashboard 와 Process 모니터링을 통해 문제를 사전에 예방할 수 있었습니다. 당시 상황을 회상하며 어떻게 문제원인을 찾을 수 있었는지 일기 형식으로 나열을 해보려고 합니다. 당시에 사진을 찍을 수 있는 부분들은 사진을 찍었고, 못찍은 부분들은 본 내용을 작성하면서 캡쳐한 부분들입니다.
일기 형식이다 보니 1인칭 시점에서 나열한점 참고하시기 바랍니다.
오전 8시 40분, 사무실 도착
문을 열고 사무실에 들어섰다. 바쁘게 출근한 후 창밖을 바라보며 잠시 맘을 달래본다. 내 자리 오른쪽은 선정릉이 보인다. 항상 점심에 산책을 하려고는 하지만 마음이 급해서 그런지 잘 되지는 않는다.
출근후 마음이 안정되고 정면을 바라본다.
저 Dashboard는 이번에 사무실을 옮기며 마련한 TV 다.
모니터링을 제대로 하려면 상황판이 있어야 한다는 주장을 세워서 관리팀에 강력히 요청해 4대의 TV를 획득했다. 그래서 그런지 Dashboard를 보면 뿌듯하다. 설치 한 건 정말 잘 한 것 같다.
과거를 회상하며 커피를 마시기 위해 바(Bar)로 이동한다.
8시 45분 , 문제의 징후 발견
미리 출근한 대표님이 바에 앉아 있다. 뭔가를 하시는거 같다. 미국 출장을 다녀오신후 출근이 빨라지신듯 하다. 좀 늦게 오셔도 될 텐데 너무 일찍 출근하시는 듯 하다.
커피를 마시며 상단에 있는 화면을 확인한다.
2번 Dashboard 화면에 Warning 이 보인다. 뭐지?
Warning 이 발생한 서버를 클릭 해본다.
CPU 는 많이 쓰지 않는데 메모리를 100%에 가깝게 많이 쓰고 있다. 뭐 때문이지?
firefox 가 4.11 GB 나 사용하고 있네? 뭔가 문제가 생긴 것 같다.
언제부터 firefox 가 실행되었는지 확인을 해봐야겠다.
이런 13일 부터 메모리가 계속해서 증가 하고 있네 …
8시 47분 , firefox 종료
웹서버에 접속을해서 firefox를 종료해야겠다. 누군가 웹서버에서 firefox를 띄워 놓고 종료를 안 한듯하다.
firefox를 종료하니 메모리가 정상으로 돌아왔다.
8시 50분 , 문제 해결 완료
혼자서 분주하게 Dashboard 앞에서 작업을 하고 웃는 모습을 보신 대표님이, 무슨 일인지 물어보셨다. 대표님에게 간단하게 내용을 설명해드렸더니, 내용을 들으시고 씨이~익 웃으며 가신다.
오늘도 점수를 따고, 하루를 시작했다!
정리
Memory 알림을 설정해놓고, Memory 알림이 발생하여 Dashboard에서 해당문제를 식별후 Process 모니터링을 이용해서 특정 Process의 상태를 분석하고, 빠른시간에 원인을 해결 할 수 있었습니다.
해당 설정은 아래와 같이 할 수 있습니다.
1 . 와탭을 이용해서 CPU, Memory, Disk 의 알림을 설정한다.
서버선택 > 서버 > 알림 메뉴
2 . 알림이 발생하면 Dashboard 에서 어느 서버에 문제가 발생했는지 확인할 수 있다.
3 . 문제가 생긴 서버를 선택하면 해당 서버의 요약화면을 볼 수 있다.
4. 프로세스 메뉴에서 문제를 발생시킨 프로세스를 확인할 수 있다.
서버선택 > 서버 > 프로세스 > 특정 프로세스 메뉴