본문 바로가기

Linux

서버 장애 발생 시 확인해야 할 기본 절차

1. 시스템 부하 장애

  • 로드 에버리지가 cpu코어 개수보다 높은 경우 유저 요청에 대한 응답이 늦어짐
cat /proc/cpuinfo 를 통해서 processor 번호를 보고 cpu 코어 수를 파악할 수 있다.

uptime을 이용하여 loadaverage(1분, 5분, 15분)을 통해 cpu 사용 정도를 파악할 수 있다. 그러기 위해선 해당 서버의 cpu 코어수를 파악해야한다.

loadaverage에 대한 좀더 자세한 설명은 아래 글을 확인.

리눅스 시스템 모니터링의 필수 지표, Load Average

2. 메모리 풀 장애

  • 메모리를 다 쓰고 스왑 영역까지 사용하여 시스템이 느려져 유저에게 응답이 느려짐

free 명령어로 메모리 사용량을 파악할 수 있다.

Swap 영역 swap은 물리 메모리가 부족할 경우를 대비해서 만들어 놓은 영역입니다. 즉, 디스크의 일부분을 메모리처럼 사용하기 위해 만들어 놓은 공간입니다

3. 디스크 풀 장애

  • 디스크가 꽉차서 로그를 기록하는 프로세스가 에러 또는 멈춤
  • 임시 파일을 생성해야 하는 명령어의 실행이 안된다.
  • 리눅스는 루트 유저만을 위한 예약 블록을 남겨두어 트러블슈팅이 가능하도록 설계

df -h 명령어로 보기 쉽게 디스크 사용량을 파악할 수 있다.