굉장히 흔한 사례인데,
고객사에서 HBA가 비활성화 되어있는 경우가 있다.
권장사항에 맞게 이중화 구성이라면, 단일 구성인 상태로 조치가 필요한 부분이다.
이 때, 원인에 따라 조치를 취해야할 영역이 구분된다. (하드웨어 or 소프트웨어)
원인분석
(1) 호스트 점검
- 이벤트를 통해 최초 발생 시점 파악(중요) 및 관련 이벤트 발생 확인
- 하드웨어 상태 센서 리셋 후 주의 및 경고 건 체크
- H/W 펌웨어, S/W 드라이버 호환 확인
- (사용할 경우) iLO/iDRAC/CIMC 등 하드웨어 인터페이스 접속
(2) 로그 분석
- 가능하다면 vm-support를 통한 로그 수집 (vmkernel.log, hostd.log, vobd.log 등)
- 이벤트(KST)와 동일 시간대의 로그(UTC) 확인 및 분석
- 로그를 통해 확인 시 하드웨어/소프트웨어 원인의 가닥을 어느정도 예상할 수 있다.
이슈 조치
(1) 하드웨어
- 하드웨어 ~ SAN 스위치 구간 육안 점검 필요 (FC 케이블, GBIC, LED 등) / 케이블이 느슨하게 연결됐는지? GBIC 광량이 정상인지 . .
- 필요 시 이슈 발생한 장비 (FC 케이블 / GBIC 등) 교체 진행
(2) 소프트웨어
- 하드웨어 원인이 아닐 경우, ESXi 레벨의 조치가 필요하다.
- 원인에 따라 다르겠지만 최신 빌드 패치, 드라이버 패치, (필요 시) Reboot, ESXi 재설치 등의 방안이 있을 것이다.
지금까지 겪은 Path DEAD 건은 80% 이상 하드웨어 원인인 경우가 많았다.
한 번은 vmhba Link-Up 상태에서 Path 자체가 인식되지 않은 경우가 있었다. (애초에 사용을 안하는 것처럼)
원인으로 삼을만한 로그도 없었고 하드웨어 LED, GBIC 광량, FC 케이블 연결 모두 정상으로 보였지만
다른 정상 GBIC으로 교체했더니 귀신같이 Path가 보였던 경우도 있었다.