본문 바로가기

Virtualization/VMware vSphere

[VMware] The migration has exceeded the maximum switchover time of 100 second(s). ESX has preemptively failed the migration to allow the VM to continue running on the source. To avoid this failure, either increase the maximum allowable switchover time o..

최근 작업 중 vMotion을 진행하다가 20%에서 Fail나는 현상이 있었다.

 

 

이벤트 내용

Event : The migration has exceeded the maximum switchover time of 100 second(s). ESX has preemptively failed the migration to allow the VM to continue running on the source. To avoid this failure, either increase the maximum allowable switchover time or wait until the VM is performing a less intensive workload.

 

 

원인은 vMotion이 이용하는 네트워크의 성능 이슈이다.

vMotion은 별도 전용 네트워크를 이용하기 때문에 해당 네트워크에 이슈가 있으면 안 된다.

소스 호스트가 대상 VM에 대한 준비를 마치면 20%부터 vMotion 네트워크를 타고 넘어간다고 보면 된다.

 

 

네트워크 엔지니어를 통해 확인해보니

vMotion 사용 NIC 포트 I/O가 높게 치솟고 있었고 스위치 OS에는 버그성 로그가 기록되고 있었다고 한다.

(I/O는 VMware에서도 esxtop으로 확인 가능)

 

방치하기 위험해 바로 패치를 진행, 그 이후에는 vMotion이 정삭적으로 잘 진행됐다.

 

 

 

 

* KB에 나와있는 매개변수 방식은 vMotion 지연에 대한 허용시간을 늘려주는 워크어라운드 방식이다.

당장 네트워크 이슈를 확인하기 어려운데 작업이 급할 경우에만 쓰는 게 좋을 것 같다.

https://kb.vmware.com/s/article/2141355