故障現象
某運營商TECS資源池的一臺主機內存故障,進行關機、內存更換操作,虛機自動遷移到其他主機上,同時做了其他虛擬機的手動遷移操作。后續(xù)在TECS上出現虛機內核異常告警,如下圖所示。
故障分析
1. 檢查告警,確認是一臺虛擬機的多次告警,如下圖所示。
2. 經排查,服務器SRV-09有內存更換和下電操作,00:39 虛機全部自動遷移成功,其中包含了XXX0012虛機,同時還包括其他網元的虛機,其他網元未出現異常。
3. 現場進行虛機重啟、遷移等操作,未成功恢復XXX00012虛機。分析虛機CPU都沖高到100%,虛機操作系統顯示軟鎖,如下圖所示。
4. 經操作系統分析,是有大量外部報文沖擊導致CPU沖高到100%,系統得不到調度。
5. 將該網元中除XXX00012外的其他虛機都shutdown后,再重啟XXX00012虛機,XXX00012虛擬機恢復正常。
6. 逐一開啟其他虛機,發(fā)現XXX00012虛機異常,其余虛機均正常啟動。3分鐘后XXX00012虛機CPU再次沖高到100%。
7. 分析XXX00012虛機,發(fā)現該虛機存在I/O Error,數據盤不能正常讀寫,如下圖所示。
8. 分析虛機殘留問題,原主機SRV-09故障下電后,虛機自動遷移,第一次自動遷移失敗,自動遷移落地的節(jié)點是SRV-10,如下圖所示。
9. SRV-10節(jié)點上因為帶寬資源不足落地失敗,XXX00012虛機重新自動遷移到SRV-12,自動遷移成功,如下圖所示。
10. 自動遷移異常導致虛機實例在SRV-10和SRV-12同時啟動,如下圖所示。
11. 綜上分析,產生該問題的原因是殘留虛機,導致網元異常。
故障處理
1. 關閉SRV-12服務器上XXX0012虛機,同時刪除SRV-10服務器上該虛機殘留的實例。
2. 重啟XXX0012虛機,虛機啟動正常,CPU恢復正常。觀察半小時未再出現異常。
3. 總結:異地重生階段建議不要做其他互斥或者相同的操作,容易造成集群中數據不一致等問題。
-
內核
+關注
關注
3文章
1405瀏覽量
40999 -
cpu
+關注
關注
68文章
11015瀏覽量
215400 -
內存
+關注
關注
8文章
3103瀏覽量
74916 -
主機
+關注
關注
0文章
1030瀏覽量
35762 -
虛擬機
+關注
關注
1文章
958瀏覽量
28920
原文標題:TECS OpenStack-資源池虛機殘留導致網元異常的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
RCS融合通信系統設計方案解析

OpenStack資源調度和現狀分析

OpenStack云平臺監(jiān)控數據采集及處理的實踐與優(yōu)化
TECS OpenStack資源池時間同步失敗的故障分析

評論