故障現象
某資源池在運行過程中一臺虛擬機出現業(yè)務異常,通過查看日志和異常記錄,判斷為虛擬機發(fā)生時鐘跳變問題,如下圖所示。

故障分析
檢查時鐘跳變異常的原因可能有如下四個:
虛擬機和時鐘源時間是否正常同步。
是否發(fā)生過時鐘跳變,導致虛擬機同步發(fā)生時鐘跳變。
虛擬機是否發(fā)生過重啟,導致時鐘和硬件同步。
虛擬機是否有其他的時鐘源,導致時鐘在兩個時鐘源中變化。
根據分析原因,進行問題排查:
1. 檢查虛擬機是否和時鐘源正常時鐘同步。
登錄到虛擬機內部,通過ntpq -np命令查看虛擬機和時鐘源的同步狀態(tài)正常,未有大的偏差,如下圖所示。

2. 檢查時鐘源服務器,確認是否發(fā)生過時鐘跳變等情況。
聯(lián)系時鐘源服務廠家,通過檢查時鐘源日志和其他業(yè)務系統(tǒng)時鐘日志,未發(fā)現時鐘中斷和跳變情況,初步判斷該跳變情況只發(fā)生在問題虛擬機上。
3. 檢查虛擬機是否發(fā)生過重啟,有無和硬件時鐘發(fā)生同步。
通過執(zhí)行uptime命令檢查虛擬機內部狀態(tài),近期未發(fā)生重啟現象,如下圖所示。

4. 檢查虛擬機是否有其他時鐘源,導致虛擬機時鐘跳變。
a. 通過執(zhí)行ntpq -np命令查看目前虛擬機內部只有一個時鐘源,因此需要查看是否有同步計算節(jié)點配置。
b. 登錄虛擬機內部,執(zhí)行ps -ef|grep qemu-guest-agent進程,查看存在qemu客戶端,如下圖所示。

c. 登錄計算節(jié)點系統(tǒng),通過執(zhí)行systemctl status qga.service和rpm -qa | grep qemu命令,確認計算節(jié)點qemu對應服務是否正常在線,如下圖所示。

d. 登錄計算節(jié)點系統(tǒng),通過virsh list命令讀取虛擬機的ID,執(zhí)行virsh dumpxml ID|grep "nova:name" 命令確認虛擬機,執(zhí)行virsh dumpxml ID|grep -A5 -B5 guest_agent命令確認虛擬機配置,如下圖所示。

e. 檢查配置文件,確認當前虛擬機和計算節(jié)點是10分鐘發(fā)生一次強制同步,如下圖所示。其中“interal = 10 unit= minute ”代表10分鐘。

5. 經過排查,確認虛擬機每10分鐘周期強制和計算節(jié)點時間同步,由于計算節(jié)點時鐘和時鐘源有偏差,導致虛擬機發(fā)生時鐘跳變影響業(yè)務。
故障處理
1. 虛擬機時鐘同步服務器默認不打開,只有虛擬機重啟時候會觸發(fā)一次強制同步。
2. 如果需要打開虛擬機時鐘同步,則需要在虛擬機上安裝QGA插件,同時在虛擬機中把QGA插件的時鐘同步開關打開。
3. 業(yè)務上線前必須明確時鐘同步方案,通常虛擬機需要直接同步時鐘源,不同步計算節(jié)點,避免時鐘跳變。
審核編輯:湯梓紅
-
服務器
+關注
關注
14文章
10172瀏覽量
91238 -
時鐘
+關注
關注
11文章
1964瀏覽量
134699 -
命令
+關注
關注
5文章
747瀏覽量
23557 -
虛擬機
+關注
關注
1文章
971瀏覽量
30287
原文標題:TECS CloudFoundation-資源池虛擬機時鐘跳變異常的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
啟動虛擬機的時候報錯怎么辦呢
檢測域劃分的虛擬機異常檢測算法
云虛擬機按需物理資源分配方法
基于虛擬機負載高峰特征的虛擬機放置策略
虛擬機具備怎樣的優(yōu)勢
基于冗余跳變的5G核心網虛擬機遷移方法
打開虛擬機電源提示“正在處理另一個任務”解決方法
openEuler資源利用率提升之道:虛擬機混部OpenStack調度
虛擬機數據恢復—異常斷電導致XenServer虛擬機不可用的數據恢復案例
TECS OpenStack資源池虛機殘留導致網元異常的問題處理
TECS OpenStack資源池虛擬機網絡二層地址無法互通的問題處理
資源池虛擬機時鐘跳變異常的問題處理
評論