針對阿里云 11.12 的重大服務故障, 該公司發(fā)給客戶的一份「官方故障報告」在網(wǎng)上被廣泛流傳。

影響范圍
1、OSS、OTS、SLS、MNS 等產品的部分服務受到影響,大部分產品如 ECS、RDS、網(wǎng)絡等運行不受影響。
2、云產品控制臺、管控 API 等功能受到影響。
時間
2023 年 11 月 12 日 17:39~19.20,故障時間為 1 小時 41 分。
問題概況
2023 年 11 月 12 日 17:39 起,阿里云云產品控制臺訪問及管控 API 調用出現(xiàn)異常、部分云產品服務訪問異常,工程師排查故障原因與訪問密鑰服務 (AK) 異常有關。工程師修訂白名單版本后,采取分批重啟 AK 服務的措施,于 18:35 開始陸續(xù)恢復,19:20 絕大部分 Region 產品控制臺和管控 API 恢復。
處理過程
17:39:阿里云云產品控制臺訪問及管控 API 調用出現(xiàn)異常。
17:50:工程師確認故障是 AK 服務異常導致,影響云產品控制臺、管控 API 調用異常,以及依賴 AK 服務的云產品服務運行異常。
18:01:工程師定位到根因。
18:07:開始執(zhí)行恢復措施,包括修訂白名單版本、重啟 AK 服務。
18:35:杭州等 Region 開始恢復正常。
19:20:絕大部分 Region 的云產品控制臺和管控 API 調用恢復正常。
原因
訪問密鑰服務 (AK)在讀取白名單數(shù)據(jù)時出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產品控制臺及管控 API 服務出現(xiàn)異常,同時部分依賴 AK 服務的產品因不完整的白名單出現(xiàn)部分服務運行異常。
改進措施
1、增加 AK 服務白名單生成結果的校驗及告警攔截能力。
2、增加 AK 服務白名單更新的灰度驗證邏輯,提前發(fā)現(xiàn)異常。
3、增加 AK 服務白名單的快速恢復能力。
4、加強云產品側的聯(lián)動恢復能力。
編輯:黃飛
-
API
+關注
關注
2文章
2132瀏覽量
66178 -
阿里云
+關注
關注
3文章
1028瀏覽量
45477 -
RDS
+關注
關注
0文章
104瀏覽量
17633
原文標題:阿里云 11.12 故障原因曝光
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
電機疑難故障原因分析及解決措施
云無邊界,阿里云混合云數(shù)據(jù)同步發(fā)布
阿里云免費使用及手冊
云上拍客梨視頻 基于阿里云的技術實踐分享
阿里云 APM 解決方案地圖
2m環(huán)形爐爐底故障的原因分析及改進措施
淺談波導充氣機故障原因及應對措施
阿里云全球宕機:從阿里云故障看企業(yè) IT 挑戰(zhàn)
阿里云崩了:企業(yè)未來該怎么選擇云廠商?

阿里云11.12故障原因及改進措施
評論