EVA存儲數(shù)據(jù)恢復環(huán)境:
EVA控制器+三個擴展柜+數(shù)十塊FC硬盤。
EVA存儲故障&檢測:
磁盤掉線導致存儲中的部分LUN丟失,部分LUN損壞不可用。
由于是磁盤掉線導致存儲中的LUN不可用。拿到所有磁盤后,先由硬件工程師對所有磁盤做物理故障檢測,經(jīng)過檢測,沒有發(fā)現(xiàn)有硬盤存在物理故障,都可以正常讀取。使用壞道檢測工具檢測磁盤壞道,也沒有發(fā)現(xiàn)有硬盤存在壞道。
磁盤壞道檢測日志:
北亞企安數(shù)據(jù)恢復——EVA存儲數(shù)據(jù)恢復
EVA存儲數(shù)據(jù)恢復過程:
1、將所有磁盤以只讀方式進行扇區(qū)級全盤鏡像備份,鏡像完成后將所有磁盤歸還用戶方,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
部分備份數(shù)據(jù)如下:
北亞企安數(shù)據(jù)恢復——EVA存儲數(shù)據(jù)恢復
2、由于所有磁盤都沒有檢測出物理故障或者壞道,因此可以初步判斷磁盤掉線是某些磁盤讀寫不穩(wěn)定造成的。EVA控制器的磁盤檢查策略非常嚴格,會將性能不穩(wěn)定的磁盤識別為壞盤并踢出磁盤組。一旦某個LUN的同一個條帶中掉線的磁盤數(shù)量超過極限,這個LUN將不可用。如果EVA存儲中所有的LUN都包含這些掉線的盤,所有LUN都會受影響。所以磁盤掉線導致整個EVA存儲的LUN不可用的情況也可能出現(xiàn)。本案例中的情況是8個LUN正常,7個LUN損壞,6個LUN丟失。用戶方要求恢復所有LUN的數(shù)據(jù)。
3、EVA存儲的LUN是以RAID條目的形式存儲數(shù)據(jù)的,EVA將每個磁盤的不同塊組成一個RAID條目,RAID條目的類型有很多種?;謴蛿?shù)據(jù)之前需要分析出組成LUN的RAID條目類型以及RAID條目是由哪些盤的哪些塊組成。這些信息都存放在LUN_MAP中,每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁盤中并通過一個索引來指定其位置。因此在磁盤中找這個指向LUN_MAP的索引就可以找到現(xiàn)存LUN的信息。
4、雖然磁盤中記錄了指向LUN_MAP的索引,但是它只記錄現(xiàn)存的LUN,丟失的LUN是不會記錄索引的。EVA中刪除一個LUN只會清除這個LUN的索引,而不會清除這個LUN的LUN_MAP。所以只需要掃描所有磁盤找到所有符合LUN_MAP的數(shù)據(jù)塊,然后排除掉現(xiàn)有的LUN_MAP,剩下的也不一定全是刪除的LUN的LUN_MAP,也有一些是以前舊的LUN的LUN_MAP。使用北亞企安自主開發(fā)的程序將所有LUN_MAP的數(shù)據(jù)都恢復出來,然后通過人工去核對哪些是屬于刪除LUN的LUN_MAP。
5、雖然所有磁盤經(jīng)過檢測沒有發(fā)現(xiàn)明顯物理故障和壞道,但是可能會因為性能不穩(wěn)定而被踢出磁盤組。這些被踢出的磁盤中存放了舊的數(shù)據(jù),在生成數(shù)據(jù)的時候需要將這些磁盤都排除掉。如何判斷哪些磁盤是掉線的呢?由于本案例中LUN的RAID級別大多是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值作比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中哪些RAID條目中有掉線盤,而這些RAID條目中都存在的那個盤就一定是掉線盤。排除掉線盤,然后根據(jù)LUN_MAP恢復所有LUN的數(shù)據(jù)即可。
6、北亞企安數(shù)據(jù)恢復工程師編寫程序掃描全部LUN_MAP,結合人工分析獲取到準確的LUN_MAP。北亞企安數(shù)據(jù)恢復工程師編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤,結合人工分析排除掉線的磁盤。北亞企安數(shù)據(jù)恢復工程師編寫LUN數(shù)據(jù)恢復程序,結合LUN_MAP恢復所有LUN數(shù)據(jù)。
7、人工核對每個LUN,確認是否和用戶方工程師描述的一致。
部分LUN的數(shù)據(jù):
北亞企安數(shù)據(jù)恢復——EVA存儲數(shù)據(jù)恢復
8、用戶方對恢復出來的所有數(shù)據(jù)進行仔細檢驗后確認數(shù)據(jù)完整有效,認可本次數(shù)據(jù)恢復結果。本次服務器數(shù)據(jù)恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
14文章
10364瀏覽量
91760 -
數(shù)據(jù)恢復
+關注
關注
10文章
726瀏覽量
19044 -
磁盤
+關注
關注
1文章
401瀏覽量
26592 -
LUN
+關注
關注
0文章
4瀏覽量
5663
發(fā)布評論請先 登錄
服務器數(shù)據(jù)恢復—RAID5陣列同步中斷雙盤離線 存儲崩潰數(shù)據(jù)恢復案例
NetApp數(shù)據(jù)恢復—NetApp FAS-8200存儲卷丟失故障數(shù)據(jù)恢復實戰(zhàn)
服務器數(shù)據(jù)恢復—多磁盤柜架構RAID5雙盤離線數(shù)據(jù)恢復實戰(zhàn)案例
【服務器數(shù)據(jù)恢復】多盤掉線RAID6數(shù)據(jù)恢復:基于Reed-Solomon算法的修復
【服務器數(shù)據(jù)恢復】EVA4400/6400/8400存儲底層原理及數(shù)據(jù)恢復全流程
【服務器數(shù)據(jù)恢復】EVA存儲硬盤離線,LUN丟后數(shù)據(jù)如何“重生”?
zfs數(shù)據(jù)恢復—ZFS存儲遷移數(shù)據(jù)讀不出數(shù)據(jù)怎么恢復數(shù)據(jù)?
vsan數(shù)據(jù)恢復—Vsan故障與SQLserver數(shù)據(jù)庫數(shù)據(jù)恢復案例
Netapp數(shù)據(jù)恢復—Netapp存儲數(shù)據(jù)恢復揭秘
服務器數(shù)據(jù)恢復—EqualLogic存儲上raid5磁盤陣列數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—重裝系統(tǒng)后OceanStor存儲上的分區(qū)數(shù)據(jù)丟失這樣恢復
服務器數(shù)據(jù)恢復—熱備盤上線過程中硬盤掉線導致數(shù)據(jù)丟失,數(shù)據(jù)恢復揭秘
服務器數(shù)據(jù)恢復—StorNext文件系統(tǒng)數(shù)據(jù)丟失的數(shù)據(jù)恢復案例
Oracle數(shù)據(jù)恢復—格式化分區(qū)導致Oracle數(shù)據(jù)庫報錯的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—重裝系統(tǒng)導致XFS文件系統(tǒng)分區(qū)丟失的數(shù)據(jù)恢復案例
EVA數(shù)據(jù)恢復—EVA存儲中磁盤掉線導致LUN丟失的數(shù)據(jù)恢復案例
評論