服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境:
某品牌服務(wù)器存儲上有16塊FC硬盤,存儲設(shè)備前面板的10號硬盤指示燈和13號硬盤指示燈亮黃燈,存儲設(shè)備映射到服務(wù)器redhat linux系統(tǒng)上的卷無法掛載,業(yè)務(wù)中斷。
服務(wù)器存儲數(shù)據(jù)恢復(fù)過程:
1、通過存儲設(shè)備廠商的管理程序storage manager連接到服務(wù)器存儲上查看當(dāng)前存儲狀態(tài),邏輯卷狀態(tài)failed。查看物理磁盤狀態(tài),6號盤報告“警告”,10號和13號盤報告“失敗”。
通過storage manager將故障存儲的完整日志狀態(tài)備份,解析備份出來的存儲日志獲取邏輯卷結(jié)構(gòu)的部分信息。
2、北亞企安數(shù)據(jù)恢復(fù)工程師將故障存儲中16塊FC盤做好標(biāo)記后,從存儲設(shè)備中取出。使用專業(yè)鏡像設(shè)備對16塊FC盤進(jìn)行初步測試。經(jīng)過測試發(fā)現(xiàn)16塊盤均能正常識別。分別檢測16塊盤的SMART狀態(tài),結(jié)果6號盤的SMART狀態(tài)為“警告”,和storage manager中的報告一致。
3、北亞企安數(shù)據(jù)恢復(fù)工程師在windows環(huán)境下將識別出來的FC盤在磁盤管理器中標(biāo)記為脫機(jī)狀態(tài),然后對原始磁盤進(jìn)行扇區(qū)級別完整鏡像。將原始磁盤中的所有物理扇區(qū)鏡像到windows系統(tǒng)下的邏輯磁盤并以文件形式保存。
在鏡像過程中服務(wù)器數(shù)據(jù)恢復(fù)工程師發(fā)現(xiàn)6號磁盤的鏡像速度極慢,結(jié)合先前檢測結(jié)果綜合判斷,6號盤應(yīng)該存在大量損壞以及不穩(wěn)定扇區(qū),導(dǎo)致windows環(huán)境下的一些軟件無法對其進(jìn)行操作。
4、使用專業(yè)鏡像設(shè)備對6號硬盤進(jìn)行壞道鏡像操作,在鏡像過程中觀察鏡像的速度和穩(wěn)定性。在鏡像過程中發(fā)現(xiàn)6號盤上的壞道并不多,但是存在大量讀取響應(yīng)時間長的不穩(wěn)定扇區(qū)。于是服務(wù)器數(shù)據(jù)恢復(fù)工程師調(diào)整6號盤的拷貝策略,將“遇到壞道跳過扇區(qū)數(shù)”和“響應(yīng)等待時間”等參數(shù)作一些調(diào)整后繼續(xù)對6號盤進(jìn)行鏡像操作。同時觀察剩余盤在windows環(huán)境下鏡像的情況。
5、鏡像完成后查看日志,發(fā)現(xiàn)在storage manager和SMART狀態(tài)中均沒有報錯的1號盤也存在壞道,10號和13號盤均存在大量不規(guī)則的壞道分布。
根據(jù)壞道列表使用工具定位到目標(biāo)鏡像文件進(jìn)行分析后發(fā)現(xiàn),ext3文件系統(tǒng)的一些關(guān)鍵源數(shù)據(jù)信息被壞道破壞。只能等6號盤鏡像完畢后,通過同一條帶進(jìn)行xor以及根據(jù)文件系統(tǒng)上下文關(guān)系手動修復(fù)被損壞的文件系統(tǒng)。
6、6號盤鏡像完成,但是為了最大限度做出有效扇區(qū)和保護(hù)磁頭所設(shè)置的拷貝策略,會讓這次完成的鏡像在鏡像過程中自動跳過一些不穩(wěn)定扇區(qū),所以現(xiàn)在的鏡像是不完整的。于是服務(wù)器數(shù)據(jù)恢復(fù)工程師調(diào)整拷貝策略,繼續(xù)鏡像被跳過的扇區(qū),直到6號盤所有扇區(qū)全部鏡像完成。
7、所有硬盤鏡像完成后,基于鏡像文件分析所有硬盤底層數(shù)據(jù)。根據(jù)北亞企安數(shù)據(jù)恢復(fù)工程師對ext3文件系統(tǒng)的逆向研究和對日志文件的分析,獲取到16塊FC盤的盤序、RAID塊大小、RAID的校驗走向和方式等重組RAID的必要信息,根據(jù)獲取到的信息虛擬重組RAID。RAID搭建完成后進(jìn)一步解析ext3文件系統(tǒng)。
8、和用戶方溝通后提取出一些oracle數(shù)據(jù)庫的dmp文件,用戶方嘗試通過dmp文件恢復(fù)數(shù)據(jù)庫。
在dmp恢復(fù)的過程中,oracle數(shù)據(jù)庫報告imp-0008錯誤。北亞數(shù)據(jù)恢復(fù)中心的oracle數(shù)據(jù)庫工程師分析導(dǎo)入dmp文件的日志文件后,發(fā)現(xiàn)恢復(fù)的dmp文件存在問題,從而導(dǎo)致dmp導(dǎo)入數(shù)據(jù)失敗。
9、服務(wù)器數(shù)據(jù)恢復(fù)工程師重新分析raid結(jié)構(gòu),進(jìn)一步確定ext3文件系統(tǒng)被破壞的程度,重新恢復(fù)dmp文件和dbf原始庫文件。
10、將恢復(fù)出來的dmp文件移交給用戶方進(jìn)行數(shù)據(jù)導(dǎo)入測試,這次測試順利,沒有發(fā)現(xiàn)問題。對恢復(fù)出來的dbf原始庫文件進(jìn)行校驗檢測,所有文件均能通過測試。
11、數(shù)據(jù)庫工程師到達(dá)現(xiàn)場,和用戶溝通后決定使用恢復(fù)出來的dbf原始庫文件進(jìn)行操作,以確保把數(shù)據(jù)恢復(fù)到最佳狀態(tài)。
oracle數(shù)據(jù)庫恢復(fù)過程:
1、拷貝數(shù)據(jù)庫文件到原數(shù)據(jù)庫服務(wù)器作為備份,備份文件所在文件夾路徑為/home/oracle/tmp/syntong。在根目錄下創(chuàng)建一個名為“oradata”的目錄,把syntong文件夾拷貝到oradata目錄下。更改oradata文件夾及其所有文件的屬組和權(quán)限。
2、備份原數(shù)據(jù)庫環(huán)境,包括ORACLE_HOME下product文件夾下的相關(guān)文件。配置監(jiān)聽,使用原機(jī)中的splplus連接到數(shù)據(jù)庫,嘗試啟動數(shù)據(jù)庫到nomount狀態(tài)。進(jìn)行基本狀態(tài)查詢后,了解到環(huán)境和參數(shù)文件沒有問題。 嘗試啟動數(shù)據(jù)庫到mount狀態(tài),進(jìn)行狀態(tài)查詢沒有發(fā)現(xiàn)問題。當(dāng)啟動數(shù)據(jù)庫到open狀態(tài),出現(xiàn)報錯:
ORA-01122: database file 1 failed verification check
ORA-01110: data file 1: '/oradata/syntong/system01.dbf'
ORA-01207: file is more recent than control file - old control file
經(jīng)過進(jìn)一步的檢測和分析,判斷此故障為控制文件和數(shù)據(jù)文件信息不一致,這是一類常因斷電或突然關(guān)機(jī)引發(fā)的故障。
3、對數(shù)據(jù)庫文件進(jìn)行逐個檢測,檢測到所有數(shù)據(jù)文件都不存在物理損毀的情況。
4、在mount狀態(tài)下,對控制文件進(jìn)行備份。alter database backup controlfile to trace as ' /backup/controlfile'。對備份的控制文件進(jìn)行查看修改,取得其中的重建控制文件命令。把這些命令復(fù)制到一個新建腳本文件controlfile.sql中。
5、關(guān)閉數(shù)據(jù)庫,刪除/oradata/syntong/下的3個控制文件。 啟動數(shù)據(jù)庫到nomount狀態(tài),執(zhí)行controlfile.sql 腳本。
SQL>startup nomount
SQL>@controlfile.sql
6、完成重建控制文件后,啟動數(shù)據(jù)庫報錯,需要做進(jìn)一步處理。
SQL> alter database open
alter database open
*
ERROR at line 1:
ORA-01113: file 1 needs media recovery
ORA-01110: data file 1: '/free/oracle/oradata/orcl/system01.dbf'
然后執(zhí)行恢復(fù)命令:
recover database using backup controlfile until cancel
Recovery of Online Redo Log: Thread 1 Group 1 Seq 22 Reading mem 0
Mem# 0 errs 0: /free/oracle/oradata/orcl/redo01.log
…
做介質(zhì)恢復(fù),直到返回報告,恢復(fù)完成。
7、嘗試open數(shù)據(jù)庫。
SQL> alter database open resetlogs
8、成功啟動數(shù)據(jù)庫。把原來temp表空間的數(shù)據(jù)文件加入到對應(yīng)的temp表空間中。
9、對數(shù)據(jù)庫進(jìn)行各種常規(guī)檢查,沒有發(fā)現(xiàn)任何錯誤。
10、進(jìn)行emp備份。全庫備份完成也沒有報錯。將應(yīng)用程序連接到數(shù)據(jù)庫,進(jìn)行應(yīng)用層面的數(shù)據(jù)驗證。經(jīng)過驗證沒有發(fā)現(xiàn)問題。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
14文章
10353瀏覽量
91742 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
726瀏覽量
19041
發(fā)布評論請先 登錄
NetApp數(shù)據(jù)恢復(fù)—NetApp FAS-8200存儲卷丟失故障數(shù)據(jù)恢復(fù)實戰(zhàn)
服務(wù)器RAID陣列故障數(shù)據(jù)恢復(fù)典型案例與技術(shù)解析
Oracle數(shù)據(jù)庫ASM實例無法掛載的數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】服務(wù)器“泡水”硬盤掉線,數(shù)據(jù)竟這樣恢復(fù)
服務(wù)器數(shù)據(jù)恢復(fù)—一文讀懂服務(wù)器高頻故障排查+標(biāo)準(zhǔn)數(shù)據(jù)恢復(fù)流程
服務(wù)器數(shù)據(jù)恢復(fù)—供電不穩(wěn)引發(fā)服務(wù)器EXT4分區(qū)掛載失敗的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EqualLogic存儲上raid5磁盤陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—SUN RAID6存儲LUN重復(fù)映射致數(shù)據(jù)損壞與恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—RAIDZ多塊硬盤離線導(dǎo)致服務(wù)器崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—Raid6陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—服務(wù)器斷電導(dǎo)致raid模塊損壞的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—服務(wù)器上的卷被誤刪數(shù)據(jù)如何恢復(fù)?
服務(wù)器數(shù)據(jù)恢復(fù)—硬盤離線導(dǎo)致raid上層的卷無法掛載的數(shù)據(jù)恢復(fù)案例
數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—服務(wù)器異常斷電導(dǎo)致Oracle數(shù)據(jù)庫故障的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—存儲映射的卷無法掛載故障,多場景數(shù)據(jù)完整恢復(fù)實操解析
評論