本案為客戶送來的Dell PowerVault MD3220i儲存伺服器
因疑似控制器損壞導致RAID5崩潰,造成ESXi 6.0系統與裡面的VM都無法正常執行…
經檢測結果,發現是:
(1) 控制器損壞:原本有二個,一個之前就壞了但沒去處理,直到現在第二個也壞了,導致陣列崩潰。
(2) 因為陣列損壞,陣列參數丟失,造成陣列結構損毀
(3) 韌體損壞-硬碟服務區(Service Area) 中的韌體與速配參數嚴重損壞,造成硬碟無法正常工作
救援方式是:
韌體損壞部份,先以專業硬碟救援設備,修復速配參數與回寫同版本韌體到硬碟服務區(Service Area)。
陣列損壞部份,再以專業工具重新組合RAID 5,並進行資料修復,將資料、系統導出並驗證正確性,
此外,由於客戶的重要目錄中,包含不少資料庫檔案,這部份是透過撰寫專門程式,來分析SQL並修復好MDF資料庫。
最後以專屬的程式組好Image,並將其導出。
以上皆確認無誤後,最後再將原來VMware ESXi的虛擬化架構恢復,並重新導入各虛擬機,重試開機上線。
最終修復結果: 成功!
▲待救援的兩台MD3220i
▲專屬的Console線,以嘗試連接Dell Server
▲ 左邊有Console專屬接孔
▲ 經深度資料救援後,確定整個VM系統都能開機正常運作
▲ 有些VM內含MDF資料庫,此部份也透過撰寫專門程式,來分析SQL並修復好
修復後的工程師murmur:
平時多備份資料才是上策,再好的儲存裝置,只要控制器出毛病,當下不一定能馬上查覺出來,
一旦有錯誤的資料寫回磁碟陣列之後,甚至毀壞到整個RAID架構,導致整台機器的資料全部搗毀。
屆時神仙也難以救回。
好險本次案例是即時察覺並趕緊停機,沒有造成更大的資料損壞,
致使可能救回絕大多數的資料,降低損失。
最後再次強調,為了重要的數位資產,勤做備份、並存放到不同媒介是必要的,以防範類似的意外發生!