應急處理案例-某乳制品股份公司緊急搶修

2022-07-23 17:11:32 47

應急處理案例-某乳制品股份公司緊急搶修
事故情況:
由于建筑管道漏水,導致機房遭受大面積積水以及部分服務器和小部分存儲設備受到間接性進水的情況發(fā)生。相關業(yè)務系統(tǒng)及應用暫停,情況緊急,屬重大事故。
事故發(fā)生時間為凌晨1:00。
應對情況:
接到通知后,公司啟動應急預案。
①    由于未簽署駐場服務,派遣專業(yè)工程師前往事故現(xiàn)場,協(xié)助機房工作人員進行緊急處理工作,并負責統(tǒng)計機房受災情況。
②    派遣專業(yè)工程師和庫房工作人員組成應急工作小組,前往備件庫房檢查并測試相關備機,并保持最佳狀態(tài)。
③    事故現(xiàn)場工程師統(tǒng)計機房受災情況完畢后,立刻劃分受災服務器故障等級,并制定簡略應急維修方案。
④    備件庫房應急工作小組,根據現(xiàn)場工程師制定的應急維修方案攜帶備件服務器以及相關維修設備前往事故現(xiàn)場。
⑤    指揮并協(xié)助機房工作人員對事故現(xiàn)場進行適宜處理,使機房盡快恢復正常工作狀態(tài)。
⑥    對故障等級低的受災服務器由專業(yè)工程師進行快速維修,并恢復運行狀態(tài),從而恢復部分業(yè)務和應用的正常使用。
⑦    對故障等級高的受災服務器由應急工作小組進行簡單包裝后帶回維修中心,進行進一步檢測,并加急維修。
受災統(tǒng)計及結果:
①    本次受災情況屬重大事故,受災服務器達到10余臺,其中情況嚴重的包含處理業(yè)務的小型機,公司存儲數據的存儲服務器以及作為臨時業(yè)務工作備份服務器的兩臺NAS網絡存儲和個別應用服務器。
②    由于我公司搶救及時,使得部分應用于事故發(fā)生后2個小時候恢復運行。對受災嚴重的存儲服務器,進行加急數據恢復工作,并保證了數據的完整性,使企業(yè)避免遭受更大的經濟損失。
③    因為本次有效及時的應對措施,和扎實的專業(yè)能力,使得我公司與該企業(yè)落實了長期合作關系。

附企業(yè)機房服務器故障應急預案(簡版)
1  目的
為提高處理公司服務器故障的能力,形成科學、有效、反應迅速的應急工作機制,確保公司各系統(tǒng)的安全和高效,最大限度地減小服務器故障對生產的影響,保護公司利益,特制定本預案。
2  適用范圍
本預案適用于公司局域網中提供公共服務的服務器發(fā)生和可能發(fā)生的故障。
3  預防機制
服務器故障預防措施包括分析風險,建立檢測體系,準備應急處理措施,控制影響擴大。
3.1  服務器故障分類
服務器硬件或軟件的故障;自然災害(水、火、電等)造成的物理破壞;電腦病毒等惡意代碼危害等。
3.2  具體措施
(1)建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng)。
(2)服務器采用可靠、穩(wěn)定硬件,落實數據備份機制,遵守安全操作規(guī)范;安裝有效的防病毒軟件,及時更新升級掃描引擎。
4  有關應急預案
4.1  機房漏水應急預案
(1)發(fā)生機房漏水時,第一目擊者應立即通知相關人員,相關人員接報后應立即前往事發(fā)地。
(2)若空調系統(tǒng)出現(xiàn)滲漏水,相關人員立即通知企管部進行處理,并及時清除機房積水。
(3)若墻體或窗戶滲漏水,相關人員立即采取有效措施確保機房安全,同時通知企管部,及時清除積水,維修墻體或窗戶,消除滲漏水隱患。
4.2  機房長時間停電應急預案
接到長時間停電通知后,相關人員應及時部署應對具體措施,啟動備用電源,保證服務器正常運行。
4.3  服務器硬件故障應急預案
(1)核心服務器雙機配置,配置好備用服務器,隨時待命。
(2)發(fā)生服務器硬件故障后,相關人員應及時查找、確定故障原因,進行先期處置。若故障服務器在短時間內無法修復,相關人員應啟動備用服務器,保持局域網系統(tǒng)的正常運行;將故障服務器脫離網絡,進行故障排除工作。
(3)服務器硬件故障預防與排除參考附件1。
4.4  服務器軟件系統(tǒng)故障應急預案
(1)做好服務器軟件系統(tǒng)的定時備份,系統(tǒng)崩潰后,能夠及時恢復系統(tǒng)。
(2)發(fā)生服務器軟件系統(tǒng)故障后,相關人員應檢查出現(xiàn)故障的原因并盡快排除。
(3)如遇服務器系統(tǒng)崩潰,應啟用備份系統(tǒng)進行恢復。
(4)服務器軟件故障預防與排除參考附件2。

附件1:
服務器硬件故障預防與排除
1  故障預防
公司主要應用系統(tǒng)服務器進行雙機配置。公司主要系統(tǒng)服務器擔任了供應系統(tǒng),銷售、生產系統(tǒng),OA系統(tǒng)等服務器角色,機器需要24小時運行,使用率極高,老化快。為了安全,建議配置相同硬件的服務器為備用控服務器。當使用的服務器出現(xiàn)不可恢復的硬件故障時,馬上啟動備用服務器,從而減小服務器硬件故障風險。
2  故障排除
當服務器出現(xiàn)硬件故障,通過以下步驟排除:
(1)確定故障原因。依次查看電源、硬盤、內存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。
(2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件;清除CMOS,恢復資源初始配置。
附件2:
服務器軟件故障預防與排除
1  故障預防
1.1  服務器初始狀態(tài)備份
安裝配置好服務器軟件系統(tǒng),經測試能夠正常投入生產使用后,用GHOST軟件備份好服務器系統(tǒng)。備份文件本機一份,光盤或移動存儲一份。
1.2  服務器實時狀態(tài)備份
公司局域網中服務器的系統(tǒng)及相應的數據庫會周期更新一次,備份文件本機一份,光盤或移動存儲一份。
2  故障排除
服務器軟件系統(tǒng)出現(xiàn)故障,先對服務器系統(tǒng)查毒,升級相關系統(tǒng)軟件,若故障依然存在,通過以下步驟排除:
(1)用備份系統(tǒng)還原服務器系統(tǒng)。GHOST文件還原服務器系統(tǒng)的初始狀態(tài),進入“目錄服務還原模式”還原系統(tǒng)實時狀態(tài)。
(2)重新安裝配置服務器。若備份系統(tǒng)還原系統(tǒng)失敗,必須重新安裝服務器系統(tǒng)。

導航