信息技術服務 運行維護 第3部分:應急響應規范
Information technology service - Operations and maintenance - Part 3:Emergency response specification
(報批稿)
引言
隨著各行業、各領域信息化工作的深入開展,越來越多的信息系統進入運行維護階段。然而,提供運行維護服務的各類組織的能力水平參差不齊,需方缺乏評價或選擇供方的方法、手段及規范。《信息技術服務 運行維護》規定了提供信息技術運行維護服務的組織應具備的能力、服務交付形式和內容,以及運行維護服務中的應急響應過程和管理方法等。
本部分提出了應急響應的基本過程,以及過程管理要求,旨在提升組織的應急響應能力,提前發現隱患,及時解決問題,降低應急事件可能帶來的不良影響。
本部分與突發事件應對所涉及的領域是有區別的。一般來說,前者主要涉及信息技術服務領域;而后者主要涉及自然災害、事故災難、公共衛生事件和社會安全事件等突發事件應對的業務領域。
本部分不涉及信息系統的建設,但在信息系統運行維護階段,通過應急響應的實施,可以反饋系統使用效果,并根據業務發展不斷進行系統適應性調整,用以指導信息系統完善和升級改造工作的開展。
本部分的第4章提出了運行維護服務中應急響應的過程,將過程劃分為四個主要階段,并對各階段工作內容進行了描述。
本部分的第5章規定了應急準備階段的工作要求。
本部分的第6章規定了監測與預警階段的工作要求。
本部分的第7章規定了應急處置階段的工作要求。
本部分的第8章規定了總結改進階段的工作要求。
1范圍
本部分規定了應急響應過程的基本活動和任務。
本部分適用于指導在經濟建設、社會管理、公共服務以及生產經營等領域重要信息系統運行維護中實施和管理應急響應。
本部分也適用于組織為滿足應急響應實施需要而開展的信息系統完善和升級改造工作。
2規范性引用文件
下列文件對于本文件的應用是必不可少的,凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
信息技術服務 運行維護 第1部分:通用要求
3術語和定義
界定的以及下列術語和定義適用于本文件。
3.1
重點時段保障 important period assurance
提升服務級別以確保某一時間段內重要活動或重點業務的開展所采取的措施和活動。
3.2
應急事件 emergency event
導致或即將導致運行維護服務對象運行中斷、運行質量降低,以及需要實施重點時段保障的事件。
3.3
應急響應 emergency response
組織為預防、監控、處置和管理應急事件所采取的措施和活動。
4應急響應過程概述
4.1 應急響應過程的階段劃分
本部分將運行維護服務中應急響應過程劃分為四個主要階段:應急準備、監測與預警、應急處置和總結改進。
應急響應各階段的工作內容
應急響應各階段的工作內容如下:
a)應急準備階段的工作包括:組建應急響應組織,確定應急響應制度,系統性識別運行維護服務對象及運行維護活動中可能出現的風險,定義應急事件級別,制定預案,開展培訓和演練;
b)監測與預警階段的工作包括:進行日常監測,及時發現應急事件并有效預警,進行核實和評估,以規定的策略和程序啟動預案,并保持對應急事件的跟蹤;
c)應急處置階段的工作包括:采取必要的應急調度手段,基于預案開展故障排查與診斷,對故障進行有效、快速的處理與系統恢復,及時通報應急事件,提供持續性服務保障,進行結果評價,關閉事件;
d)總結改進階段的工作包括:對應急事件發生原因、處理過程和結果進行總結分析,持續改進應急工作,完善信息系統。
應將信息系統所支撐業務的數據采集、使用和管理納入應急響應過程中。在應急準備階段,結合業務領域突發事件級別和運維活動中的應急事件級別,制定總體預案,開展培訓和演練。在監測與預警階段,從運行維護對象和數據兩個角度開展監測預警。在應急處置階段,根據業務數據變化情況采取相應措施。在總結改進階段,也應該對業務數據采集、使用和管理體系進行完善。
注:應急響應各階段的工作內容與日常工作、故障響應、重點時段保障等不同類型活動的對應關系見附錄B。
5應急準備
5.1 建立應急響應組織
運行維護服務的組織由相關利益方組成,包括服務需方、服務供方、分包方、供應商等。
應在運行維護服務組織基礎上建立應急響應組織,要求如下:
a)應急響應組織的人員應屬于運行維護服務組織的人員,也可包括其他機構的專家和人員;
b)應規定運行維護服務及應急響應所有相關利益方的角色及職責,并為關鍵角色提供備份人選。應明確:
1)應急響應責任者:可由服務需方的信息化部門最高管理者擔任,統籌協調應急響應工作;
2)現場負責人:由應急響應責任者授權,負責應急事件監測與預警、應急處置等現場工作;
3)分組負責人:可在組織內成立多個分項小組并設定負責人,承擔應急響應中各專業性工作;
4)值班人員:組織內承擔現場值守工作的人員;
c)應就應急響應服務的范圍、要求等與相關利益方達成一致,確定溝通流程和方式,并形成記錄;
d)運行維護過程中涉及組織和人員的變更應與相關利益方達成一致,并形成記錄;
e)應建立對應急響應組織內人員的考核機制,明確考核指標及方法。考核至少每年進行一次,以確保組織能持續滿足應急響應要求。
5.2 制定應急響應制度
組織應制定應急響應制度,明確應急響應的目標、原則、范圍以及各項管理制度,并要求:
a)與相關利益方就應急響應制度達成一致;
b)定期對應急響應制度進行評審;
c)在組織戰略、業務流程、客戶要求等發生重大變化時對應急響應制度進行調整。
5.3 風險評估與改進
5.3.1 風險評估
組織應按照確定的方法和流程對重要信息系統實施風險評估,確保組織了解其在運行維護過程中的關鍵活動、所需資源、限制條件及信息系統面臨的各種風險要素。組織應了解當風險演變為應急事件時所產生的影響和后果,以及信息系統服務中斷所帶來的損失。
組織應授權組織內或組織外的服務供方進行風險識別,并將授權通知到所有相關利益方。
被授權的服務供方應結合具體的信息系統現狀和要求,從技術和管理等方面確定風險要素。
應對風險要素進行評估,形成風險評估報告,報告內容應包括:
a)結論摘要;
b)背景及現狀;
c)風險要素;
d)識別出的風險及風險分析;
e)建議的應對措施。
應在需方授權范圍內對風險評估報告進行評審和溝通,并達成一致。
5.3.2 改進
對于識別出的各種風險,組織應該制定明確的控制策略,必要時應對信息系統進行升級改造。可供選擇的風險控制策略包括:風險規避、風險轉移、風險降低、風險接受。
根據風險評估報告,組織應該形成改進方案并實施,以利于:
a) 降低風險轉變為應急事件的可能性;
b)縮短應急事件的持續時間;
c)限制應急事件的影響范圍。
5.4 劃分應急事件級別
5.4.1 參考要素
應急事件分級的主要參考要素為:信息系統的重要程度、信息系統服務時段、信息系統受損程度。
a)重要程度
重要程度主要應考慮信息系統所支撐的業務的重要性,以及信息系統內信息資產的重要性和信息系統服務的重要性。
b)服務時段
服務時段主要應考慮應急事件發生時系統提供服務的狀態。
c)受損程度
受損程度主要應考慮應急事件發生時信息系統功能和性能等方面的影響程度。
5.4.2 級別劃分
組織可按照5.4.1中的要素對可能發生的應急事件進行級別劃分(級別劃分方法參見附錄A)。
組織應結合自身的業務要求,對應急事件級別對應的響應時間、處置完成時間等達成一致。
組織應根據應急事件級別配置響應的保障措施,如人員、資金和設備等。
5.5 應急響應預案制定
5.5.1 預案制定與評審
組織應根據應急事件級別制定應急響應預案。
應急響應預案可以分為總體預案和針對某個核心系統的專項預案。
應急響應預案的格式應該能夠為應急響應組織進行系統恢復操作提供快速明確的指導。
應急響應預案應該明確、簡潔,易于在緊急情況下執行,并使用檢查列表。
應急響應預案的內容應包括:
a) 應急響應預案的編制目的、依據和適用范圍;
b)具體的組織體系結構及人員職責;
c)應急響應的監測和預警機制;
d)應急響應預案的啟動;
e)應急事件級別及對應的處置流程、方法;
f)應急響應的保障措施;
g)應急預案的附則。
服務需方應組織對應急響應預案進行評審,并與相關利益方達成一致。
5.5.2 預案發布
經過評審確認的應急響應預案,應由應急響應責任者負責發布。
應急響應預案應進行版本控制。
5.6 培訓與演練
5.6.1 培訓
組織應制定應急響應培訓計劃,并組織相關人員參與。應急響應預案應作為培訓的主要內容。
培訓應使得組織及人員明確其在應急響應過程中的責任范圍、接口關系,明確應急處置的操作規范和操作流程。
培訓應至少每年舉辦一次。
5.6.2 演練
為檢驗應急響應預案的有效性,同時使相關人員了解運行維護預案的目標和內容,熟悉應急響應的操作規程,組織應進行應急演練,應:
a)預先制定演練計劃、演練腳本;
b)演練的整個過程應有詳細的記錄,并形成報告;
c)演練不能影響業務的正常運行。
為提升應急響應能力,組織可采用無腳本演練。
必要時,組織可根據演練的效果,對應急響應預案進行完善。
6監測與預警
6.1 日常監測與預警
6.1.1 范圍
組織應持續開展日常監測活動,實施有效預警,范圍如下:
a)組織應該對運行維護服務對象的運行情況進行監測與預警,以跟蹤和判別以下對象的容量、可用性和連續性:
1)應用系統;
2)支撐應用系統運行的系統軟件、工具軟件;
3)網絡及網絡設備;
4)安全設備;
5)主機、存儲、外設、終端等設備;
6)電力、空調、消防等基礎環境。
b)組織應對信息系統所承載的業務數據進行監測,以跟蹤和判別業務數據是否超出了預警條件。
6.1.2 手段與工具
組織應結合運行維護服務級別協議和應急響應預案,開展日常監測與預警活動,包括:
a)設立服務臺并保持運營;
b)建立知識庫并保持更新;
c)確定監測項、監測時間間隔與閾值;
d)確定活動中的人員、角色和職責。
組織可以采用運行維護工具與人工相結合的方式開展日常監測與預警活動。
6.1.3 記錄與報告
組織應建立監測、預警的記錄和報告制度,并按照約定的形式和時間間隔上報現場負責人。發現應急事件時,值班人員應提交報告,報告內容應包括:
a)應急事件發生及發現的時間、位置;
b)現象描述;
c)影響的范圍;
d)初步原因分析;
e)報告人。
報告應及時提交給現場負責人。報告方式包括電話、郵件、傳真或書面文件等,并確認對方收到報告。
值班人員應采取必要措施,開展應急事件的先期處置,以提高應急響應效率,避免次生、衍生事件的發生。
應該對應急事件保持持續性跟蹤。
6.2 核實與評估
6.2.1 核實
現場負責人應對報告內容進行逐項核實。
核實確認后的應急事件報告,應提交給應急響應責任者。
應急事件報告應作為事件級別評估的輸入。
重點時段保障需求也應作為事件級別評估的輸入。
6.2.2 事件級別評估
現場負責人應根據事件級別定義,初步確定應急事件所對應的事件級別。
應將事件級別置于動態調整控制中。
6.3 應急響應預案啟動
6.3.1 預案啟動
組織應建立、審議應急響應預案啟動的策略和程序,以控制預案啟動的授權和實施。
組織應就應急響應預案啟動可能造成的影響進行評估。
相關利益方之間應就啟動何種類型預案達成一致,包括當事件升級時,與之相對應的預案調整的方式。
可根據先期處置要求進行應急響應預案的自動啟動,或由應急響應責任者或現場負責人啟動預案。
應記錄應急響應預案啟動的過程和結果。
重點時段保障應啟動的應急響應預案可參考同級別預案確定。
6.3.2 信息通報
現場負責人應向相關利益方通報應急響應預案啟動信息,內容應包括:
a)預案啟動的原因;
b)事件級別;
c)事件對應的預案;
d)要求采取的技術應對措施或處置的目標;
e)實現目標所應采取的保障措施,如人員、資金和設備等;
f)對應急處置過程及結果的報告要求,如報告程序、報告內容、報告頻率等;
g)信息通報的范圍和接收者。
信息通報應選取適當的方式,如電話、郵件、傳真、書面文件等。
所有相關利益方應對收到的通報信息進行確認和反饋。
6.3.3 監測與預警狀態的調整
通報信息應作為監測與預警狀態調整的輸入,調整內容包括監測范圍、監測頻率等。
監測與預警狀態的調整應通知各相關利益方。
7應急處置
7.1 應急調度
按照預案,開展統一的應急調度,包括人員、資金和設備等。
應急調度中應:
a)獲取現場信息;
b)組織必要人員進行勘察、分析;
c)下達調度命令并保持跟蹤;
d)保護可追查的相關線索。
7.2 排查與診斷
7.2.1 基本流程
故障排查與診斷的流程應包含以下內容:
a)現場負責人調度處置人員進行現場故障排查;
b)現場處置人員進行故障排查和診斷,必要時可尋求組織其他人員以現場或遠程方式進行支持,在此過程中可借助各類排查診斷分析工具,如應用軟件、電子分析工具、故障排查知識庫等;
c)現場處置人員應隨時向現場負責人匯報故障排查情況、診斷信息、故障定位結果等;
d)將排查與診斷的過程與結果信息進行整理與歸檔。
7.2.2 問題溝通與確認
處置過程中,現場負責人應及時與相關利益方進行溝通,溝通的內容主要包括系統故障點、造成故障的原因、排查診斷狀況等。
現場負責人應組織相關利益方對問題進行確認。
問題確認過程不應延誤處理與恢復工作的開展。
7.3 處理與恢復
應基于應急響應預案、配置管理數據庫、知識庫等進行故障處理和系統恢復,處理與恢復的原則包括:
a)應在滿足事件級別處置時間要求的前提下,盡快恢復服務;
b)采用的方法、手段不應造成次生、衍生事件的發生。
必要時可啟用備品備件、災備系統等。
應該對過程及結果信息進行記錄,并及時告知相關利益方。
現場負責人應組織對處理與恢復的結果進行初步確認。
7.4 事件升級
7.4.1 升級
組織應建立、審議應急事件升級的策略和程序,以控制應急事件升級的授權和實施。
當實際處置時間超過事件級別處置時間要求時,應作為事件升級的參考要素。
組織應該對事件升級可能造成的影響進行評估,并在相關利益方之間達成一致。
升級內容應包含預案調整、人員調整、資金調整以及設備調整。
事件升級的實施授權應由現場負責人啟動。
應該對事件升級的過程和結果信息進行整理與歸檔。
7.4.2 信息通報
現場負責人應向相關利益方通報事件升級信息,內容應包括:
a)事件升級的原因;
b)事件升級后的級別;
c)事件升級后與之對應的預案;
d)對升級事件處置過程及結果的報告要求,如:報告程序、報告對象、報告內容、報告頻率等;
e)信息通報的范圍和涉及的接受者。
信息通報應選擇適當的方式,如電話、郵件、傳真、書面文件等形式。
事件升級信息應作為處理與恢復的參考要素。
7.5 持續服務
完成處理與恢復后,應組織運行維護人員提供持續性服務。
組織應對持續性服務的效果進行評價。
持續服務的評價結果,應作為應急事件關閉的輸入。
7.6 事件關閉
7.6.1 申請
組織應建立、審議事件關閉的策略和程序,以控制事件關閉的授權和實施。
應該對應急事件處置的過程文檔進行整理。
事件關閉申請應由相關的分組負責人提出,并提交相關文檔資料。
事件關閉申請和文檔資料,應作為事件關閉核實的參考要素。
7.6.2 核實
現場負責人接到事件關閉申請后,應逐項核實報告內容,以判別應急事件處置過程和結果信息是否屬實。
7.6.3 調查和取證
當應急事件涉及到責任認定、賠償或訴訟時,應收集、保留和呈遞證據。證據可能用于:
a)內部問題分析;
b)用作合同違約或其他糾紛的法律取證;
c)與相關方談判賠償事宜。
7.6.4 關閉通報
組織應建立、審議應急事件關閉通報制度。
現場負責人應向相關利益方通報事件關閉信息,內容應包括:
a)事件發生的原因、事件級別及影響范圍;
b)事件對應的預案;
c)事件的處置過程和方法;
d)事件的調整升級情況;
e)持續性服務情況;
f)事件處置評價;
g)事件關閉申請的處理意見;
h)關閉通報的范圍和涉及接受者。
應急事件發生的原因、處置過程和方法應記入知識庫。
8總結改進
8.1 應急工作總結
組織應定期對應急響應工作進行分析和回顧,總結經驗教訓,并采取適當的后續措施。
對應急響應工作的分析和回顧應考慮以下方面:
a)應急響應工作的績效;
b)應急準備工作的充分性和有針對性;
c)應急事件發生原因、數量及頻率;
d)應急事件處置的經驗得失;
e)應急事件的趨勢信息;
f)信息系統中潛在的類似隱患。
對應急響應工作的分析和回顧應形成總結報告,并將總結報告作為改進應急響應工作及信息系統的重要依據。
8.2 應急工作審核
為保證應急響應的有效性和時效性,應急響應責任者應定期組織對應急響應工作的評審,以確保應急響應過程和管理符合預定的標準和要求。審核的結果應該正式存檔并通知給相關利益方。評審應至少每年舉行一次。
a)審核時應考慮的要素包括:
1)相關利益方的要求和反饋;
2)組織所采納的用于支持應急響應的各種資源和流程;
3)風險評估的結果及可接受的風險水平;
4)應急預案的測試結果及實際執行效果;
5)上次評審的后續活動跟蹤;
6)可能影響應急響應的各種業務變更;
7)近期在處置應急事件過程中總結的經驗和教訓;
8)培訓的結果和反饋。
b)審核的輸出結果應該包括:
1)改進目標;
2)改進的具體工作內容;
3)所需的各種資源,包括人員、資金和設備等。
8.3 應急工作改進
應急事件總結、應急工作審核的結果應該作為應急準備階段各項工作的改進要素。組織應根據總結報告中給出的建議項和評審結果,完善信息系統,深化應急準備工作。
中企檢測認證網提供iso體系認證機構查詢,檢驗檢測、認證認可、資質資格、計量校準、知識產權貫標一站式行業企業服務平臺。中企檢測認證網為檢測行業相關檢驗、檢測、認證、計量、校準機構,儀器設備、耗材、配件、試劑、標準品供應商,法規咨詢、標準服務、實驗室軟件提供商提供包括品牌宣傳、產品展示、技術交流、新品推薦等全方位推廣服務。這個問題就給大家解答到這里了,如還需要了解更多專業性問題可以撥打中企檢測認證網在線客服13550333441。為您提供全面檢測、認證、商標、專利、知識產權、版權法律法規知識資訊,包括商標注冊、食品檢測、第三方檢測機構、網絡信息技術檢測、環境檢測、管理體系認證、服務體系認證、產品認證、版權登記、專利申請、知識產權、檢測法、認證標準等信息,中企檢測認證網為檢測認證商標專利從業者提供多種檢測、認證、知識產權、版權、商標、專利的轉讓代理查詢法律法規,咨詢輔導等知識。
本文內容整合網站:百度百科、搜狗百科、360百科、知乎、市場監督總局 、國家認證認可監督管理委員會、質量認證中心
免責聲明:本文部分內容根據網絡信息整理,文章版權歸原作者所有。向原作者致敬!發布旨在積善利他,如涉及作品內容、版權和其它問題,請跟我們聯系刪除并致歉!