(1)災備的基礎知識
衡量一個災備系統建設優秀與否,或是否符合等級保護要求的兩大關鍵指標是恢復時間目標(RTO)、恢復點目標(RPO)。
恢復時間目標(RTO)∶Recovery Time Objective,即恢復時間目標,指的是用戶業務系統所能容忍的業務停止服務的最長時間。
恢復點目標(RPO)∶Recovery Point Objective,即數據恢復點目標,指的是業務系統所能容忍的數據丟失量。
根據恢復的目標與需要的成本投入,災備等級依次可分為數據級災備、應用級災備、業務級災備,級別越高,需要投資的費用也相應增長。
云災備∶狹義上,云災備是將災備看作一種服務,由客戶付費使用災備服務提供商提供災備的服務模式,行業通常稱為DRaaS,租戶通過類似于災備計算管理平臺,按需設置容災備份規則,實現對多租戶的災備管理,確保云端數據安全。廣義上,云災備是本地災備的延伸拓展,容災備份的場景可發生于云平臺,或本地與云平臺間。在云災備的模式下,數據保護的對象和災備的目標端由本地系統轉向云端系統。和本地災備相比,云災備的傳輸環境具有帶寬窄、不穩定等特點,對數據復制技術的壓縮能力、斷點續傳能力等提出了更高的要求。
云災備(云容災、云備份)提供商可以是云平臺服務商,也可以是災備服務商。相比前者,災備服務商在專業度、備份顆粒度、兼容性、跨平臺系統遷移及數據保護方面,更有優勢。
災備演練∶指通過假設某種災難場景發生時,如系統宕機、地震、火災等,災備系統或體系是否可緊急使用,進而進行的一種主動應急演練行為。在金融、醫療、政務等領域常舉行周期性的災備演練。
業務連續性∶是災備技術的升華概念,是一種由計劃和執行過程組成的策略,其目的是為了保證企業包括生產、銷售、市場、財務、管理以及其他各種重要的功能完全在內的運營狀況安全可用。業務連續性是覆蓋整個企業的技術以及操作方式的集合,其目的是保證企業信息流在任何時候,及任何需要的狀況下都能保持業務連續運行。
業務連續性管理(BCM)∶是一項綜合管理流程,相比災備涉及的企業領導層更高,BCM是企業為潛在的危機制訂的一系列響應、業務和連續性恢復計劃,其總體目標是為了提高企業的風險防范能力,以有效地響應非計劃的業務破壞并降低不良影響。如通過BCM提升自然災害、戰爭、國際貿易爭端、非公平性競爭打壓等等對企業經營的影響。
(2)備份及相關知識備份∶
數據或系統的備份,它是容災的基礎,是指為防止系統出現操作失誤或故障導致的數據丟失,而將全部或部分數據集合從應用主機的硬盤或陣列復制到其它存儲介質的過程。根據中國災備行業白皮書的匯總,備份分類有多種方式。
A.按照備份時間頻率分為∶定時備份、實時備份。
定時備份∶是指有時間間隔的數據備份方式,比如一天一次,一周一次,或一個月一次,定時備份會出現數據丟失的情況。
實時備份∶是指無時間間隔的數據備份方式,通過數據實時復制技術,保證主備兩端的數據讀寫一致,確保數據的丟失量最少,甚至不丟失。
持續數據保護(CDP),也稱作持續備份,是一個在任何變化發生時,能準實時地備份企業數據。CDP技術是對傳統數據備份技術的一次革命性的重大突破。傳統的數據備份解決方案專注在對數據的周期性備份上,因此一直伴隨有備份窗口、數據一致性以及對生產系統的影響等問題。
B.按照備份數據量分為∶全量備份、增量備份、差量備份。
全量備份∶用存儲介質對整個數據及系統進行完全備份。這種備份方式的好處是很直觀,容易被人理解,易恢復;缺點是在備份數據中有大量重復數據,由于需要備份的數據量相當大,因此備份所需時間較長。
增量備份∶每次備份的數據只是相當于上一次備份后增加和修改后的數據。這種備份的優點很明顯,重復數據少,即節省存儲空間,又縮短了備份時間。
差量備份∶是拷貝所有新產生或更新的數據,這些數據都是最近一次全量備份后產生或更新的。
增量備份與差量備份的區別是,增量備份判斷數據更新標準是依據上一次備份檢查點,而差量備份一定是依據全量備份檢查點。如沒有全量備份,就沒有差量備份。差量備份的主要目的是限制完全恢復時使用的介質數量。
數據副本管理(Copy Data Management,CDM),是一種能節約存儲資源、有效管理數據生命周期的技術方式,包括消除不必要的重復生產數據。由于傳統備份軟件和企業應用程序獨立運行,經常會創建多個相同數據的副本,數據副本管理技術也因此得名。
目前,行業比較常見的CDM產品,通常采用“首次全量+永久增量”的備份方式,在系統層、數據庫層、系統層等進行數據快速采集,然后根據用戶環境設置備份周期和規則,通過掛載恢復的方式,快速恢復用戶的數據及業務。
Image備份∶指映像級備份,Image備份可對整個文件卷進行數據塊級別備份,備份傳輸的是數據塊而不是文件。這種備份不僅做全備份時效率提高,而且在增量備份時會更快。它采用快照技術來創建一個近似于及時的數據映像,然后對快照數據映像進行備份,對應用的影響很小。適合文件個數在百萬量級以上的大型文件系統,以及更多要求恢復整個文件卷的應用環境。
另外,傳統的備份非常強調兩類技術重刪和壓縮。
重刪:即重復數據刪除,是一種可自動搜索重復數據,將相同數據只保留唯一的一個副本,并使用指向單一副本的指針替換掉其他重復副本,已達到消除數據冗余,降低存儲容量需求的技術。通常用于基于磁盤的備份系統,旨在減少存儲系統中使用的存儲容量。重刪技術涵蓋源端去重和宿端去重,技術分類包括相同數據的檢測技術、相似數據的檢測與編碼技術。
壓縮∶是指在不丟失信息的前提下,縮減數據量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術,或者指按照一定的算法對數據進行重新組織,減少數據的冗余和存儲的空間。壓縮可以分為無損壓縮和有損壓縮。
備份技術在不斷進步,行業應該用發展的眼光去看待備份技術的進步,并非所有的備份技術都需要進行重刪或壓縮,例如CDP技術。
C.按照備份對象分為∶塊級備份、文件級備份、數據庫備份。
我們需要了解,什么叫做塊級、文件級。首先看物理塊與文件系統之間映射關系扇區->物理塊->邏輯塊->文件系統。
塊級是指以扇區為基礎,一個或連續的扇區組成一個塊,也稱為物理塊。它是在文件系統與塊設備(如磁盤驅動器)之間。塊級別訪問是直接通過讀寫存儲空間(磁盤、邏輯單元號Lun、文件集Volume)中的一個或者一段地址來存取數據。
文件級是指文件系統,單個文件可能由一個或多個邏輯塊組成,且邏輯塊之間是不連續分布。邏輯塊大于或等于物理塊整數倍。文件級別訪問是通過讀寫某個文件中的一段數據完成,如主機發出指令,需要存儲設備將C盤下A文件的前128字節進行復制。
塊級備份∶以磁盤塊為基本單位,將數據從源端復制到備端,即每次備份數據以一個扇區或多個連續扇區為單位來進行備份。
文件級備份∶以文件為基本單位,將數據以文件的形式讀出,通過文件系統接口調用備份到另一個介質上。
兩者比較,相比傳統的文件級備份,塊級備份效率高,備份時間短,且增量備份時,只備份修改過的物理塊。而傳統文件級備份,首先會查找每個文件邏輯塊,其次物理塊,由于邏輯塊是分散在物理塊上,而物理塊也是分散在不同扇區上。需要一層一層往下查找,最后才完成整個文件復制。
數據庫備份∶圍繞數據庫對各種表、索引、視圖、事務日志等進行定時或實時的備份,按照備份數據庫的大小,數據庫備份可以分為完全備份、事務日志備份、差異備份等類型。
此外,根據備份時服務器是否停機又可分為冷備、熱備、溫備按照數據存儲介質之間的距離又可以分為本地備份和異地備份,以及按照數據備份量大小及路徑所劃分的LAN(局域網)、LAN free 備份、Server Free 備份等等。
(3)容災及相關知識
提到容災,必然提到數據中心與容災中心,以及兩地三中心。其中兩地三中心的兩地是指同城和異地,三中心是指生產中心、同城容災中心、異地容災中心,結合起來就是兩地三中心,一般是指同城雙活、容災和異地備份技術的結合。
容災∶是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統,互相之間可以進行健康狀態監視和功能切換,當一處系統因意外(如地震、停電、火災、洪災等)停止工作時,整個應用系統可以切換到另一處,使得該系統功能可以繼續正常工作。
容災技術是系統的高可用性技術的一個組成部分,容災系統更加強調處理外界環境對系統的影響,特別是災難性事件對整個IT節點的影響,提供節點級別的系統恢復功能。容災可分為本地容災、異地容災、云容災。需要注意的是,集群等確保系統可用性的冗余方案,不等于容災。在行業應用中,部分專業人士也容易混淆,導致集群系統出現故障時,發生大面積業務中斷服務的情況,給組織帶來經濟和形象方面的損害。
滿足容災的三個基本條件∶
一是系統中的部件、數據都具有冗余性,當其中一個系統發生故障停止服務時,另一個系統能夠繼續提供服務
二是兩個系統之間要相隔一定距離,如50公里左右,可提高容災系統的抗風險能力
三是容災系統在數據復制生命周期中,數據具備一致性、可用性和可恢復性。
從其對系統的保護程度區分,容災系統可分為數據級容災、應用級容災和業務級容災。
數據級容災∶指通過建立異地容災中心,做數據的遠程備份,在災難發生后要確保原有的數據不會丟失或者遭到破壞。數據級容災在發生災難時應用會中斷,且業務恢復的時間比較長。但是相比其他容災級別費用比較低,而且構建實施也相對簡單。
應用級容災∶指在數據級容災基礎上,在異地容災中心構建一套相同的應用系統,通過同步或異步復制技術進行數據的實時復制,保證關鍵應用在允許的時間范圍內恢復運行,盡可能減少故障帶來的損失,讓用戶基本感受不到故障的發生。應用級容災是一個復雜的IT工程,不僅涉及到各類切換技術,還會涉及到人員的調配等,所以建設和運維成本相當高,通常只有銀行、證券等關鍵機構因業務和監管要求,才會進行應用級容災體系建設。
業務級容災∶指所有核心業務的容災,除了IT網絡設備齊全,還要求場地、電力等基礎設施建設完善,是所有容災等級中最高的。隨著組織數字化轉型和信息化的發展,多中心生產的多活模式正在成為行業趨勢,如國有大型銀行可在全國建設多個數據中心,每兩個中心互備,實現業務級容災。同時,為了避免過度建設數據造成資源浪費,增加數據中心的電力負擔,對于中小銀行等機構,資產規模在五千億以下的沒必要自建數據中心。
高可用∶指通過盡量縮短因日常維護操作(計劃)和突發的系統崩潰(非計劃)所導致的停機時間,以提高系統和應用的可用性,是企業防止計算機系統因故障停機的最有效手段。
在國內,基于高可用系統中的兩臺服務器的熱備(或高可用)使用較多,因此雙機熱備常被人提起。雙機熱備按工作中的切換方式分為∶ 主備方式(Active-Standby方式)和雙主方式(Active-Active方式)。
容災與雙活區別∶雙活是系統冗余的范疇,容災則包括在建立災備系統時,需要涉及到多種切換技術,如SAN或NAS技術、遠程鏡像技術、基于IP的SAN的互連技術、快照技術等。通常來講,容災的建設成本要比雙活低,數據丟失風險要比雙活低。