近年來,銀行業數字化轉型深入開展,業務和數據規模的迅速增長,對銀行的數據安全性、系統穩定性和業務連續性提出了更高要求。通過引入新技術推動運維模式升級,建立更加高效穩定的數據中心網絡智能運維體系,已成為銀行數據中心實現穩健經營和健康發展的必由之路。

在此背景下,國家開發銀行對數據中心網絡運維開展了技術改造,通過打造網絡智能化運維體系,為數據中心網絡運營提供全周期保障,以提供高質量服務支持業務發展。

構建智能化運維體系,推動網絡運維提質降本增效

隨著銀行數據中心信息系統規模和復雜性的不斷增加,傳統網絡運營模式面臨網絡可靠性不足、運維成本高等挑戰,亟需推動數據中心網絡從傳統運維向智能運維轉變。

通過前期調研謀劃,我們圍繞當下業務需求和長期發展,制定了數據中心網絡智能運維改造的兩大核心目標:

? 實現網絡故障的快速定位和恢復。借助大數據和AI技術,使系統能夠基于已有運維數據,主動感知業務問題并進行自動化排障,從而快速進行故障定位和恢復,降低運維成本。

? 實現立體化、全方位的可視化運維。采用Telemetry等新技術實時、全量地采集網絡狀態數據,并利用大數據技術進行組織、存儲、分析和可視化呈現,從而幫助運維人員了解網絡的真實狀態,發生異常時第一時間進行處理。

為了實現上述目標,我們選擇通過將智能運維產品與現網SDN多維聯動,引入分析器組件等,基于輕量級的統一數字底盤架構,積極推進數據中心網絡的全局性改造。

圖1    管控析融合技術架構

快速排障,實時可視,讓數據中心網絡擁有敏銳之眼

在實施過程中,我們結合網絡運維痛點,針對不同運維場景引入新技術和設備,為數據中心網絡打造敏銳之眼,實現對網絡故障的快速發現,以及對多源信息的可視化呈現,在提升數據中心網絡可靠性的同時,有效降低了運維成本。

圖2    一體化分析運維示意圖 

為了快速發現、定位和解決網絡問題,我們著重優化了數據管控系統,從數據源上送、數據采集、數據緩存/分發、數據處理和數據存儲五個方面提升系統數據處理能力。數據源上送階段,網絡設備通過不同的采集協議和上報通道將數據源發送到分析組件。數據采集階段,通過gRPC、Telemetry、ERSPAN、INT等技術,實現了高精度(毫秒級)的數據收集。數據緩存和分發階段,使用Kafka作為接收設備原始數據的平臺,使上層系統能夠對獲取的數據進行分析處理。數據處理階段,通過網絡分析器的數據處理服務對Kafka中的原始數據進行ETL清洗,并根據業務差異進行實時數據處理、離線數據處理和流處理等操作。最后,數據存儲階段,將經過預處理的數據根據業務需要存儲到數據庫中。

新網絡管控分析系統提供Underlay和Overlay雙平面拓撲圖展示,采用Telemetry/SNMP Trap/Syslog/ERSPAN等多種協議,全時全量采集網絡運行數據。基于設備健康度趨勢、20+KPI指標、最低得分指標、設備問題列表等信息,構建全面的健康度評估體系,提供全網健康度一鍵體檢能力,輔助運維人員全局掌握網絡健康水平。系統檢測范圍涵蓋物理資源、虛擬資源、表項資源等,針對每個指標項,通過AI算法生成告警水線,并提供雷達探測等輔助排障手段,實現分鐘級故障定位。

分析器采用時序數據特征分解、機器學習等AI算法,支持網絡指標數據的異常分析和動態預測。采用動態基線方法,通過對歷史數據建模訓練,形成動態預測基線作為異常檢測閾值。動態基線能夠自適應歷史數據,并在學習和修正過程中提高準確性,更好地監測實際網絡運行狀況。

為了輔助運維人員全面掌控數據中心網絡狀況,提高決策效率并降低運維成本,在管控系統中實現了光模塊狀態可視化和丟包可視化功能。

具體來講,光模塊在長時間使用過程中性能會逐漸下降,達到一定閾值后可能產生大量CRC錯包,影響業務的正常運行。新管控系統通過采集光模塊收發光功率、電壓、偏置電流、溫度等關鍵指標,可以對全網光模塊運行狀態提供多維度的可視化,主動發現光模塊健康問題,并對光模塊未來健康趨勢及故障概率進行預測。當故障發生時,分析器將實時感知、準確定位、快速診斷故障事件,控制組件還會對故障事件下發預案,實現主動維護和預測性維護,防患于未然。

我們通過gRPC獲取交換機設備的TCB(Transient Capture Buffer,瞬時抓包緩存)和MOD(Mirror On Drop,丟包鏡像)信息,實現秒級上報和可視化,以便運維人員快速解決丟包問題。通過MOD技術,一旦發現設備內部發生丟包,MOD會記錄丟包時間、原因和丟棄報文特征。啟用TCB后,利用MMU進行監控,發生丟包時,系統會收集丟包的時間、原因和被丟棄報文的原始數據。通過應用這兩種技術,可以及時感知丟包情況,并收集關鍵信息以解決問題。

加速網絡智能化建設,提升開發性金融服務水平

引入智能技術和自動化工具在以下三個方面發揮了重要作用。首先,數據中心網絡監控、管理和維護工作變得更加高效和精確。極大地減少了人為錯誤,降低了維護成本,并提高了銀行信息系統的可靠性和穩定性。其次,智能運維系統可以實時監測數據中心的運行狀況,預測和預防潛在故障和問題,有助于避免系統中斷、數據丟失和安全漏洞,確保銀行業務的持續運行和客戶數據的安全保護。此外,智能化轉型提高了資源利用效率和靈活性。智能運維系統可以智能調度和優化數據中心的計算、存儲和網絡資源,確保資源的充分利用和合理分配。

新型信息技術的發展將進一步改變金融網絡基礎架構,構建智能化網絡已成為金融業發展的必要任務。未來,我行將繼續通過金融科技創新不斷探索網絡智能化建設,打造更高效安全的智能信息化體系,提升金融服務能力,為經濟社會高質量發展提供科技力量。