作為一家堅持以科技為核心發展引擎的數字銀行,微眾銀行自成立初,就已構建自主可控的分布式核心系統。隨著業務的飛速發展,銀行金融數據中心規模已從“兩地三中心”擴展至“多地多中心”,全分布式架構在性能、彈性、成本、冗余、風險方面的優勢逐漸顯現,與此同時,這也對多活數據中心網絡的健壯性、穩定性、靈活性、響應度提出了更高的要求。為解決大規模多數據中心網絡規模逐步擴大帶來的維護成本高、難度大的問題,提升網絡可視化監控、場景運維、故障定位等多維度能力,微眾銀行網絡團隊經過數年來的努力,建設了一套包括基礎數據管理、基礎監控、自動化運維、網絡可視化、網絡自服務一體化的智能網絡管理平臺。

微眾銀行網絡團隊踐行NetDevOps方法論和SOA設計理念,全自研實現配置管理、場景運維、數據可視化、告警自動化、設備巡檢、網絡架構設計建設等全方位網絡運維功能,提升流程自動化能力,加快多場景響應效率,為運維人員與業務人員提供資產管理精細化、運營數據可視化、處理響應自動化的一站式網絡管理平臺,整體架構圖如圖1所示。

圖1    微眾銀行網絡智能管理平臺整體架構圖

自主可控底層監控

1.多維度設備監控

微眾銀行數據中心網絡設備規模達到數千臺,規模的擴大和監控維度的細化對設備監控提出了更高的性能、存儲等技術要求,因此微眾銀行網絡管理平臺自研支持多協議、多監控平臺的設備監控體系。

設備指標監控方面,平臺支持SNMP、Telemetry網絡協議的指標采集,支持Open-Falcon和Prometheus多監控平臺數據上報,支持秒級采集頻率,支持單設備單周期數千指標采集,針對大規模全光數據中心網絡,基于季節性和趨勢預測模型開發并適配10G/25G/100G等光模塊故障預測功能,實現網絡設備全天候實時監控和異常感知。

設備日志監控方面,平臺已適配全廠商網絡設備,關鍵字庫已積累1100余條,采用緩存技術實現端口震蕩等場景的告警收斂功能,自動過濾設備和鏈路抖動引發的正常告警,減少人工確認告警的成本,提升網絡運維效率。

2.全覆蓋質量監控

針對網絡設備非顯性告警、部分IP流轉發異常等非常規網絡故障,更好實時監控業務數據流在網絡中的轉發質量和路徑,網絡管理平臺設計了多數據中心場景的網絡質量監控方案。

方案針對全網部署大批量、高頻率的質量探測,針對重點區域部署定制特殊探測任務,以業務系統視角方向監控端至端網絡質量,進一步衡量網絡數據流轉發實時狀態。

自研網絡質量探測器組件提供多任務并行、高探測效率的實時質量監控,支持多監控平臺指標上報,秒級完成萬級目標IP探測,單周期內網探測流數量達十萬級,保證每臺設備均有探測流覆蓋,全覆蓋特征將為后續故障定位提供重要參考。

自研網絡路徑探測器組件提供多定制化參數、高效率的網絡路徑信息采集,支持自適應算法發送探測包的方式規避高頻探測時路徑點缺失的問題,能夠在保證準確率的情況下,實現30分鐘內完成數千路徑的完整路徑采集。

NetDevOps一體化運營

1.場景化運維工具

從解決問題的角度出發,微眾銀行網絡管理平臺聚焦于日常場景、應急場景、移動端場景的工具針對性和可用性。

日常場景包括但不限于融入腳本配置生成、審批、復核、下發、驗證等流程實現私有云、公有云工單、變更的全生命周期自動化,提供指令級的風險操作態勢感知等權限控制措施,支持秒級全網撥測和實時路徑可視化展示,提供配置比對、流量統計、專線檢查、VPN檢查、波分檢查等排障工具。

應急場景提供隔離、限速、旁路、切換、刷新等故障處置功能,選擇參數、生成腳本、確認腳本、一鍵下發的快速流程能夠提升響應速度和運維效率。

移動端場景通過接入微信機器人支持在移動端輸入自定義指令實現靈活運維,支持設備指令交互、Ping探測、設備指標圖形展示等檢查類操作,支持設備隔離、防火墻旁路等應急類操作,支持實名權限申請、特殊指令申請等權限操作。

2.可視化運營數據

依托監控告警等大量的運營數據基礎,平臺利用圖形組件,集成設備監控、網絡質量、告警信息、流量統計、區域拓撲等實時數據,為網絡運維人員和業務運維人員提供可視化展示服務。

平臺從設備視角展示設備端口流量、設備日志、登錄日志、Flow數據、上下聯關系等關鍵信息,從專線、VPN視角展示流量、相關網絡設備等信息,利用地圖組件展示機房內、機房間、公網等場景的動態網絡質量監控數據,利用拓撲組件實現機房維度、核心區域維度的網絡設備連接關系、鏈路流量、告警等信息的可拖拽式展示,利用事件流轉組件實現告警事件觸發、根因分析、自動化處置、處置結果的全流程展示。

平臺同樣提供為業務運維人員提供業務視圖功能展示,支持自定義監控視圖(如業務專線流量、設備端口流量等),支持多數據源、多周期、多維度的圖形數據對比,對外提供定制化感興趣指標的數據拉取接口,協助業務快速感知網絡流量實時狀態。

3.自動化告警處置

告警處置的準確性和高效性是網絡管理平臺智能程度的關鍵體現,平臺針對常見告警事件實現自動化處置,統計分析后執行檢查、隔離、旁路等自動化指令,全流程實現可配置化和可視化。目前,平臺已支持20余種自動化指令、20余種告警自動化場景,基本覆蓋常見的告警場景。

特別是,在網絡質量監控基礎之上,平臺基于多場景質量探測的故障診斷能夠實現數據中心內部無設備顯性告警情況下的故障快速定位,通過部署大批量實時探測數據流,使全三層CLOS網絡架構中每個網絡設備均被至少2條探測路徑覆蓋,結合具體故障場景采用異常流公共路徑點及最短路徑定位方法(如圖2)與防火墻訪問關系矩陣定位方法(如圖3)快速找到故障網絡設備或防火墻,并觸發下一步自動設備隔離或人工處置。該自動化故障定位方案在實際生產環境中能夠達到30秒定位、1分鐘隔離的快速網絡設備故障響應。

圖2    異常流公共路徑點及最短路徑定位方法圖

圖3    防火墻訪問關系矩陣定位方法圖

4.精細化流量分析

精細到端口維度的網絡流量分析是一種深入了解和優化網絡性能的方法,通常通過sFlow和netFlow兩種流量監測技術來實現基礎數據采集,但也通常面臨原始數據量巨大的問題。為此,平臺結合Flow采樣數據和ELK大數據組件,實現精細到端口的帶寬值數據計算,為網絡帶寬使用量和資源成本可視化提供可靠數據基礎。

平臺支持自定義參數sFlow和netFlow配置并快速下發至重點設備,采集重點網絡區域的數據流,利用Logstash實現Flow信息的采集、解析和上報,利用ElasticSearch實現Flow數據的大體量存儲和統計計算,利用Kibana實現多維數據可視化功能。目前長期部署的重點網絡區域包括骨干網、公網等計費場景,每日采樣Flow數據量可達千萬級,平臺基于流數據計算精細到業務IP和端口的分鐘級帶寬值、天級帶寬95峰值和月度計費,提供多周期、多維度的流量數據和賬單可視化視圖、查詢服務和郵件推送服務。

5.定制化設備巡檢

通常由設備廠商提供的網絡設備巡檢系統以靈活高效的特性逐漸成為網絡運維人員的得力工具。然而,隨著網絡架構的復雜化和設備廠商的多元化,廠商提供的季度巡檢系統逐步顯現出功能局限、成本過高的弊端。

為此,平臺集成任務編排和低代碼腳本能力,將周期性、重復性的設備巡檢工作,轉化為標準化、自動化的批量任務,支持管理員編寫或導入簡易巡檢腳本,用于檢查設備的運行狀態、連通性和多維性能指標。此外,平臺支持按需配置重點和全量巡檢任務,提供分析、比對、評分等數據處理能力,提升設備巡檢自動化程度,利用自研能力打破廠商壁壘,降低運營成本。

在具體功能特性方面,較傳統廠商季度巡檢系統,平臺巡檢模塊支持自定義周期、自定義范圍、多廠商設備適配的批量任務編排,支持網絡設備與專線巡檢指標的差異定制化和覆蓋率檢查,支持自定義可視化報告、郵件、工單、開放接口等結果輸出,支持定制化管理員提醒功能,實現以設備資產為中心視角提升運維管理質量,發揮資產數據效能。

架構規劃與平臺部署

網絡架構設計、建設、驗收是企業級數據中心新建或擴容建設的通用流程,平臺提供從網絡架構規劃、網絡建設、擴容及測試驗收的工作流服務,極大程度地實現高效、規范和可追溯的工作流程,整體架構圖如圖4所示。

圖4    網絡架構規劃、建設、驗收工作流服務整體架構圖

1.靈活的架構設計

平臺通過將高低階設計方案解耦,提供靈活的架構設計功能,更好地適配多廠商及信創設備的交付。用戶可以根據實際需求設計出的網絡架構,包括物理設備、邏輯設備、網絡連接和服務分配等。在新建項目階段,系統能夠協助用戶進行需求分析和規劃,并提供項目進度追蹤和資源分配的支持。對于擴容需求,系統能夠評估現有架構的可擴展性,并提供資源配置和擴容過程的管理,支持自動化地進行驗證,確保架構設計的可靠性和可擴展性。

2.高效的架構部署

平臺提供自動化的架構部署流程,將設計完成的網絡架構快速、準確地部署到實際的網絡環境中,通過預先定義的任務和工作流程,利用5G+ZTP部署方案實現自動化地執行設備批量配置和服務部署等步驟。高效、準確的部署流程可以減少人工干預,降低人力和時間成本,并提供實時的部署狀態監測和錯誤處理。

3.標準的測試驗收

平臺提供一套標準化的軟硬件資源、網管監控、配置的規范化驗收流程,以確保每個網絡架構在驗收過程中都能經過全面的測試,避免交付階段引入問題,消除人為因素和疏忽所帶來的錯誤風險,保證了驗收測試的一致性和準確性。

總之,平臺提供的規劃、建設、驗收的一體化流程服務從交付成本、建設效率和交付質量上獲得了整體收益,通過集成這些關鍵環節,促進數據中心網絡建設項目的高效進行,提高網絡架構設計和實施的質量,為企業數據中心網絡建設提供全方位的支持。

以實際業務需求為驅動,從數據中心網絡自身的特征出發,微眾銀行在金融科技創新的摸索過程中,集成了一套包括網絡設備監控、網絡質量監控、場景運維工具、運營數據可視、關鍵數據分析、工單和變更流程管理等功能的智能化網絡管理平臺,在未來也將持續豐富設備監控與質量監控維度,提升自動化告警響應能力,完善監控運維的流程化、規范化,為銀行業務的穩定運行保駕護航。