實戰 | 網絡流量采集與分析助力運維能力提升
近年來,隨著銀行業務的發展,需求的多樣化,特別是互聯網業務的爆發式增長對銀行信息系統的敏捷擴張能力提出了更高要求,銀行紛紛基于云架構的思維來構建新一代數據中心。郵儲銀行也正經歷改造傳統網絡架構,建設面向多業務、支持多點多活數據中心的新型網絡架構變革。在此過程中,網絡運維能力也在同步建設、轉型和提升。加大網絡流量采集建設和可視化分析技術應用,以實時查看數據中心內各種類型設備的網絡性能、鏈路狀態和業務系統運行情況,成為網絡運行維護的重要手段。
網絡精細化運維的挑戰及應對
數據中心網絡運維數據類型多種多樣,網絡運維監控工具和手段不斷豐富,傳統的基礎網管監控工具,通過SNMP獲取網絡設備硬件的運行狀態、鏈路的使用狀態等,能夠實現網絡基礎數據源的運維監控。隨著DevOps和敏捷開發的廣泛采用、新系統上線和應用變更頻率越來越高、網絡設備和應用數量越來越多,應用間的訪問關系和網絡路徑也變得越來越復雜,網絡上對流量和原始數據報文的監控與深入分析需求也越來越重要,尤其是針對網絡數據包中IP流量、TCP連接、網絡延遲等精細化的網絡監控分析,需要形成以提高網絡性能和服務質量為目標的精細化運維。運維視角從硬件資源基礎數據監控提高到全面的網絡業務服務視角,運維體系建設也從常規的指標監控角度轉變到全景業務可觀測性維度。
為迎接挑戰,提高網絡精細化運維水平,郵儲銀行數據中心在網絡流量采集與分析方面開展探索,以網絡鏡像流量為基礎數據源,采用流量分析技術進行網絡性能和服務質量監控。網絡流量采集通過部署采集設備TAP交換機來實現,對流量數據包處理和標記后再轉發給流量分析設備進行實時解析。流量分析設備能夠通過解析各種通用協議和業務協議,分析原始數據包內容,獲取到網絡層、傳輸層以及應用層元數據等多個維度的全量信息,再根據規則對這些信息進行指標歸類統計、多維度KPI運算、網絡及應用性能評估、業務多段關聯對比分析等方面加工,從而實現網絡狀態、應用狀態以及業務狀態的監控。在發現異常行為和安全事件時,能夠及時掌握數據中心網絡中承載的業務流量特征,并據此對網絡配置進行優化調整,及時解決網絡故障風險和隱患,最終實現保障數據中心核心業務應用的穩定運行。對于銀行數據中心而言,提高網絡流量采集和分析能力,是進行網絡深度分析、處理各種疑難問題、實現運維可視化、提升運維能力必不可少的手段。
網絡流量采集標準化建設
利用交換機鏡像技術建設獨立于業務網絡之外的流量采集網,一直作為可視化運維的基礎,對原始流量數據進行統一采集,并且根據不同流量分析工具的需求,對網絡流量進行去重、切片、脫敏、移除數據包包頭封裝等操作,將分析工具常用的數據包梳理工作卸載到流量采集網上統一實現,提升流量分析工具的分析效率。統一的流量采集網,使數據中心全網流量可視化成為可能,可實現不中斷業務的實時監控,并且根據需求隨時添加新的分析工具對網絡進行分析和監控。流量采集網的建設,使多種類型的分析工具可以便捷地共享流量采集層面數據,并且可以優化工具的部署和使用,節約成本。
流量采集網的設計采用了“SpineLeaf”架構,按照接入層、匯聚層和監控輸出層三層結構部署,在多個數據中心間形成了標準化的部署架構。技術實現上采用集群部署方式實現TAP交換機智能堆疊或虛擬化部署,將接入層、匯聚層和監控層TAP交換機組成一個全連接的智能負載分流的冗余集群架構。針對同城數據中心間的流量采集,采用波分設備將跨中心Spine設備互聯,跨數據中心組建集群,實現流量采集層和輸出層共享。流量采集網部署架構如圖所示。

圖 流量采集網部署架構
郵儲銀行數據中心多中心流量采集網采用上述標準化方案建設后,流量采集能夠實現:一是架構統一、配置簡化,實現標準化管理。流量采集網采用集群技術,可實現端口到端口的流量轉發,簡化配置以及問題排查。二是擴展性較高,設備橫向擴展較容易,Leaf設備可直接上聯到Spine設備加入集群。三是鏈路冗余高可用,采用多Spine方式部署,流量采集層至輸出層的流量通過Spine進行負載轉發,實現架構高可用。
網絡流量分析實踐與應用
郵儲銀行數據中心網絡流量分析實踐與應用,主要分為兩個階段。
第一階段是部署流量分析設備,建設網絡流量分析系統。通過將網絡交換機流量鏡像輸出到流量采集網,進行匯聚、復制、過濾、打標簽等統一處理及規范化輸出,按需提供給流量分析系統實現網絡流量的采集、存儲和分析展示。本階段主要實現網絡流量統計與應用展示,逐步實現了覆蓋骨干網、互聯網及數據中心網絡等多個重要網絡區域的流量分析功能,為我行的日常網絡運維、新業務上線、年終決算/雙十一等重保、線路容量規劃報表等場景提供了及時有效的保障。
網絡流量分析系統在我行使用場景中有兩個方面的重要應用。一個場景是通過Tap交換機對接入的每個鏡像流量打上不同的Vlan標簽,在網絡分析設備采集探針接收到流量采集網的流量時,通過識別Vlan標簽可以區分流量來源,這在日常排障分析中作用明顯,可以快速定位到發生網絡問題的故障點,判斷網絡是否有丟包以及具體的丟包點。另外一個重要的場景是,我行數據中心骨干網已經完成SRv6技術改造,實現了更高效率的網絡傳輸和帶寬使用,網絡流量分析系統能夠準確識別SRv6流量并解析內層業務IP信息,并提供SRv6類型、剩余跳數、SRv6path等,實現骨干網的流量可視化分析,同時還能通過SRv6的opcode數據識別和區分不同區域或功能區的流量,實現了骨干網線路更加精細化的監控和管理。
第二階段是以網絡流量分析系統為工具,通過對網絡流量原始數據報文深度解析,實現對IP流量、TCP連接、網絡延遲等精細化的網絡服務質量的監控分析,希望能與應用系統更緊密結合、圍繞業務運行提供有益的網絡分析能力和數據。
為此,我們開展了多方研究和技術創新,不斷拓展網絡流量分析應用場景,持續提高運維能力。
一是研究針對業務系統單筆交易路徑追蹤分析。采用“網絡+應用”智能關聯全流量分析技術實現業務單筆交易追蹤,即通過業務的交易流水號等標識對單筆交易的關聯追蹤,自動化展示單筆交易所經過的網絡路徑,展示出各個網絡節點針對交易的TCP連接、網絡時延、處理時間等精細指標,并進行交易全鏈路的關聯分析,自動評估各節點運行狀況,快速定位導致單筆交易異常的關鍵節點。通過研究測試,能夠實現根據流水號、卡號等交易特征進行關聯,進行跨數據中心的單筆交易全路徑評估及分析,提高網絡精細化運維能力。
二是試點創新網絡會話級的全路徑關聯追蹤分析。從網絡原始數據包入手,借鑒Telemetry技術思想,采用智能標簽關聯和會話算法技術對網絡原始數據包進行標準化和統一化處理,實現更快速的數據傳輸和極高的數據處理性能,對網絡流量分析系統進行技術更新和優化,實現網絡會話級的關聯追蹤分析。經過試點測試,對業務系統關鍵網絡節點流量通過七層解碼交易流水,其他節點通過四層解碼,能夠實現性能和功能的平衡,同時和具體的業務系統松耦合,在脫離交易流水的情況下也能實現業務系統全路徑的網絡會話級關聯追蹤分析,普適性更強。除了實現路徑會話追蹤,還可以進行流式實況會話分析、多維度統計分析,網絡會話的分析能力更強。
總結與展望
在網絡架構變革和創新過程中,郵儲銀行持續關注提升網絡精細化運維能力。網絡流量采集網建設已初具規模和多中心標準化部署,網絡流量分析技術和工具的應用,也逐漸深入細化到網絡數據包層面,積極探索網絡會話、業務交易關聯的流量分析,成為網絡配置優化調整,以及復雜網絡環境下開展快速、精準故障排查的得力工具。隨著數據中心規模不斷擴大,承載應用越來越豐富,面臨的挑戰也越來越多,下一步研究重點將圍繞云平臺虛機流量的采集與分析、云網融合架構下的流量分析等,不斷優化和創新,為全行業務穩定運行保駕護航。