?openGauss 助力郵儲銀行分布式新核心邁向智能運維時代
近日,郵儲銀行新一代分布式核心運維平臺成功投產上線,這是繼郵儲銀行新一代分布式核心系統技術平臺上線之后,取得的又一項重要階段性成果。作為郵儲銀行全行一體化運維體系的重要組成部分,運維平臺將為新一代分布式核心系統提供全方位監測與管控手段,也必將為新一代分布式核心系統全面投產保駕護航。
郵儲銀行新核心系統大管家上崗
新一代分布式核心系統肩負著郵儲銀行向全數字化銀行,智慧化銀行轉型的重任,是未來業務敏捷創新和持續健康發展的基石。但就如一枚硬幣的兩面,新系統的復雜架構,海量種類的設備,靈活多變的業務為系統監控與運維帶來前所未有的挑戰:一個業務需要成百個設備協同配合才能完成,其中每個設備節點都要監控,所產生的數據量暴增,如何歸集、分析有效的監控數據。多中心、多節點、多層級、微服務和容器云帶來的復雜架構,如何維護保證整個系統健康運轉?整個系統500多個數據庫,5000多個實例分布在幾千臺服務器,如何確保這些數據管理的高效有序,不出錯?這一切為業務部署,運維監控和系統配置都帶來幾十倍的復雜度,如果依賴傳統的運維方式,必將難以為繼。
郵儲銀行新一代分布式核心系統運維平臺,正是應對以上的挑戰而生。通過全景可視、靈活管控、量化洞察、智能驅動的創新思維,采用敏捷的互聯網架構和金融級核心技術規范,分別在運行監控的微服務內核中實現應用監控、中間件監控、數據庫監控、日志平臺和鏈路追蹤;在運維管控微服務內核實現分級灰度發布、批處理管控、服務治理,容災切換和數據庫切換。最終達到可見、可管、可計的高效智能化運維。

圖1 郵儲銀行新一代分布式核心系統運維平臺全景圖
openGauss智能運維落地,
初露鋒芒
openGauss在其中除了在核心系統中承擔基礎金融交易數據管理之外,在新運維平臺中的數據庫的智能管控系統扮演著重要角色。在本次上線運維平臺,基于原生機器學習、深度學習結合自研算法對智能索引推薦和基于時序趨勢預測是兩個重要能力,對于提升郵儲銀行分布式核心系統的數據庫平穩運行和高性能數據處理起著關鍵作用。
智能索引推薦,
讓數據庫始終高性能運行
數據庫索引是提升數據增、刪、改、查性能的重要手段。但在實際操作過程中,如何才能識別出哪些表需要建立索引?怎樣的索引才能性能最好?需要數據庫運維經驗豐富的DBA,但這方面人才卻常年不足。因此大多數數據庫多數時間運行在低性能區間,整體性能沒有完全發揮出來。
索引推薦有4大亮點。多集群,細粒度管理:既可以管理多個集群的索引,又可以單個集群內,數據庫,表級的索引管理。
完善的索引總覽:DBA可以清晰地了解到當前系統已建索引覆蓋多少SQL,占比多少?有多少有效索引,多少無效索引,多少冗余索引,讓索引情況一目了然。
索引創建建議:系統通過內置的AI能力,分析哪些SQL需要建立索引,以提升性能。并給出最為合適的索引建議,DBA同時可以看到一條索引會涉及哪些SQL語句,哪些語句會有正向的收益,對哪些語句可能有負向影響。讓DBA知其然,而且知其所以然。
無效/冗余索引:DBA可以在索引推薦系統中查到無效的,重復的冗余索引,可以刪除以避免在插入與更新時對系統性能帶來的影響。
智能索引推薦大幅提升了索引發現和創建的效率,原來只有少數高級DBA在幾個月才能完成的工作,現在可能只需要幾天即可完成,而且系統是動態變化的,openGauss智能索引系統能不間斷進行系統索引監測,對索引進行持續優化,讓數據庫始終運行在高性能區間里。使用時間越長,索引時間越短,優化速度越快。

圖2 郵儲銀行新一代分布式核心系統運維平臺
數據庫索引推薦

圖3 openGauss智能索引全景圖
時序趨勢預測,
讓數據庫穩如泰山
數據庫是新一代分布式核心系統的心臟,openGauss穩定與否關系著這顆“心臟”健康與否,而提前感知風險,化解風險是關鍵。openGauss的時序趨勢預測能力,能幫助DBA提早發現風險,并提醒及時關注,提早處理,把風險消除在萌芽階段,保持數據庫穩定運行。
openGauss時序趨勢預測可以對CPU、內存、QPS、動態內存、事務連接數、事務緩存等多項指標進行監控預測,預測周期短到分鐘、小時,長至月度、年度。
用CPU占用量預測來說明,圖5是在郵儲銀行環境中實測的數據。其中綠色是通過時序預測出來的趨勢,黃色是系統實際運行到當前曲線圖。從圖中可以看到預測曲線和實際運行曲線擬合度非常好,說明openGauss的時序預測質量很高。

圖4 openGauss智能運維-時序趨勢預測全景圖
圖5中設定,對未來2小時進行預測。并基于設定規則進行判斷,對于超過合理范圍內的可能,進行告警,提醒DBA對于資源提早做好規劃和準備,避免系統在高負載下,產生的業務不穩定,甚至宕機等嚴重問題。

圖5 openGauss時序趨勢預測對CPU的預測及實際情況
時序趨勢預測,改變過去DBA被動響應的運維局面,提前感知風險,早做準備,從容應對。既保證資源的合理投入,又確保了系統的穩定安全。是郵儲銀行新核心運維平臺走向以智能驅動運維的基礎。
未來,
更多AI能力賦能郵儲銀行精細化運維
當前openGauss在郵儲銀行新運維平臺上的智能運維能力應用,只是一個開始,除了以上介紹的幾個已落地的能力,目前已有更多智能運維能力已在上線的路上。
慢SQL智能分析:慢SQL是日常數據庫運維過程中十分常見且棘手的問題。openGauss通過內置的AI算法來精準地分析高耗時產生的原因并給優化建議,便于用戶或DBA進行人工分析、處理。
系統故障根因分析:通過異常檢測算法發掘歷史產生故障,然后調用AI算法進行系統的故障分析,綜合系統發生故障時刻的關鍵信息,并根據概率進行排序,精準定位系統故障和給出最佳解決建議。可以發現并診斷已經發生的疑難問題,極大提高數據庫的運維效率。
調優參數智能推薦:參數對于數據庫的性能影響很大,openGauss的智能參數推薦功能,能夠基于當前數據庫運行時的負載,根據預設經驗以及啟發式模型,推薦出較優的參數配置。便于用戶根據參數推薦的結果對系統進行針對性優化,最大化挖掘出系統性能潛力。
這些AI能力,不光是openGauss背后數百名工程師長時間技術研究的結晶,也是GuassDBKernel在工業界十幾年應用的工程能力的積累,兩者相輔相成,將在以郵儲為代表的核心復雜場景中發揮獨特的價值。

圖6 未來 openGauss更多AI運維能力落地郵儲銀行
進步,
與郵儲銀行同步
從新核心技術平臺上線開始,到新核心運維平臺的上線,不到半年時間,兩大重量級系統分別出爐,郵儲銀行對數字化銀行的建設進入快車道,取得了驕人的成績。未來伴隨著國際匯款業務的上線,明年上半年新核心的整體上線,作為郵儲銀行金融數據資產的核心管控數據庫,還有很多發揮空間。openGauss會持續進步,與郵儲銀行發展同步,全力支持加速建設智慧化金融。