實戰 | 湖倉一體助力平安產險數字化轉型
數據大爆發的時代,大數據、云服務、人工智能等前沿技術不斷成熟并持續賦能各行各業,同樣也加速了保險行業的數字化轉型進程。基于對數字化浪潮的前瞻判斷,平安產險布局以“場景化”“數據化”“智能化”為核心的數據智能體系建設,堅持“以客戶為中心、全面智能化”兩大主線,圍繞“數字化核保、數字化理賠、數字化服務、數字化續保、數字化運營”五大應用場景,不斷深化各業務領域的數字化轉型道路。
在近幾年的數智化體系建設過程中,建成的數據倉庫體系涵蓋了客戶、標的、產品、服務、財務等10多個業務主題,構建了客戶、產品、案件、車輛等方面的知識圖譜體系,支撐了AI模型的大規模應用,為全面實現業務數字化和智能化奠定了良好基礎。但整個體系仍存在5大痛點。
首先,數據時效慢。時效是數據價值的生命線,時效越高,數據價值越大。以保險營銷服務為例,周期較短的營銷活動,實時數據可以為業務帶來不同產品在不同地區的銷售實時分析,使營銷活動在很短時間內促成熱門產品或爆款產品,而不至于在活動周期接近尾聲,管理人員才能全局把握產品的銷售情況。
其次,數據不一致。業務數據主要存儲在關系型數據庫,后續同步到大數據平臺進行數據清洗加工、OLAP分析、指標構建、數據決策等處理。然而財產險業務數據量級過于龐大,且數據同步工具對數據一致性保障能力較低,導致業務數據庫與大數據平臺兩端的數據不一致,嚴重影響數據計算結果的可信度。
第三,存算成本高。存儲方面,多狀態的業務數據存在重復存儲的問題;算力方面,大數據平臺仍使用算力低的計算引擎MapReduce。隨著業務的不斷拓展,數據量不斷膨脹,高昂的數據存儲、計算成本尤顯突出,降本勢在必行。
第四,數據利用率低。相當大一部分業務數據未采集入倉,數據未能有效利用。或者數據入倉后缺乏規范化管理,例如元數據信息不準、數據字典不完善等問題,導致數據人員找不到數據,或者是找到數據看不懂、不可信的用數難情況。
第五,大數據與AI應用割裂。數據是AI的基礎,而AI的應用又促進業務產生更多的數據。當前平安產險融通多業務多渠道數據,為AI提供深厚數據基礎,但AI獲取到數據后,缺乏回流大數據的服務環節,數據不閉環導致AI模型準確率難以持續提高。
湖倉一體系統架構簡述
結合平安產險數智體系5大痛點,對大數據技術做全面調研,通過對湖倉一體技術的產生背景及其架構原理做出深度剖析,最終選定該項技術來解決以上痛點問題。
隨著近些年來業界大數據技術的不斷演進,在數據分析利用方面,其廣度和深度都在不斷地向外延伸,數據的類型、來源和分析場景都更加多元化,同時基于異構數據的融合分析也成為數據價值挖掘重點關注方向。為了滿足逐漸復雜的數據分析需求,企業的數據平臺架構也在持續演進,單一的數據湖和數據倉庫架構已無法有效滿足未來數據分析和智能化應用的發展趨勢,而湖倉一體打破湖與倉之間的技術壁壘,作為一種新型開放式數據平臺架構,近兩年來逐漸在業界受到推廣應用。
湖倉一體并非簡單機械地互通數據湖和數據倉庫的數據,而是將數據湖和數據倉庫的優勢充分結合,其構建在數據湖低成本的數據存儲架構之上,又繼承了數據倉庫的數據處理和管理功能,兼容數據湖數據多樣、靈活計算和數據倉庫質量安全、高效治理等各自體系的優勢,讓數據和計算在湖和倉之間自由流動。基于開源生態的主流湖倉一體解決方案,采用存算分離的架構,通過構建統一的元數據管理體系,對上層計算引擎實現抽象,用戶可以根據自身需求使用不同引擎進行湖倉數據的統一處理和交互式查詢,對外提供不同類型的服務。湖倉一體平臺具體架構如圖1。

圖1 平安產險湖倉一體架構圖
通過對元數據的統一抽象,實現海量多源異構數據的統一存儲及治理,避免數據在湖倉之間重復存儲,并惡化為數據沼澤。在計算層利用統一的資源調度框架來支持多計算引擎的兼容及彈性計算。通過對底層架構的抽象,向上層應用提供統一易用的交互式數據分析查詢接口,可以實現多模態數據的融合分析,支持離線、實時多樣化的業務處理鏈路。該架構既能發揮出數據湖的靈活性與生態豐富性,又能兼容數據倉庫的穩定性與企業級數據治理能力,幫助企業建立數據資產,實現數據業務智能化,推動數據驅動下的企業數據智能創新,全面支撐企業未來大規模業務智能落地。
湖倉一體在平安產險數字化實踐
針對湖倉一體基礎建設和生產實踐,產險在業務營銷、財務、資源、理賠等多種場景下進行了應用,在數據基礎生態和平臺降本增效等方面的能力得到快速發展和沉淀。
1.提升數據時效,支持業務營銷
數據實時應用是產險數字化轉型過程中面臨的一項挑戰,傳統的數據加工鏈路相對較長,數據應用的時效具有一天以上的延遲性,數據的實時加工應用是業務未來發展的必然要求,但實時的技術架構與平臺現存的離線架構存在著割裂的矛盾問題。
平安產險在建設湖倉一體架構時,應用具備前后兼容的數據湖組件來同時支撐實時和離線架構,可以有效保護現有數據平臺資產,實現資產利舊,并完成對業務應用的基礎數據支撐。數據湖和數據倉庫采用一體化設計,減少數據加工的鏈路,關鍵業務線加工鏈路時效從1天提升至1小時內。根據業務場景的數據加工和應用特性,其中部分業務線可實現全鏈路實時計算,其指標結果、報表明細可實時地服務于上層應用的用數人員。
以平安產險518、618等節日營銷活動為例,如圖2所示,離線計算架構升級為實時計算架構,活動當日實時總成交量、機構隊伍實時交易量、活動營銷實時轉化率等指標,可以實時服務于現場的運營團隊,支撐其對活動進度的整體把控,輔助其完成對分支機構和各渠道的活動激勵加權,以及實時挖掘爆款產品可能性。

圖2 活動運營大數據架構升級
2.數據一致
傳統的數據入湖在數據傳輸過程中難免會出現數據一致性的問題,同時缺乏有效的數據監控校驗的手段。以上問題會引起數據丟失的現象,導致全鏈路任務的重新計算,不僅延遲了數據的應用時效,還將會帶來額外的計算資源成本和數據校驗的人工成本。
平安產險構建新型湖倉一體平臺架構,其數據同步入湖的過程支持使用Flink-CDC(Change Data Capture)技術來實時監測并捕獲源端數據庫的動態變化,通過解析數據的動態變化來完成數據的同步,為數據開發人員提供一種標準化、一站式、端到端的數據同步方案。并且數據湖使用的Flink-CDC技術支持“精準一次”的語義,可以保證捕獲的數據變化信息在傳輸過程中不會丟失,從而確保數據的一致性。
以平安產險核心財務的業務場景為例,單張核心業務表數據體量達到200億,且對數據的一致性要求達到100%,以往數據同步出現數據丟失的現象,通常由下游業務人員核對后才能發現,補救措施需從源端數據庫進行業務數據的全量抽取,在大數據平臺完成數據的覆蓋寫入,后續加工鏈路的任務需全量重新計算,數據的應用時效往往延遲幾天。而應用湖倉一體架構后兼容新型Flink-CDC的數據同步技術,從源頭保證數據計算結果的可信度,降低了后續一系列的數據處理復雜度。
3.資源降本
隨著大數據業務的不斷拓展,高昂的數據存儲、計算成本勢必成為平臺亟待解決的難題之一。在計算方面,平安產險大部分歷史任務仍然是MapReduce作業,不僅CPU算力利用效率低,而且任務耗時長。在存儲方面,數據倉庫需要對業務數據的多種歷史狀態進行存儲,對于數據量十幾億甚至幾十億的大表來說,多狀態、多版本的數據保存往往會帶來高昂的存儲成本。
平安產險建設湖倉一體架構向上兼容多種計算引擎,通過對湖倉數據構建統一的元數據管理層,實現對多種計算引擎的解耦,高度統一用戶的開發體驗。數據不僅可以在湖倉之間無縫流轉,同時也支持數據開發人員使用多種高算力引擎。例如Spark、Flink、Presto對數據進行提取與分析,極大地提升了任務計算效率,降低了算力成本。同時,湖倉一體架構支持對數據進行多狀態版本的存儲,避免全量數據的重復存儲,降低了存儲成本。目前產險數據湖已完成三分之一的作業從Hive引擎遷移至Spark引擎,所屬改造任務的時效提升60%以上,其CPU算力成本節約50%以上。
4.提升數據利用率
當前平安產險總數據量級較大,如將每個數據塊的價值疊加利用,則應用總體價值十分可觀,因此提升數據利用率勢在必行。提升數據利用率,則需要優先確認數據來源、數據類型、數據潛在價值等,這樣才能確保數據被高效地查詢檢索、讀取加工、分析利用。例如理賠的圖片、音視頻數據分散在多個存儲系統,數據的存放位置、數據結構的復雜程度、數據是否值得挖掘以及參與AI模型訓練,以上問題都是理賠數據分析師和算法師常遇到的痛點。湖倉一體技術在理賠業務的落地,較好地解決了這些痛點。首先,具備結構化和非結構化數據集成的平臺能力,有統一的元數據為分析師和算法師檢索數據,解決查數難的問題。其次,湖倉一體技術與高算力引擎結合度很高,為分析師和算法師提供對數據結構、內容快速探索能力,解決讀數難的問題。第三,分析師和算法師了解數據結構及內容后為數據打價值標簽,可提升數據的可用率和復用率。
5.大數據+AI提升業務能力
人工智能和機器學習已經在不同程度地影響著各行業的業務模式,AI通過處理和整合數據來支持戰略決策的制定,其規模和速度遠遠超過了傳統技術。而平安產險擁有海量數據,將能從“產品+AI”中獲得較大的收益。
以平安產險AI外呼為例,從數據收集、數據融通、模型訓練、智慧化調優、模型應用5個方面組合成大數據+AI的產品應用環路,如圖3所示。

圖3 大數據+AI能力在產品上應用環路
數據收集:通過數據采集工具,完成所有產品數據的采集和接入。
數據融通:基于湖倉一體技術,整合了產險內外數據,讓數據價值更具體化、信息化,為AI智慧學習提供數據基礎。
模型訓練:通過不斷迭代的數據,持續升級AI的模型,使得AI在海量數據中形成有用的知識,讓AI更理解客戶的保險需求。
智慧化調優:AI“吸收”海量知識,形成自己智慧,可以“了解”和“讀懂”投保人的保險需求。
模型應用:具備“智慧”的AI人,則如同自然人般為客戶服務,指導客戶完成投保流程;AI的工作效率更高,其出錯率相對自然人更可控。
總結和展望
湖倉一體技術在平安產險的成功落地,不但解決了數據時效性、數據準確性、數據成本高等方面的問題,還通過大數據與AI技術的充分融合,大大提升了業務的智能化水平,為公司的數據化轉型提供了關鍵的驅動力。
數字化轉型在各行各業正如火如荼地進行著,面臨市場和行業格局的變化,唯有不斷提升企業自身的經營水平,才能在這場潮流中激流勇進、贏得先機。科技在這場變革中顯得越來越重要,“科技是第一生產力”的內涵在新時代的潮流中衍生出了新的生命力。而大數據與人工智能技術,就是賦予這句話新生命力的核心力量。在金融企業的數字化轉型浪潮中,唯有牢牢把握住大數據與人工智能技術,并持之以恒地投入和創新,最后必定如一座孕育已久的火山一樣,在企業經營中迸發出驚人的能量。