實戰 | 中銀金科隱私計算產品建設實踐
文 / 中銀金科 張輝 張翼飛 張鳴皓
當前信息化與經濟社會持續深度融合,數據作為關鍵生產要素的作用逐漸凸顯。與此同時,數據泄露事件層出不窮,數據隱私安全面臨巨大的挑戰。在這樣的背景下,《網絡安全法》《數據安全法》《個人信息保護法》相繼出臺,旨在嚴格約束企業的個人信息處理行為。隱私計算是保護數據不出界而又能跨界流通的新興技術,它拋棄了交換簡單加密個人數據的技術邏輯,在數據流通過程中記錄不可逆的中間計算結果,在密文狀態下完成規則及模型的計算,從而保護數據的隱私和安全。截至目前,金融行業已經有數十個相關項目在全國陸續落地,資本也已然嗅到產業機遇,該領域的創業公司遍地開花。
中銀金融科技有限公司作為中國銀行全資的金融科技子公司,立足服務集團,同時向外拓展,已啟動隱私計算技術研究和應用探索,現正在進行基礎平臺迭代和多個創新實踐,為集團內乃至金融業的數據合規使用、業務創新提供有力支撐。

解決實際業務問題驅動產品迭代
以促進數據共享為手段,業務賦能為目標,中銀金科在集團范圍內積極開展業務調研后,選擇將消費貸風控、銀行高凈值客戶挖掘兩個業務場景作為切入點,通過總結二者共性業務模式,確定了縱向聯邦學習為首要技術方向,再向下逐步分解模塊、技術組件、算法等實施內容,最終形成了隱私計算平臺V1.0版本。
在消費貸風控領域,平臺V1.0主要賦能貸前和貸中風控。貸前階段,將客戶在消金公司申請貸款時記錄的基本信息和客戶在行內的資產、交易流水等數據進行跨域融合后,再聯合建模生成評分作為審批參考,以此提升貸前審批評估能力。貸中階段,將消金公司自有的客戶賬戶、行為數據與銀行內記錄的客戶資產、交易流水數據進行聯合建模,再將模型評分用于客戶額度調整、利率優惠、高風險客戶賬戶凍結,通過更豐富的數據維度,提高對客戶資質以及潛在風險的識別能力。
高凈值客戶的挖掘主要針對金融機構的長尾客戶。金融機構有大量不活躍的長尾客戶,僅依靠內部數據無法將其有效識別,必須借助航空公司、運營商、奢侈品商品銷售公司等外部數據,在數據不出域的前提下,通過聯邦學習技術構建出高凈值用戶挖掘模型。首先,金融機構與外部數據源利用隱私求交技術對跨域數據進行安全融合,確認共有的交集用戶。之后,使用同態加密、秘密分享等密碼學技術,對交集樣本特征跨域分箱,解決特征之間量綱化問題。在此過程中雙方僅能夠獲得交集樣本的WOE、IV等統計信息,不會逆推出任何原始數據和分箱結果。最后,對預處理后的結果進行模型訓練,訓練過程中參與方的原始數據都保留在本地,僅以數據碎片、加密等形式對外交互模型的中間梯度,保證在計算過程中,參與方僅能獲得計算結果,無法反推各方原始數據。通過上述橫向聯邦學習過程,既保護了客戶個人信息安全,也實現了金融機構挖掘高凈值用戶的需求。
敏捷實施穩步提升平臺能力
隱私計算平臺的使用者為數據科學工程師,平臺為其快速構建數據模型而服務,其構建具有數據科學的迭代性本質,技術架構和構建過程一定是敏捷靈活的。關鍵組件、模型、算法可快速標準化配置和管理是企業建設的核心和目標。從技術工具來說,隱私計算平臺涉及的技術棧廣而深,是多方安全計算、聯邦學習、大數據、區塊鏈、密碼學、分布式計算、高吞吐通信、機器學習、Web等技術的綜合運用。因此,采用SFV原則來指導產品迭代,即Small、Fast、Validation。先用小的業務目標切入,快速原型迭代,證明有效后進行擴展和優化。
回顧隱私計算平臺1.0版本的構建過程,從隱私求交、隱匿查詢、聯邦線性回歸、聯邦邏輯回歸、聯邦樹模型,再到聯合求和,其迭代過程都是在堅持SFV原則下前行的。首先,先對FATE進行驗證和分析。FATE是非常優秀的開源聯邦學習項目,全部基于PYTHON構建,較完備地實現了聯邦學習的基礎功能。但其項目實現較為復雜,任務調度工具、數據類型、并行計算引擎緊密耦合在一起。基于FATE構建產品,一方面,產品的前期學習和后期維護成本將會很高,另一方面,FATE采用的某些組件與公司的企業級架構要求不相符合,例如消息中間件、調度引擎等。
因此中銀金科決定采用自研路線,通過初期建立一個輕量級應用,再逐步優化擴充,增強自主可控能力。第一階段的目標實現多方數據融合(隱私求交)。核心技術要素由GRPC通信協議和RSA算法構成。GRPC基于HTTP2.0協議,用于大數據的雙向傳輸,其編程實現較為直觀友好,可快速進行功能驗證,非常適合聯邦學習的場景。另一條通信路線基于MQ的通信模型,可增加吞吐量和程序解耦,納入了后續的產品計劃當中。RSA算法的指數特性是安全求交策略的核心,利用這個特性,一方隨機產生的用于混淆數據的大質數,可安全傳遞后在多方使用,確保多方數據基于相同規則進行數據混淆加密,這是求交集的基礎。在具備了數據融合能力之后,立即開展聯邦學習線性回歸算法,其核心原理簡單來說就是將分布式建模的中間過程進行同態加密。同態算法庫采用Pallier,該算法庫較為成熟,使用簡單,可完成安全計算,適合聯邦學習的快速構建。在第二階段,產品的可行性以及聯邦學習的框架思路已經得到驗證。第三階段是一個里程碑的階段,產品化、組件化、模塊化、數據分箱等功能和優化都是在這一階段并行完成。產品組分三組同步行動,一組充分調研市場產品和集團內的用戶模式,致力打造最優用戶體驗的建模平臺;第二組繼續進行邏輯回歸、數據分箱、樹模型等其他算法和功能的開發;第三組對產品的架構進行優化,以支持模塊的可配置化、提升性能。至此,隱私計算平臺1.0版本完成。

多方合作,前瞻布局
隱私計算平臺建設不是一項孤立、短期的工作,其產品演化是伴隨著業務種類發展、數據規模增長、行業規范逐步清晰而進行的。可以預見,超大規模數據安全計算性能和標準通信協議將是下一步兩大技術挑戰。中銀金科將選擇優秀技術廠商開展合作,快速拓展技術的寬度和深度,提升交付能力。多方安全計算,超大規模數據集性能提升,平臺間互聯互通,強化性能的一體機設備研究是下階段合作的重點。業務方面,中銀金科將繼續探索業務場景,對接集團內外的數據供給側和需求側,提升集團內數據分析的廣度和深度。在外部,積極參與政府、行業組織的聯合實驗室、標準制定等工作,實現資源互補,強化技術實力,孵化創新應用場景,賦能產業發展。