<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    數據脫敏

    C.1概述

    金融業機構在開展金融數據安全防護工作過程中,對敏感信息的保護是其中尤為重要的環節。金融業機構類型眾多且數量龐大,隨著我國信息化與數字化建設進程的不斷加快,金融產品與服務的形式和內容也愈加多樣。金融業機構在業務開展和日常運營過程中,積累了大量的數據,這些數據大多直接關聯金融消費者的財產和數據安全,甚至關乎國家經濟建設與社會穩定,具有較強的敏感性。因此,對敏感信息的保護已成為金融數據安全應用過程中需首要解決的問題。金融敏感信息通常包括國家規定的敏感信息、業務數據的敏感信息,以及個人金融信息的敏感信息等,在實際應用過程中,需要根據實際業務場景、數據安全級別等因素,選擇適當的數據脫敏方式防止敏感信息泄露。

    C.2數據脫敏的定義

    數據脫敏是指從原始環境向目標環境進行敏感數據交換時,通過一定的方法消除原始環境中數據的敏感性,并保留目標環境業務所需的數據特性或內容的數據處理過程,常用數據脫敏方法技術見表C.1。本附錄中數據脫敏主要針對金融行業中的個人金融信息和金融重要數據,其中個人金融信息的脫敏是金融領域隱私保護的一種常見的方式,金融業機構借助數據脫敏技術,消除個人金融信息敏感性,有效保證個人金融信息在企業數據分析、監管協作、開放測試等過程中的安全性。

    數據脫敏

    C.3數據脫敏基本原則

    數據脫敏要確保消除數據的敏感性,盡可能平衡數據脫敏花費的代價、使用方的業務需求等多個因素。所以,為了確保數據脫敏的過程及代價可控,得到的結果正確且滿足業務需要,在實施數據脫敏時,遵循以下原則:

    a)有效性:指數據脫敏過程的有效性,原始數據經脫敏處理后,原始信息中包含的敏感信息已被消除,無法通過處理后的數據得到敏感信息,防止使用非敏感數據進行推斷、重建、還原敏感原始數據。

    b)高效性:指數據脫敏過程的高效性,通過借助計算機程序實現脫敏自動化,并可重復執行,在不影響有效性的前提下,平衡脫敏的力度和代價,將數據脫敏工作控制在一定的時間和經濟成本內。

    c)可重現:即相同原始數據在配置相同算法和參數的情況下,脫敏后的數據具有一致性,隨機類的算法除外。

    d)關聯性:對于結構化和半結構化數據,在同一數據表中某字段與另外字段有對應關系,如果脫敏算法破壞了這種關系,該字段的使用價值將不復存在,通常在進行數據統計需要參考量的情況下,數據的關聯性較高。

    e)可配置性:指數據脫敏過程的可配置性,由于不同場景下的安全需求不同,數據脫敏的處理方式和處理字段也不盡相同,因此需通過配置的方式,按照輸入條件不同,生成不同的脫敏結果,從而可按數據使用場景等因素為不同的需求提供不同的脫敏數據。

    C.4數據脫敏方法技術

    C.4.1泛化

    泛化是指在保留原始數據局部特征的前提下使用一般值替代原始數據,具體的技術方法包括但不限于:

    a)截斷:直接舍棄業務不需要的信息,僅保留部分關鍵信息,數據截斷后的結果往往無法較好地保持原有業務屬性,因此在對數據截斷時,根據數據特點酌情選擇截斷位數。

    示例:1)將手機號碼12300010001截斷為1230001。

    2)把身份證號碼123184198501184115截斷為198501184115。

    b)偏移取整:按照一定粒度對數據進行向上或向下偏移取整,可在保證數據一定分布特征的情況下隱藏數據原始屬性,偏移取整的方法主要通過舍棄一定的精度來保證原始數據的安全性,可一定程度上保持數據業務特性上的分布密度,適用于粗略統計分析的場景。

    示例:1)將時間2020032218:08:19按照10秒鐘粒度向下取整得到2020032218:08:10。

    2)將金額5123.62元按照百位粒度向上取證得到5100元。

    c)規整:將數據按照大小規整到預定義的多個檔位,規整的方法盡管保持了一定的業務含義,但是很大程度上會喪失數據原有的精度,可根據實際的業務需要選擇泛化技術的實現方法。

    示例:1)將客戶資產按照規模分為高、中、低三個級別,將客戶資產數據用這三個級別代替。

    2)客戶產生的業務費用按照金額多少分為高、中、低三個級別,將客戶業務費用用這三個級別代替。

    C.4.2抑制

    抑制是指通過隱藏數據中部分信息的方式來對原始數據的值進行轉換,又稱為隱藏技術。

    a)掩碼屏蔽:指保留部分信息,對敏感數據的部分內容用通用字符(如“X、*”等)進行統一替換,從而使得敏感數據保持部分內容公開,但對信息持有者來說易于辨別。

    示例:1)將手機號碼12300010001經過掩碼得到123 * * * * 0001。

    2)把身份證號碼123184198501184115經過掩碼得到為123184000000004115。

    b)個人金融信息在通過計算機屏幕、客戶端應用軟件等界面展示過程中,采取信息掩碼屏蔽或截

    示例:將銀行卡號碼1234701202106563320經過掩碼得到1234 * * * * * * * * * * * 3320。

    C.4.3擾亂

    擾亂是指通過加入噪聲的方式對原始數據進行干擾,以實現對原始數據的扭曲、改變,擾亂后的數

    a)重排:將原始數據按照特定的規則進行重新排列,對于跨行數據,采用隨機互換來打破其與本

    1)采用按照一定順序打亂數據位序等方式進行重排。

    2)重排可在相當大范圍內保證部分業務數據信息,如有效數據范圍、數據統計特征等,使脫敏后數據看起來跟原始數據更一致,與此同時也犧牲了一定的安全性,一般重排方法用于大數據集合且需要保留待脫敏數據特定特征的場景。對于小數據集,重排形成的目標數據有可能通過其他信息被還原,在使用的時候需要特別慎重。

    b)加密:對脫敏數據進行對稱加密算法、非對稱加密算法等常規加密算法處理,使外部用戶只能看到無意義的加密后的數據,同時在特定場景下,可提供解密能力,使具有密鑰的相關方可獲得原始數據。

    1)采用對稱或非對稱加密算法對數據進行加密存儲。

    2)加密其安全程度取決于采用哪種加密算法,一般根據實際情況而定,這種方法的缺點是:加密本身需要一定的計算能力,對于大數據集來源會產生很大資源開銷。一般加密后數據與原始數據格式差異較大,“真實性”較差。

    c)替換:按照特定規則對原始數據進行替換,常見的替換方式包括常數替換、查表替換、參數化替換。

    1)常數替換:所有敏感數據都替換為唯一的常數值,具有不可逆性。

    2)查表替換:從中間表中隨機或按照特定算法選擇數據進行替代。

    3)參數化替換:以敏感數據作為輸入,通過特定函數形成新的替換數據。

    d)散列:即對原始數據取散列值,使用散列值來代替原始數據。

    1)使用散列函數對客戶密碼等信息進行計算得到散列值,以此替換原始數據。

    2)為了保證散列的安全性, 避免采用弱安全性散列函數如MD 5、SHA 1, 對于原文空間有限的散列,實際的應用場景中通常采用加入隨機因子的方法提高安全性,散列函數常用于密碼等敏感信息存儲的場景。

    e)重寫:參考原數據的特征,重新生成數據,重寫與整體替換較為類似,但替換后的數據與原始數據通常存在特定規則的映射關系,而重寫生成的數據與原始數據則一般不具有映射關系。

    f)固定偏移:將數據值增加n個固定的偏移量,隱藏數值部分特征。

    g)局部混淆:保持前面n位不變,混淆其余部分。

    h)唯一值映射:將數據映射成一個唯一值,允許根據映射值找回原始值,支持正確的聚合或者連接操作。

    i)均化:針對數值性的敏感數據,在保證脫敏后數據集總值或平均值與原數據集相同的情況下,改變數值的原始值,這種方法通常用于成本表、工資表等場合。

    C.4.4有損

    有損是指通過損失部分數據的方式來保護整個敏感數據集,適用于數據集的全部數據匯總后才構成敏感信息的場景,金融后臺系統不具備開放式查詢能力,根據業務場景需要采用合適的有損技術可達到限制批量查詢的效果。具體的有損技術方法包括但不限于:

    a)限制行數:僅僅返回可用數據集合中一定行數的數據,多應用于不具備開放式查詢能力的后臺系統、嚴格限制批量查詢等場景。

    b)限制列數:僅僅返回可用數據集合中一定列數的數據,可應用于人員基本信息查詢時,限制或禁止返回的數據集中包含某些敏感列。

    C.5數據脫敏應用分類

    C.5.1概述

    數據脫敏根據數據脫敏的實時性和應用場景的不同,分為動態數據脫敏和靜態數據脫敏。靜態數據脫敏一般用在非生產環境,將敏感數據從生產環境抽取并脫敏后用于培訓、分析、測試、開發等非生產環境。動態數據脫敏一般用在生產環境,將敏感數據實時進行脫敏后用于應用訪問等生產環境。

    C.5.2靜態數據脫敏

    靜態數據脫敏旨在通過類似ETL技術的處理方式, 按照脫敏規則一次性完成大批量數據的變形轉換處理,靜態脫敏示意圖見圖C.1.靜態脫敏通常會在將生產環境中的敏感數據交付至開發、測試或者外發環境時使用,在降低數據敏感程度的同時,能夠最大程度上保留原始數據集所具備的數據內在關聯性等可挖掘價值。

    靜態數據脫敏主要特點:

    a)適應性,即可為任意格式的敏感數據脫敏。

    b)一致性,即數據脫敏后保留原始數據字段格式和屬性。

    c)復用性,即可重復使用數據脫敏規則和標準,通過定制數據隱私政策滿足不同業務需求。

    數據脫敏

    C.5.3動態數據脫敏

    動態數據脫敏旨在通過類似網絡代理的中間件技術,按照脫敏規則對于外部申請訪問的數據進行即時處理并返回脫敏后結果,動態脫敏示意圖見圖C.2。動態脫敏通常會在數據對外提供查詢服務的場景中使用,在降低數據敏感程度的同時,最大程度上降低了需求方獲取脫敏后數據的延遲,請求實時產生的數據也能即時得到脫敏后結果。動態數據脫敏主要特點如下:

    a)實時性,即能夠實時地對用戶訪問的敏感數據進行動態脫敏、加密和提醒。

    b)多平臺,即通過定義好的數據脫敏策略實現平臺間、不同應用程序或應用環境間的訪問限制。

    c)可用性,即能夠保證脫敏數據的完整,滿足業務系統的數據需要。

    數據脫敏

    C.6數據脫敏應用場景

    數據脫敏的應用場景主要分為技術場景和業務場景,技術場景主要包括開發測試、數據分析、數據科學研究、生產、數據交換、運維等場景,業務場景包括但不限于信貸風險評估、騙保識別、精準營銷、消費信貸等場景,常用數據脫敏應用場景見表C.2。

    數據脫敏

    C.7隱私數據脫敏方法參考

    C.7.1聯系人姓名的脫敏

    聯系人姓名的脫敏方法示例見表C.3。

    數據脫敏

    C.7.2企業戶名的脫敏

    企業戶名的脫敏方法示例見表C.4。

    數據脫敏

    C.7.3身份證號碼的脫敏

    身份證號碼的脫敏方法示例見表C.5。

    數據脫敏

    C.7.4護照號碼的脫敏

    護照號碼的脫敏方法示例見表C.6。

    數據脫敏

    C.7.5地址的脫敏

    地址的脫敏方法示例見表C.7。

    數據脫敏

    C.7.6車牌號碼的脫敏

    車牌號碼的脫敏方法示例見表C.8。

    數據脫敏

    C.7.7聯系電話(固定電話)的脫敏

    聯系電話(固定電話)的脫敏方法示例表C.9。

    數據脫敏

    C.7.8聯系電話(手機號碼)的脫敏

    聯系電話(手機號碼)的脫敏方法示例見表C.10。

    數據脫敏

    C.7.9日期時間的脫敏

    日期時間的脫敏方法示例表C.11。

    數據脫敏

    C.7.10電子郵箱的脫敏

    電子郵箱的脫敏方法示例見表C.12。

    數據脫敏

    C.7.11密碼的脫敏

    密碼的脫敏方法示例見表C.13。

    數據脫敏

    C.7.12金融賬號的脫敏

    金融賬號的脫敏方法示例表C.14。

    數據脫敏

    C.7.13銀行卡號碼的脫敏

    銀行卡號碼的脫敏方法示例見表C.15。

    數據脫敏

    C.7.14存折賬號的脫敏

    存折賬號的脫敏方法示例見表C.16。

    數據脫敏

    C.7.15增值稅稅號的脫敏

    增值稅稅號的脫敏方法示例見表C.17。

    數據脫敏

    C.7.16增值稅賬號的脫敏

    增值稅賬號的脫敏方法示例見表C.18。

    數據脫敏

    本文章首發在 網安wangan.com 網站上。

    上一篇 下一篇
    討論數量: 0
    只看當前版本


    暫無話題~
    亚洲 欧美 自拍 唯美 另类