數據脫敏技術研究及展望

摘　要：信息技術的快速發展和廣泛應用，使得全球大數據儲量和產業規模呈爆發式增長，數據已成為推動經濟社會發展的重要生產要素。數據價值持續釋放的同時，數據的安全性問題也越來越受到關注。近年來，全球范圍內數據泄露事件頻頻發生，而針對數據安全的傳統解決方法大都聚焦于通過數據加密、訪問控制等來嚴格控制數據的應用范圍，以降低數據泄露的風險，這明顯不能滿足當前數字經濟發展的需求。數據脫敏技術作為能夠解決平衡數據安全和數據共享問題的重要技術手段，正逐漸被應用于各行業領域中，并成為業界研究的熱點。首先介紹了數據脫敏技術的基本概念和應用需求，然后詳細闡述了數據脫敏技術的各類算法規則，最后對數據脫敏技術未來可能的發展趨勢進行了展望。

隨著物聯網、人工智能、5G 等信息技術的快速發展和不斷應用，大數據時代已悄然到來，全球各行業領域的數據儲量和數據產業規模正呈現爆發式增長的態勢。IDC 預測，2018—2025年，全球數據量將從 33 ZB 猛增至 175 ZB，而根據工業和信息化部相關預測，2021—2025 年，我國的大數據產業規模將從 1.3 萬億元突破至3 萬億元，數據已然成為推動經濟社會發展最重要的基礎生產要素之一。數據價值持續釋放的同時，數據安全問題受關注度也在不斷攀升，Risk Based Security 報告顯示，2021 年全球公開披露的數據泄露事件高達 4 145 起，共導致約 227 億條數據被泄露，其中影響較大的泄露事件包括：5.53 億 Facebook 用戶的全名、出生日期、電話號碼等敏感數據被泄露；7 億多條 LinkedIn 用戶的全名、性別、電子郵件、電話號碼、行業信息等敏感數據在 RaidForums 上被黑客出售等。

數據泄露事件的日益增加給個人生活、企業利益以及國家安全造成了不同程度的威脅，因此，如何確保數據安全已成為當前數據產業發展中需要解決的首要問題。而目前，針對數據安全問題的傳統解決方案大都聚焦于數據加密處理、數據訪問控制等，其目的是通過嚴格控制數據應用范圍來降低數據被泄露的風險，這明顯不能滿足當前數據互聯互通已成為發展趨勢的需求。因此，如何在保證數據安全的前提下，最大限度地進行數據價值的挖掘使用，已成為大數據時代最受關注的問題之一。近年來，數據脫敏技術作為解決平衡數據安全和數據共享問題的重要技術手段，逐漸進入人們的視野，并被廣泛應用于大數據產業發展中，其因較好地平衡了數據的安全性和可用性，已成為業界研究的熱點。

數據脫敏概述

1.1　數據脫敏定義

敏感數據是指泄露以后可能會給個人生活、企業利益以及國家安全帶來嚴重威脅和損害的數據，敏感數據不但包括個人隱私數據，例如姓名、手機號碼、身份證號碼、工作單位、銀行賬號、電子郵箱、家庭成員、社會關系、醫療信息、教育經歷等；還包括社會機構的隱私數據，例如企事業單位的組織架構、核心技術、經營情況、員工薪酬等。

數據脫敏又稱數據漂白、數據變形或數據去隱私化，是指在保留數據原始特征的情況下，根據給定的脫敏規則和策略對敏感數據進行變換，從而去除數據中的敏感信息，以保護敏感數據避免未經授權而被非法訪問、獲取，同時又可以根據需要對敏感數據進行相關處理，使得敏感數據依舊可以被使用。數據脫敏在保證敏感數據安全性的同時保證了數據的有效性和可用性，既避免了敏感數據被泄露的風險，也較好地解決了敏感數據在非安全、非可信環境中的使用問題。

1.2　數據脫敏分類

根據面向的應用場景不同以及技術實現方式不同，數據脫敏技術可以分為靜態數據脫敏和動態數據脫敏。

1.2.1　靜態數據脫敏

靜態數據脫敏一般適用于在開發、測試、數據分析、培訓等非生產環境應用場景中對非實時訪問數據進行脫敏，為了避免泄露風險，數據必須先脫敏后使用。靜態數據脫敏的目標在于根據設置好的數據脫敏規則和策略，對大批量的數據集進行統一脫敏處理，脫敏操作不會破壞數據的內在關聯關系和統計特征等有價值的信息，在滿足非生產環境應用場景對數據使用需求的同時，又能保證數據提供方最大限度地降低數據的敏感程度，確保數據在使用過程中不會發生敏感信息泄露。靜態數據脫敏如圖 1 所示。

圖 1　靜態數據脫敏

1.2.2　動態數據脫敏

動態數據脫敏一般適用于敏感數據需要對外提供訪問服務的生產環境應用場景中。動態數據脫敏的目標在于根據設置好的數據脫敏規則和策略，對外部在線申請訪問的敏感數據進行實時的脫敏處理，并能即時反饋數據脫敏后的處理結果，其數據脫敏規則和策略需要根據不同情況下對于相同敏感數據的訪問做不同的脫敏處理。例如，根據訪問的用戶對象不同，需要設置不同的脫敏規則和策略，從而使得不同用戶對象根據不同的脫敏方案進行相應的敏感數據訪問。動態數據脫敏可以實時調整數據脫敏規則和策略。動態數據脫敏如圖 2 所示。

1.2.3　兩種脫敏方式比較

為了更加全面、直觀地展現靜態數據脫敏和動態數據脫敏之間的差異，本文從應用場景、脫敏狀況、部署方式、優缺點等方面對兩種脫敏方式進行簡要比較，如表 1 所示。

表 1　靜態數據脫敏與動態數據脫敏比較

由比較結果可以看出，在應用場景方面，靜態數據脫敏應用于開發、測試、數據分析、培訓等非生產環境場景中，而動態數據脫敏應用于需要對外提供訪問服務的生產環境場景中。在脫敏狀況方面，靜態數據脫敏對非實時訪問數據進行脫敏，而動態數據脫敏則在使用敏感數據時才進行脫敏。在部署方式方面，靜態數據脫敏包括單服務器部署和成對服務器部署，而動態數據脫敏包括主動服務模式和代理部署兩種方式。靜態數據脫敏的優點包括：數據脫敏后不會破壞數據的內在關聯關系和統計特征等有價值的信息，且數據信息損失很小，其脫敏效果比動態數據脫敏好；但其缺點也很明顯，由于需要對大批量的數據集進行統一脫敏處理，計算開銷較大，處理效率不高，而且在進行脫敏操作時容易暴露所有待脫敏的數據。動態數據脫敏的優勢在于：可以根據用戶的不同角色、不同權限設置不同的脫敏級別，以達到對脫敏數據的分級保護。由于動態數據脫敏對所有數據采取按需脫敏的策略，一定程度上提高了需求方獲取脫敏后數據的時效性。另外，動態數據脫敏還支持對數據的動態更新。其缺點則包括：對系統的魯棒性要求較高，脫敏算法實現難度較高，脫敏效果不及靜態數據脫敏。

因此，根據上述兩種脫敏方式的比較可以得出結論：靜態數據脫敏技術和動態數據脫敏技術都存在各自的優缺點，兩種脫敏方式各有其適用的應用場景，因此在實際使用中，應結合各自的技術特點和應用場景需求進行選擇。

數據脫敏需求

在大數據時代，為了滿足各種社會生產發展需求，我們需要從海量數據中獲取有用信息，因此需要對各類數據進行開發、測試、交換、共享等高效融合、挖掘，以創造出更高的數據使用價值。但是當前數據安全需求與合規監管要求對數據挖掘提出了更高的要求，而數據脫敏技術則相應需要滿足以下方面需求：

（1）能夠精確識別數據中的重要敏感信息。數據脫敏過程中的首要關鍵環節是能夠對大數據中的重要敏感信息進行精確識別和匹配，因此，需要根據數據的分類、分級策略，創建針對大數據中的重要信息、核心信息、敏感信息、個人信息等多維度信息的特征庫模型，通過正則表達式、深度學習等方式對脫敏過程中數據的各類重要敏感信息進行精確識別和匹配。

（2）數據脫敏性能需滿足大數據處理需求。大數據時代的數據脫敏需要面對的是海量的數據，傳統的數據脫敏工具已無法完成如此體量數據的收集、篩選、脫敏、投遞等操作，這就對數據脫敏的性能提出了更高的要求。因此，需要通過機器學習、集群化部署等方式進行多任務并行處理，以實現數據處理能力的提升，從而滿足大數據場景下數據脫敏的批量、快速處理需求。

（3）需保證數據脫敏后在各環節的關聯性。數據脫敏規則和策略的制定需要確保數據脫敏后在應用場景諸如開發、測試、交換、共享等各應用階段的數據關聯性和業務語義不變，例如，數據脫敏后，原始數據的定義不能出現歧義；原始數據的類型、格式、長度等要素不能發生變化；原始數據之間的各種關聯關系不能發生變化。從而更好地保證數據脫敏后在各應用環節的可用性。

（4）需做到對數據脫敏操作全流程監管。為確保數據脫敏操作過程的安全可靠，需要對數據脫敏操作進行系統化、規范化的全流程監管，以實現操作過程的安全、可控。例如，需對脫敏數據的敏感內容進行審計；對數據脫敏后的內容與開展業務所需的內容進行匹配；針對不同的外部訪問對象使用不同的脫敏規則和策略，并對其訪問操作進行全程監控，以確保訪問數據的安全性。

數據脫敏算法

數據脫敏技術的目的是通過一定的方法對敏感數據進行處理以降低敏感數據的敏感程度或者使得敏感數據不再包含敏感信息內容，從而使敏感數據經脫敏后在保證其可用性、關聯性的前提下，達到數據失真的目的。脫敏算法的選擇和應用是數據脫敏技術的核心問題，我們應根據不同的場景、不同的數據類型、不同的數據特征以及不同的脫敏需求等，選擇不同的脫敏算法。傳統的脫敏算法包括：替換、仿真、加密、遮掩、混淆、偏移、均值化等。此外，為了提高數據集整體的隱私安全性，有效降低數據的敏感程度，實現高可靠的敏感信息保護能力，還存在更為復雜的數據匿名化算法，包括 K- 匿名（K-Anonymity）、L- 多樣性（L-Diversity）、T- 相近（T-Closeness）等。

3.1　傳統脫敏算法

3.1.1　替換

替換是指使用具有相似業務特征的偽裝數據對原始數據中的敏感數據進行替代，使得原始數據中的相關字段失去原有語義，從而破壞其可讀性。為了確保數據的安全性，替換所使用的數據一般具有不可逆性。替換包括映射替換、隨機替換和參數替換。映射替換使用替換碼表對原始數據中的敏感數據進行整體替換；隨機替換使用隨機字符對原始數據中的敏感數據進行部分替換；參數替換通過將敏感數據作為參數輸入，經過一定規則的函數變換以獲得脫敏后的數據。替換算法雖然是最為常用的脫敏算法之一，但該算法會導致脫敏后的數據失去其業務屬性，不利于數據的后續使用。以表 2數據為例，使用數據替換方式將表格中所有性別整體替換為“XX”，脫敏后數據效果如表 3所示。

3.1.2　仿真

仿真是仿照原始數據中的敏感數據內容生成符合敏感數據原始內容語義和格式的新數據，通過相同語義的新數據替換原來的敏感數據，以保證脫敏后的數據能夠保持業務數據之間的關聯關系，從而使得脫敏后的數據具有較好的可用性 [13]。以表 2 數據為例，將表格中所有姓名仿真脫敏后仍為有意義的姓名，脫敏后的數據效果如表 3 所示。

3.1.3　加密

加密是指通過使用諸如 MD5、Hash、AES 等密碼學算法對敏感數據進行加密操作，加密處理后的數據與敏感數據的原始內容在邏輯規則和格式上保持一致，外部未經授權的用戶只能訪問到無實際意義的密文數據，在特定需求場景下，系統也可以給相關需求方提供解密能力以恢復敏感數據的原始內容。以表 2 數據為例，將表格中所有身份證號按照某種加密算法進行加密脫敏，脫敏后數據效果如表 3所示。

3.1.4　遮掩

遮掩是指通過使用諸如“*”“﹖”“﹟”等特殊符號對敏感數據中的部分內容進行掩飾，使得敏感數據只選擇公開部分原始內容 [17]。該算法在實現數據脫敏、達到保護敏感數據真實信息的同時，較好地保持了敏感數據原始內容的格式，是目前使用較為廣泛的脫敏算法。以表 2 數據為例，將表格中所有身份證號的前 6位保留不變，其余部分使用“*”進行遮掩，脫敏后的數據效果如表 3 所示。

3.1.5　混淆

混淆是指通過對敏感數據內容在指定條件下進行打亂重排和重新分布，從而破壞與其他字段數據的關聯關系，使得混淆后的數據不再具有原始內容的語義。混淆算法可以保持敏感數據原始內容的組成格式，例如將數字混淆為數字、字母混淆為字母、符號混淆為符號，一般不會影響數據統計特性等業務數據信息。以表 2 數據為例，將表格中手機號的前 3 位網絡識別號保留不變，對其余部分進行無規則打亂，脫敏后的數據效果如表 3 所示。

3.1.6　偏移

偏移主要是通過對敏感數據內容進行隨機移位來改變數據內容，偏移算法一般適用于數值型數據。例如，我們可以將個人相關敏感時間數據統一偏移一定的數字以實現數據脫敏的目的，不過該算法在諸如背景關聯等特定條件下也存在被破解的風險，因此在實際應用中一般是結合其他算法共同使用。以表 2 數據為例，將表格中所有到賬時間進行偏移操作，脫敏后的數據效果如表 3 所示。

表 2　原始數據表 A

表 3　傳統脫敏算法的脫敏效果

3.1.7　均值化

均值化一般針對數值型的敏感數據，首先對指定范圍的敏感數據進行求和，然后計算出其平均值，最后將脫敏后的數據隨機分布在均值附近，以保持數據的總和不發生變化，該算法在一定程度上保證了數據的統計特性。以表 2 數據為例，將表格中所有工資數據進行平均值處理，工資總數不變，脫敏后的各工資數據值在均值9 320.15 附近，脫敏后的數據效果如表 3 所示。

3.2　數據匿名化算法

3.2.1　K- 匿名

K- 匿名（K-Anonymity）最早由 Samarati 和Sweeney 于 1998 年提出，其基本思想是如果在一組公開的數據集中，任何一條記錄都不能與其他至少 k-1 條記錄進行直接區分，則稱該條記錄滿足 K-Anonymity。在該數據集中，每種敏感數據的屬性組合需要同時出現在 k 條記錄中，無法被區分的 k 條記錄被稱為一個等價類。K- 匿名雖然可以對敏感數據進行匿名化處理，但沒有對敏感數據的屬性進行任何保護，這就容易導致數據遭受背景知識攻擊和同質攻擊等。以表4原始數據表B為例，表中“ID 號”和“姓名”為標識符屬性，“性別”“年齡”“身高”為準標識符屬性，“疾病”為敏感屬性。為防止病人病歷信息的泄露，在匿名化后的表格中，將不再發布“ID 號”和“姓名”字段值，“性別”字段的部分值用“*”代替，匿名化后的“性別”“年齡”“身高”3 個屬性具有 2- 匿名性，即任何一行字段在這三列上的值的組合都至少出現了 2次，詳細結果如表 5 所示。

表 4　原始數據表 B

表 5　2- 匿名表

3.2.2　L- 多樣性

L- 多樣性（L-Diversity）是指如果對于任意相等數據集（等價類）內所有記錄對應的敏感數據屬性集合，至少包含 L 個“良好表示”（Well-Represented）值，則稱該等價類滿足 L-Diversity，如果數據集中所有等價類都滿足 L-Diversity，則稱該數據集滿足 L-Diversity。L- 多樣性是對 K- 匿名在敏感數據屬性方面的一種改進，相較 K- 匿名，L- 多樣性使得未經授權的外部用戶最多只有 1/L 的概率能夠獲取敏感數據中的敏感信息內容，顯著降低了敏感數據被泄露的風險。以表 6 原始數據表 C 為例，L- 多樣性后的結果如表 7 所示，表中有 3 個等價類，每個等價類中至少包含3個不同的敏感屬性值，因此這部分公開的數據就滿足 3- 多樣性屬性。

表 6　原始數據表 C

表 7　3- 多樣性匿名表

3.2.3　T- 相近

T- 相近（T-Closeness）在 L- 多樣性的基礎上進行了改進強化，增加了對數據敏感屬性值分布的約束，其要求每一個等價類中敏感屬性值的分布與整個數據表中敏感屬性值的分布之間的差異不超過給定的參數 t，即該等價類滿足 t-Closeness，從而使得每個等價類中敏感屬性值的統計分布與整個數據表中敏感屬性值的總體分布“相近”，即該數據表滿足t-Closeness。

在這 3 種匿名化算法中，K- 匿名可以抵御鏈接攻擊，但無法解決同質攻擊問題；L- 多樣性雖然可以抵御同質攻擊，但卻不能解決偏斜攻擊和相似性攻擊；T- 相近則可以有效解決偏斜攻擊和相似性攻擊，實現敏感數據的隱私保護需求。

數據脫敏展望

近年來，數據脫敏技術已逐漸應用于社會生產的各相關領域，數據脫敏技術在一定程度上有效地保護了各類敏感數據隱私信息的外泄。與此同時，數據脫敏技術本身也經歷了從只適用于非生產環境的靜態數據脫敏到可以適用于生產環境的動態數據脫敏的應用場景的演進，而隨著信息化技術的不斷深入發展，文本、圖片、音視頻、XML、HTML 以及各類報表等非結構化數據將會成為數據脫敏技術未來研究的重要目標對象。因此，隨著未來社會生產中數據脫敏場景需求的日益多樣化和復雜化，數據脫敏技術仍面臨著不斷優化和提升的需求，未來數據脫敏技術的發展趨勢將可能包括以下幾個方面。

4.1　數據脫敏的更合規化

當前隨著數據泄露事件的頻發以及《數據安全法》《個人信息保護法》等數據法律法規的相繼出臺，使得各領域企業不得不將數據使用的合規性作為首要考慮的問題。數據脫敏技術本身在能夠有效保護敏感數據隱私信息泄露的同時，也面臨著如何使用才能更合法合規這一現實問題，這也決定了數據脫敏技術將來能否全面普及應用。未來在數據脫敏技術的使用過程中，可以考慮將政策監管要求、企業業務需求同數據脫敏技術算法策略的選擇相結合，在符合國家政策法規的前提下，最大限度地幫助企業實現能夠滿足業務需求的數據脫敏處理，這將是數據脫敏技術后續研究的重要方向。

4.2　數據脫敏的高性能化

隨著各行業領域的數據儲量和數據產業規模的爆發式增長，數據脫敏技術在實際操作過程中所需面臨的處理敏感數據的規模也呈指數級地提升，當前數據脫敏技術尚達不到處理不斷增長的海量數據的要求。此外，由于未來社會生產對數據使用實時性的需求愈發迫切，數據脫敏技術即使能夠滿足應對大規模數據處理的需求，但其是否能夠實時、高效地完成針對大規模數據的快速脫敏處理，做到“即脫即用”，也將成為迫切需求。因此，能滿足大規模數據處理和快速響應的高性能需求將成為未來數據脫敏技術另一重要發展方向。

4.3　數據脫敏的非結構化

當前數據脫敏技術主要針對數據庫等有數據結構的結構化數據，相較結構化數據，文本、圖片、音視頻、XML、HTML 以及各類報表等非結構化數據在當前社會生產中的應用程度已越來越高，各領域企業對涉及用戶敏感信息的非結構化數據的挖掘和使用也越加頻繁，原先針對結構化數據的數據脫敏技術已無法滿足非結構化數據的脫敏需求。因此，針對非結構化數據的脫敏技術研究將成為未來新的探索方向。

4.4　數據脫敏的高智能化

目前，數據脫敏操作過程中依然存在諸多需要人工干預的步驟，例如待脫敏數據的選擇和識別、數據脫敏算法策略的綁定等，而隨著待脫敏數據規模的不斷擴大，傳統的人工干預方式效率低下的問題將越發凸顯。因此，未來通過應用機器學習、文本聚合與分類以及自然語言處理等技術，結合已制定的敏感數據分類分級策略和數據脫敏算法策略，實現對敏感數據內容的自動準確識別，對敏感數據范圍的智能化調整，對脫敏算法策略的自動化適配等高度智能化數據脫敏技術將成為值得深入研究的內容。

4.5　數據脫敏的多場景化

由于不同領域和行業產生的敏感數據一般具有不同的特點，如敏感數據的類型可能為文本、圖片、音視頻、XML、HTML 等不同數據格式等，而且不同行業對于敏感數據的脫敏需求和脫敏程度都不一樣，因此未來可以考慮對各領域和行業的實際業務應用場景需求進行細分和歸類。例如，針對醫療行業，重點需要對病人的病歷信息進行脫敏；針對銀行業，重點需要對用戶的賬戶信息進行脫敏；針對保險行業，重點需要對用戶的保單信息進行脫敏等。針對相同或者相似應用場景案例研究出特定的數據脫敏模板方案，以形成具備不同行業或業務特征的數據脫敏功能，將會完善未來數據脫敏場景多樣化的需求。

結　語

當前，數據脫敏技術憑借其能有效平衡數據隱私安全和開放共享的技術優勢，已成為大數據時代在保證數據安全的前提下，進行數據深度挖掘的重要技術手段。然而數據脫敏技術在計算性能、智能化、多場景需求以及合規性等方面仍面臨諸多挑戰，數據脫敏技術要想實現更多領域和更大規模的推廣使用，未來必須在技術發展和創新方面進一步提升，同時使技術應用與政策監管相融合，使得數據脫敏技術在合法合規的基礎上，更好地滿足未來用戶對數據安全共享的深度需求。本文首先介紹了數據脫敏技術的基本概念和應用需求，然后詳細闡述了數據脫敏技術的各類算法規則，最后對數據脫敏技術未來可能的發展趨勢進行了展望。