附錄A（資料性附錄）常用去標識化技術

GB/T37964-2019 信息安全技術個人信息去標識化指南 /

附錄A（資料性附錄）常用去標識化技術

A.1　統計技術（Statistical techniques）

A.1.1　概述

統計技術是一種對數據集進行去標識化或提升去標識化技術有效性的常用方法，主要包含數據抽樣和數據聚合兩種技術。

A.1.2　數據抽樣（Sampling）

數據抽樣是通過選取數據集中有代表性的子集來對原始數據集進行分析和評估的，它是提升去標識化技術有效性的重要方法。
對數據抽樣技術選擇和使用應注意以下幾個方面：
a) 從數據集中抽取樣本的方法很多，各方法差異很大，需根據數據集的特點和預期的使用場景來選擇。
b) 數據抽樣經常用于去標識化的預處理，對數據集進行隨機抽樣能夠增加識別出特定個人信息主體的不確定性，從而可以提高后續應用的其它去標識化技術的有效性。
c) 數據抽樣可以簡化對數據集的計算量，因此，在對大樣本的數據集進行去標識化時，首先進行抽樣，然后再采用某項特定的技術進行去標識化。

A.1.3　數據聚合（Aggregation）

數據聚合作為一系列統計技術（如求和、計數、平均、最大值與最小值）的集合，應用于微數據中的屬性時，產生的結果能夠代表原始數據集中的所有記錄。
對數據抽樣技術選擇和使用應注意以下幾個方面：
a) 數據聚合可能會降低數據的有用性；因為得到的是統計值，無法反映獨立數據記錄的特征。
b) 數據聚合對重標識攻擊非常有效；數據聚合的輸出是“統計值”，該值有利于對數據進行整體報告或分析，而不會披露任何個體記錄。

A.2　密碼技術（Cryptographic techniques）

A.2.1　概述

本部分描述適用于去標識化的密碼技術。使用密碼技術應遵循國家密碼管理相關規定。

A.2.2　確定性加密（Deterministic encryption）

確定性加密是一種非隨機加密方法。在去標識化過程中應用時，可以用確定性加密結果替代微數據中的標識符值。
對確定性加密技術的選擇和使用應注意以下幾個方面：
a) 確定性加密可以保證數據真實可用，即相同的兩個數據用同一密鑰進行加密將產生兩個一樣的密文。
b) 確定性加密可以一定程度上保證數據在統計處理、隱私防挖掘方面的有用性，確定性加密也可以生成用于精準匹配搜索、數據關聯及分析的微數據。對確定性加密結果的分析局限于檢查數據值是否相等。

A.2.3　保序加密（Order-preserving encryption）

保序加密是一種非隨機加密方法。用作去標識化技術時，可以用保序加密值替代微數據中的標識符值。
對保序加密技術選擇和使用應注意以下幾個方面：
a) 密文的排序與明文的排序相同。
b) 保序加密可以在有限的范圍內保證加密結果在統計處理、隱私防挖掘、數據外包存儲與處理等場景中的有用性。保序加密可以產生用于范圍/區間匹配搜索、分析的微數據。對保序加密結果的分析局限于檢查數據相等和排序比較關系。

A.2.4　保留格式加密（Format-preserving encryption）

保留格式加密是一種適宜于去標識化技術的加密方法，加密要求密文與明文具有相同的格式，當作為去標識化技術的一部分加以采用時，可用保留格式加密值替代微數據中的標識符值。
對保留格式加密技術的選擇和使用應注意以下幾個方面：
a) 某些保留格式加密具有確定性加密技術一樣的特點，如相同數據在同一密鑰下加密生成同樣的密文，且可以通過生成微數據進行精準匹配搜索、數據關聯分析等。
b) 保留格式加密適用于多種格式的數據，包括字符型、數字型、二進制等，加密結果也是同類型數據。

A.2.5　同態加密（Homomorphic encryption）

同態加密是一種隨機加密。當作為去標識化技術的一部分加以采用時，對加密數據進行處理，但是處理過程不會泄露任何原始內容。同時，擁有密鑰的用戶對處理過的數據進行解密后，得到的正好是處理后的結果。同態加密用加密值替代微數據中的標識符值。
對同態加密技術的選擇和使用應注意以下幾個方面：
a) 對經過同態加密的數據進行處理得到一個輸出，將這一輸出進行解密，其結果與用同一方法處理未加密的原始數據得到的輸出結果是一樣的。
b) 與傳統的確定性加密方案相比，同態加密的性能一般較低，存儲成本較高。

A.2.6　同態秘密共享（Homomorphic secret sharing）

同態秘密共享可將一個秘密拆分為“若干份額”，可利用拆分后秘密信息的特定子集來重構原始的秘密，如果對用于重構秘密的所有份額執行相同的數學運算，則其結果等價于在原始秘密上執行相應數學運算的結果。當作為去標識化技術的一部分加以采用時，同態秘密共享可用信息共享算法得出的兩個或以上若干份額替代數據記錄中的任何標識符或敏感屬性。這樣，便可將這些若干份額分配給兩個或以上的份額持有者。這些份額持有者的數量通過秘密共享方案加以確定。
有效的同態秘密共享的特性是，相同份額持有者共享機密的兩個值可與加密方案的同態運算相結合，產生代表原始屬性運算結果的新份額。此外，同態密鑰共享可與安全的多方計算相結合，以便對去標識化數據進行任何安全運算。同態密鑰共享并不會降低數據的真實性。
雖然同態密鑰共享有著相對低的計算性能開銷，但存在與份額持有者之間交換份額的額外開銷。
共享秘密數據的存儲開銷是有限的。基于安全多方計算執行的數據去標識化的處理技術是靈活的，但根據所采用的不同方案，可能會導致高昂的成本。

A.3　抑制技術（Suppression techniques）

A.3.1　概述

抑制技術即對不滿足隱私保護的數據項刪除，不進行發布。包括從所有記錄中選定的屬性（如屏蔽）、對所選定的屬性值（例如，局部抑制）、或是從數據集中選定的記錄（例如，記錄抑制）進行的刪除操作。抑制技術主要適用于分類數據。
抑制技術可用于防止基于關聯規則推導的攻擊，因為不發布能最大化降低關聯規則支持度和置信度的屬性值，從而破壞關聯規則推導攻擊。

A.3.2　屏蔽（Masking）

屏蔽技術包括從數據集中刪除整個直接標識符，或刪除直接標識符的一部分，使其不再是直接標識符也不是唯一標識符。
使用屏蔽技術后，通常還會對數據集使用其它去標識化技術。
在將屏蔽技術作為唯一的去標識化技術的系統中，應采取安全措施和組織其它的管理措施去保護未被識別的數據。
屏蔽技術也有其它一些叫法，如：
a) 部分數據移除：指在屏蔽過程中不會刪除所有標識符。
b) 數據隔離：指屏蔽需要有嚴格的安全措施，以確保對數據集的授權訪問，如訪問控制和相應的合約條款

A.3.3　局部抑制（Local suppression）

局部抑制技術是一種去標識化技術，即從所選記錄中刪除特定屬性值，該特定屬性值與其它標識符結合使用可能識別出相關個人信息主體。通常應用局部抑制技術來移除準標識符在泛化后仍然出現的稀有值（或這些值的稀有組合）。

A.3.4　記錄抑制（Record suppression）

“記錄抑制”是一種從數據集中刪除整個記錄或一些記錄的去標識化技術。典型應用場景為刪除包含稀有屬性（如異常值）組合的記錄。

A.3.5　注意事項

抑制技術會導致信息丟失，抑制技術處理后的數據有被重標識的風險，因此需要與其它去標識化技術相結合以降低數據的重標識風險。

A.3.6　示例

在某個具體應用中，需要對某組織的不同工作年限的薪資水平進行分析，原始數據集包括{姓名，性別，薪水，工作年限，職務}，采用如下步驟進行去標識化：
a) 姓名是直接標識符，需要應用抑制技術刪除；通過{職務、工作年限}或者{職務、性別}也可以推導出該組織中的一部分員工，因此應用抑制技術刪除職務屬性；
b) 剩下的{性別，薪水，工作年限}，有被重標識的風險，需要結合泛化技術，對“薪水”、“工作年限”屬性值進行泛化處理，如薪水泛化為5k-10k、10k-15k、15k-20k等，工作年限泛化為0-3年、4-6年等；

A.4　假名化技術（Pseudonymization techniques）

A.4.1　概述

假名化技術是一種使用假名替換直接標識（或其它準標識符）的去標識化技術。假名化技術為每一個人信息主體創建唯一的標識符，以取代原來的直接標識或準標識符。不同數據集中的相關記錄在進行假名化處理后依然可以進行關聯，并且不會泄露個人信息主體的身份。
在使用假名化技術的過程中，通常會使用一些輔助信息。這些輔助信息包括從原始數據集中刪除的標識符、假名分配表或密鑰等，采取必要的措施來保護這些輔助信息有利于降低重標識風險。
假名創建技術主要包括獨立于標識符的假名創建技術和基于密碼技術的標識符派生假名創建技術。假名創建技術的選擇需要考慮以下因素：創建假名的成本、散列函數的抗碰撞能力、以及重標識過程中假名被還原的手段。

A.4.2　獨立于標識符的假名創建

獨立于標識符的假名創建技術不依賴于被替代的屬性原始值，而是獨立生成，典型方法為用隨機值代替屬性原始值。

A.4.3　基于密碼技術的標識符派生假名創建

基于密碼技術的標識符派生假名創建技術通過對屬性值采用加密或散列等密碼技術生成假名，這一過程也稱為對數據集中的屬性進行“密鑰編碼”。其中加密技術生成的假名可以用合適的密鑰及對應的算法解密，而散列技術是一種單向的數學運算。
采用多種密碼技術的組合可更好地保護屬性原始值。
采用加密方法來創建假名的計算成本很高，但非常有效。應采取特殊措施來保護密鑰，防止密鑰被未授權訪問，包括密鑰與數據分離，不與第三方共享密鑰，安全地刪除密鑰以防重標識等。

A.4.4　注意事項

如果采用恰當的方式構建假名與原始標識的分配表，并能對分配表和分配技術加以保護，則能夠有效的降低數據的重標識風險。采用多個原始標識符對應一個假名的分配表比采用一一對應的分配表能夠更加有效降低重標識風險。加密技術通常是一一對應的分配技術；散列技術由于碰撞性的存在，通常是多對一的分配技術；采用純隨機的方式構建分配表通常也是多對一的。

A.4.5　示例

在某個具體的應用中，需要從外部某數據庫中抽取包含人名的有效數據以供分析，采用如下步驟進行去標識化：
a) 構建常用人名字典表
常用人名字典表有200個常用人名構成：龔小虹、黃益洪、龍家銳、龔堯莞、齊新燕、車少飛、龍家鑄、賴鴻華、龍宣霖、連麗英……
b) 制定人名與假名的分配技術。
分配技術采用純隨機方式，對于每一個標識符（人名），隨機生成一個不小于1并且不大于200的隨機數，從字典表中的對應位置獲取假名，進行替換。
c) 使用字典表和分配技術，完成對人名的去標識化。
在去標識過程中，在遇到人名“辛培軍”時，隨機生成了數5，則使用字典中的排列第5的名字“齊新燕”替換“辛培軍”。

A.5　泛化技術（Generalization techniques）

A.5.1　概述

泛化技術是指一種降低數據集中所選屬性粒度的去標識化技術，對數據進行更概括、抽象的描述。泛化技術實現簡單，能保護記錄級數據的真實性。

A.5.2　取整（Rounding）

取整涉及到為所選的屬性選定一個取整基數，然后將每個值向上或向下取整至最接近取整基數的倍數。向上還是向下取整按概率確定，該概率值取決于觀察值與最接近取整基數倍數的接近程度。例如，如果取整基數為10，觀察值為7，應將7向上取整至10，概率為0.7，若向下取整至0，概率為0.3。

A.5.3　頂層與底層編碼（Top and bottom coding）

泛化技術為某一屬性設定一個可能的最大（或最小）閾值。頂層與底層編碼技術使用表示頂層（或底層）的閾值替換高于（或低于）該閾值的值。

A.6　隨機化技術（Randomization techniques）

A.6.1　概述

隨機化技術作為一種去標識化技術類別，指通過隨機化修改屬性的值，使得隨機化處理后的值區別于原來的真實值。該過程降低了攻擊者從同一數據記錄中根據其它屬性值推導出某一屬性值的能力。
隨機化技術并不能保證數據在記錄集的真實性。為達到特定的目標，有效隨機化過程需要逐項定制，定制過程中需要詳細了解數據特性，并選取合適的參數。

A.6.2　噪聲添加（Noise addition）

噪聲添加是一種隨機化技術，通過添加隨機值、“隨機噪聲”到所選的連續屬性值中來修改數據集，同時盡可能保持該屬性在數據集中的原始統計特性。該類統計特性包括屬性的分布、平均值、方差、標準偏差、協方差以及相關性。

A.6.3　置換（Permutation）

置換是在不修改屬性值的情況下對數據集記錄中所選屬性的值進行重新排序的一種技術。因此，置換保持了整個數據集中所選屬性的準確統計分布。
置換技術適用于數字與非數字值。因為觀察到的不一致性可能有助于對置換算法實施逆向工程，需要考慮如何來確保生成的數據集是一致的。
不同置換技術的區別在于方法與復雜性的差別。在保持所選屬性之間原有相關性的情況下，置換算法可用于單個或多個屬性。

A.6.4　微聚集（Microaggregation）

“微聚集”是指用某種算法方式計算出來的平均值代替連續屬性所有值的去標識化技術。對于每種連續屬性，或對于所選的一組連續屬性，數據集中的所有記錄都進行了分組，具有最近屬性值的記錄屬于同一組，而且每一組中至少有k個記錄。每一種屬性的新值替換為該屬性所在組中的平均值。每組中的各個值越接近，數據的有效性就保持得越好。
微聚集的輸出是微數據，該技術不能保證數據的真實性。

A.7　數據合成技術（Synthetic data）

數據合成是一種以人工方式產生微數據的方法，用以表示預定義的統計數據模型。
對數據合成技術的選擇和使用應注意以下幾個方面：
a) 合成數據集與原始數據特性相符，但不包含現有個人信息主體有關的任何數據，但是，若合成后的數據與原始數據的擬合度過高可能會導致敏感信息泄露。
b) 創建合成數據的方法很多。理論上，數據可根據所選的統計特性隨機生成。該類模型的關鍵特征主要體現在每種屬性（總體與子總體）的分布以及屬性之間的內部關系。實際上，合成數據的生成會采用隨機化技術與抽樣技術對真實數據集進行多次或連續轉換。合成數據通常用于測試工具與應用。
c) 合成數據可用于開發查詢。合成數據可用作真實數據的替代項：數據管理者能在實際數據中重現在合成數據中執行的查詢，以確保基于合成數據的處理能夠同樣正確應用于真實數據。

本文章首發在網安wangan.com 網站上。

附錄A（資料性附錄）常用去標識化技術

附錄A（資料性附錄）常用去標識化技術

A.1 統計技術（Statistical techniques）

A.1.1 概述

A.1.2 數據抽樣（Sampling）

A.1.3 數據聚合（Aggregation）

A.2 密碼技術（Cryptographic techniques）

A.2.1 概述

A.2.2 確定性加密（Deterministic encryption）

A.2.3 保序加密（Order-preserving encryption）

A.2.4 保留格式加密（Format-preserving encryption）

A.2.5 同態加密（Homomorphic encryption）

A.2.6 同態秘密共享（Homomorphic secret sharing）

A.3 抑制技術（Suppression techniques）

A.3.1 概述

A.3.2 屏蔽（Masking）

A.3.3 局部抑制（Local suppression）

A.3.4 記錄抑制（Record suppression）

A.3.5 注意事項

A.3.6 示例

A.4 假名化技術（Pseudonymization techniques）

A.4.1 概述

A.4.2 獨立于標識符的假名創建

A.4.3 基于密碼技術的標識符派生假名創建

A.4.4 注意事項

A.4.5 示例

A.5 泛化技術（Generalization techniques）

A.5.1 概述

A.5.2 取整（Rounding）

A.5.3 頂層與底層編碼（Top and bottom coding）

A.6 隨機化技術（Randomization techniques）

A.6.1 概述

A.6.2 噪聲添加（Noise addition）

A.6.3 置換（Permutation）

A.6.4 微聚集（Microaggregation）

A.7 數據合成技術（Synthetic data）

推薦文章：

A.1　統計技術（Statistical techniques）

A.1.1　概述

A.1.2　數據抽樣（Sampling）

A.1.3　數據聚合（Aggregation）

A.2　密碼技術（Cryptographic techniques）

A.2.1　概述

A.2.2　確定性加密（Deterministic encryption）

A.2.3　保序加密（Order-preserving encryption）

A.2.4　保留格式加密（Format-preserving encryption）

A.2.5　同態加密（Homomorphic encryption）

A.2.6　同態秘密共享（Homomorphic secret sharing）

A.3　抑制技術（Suppression techniques）

A.3.1　概述

A.3.2　屏蔽（Masking）

A.3.3　局部抑制（Local suppression）

A.3.4　記錄抑制（Record suppression）

A.3.5　注意事項

A.3.6　示例

A.4　假名化技術（Pseudonymization techniques）

A.4.1　概述

A.4.2　獨立于標識符的假名創建

A.4.3　基于密碼技術的標識符派生假名創建

A.4.4　注意事項

A.4.5　示例

A.5　泛化技術（Generalization techniques）

A.5.1　概述

A.5.2　取整（Rounding）

A.5.3　頂層與底層編碼（Top and bottom coding）

A.6　隨機化技術（Randomization techniques）

A.6.1　概述

A.6.2　噪聲添加（Noise addition）

A.6.3　置換（Permutation）

A.6.4　微聚集（Microaggregation）

A.7　數據合成技術（Synthetic data）