附錄B（資料性附錄）常用去標識化模型

GB/T37964-2019 信息安全技術個人信息去標識化指南 /

附錄B（資料性附錄）常用去標識化模型

B.1　K-匿名模型（K-anonymity model）

B.1.1　概述

K-匿名模型是在發布數據時保護個人信息安全的一種模型。K-匿名模型要求發布的數據中，指定標識符（直接標識符或準標識符）屬性值相同的每一等價類至少包含K個記錄，使攻擊者不能判別出個人信息所屬的具體個體，從而保護了個人信息安全。在使用K-匿名模型整合得到的數據集中，各記錄之間的關聯性是有限的（1/K）。
可獨立或綜合使用附錄A中的各種去標識化技術，以符合K-匿名模型的要求。抑制技術、泛化技術及微聚集均適用于數據集中的各種屬性，以實現期望的結果。

B.1.2　L-多樣性（L-diversity）

L-多樣性是針對屬性值差異性不大的數據集提出的一種增強概念。為防止確定性推導，L-多樣性要求在K-匿名的基礎上，實現每一等價類在每一敏感屬性上存在至少L個不同值。在數據分布很不均衡時，防止推導性攻擊的能力受到限制。

B.1.3　T-接近性（T-closeness）

T-接近性是L-多樣性的增強概念，適用于發布數據集的敏感屬性分布要盡可能貼近整個數據集的敏感屬性分布。針對屬性值分布不規則、屬性值范圍很小或者已被分類的數據集，為防止概率性推導，要求任何等價類中敏感屬性的分布與整個數據集中相應屬性的分布之間的距離小于閾值T。

B.1.4　K匿名的關鍵考慮因素

B.1.4.1　數據風險度量

數據集的重標識風險度量包括如下兩個關鍵因素：
a) 每行記錄重標識概率的計算方法
數據集中的每一行都包含有關個體的信息，存在重標識的概率。對于給定的行，重標識的概率取決于數據集中其它行對于準標識符的屬性是否具有相同的值。
數據集中的“等價類”是指具有與準標識符屬性相同值的數據記錄行。例如，在具有性別，年齡和最高教育水平的屬性列的數據集中，所有滿足“35歲以上且具有大專學位的老年男子”的數據記錄，形成一個等價類。等價類的大小等于準標識符具有相同值的行數。
對于每一行，重標識的概率等于1除以其等價類的大小，即，給定記錄行重標識概率=1/等價類大小。例如，大小為5的等價類中的每一行都有重標識的概率為0.2。因此，具有較大等價類的行，具有較低的重標識概率。
b) 根據所使用的發布模型采用適當的風險衡量方法
雖然每行記錄重標識的概率等于1除以其等價類的大小，但是具體的計算數據集中重標識風險的方法，取決于具體使用的發布模型。
公開共享數據發布應使用最大風險。因為對于公開數據發布，應假設有攻擊者會進行炫耀式攻擊。該類攻擊將針對數據集中最脆弱的行，即具有最小等價類和最高重標識概率的數據行。因此，應使用所有行中重標識的最大概率來衡量重標識風險。

B.1.4.2　環境風險度量

重標識風險會受到環境風險的影響。環境風險是針對數據集發起一次或多次重標識攻擊的概率。任何去標識化的數據集中都存在重標識風險，然而依據數據發布模型的不同，攻擊者可實施攻擊類型也是不同的。
a) 公開共享數據發布
該類數據發布模型中，數據集可供任何人使用，無需任何條件，會有攻擊者進行炫耀式攻擊。因此，攻擊者對數據集進行重標識攻擊的概率為1。
b) 受控共享數據發布
該類數據發布模型中，環境風險的計算相對復雜，需重點確定可能的重標識攻擊概率的方法和函數。
對于受控共享數據發布，需確定三種不同的重標識攻擊的概率：內部故意攻擊；來自熟悉的數據集中的個體的無意識識別；數據泄露。
在衡量環境風險時，應取上述概率的最大值。
1）內部故意攻擊
對于受控共享數據集數據接受者，發起重標識的概率取決于兩個因素：數據共享協議中關于數據隱私和安全性的控制范圍；接收方進行重標識攻擊的動機和能力。這兩個因素都需在“高”、“中”、“低”范圍內進行定性評估。
根據受控共享數據發布的數據共享協議，依據不同的隱私和安全控制規定，信息接收方發起身份驗證攻擊的可能性會有所不同。隱私和安全控制水平越高，重標識攻擊的可能性就越低。數據共享協議中需考慮隱私和安全控制，具體內容包括：
(1) 信息接收方僅允許授權員工以最小權限方式訪問和使用數據；
(2) 包括外部合作者和分包商在內的所有工作人員都需要簽署保密協議；
(3) 采取措施處置指定保留期限外的數據；
(4) 如果沒有必要的控制或事先審批，數據將不能開放或與第三方共享；
(5) 制定隱私安全策略和規程，并監督執行；
(6) 對包括外部合作或分包場所涉及的人員在內的所有個人和團隊成員進行強制性和持續的隱私保護培訓和安全培訓；
(7) 應有應對違反隱私協議的必要措施，可能的措施包括立即向數據保管人發出書面通知；
(8) 安裝病毒檢查和反惡意軟件程序；
(9) 建立審計系統，記錄數據訪問人員、時間和行為等信息；
(10) 使用加密協議對需要傳輸的數據進行處理；
(11) 信息披露相關的計算機和文件需要被妥善保管，例如用組合門鎖或智能門卡等方式保護存放相關計算機的房間，紙質文件存儲在密碼存儲柜中。
確定信息接收方發起重標識攻擊可能性的另一個主要因素是他們的動機和能力。信息接收方對于數據集中的一個或多個個體重標識的動機越大，能力越強，實施重標識攻擊的概率就越高。評估動機和能力時，需要考慮以下因素：
(12) 信息接收方在與組織合作中是否發生過安全事故；
(13) 信息接收方是否存在財務或其它方面的原因，從而發起重標識攻擊；
(14) 信息接收方是否具有相關技術專長或經濟能力，以發起重標識攻擊；
(15) 信息接收方是否曾經訪問可以關聯到實施重標識攻擊數據的其它隱私數據庫或數據集。

附錄B（資料性附錄）常用去標識化模型

熟悉數據集的內部人無意識重標識

除了故意發起重標識攻擊，受控共享數據發布的接收方也可能無意中重標識一個或多個主體。比如在分析數據時，他們可能會識別出一個朋友、同事、家人或熟人。發生這種“攻擊”的概率等于隨機接收者在數據集中知道某人的概率，該概率的計算公式是：
1-〖(1-p)〗^m
p是所有人中具有數據集中討論的條件或特征的個體的百分比，p的值應由最近的人口統計確定；m是認識的平均人數，建議m的平均值應在150到190之間。
數據泄露
在受控共享數據發布的情況下，需考慮的第三種攻擊是接收方的數據泄露。如果信息接收方的設施發生數據泄露，應假設外部攻擊者將發起重標識攻擊。因此，發生這種攻擊的概率等于信息接收方設施發生信息泄露的概率。應使用公開的數據來了解各行業信息接收方發生數據泄露的情況。
總體風險度量
總體風險表示數據集中一行或多行數據被重標識攻擊概率。根據數據風險和環境風險，可以計算出重標識的總體風險。比如總體風險等于數據風險乘以環境風險。
差分隱私模型（Differential privacy model）
概述
差分隱私是針對數據隱私泄露問題提出的一種隱私定義，可以用來在數據采集、數據處理和數據發布中對數據集的隱私損失進行度量。差分隱私確保數據集中任何特定的個人信息主體的存在與否無法從去標識化數據集或系統響應中推導出。即使攻擊者能夠訪問其它相關的數據集，只要隱私損失限定在一定范圍內，這些保證就會得到保持。
差分隱私提供：
隱私數學定義，在該定義下，數據集的處理結果對單一記錄的變化不敏感，單一記錄添加到數據集或從數據集中刪除，對計算結果的統計特性影響極小，所產生的隱私泄露風險被控制在可接受范圍內。
隱私度量方法，可以監控累積的隱私損失并設置損失限制的“預算”。
差分隱私機制在數據集的處理結果上添加了一定量的“噪聲”，該噪聲通過精心選擇的概率分布產生。隨機噪聲既可在采集點（本地模式）添加至每一個人信息主體信息的輸入中，也可以添加至差分隱私系統向分析者（服務器模式）提供的輸出中。
服務器模式（Server model）
差分隱私“服務器模式”通常會將數據以原始值保存在安全的數據庫中。為了保護隱私，對查詢的響應僅能從軟件組件獲得。
軟件組件會接受系統用戶或報表軟件的查詢，并從數據庫獲得正確的無噪聲回答。但是，在對用戶或報表軟件做出響應前，軟件組件會添加一定量的隨機噪聲，且該噪聲與查詢所對應的隱私損失成比例。
軟件組件負責持續記錄累積的隱私損失并確保該損失不超出隱私預算。一旦隱私預算耗盡，軟件組件應針對系統建立逐項定義的策略來確定是停止響應查詢，還是采取其它措施。
本地模式（Local model）
本地模式適用于執行數據采集的實體不受個人信息主體信任，或采集數據的實體正尋求降低風險并執行數據最小化的情形。在該模型中，首先對屬于單個個人信息主體的數據或數據的計算結果進行隨機化，以便對數據進行去標識化，然后才將其轉移至并存儲在服務器中。
特定概率分布生成一個隨機量，并添加到每一單獨的數據或從屬于個人信息主體的數據測量的結果中，以便在采集點對數據進行隨機化。
當源自大量設備的隨機化數據聚合并用于采集點的統計分析時，分析結果會緊密與總體的集體行為相關。由于噪聲在傳輸前被添加，因此在很多實例中，源自主體的數據報告會存儲在服務器中，無需采取其它隱私保護措施，而且產生的數據庫可直接共享并進行查詢，無需管理者參與。
差分隱私系統的關鍵考慮因素
概率分布
在差分隱私的環境下，隨機噪聲采取隨機數的形式，隨機數根據所選的概率分布生成。可選的概率分布包括零均值的高斯分布、拉普拉斯分布或指數概率分布。
以拉普拉斯分布為例，決定噪聲生成器產生噪聲高低的參數是標準差，與S/ε成正比，其中S表示給定查詢的敏感性，而ε則表示相關的隱私預算。
敏感度
給定查詢或函數的敏感度S描述了增加、刪除、修改一個個人信息主體時該查詢或函數的返回結果最多會改變多少的情況。
為了“隱藏”帶來變化的個人信息主體，需要將一定比例的噪聲添加至該特殊查詢或函數的所有返回結果中。
隱私預算
隱私預算ε是差分隱私系統設計的一個參數。
以拉普拉斯噪聲為例，由于噪聲的標準差與S/ε成正比，則ε越大，標準差越小，隱私預算開銷越小，但通常也會帶來較大的隱私風險。
較小的ε會增加標準差，從而增加了較大噪聲值添加至實際結果中的概率，因此提供了更大程度的隱私保護。
累積隱私損失
差分隱私算法對其應答的每次查詢會產生隱私成本或隱私損失。在精心設計的差分隱私算法中，單次查詢損失可以足夠小，不使隱私受到侵犯，但這些損失的累積效應最終會導致對隱私的侵犯。
為了計算隱私預算中發生的變化，需對從多次查詢中累積損失的概念進行規定。比如在差分隱私算法中出現了含有相似隱私成本C的n次查詢，則總體隱私預算開銷將不高于nC。
隱私預算耗盡并不意味著對隱私一定有侵犯，而只是表明數學保證的失效。一旦保證失效，攻擊者就可能利用算法輸出并運用推導、關聯及其它類型的重標識技術實施攻擊，可能會導致重標識攻擊的成功實施。
差分隱私去標識化示例
概述
差分隱私模型的以下特性導致其在實際應用中魯棒性更強：
攻擊者背景知識無關性：攻擊者擁有的背景知識和計算能力不會影響隱私保護程度，即使攻擊者獲得數據集中除某條記錄外的所有記錄，仍然無法得知這條數據是否存在于數據集中；
隱私預算可組合性：如果用保證程度分別為ε1和ε2的差分隱私來回應給定數據集的兩個查詢，則該對查詢提供的隱私保護程度為（ε1+ε2）；
后期處理的安全性：該模型不會限制差分隱私結果的用途，即無論差分隱私結果與什么結合或者怎么被轉換，它仍然是差分隱私的；
噪聲量與數據集大小無關性：隱私保護所添加的噪聲量不隨數據集的增大而增加，所以差分隱私保護僅通過添加與數據集大小無關的少量噪聲，就能達到高級別的隱私保護；
數據分布特性保持性：對數據集實施差分隱私保護機制時，雖然對數據集加入了噪聲，但是數據集的分布特性仍能保持。
差分隱私使用方法
下面以醫療患者的直方圖發布為例對差分隱私模型的使用進行示例說明。

附錄B（資料性附錄）常用去標識化模型

該處的輸入數據集為H={2,1,3,4,3,4}。發布如圖B.1所示的直方圖會導致表B.1中個人隱私泄露。例如，假設攻擊者事前知道Dave的年齡為46歲，但不知道他是否有心臟病。如果攻擊者通過背景知識獲知桶[40,50]中除Dave之外其他人的病況（例如心臟病人數為2），通過直方圖的桶[40,50]計數為3，能夠推斷出Dave有心臟病。

第二步，定義差分隱私預算ε：引入噪聲與該值成反比。該值越小，引入的噪聲越大，因此隱私保護能力越強；與此相反，ε越大，引入的噪聲越小，隱私泄露的風險越大。在實際使用時，該值是事先設定的，計算公式如下：

任意給定兩個鄰近數據集，屬性結構相同且最多有一條不同的記錄，若隨機算法M，值域為range(M)，在上的輸出集O(O∈range(M))，若滿足如下概率公式，則稱算法M滿足ε-差分隱私。

第三步，計算數據集的敏感度S，敏感度是指刪除數據集中任一記錄對查詢結果造成的最大改變，其計算公式如下：

對于差別至多為一個記錄的兩個數據集，對于某查詢函數的全局敏感度S為：

敏感度的數據一般都比較小，且敏感度只是函數f的性質之一，與數據集無關。

在該示例中，S的值為1，它表示刪除或者添加一條記錄，最多影響直方圖中1個桶的統計情況，例如刪除表B.1中的Alice記錄，只影響桶[30,40]的計數。

第四步，在采集用戶的數據前，向其中隨機地注入一些噪音，即在結果上加滿足某種分布的噪音，使查詢結果隨機化。

常用的噪音添加機制為拉普拉斯機制和指數機制，其中輸出結果為數值時采用拉普拉斯機制，輸出結果為非數值時采用指數機制。

拉普拉斯機制的計算公式如下：

對于數據集D上的任意一個函數f:D→R^d^，d表示函數f的輸出維度，若隨機算法M滿足如下所示公式，則其滿足ε-差分隱私。

其中，ε是隱私預算參數，S是函數f的全局敏感度，公式如上所示。引入噪聲與敏感度成正比，與ε成反比。S越大，ε越小，引入的噪聲越大，表示差分隱私機制的隱私保護程度越強。

指數機制的計算公式具體如下：

設隨機算法M輸入為數據集D，輸出為實體對象r∈range(M)，q(D,r)為可用性函數，S為函數q(D,r)的敏感度。若算法M以正比于exp(ε×q(D,r)/2S）的概率從range(M)中選擇并輸出r，那么算法M提供ε-差分隱私保護。

此處采用拉普拉斯機制分別對直方圖中的每個桶的值添加拉普拉斯噪聲，對桶的真實值進行擾動,則對每個桶通過添加拉斯噪聲后的數據集為H’={h~1~’,h~2~’,…,h~n~’}，其中：

h~1~’=h~1~+Lap(S/ε), h~2~’=h~2~+Lap(S/ε), … , h~n~’=h~n~+Lap(S/ε).

因為S=1，所以h~1~’=h~1~+Lap(1/ε), h~2~’=h~2~+Lap(1/ε), … , h~n~’=h~n~+Lap(1/ε)。

計算得出，H’={1,2,5,3,2,3}。

第五步，發布增加噪聲后的數據集H’，如圖B.2所示。依據如圖B.2所示的直方圖，攻擊者在事前知道Dave的年齡為46歲，同時獲得了桶[40,50]中除Dave之外其他人的病況（例如心臟病人數為2），通過直方圖的桶[40,50]計數5，已經不能推斷出Dave是否有心臟病。

附錄B（資料性附錄）常用去標識化模型

本文章首發在網安wangan.com 網站上。

附錄B（資料性附錄）常用去標識化模型

附錄B（資料性附錄）常用去標識化模型

B.1 K-匿名模型（K-anonymity model）

B.1.1 概述

B.1.2 L-多樣性（L-diversity）

B.1.3 T-接近性（T-closeness）

B.1.4 K匿名的關鍵考慮因素

B.1.4.1 數據風險度量

B.1.4.2 環境風險度量

推薦文章：

B.1　K-匿名模型（K-anonymity model）

B.1.1　概述

B.1.2　L-多樣性（L-diversity）

B.1.3　T-接近性（T-closeness）

B.1.4　K匿名的關鍵考慮因素

B.1.4.1　數據風險度量

B.1.4.2　環境風險度量