5.4 處理標識
5.4 處理標識
5.4.1 概述
處理標識步驟分為預處理、選擇模型技術、實施去標識化三個階段工作。
5.4.2 預處理
預處理是在對數據集正式實施去標識化前的準備過程。一般地,預處理是對數據集施加某種變化,使其有利于后期進行處理。
預處理階段工作可參考如下方法進行:
a) 形成規范化,或滿足特定格式要求的數據;
b) 對數據抽樣,減小數據集的規模;
c) 增加或擾亂數據,改變數據集的真實性。
5.4.3 選擇模型技術
不同類型的數據需要采用不同的去標識化技術,所以在去標識化的早期階段,重要的一步是確定數據的類型和業務特性,選擇合適的去標識化模型和技術。選擇的參考因素包括但不限于如下方面:
a) 是否需要對重標識風險進行量化;
b) 聚合數據是否夠用;
c) 數據是否可刪除;
d) 是否需要保持唯一性;
e) 是否需要滿足可逆性;
f) 是否需要保持原有數據值順序;
g) 是否需要保持原有數據格式,如數據類型、長度等保持不變;
h) 是否需要保持統計特征,如平均值、總和值、最大值、最小值等;
i) 是否需要保持關系型數據庫中的實體完整性、參照完整性或用戶自定義完整性;
j) 是否可以更改數據類型,比如在針對字符串類型的“性別”(男/女)進行去標識化時,是否可以變成數字類型表示(1/0);
k) 是否需要滿足至少若干個屬性值相同,以加強數據的不可區分性;
l) 是否可以對屬性值實施隨機噪聲添加,對屬性值做微小變化;
m) 去標識化的成本約束。
5.4.4 實施去標識化
根據選擇的去標識化模型和技術,對數據集實施去標識化。主要工作包括:
a) 若存在多個需要去標識化的標識符,則根據數據特點和業務特性設定去標識化的順序;
b) 依次選擇相應的工具或程序;
c) 設置工具或程序的屬性和參數,如設置數據源、用戶名/口令、算法參數等;
GB/T37964-2019 信息安全技術 個人信息去標識化指南
推薦文章: