5.4 處理標識

GB/T37964-2019 信息安全技術個人信息去標識化指南 /

5.4 處理標識

5.4.1　概述

處理標識步驟分為預處理、選擇模型技術、實施去標識化三個階段工作。

5.4.2　預處理

預處理是在對數據集正式實施去標識化前的準備過程。一般地，預處理是對數據集施加某種變化，使其有利于后期進行處理。
預處理階段工作可參考如下方法進行：
a) 形成規范化，或滿足特定格式要求的數據；
b) 對數據抽樣，減小數據集的規模；
c) 增加或擾亂數據，改變數據集的真實性。

5.4.3　選擇模型技術

不同類型的數據需要采用不同的去標識化技術，所以在去標識化的早期階段，重要的一步是確定數據的類型和業務特性，選擇合適的去標識化模型和技術。選擇的參考因素包括但不限于如下方面：
a) 是否需要對重標識風險進行量化；
b) 聚合數據是否夠用；
c) 數據是否可刪除；
d) 是否需要保持唯一性；
e) 是否需要滿足可逆性；
f) 是否需要保持原有數據值順序；
g) 是否需要保持原有數據格式，如數據類型、長度等保持不變；
h) 是否需要保持統計特征，如平均值、總和值、最大值、最小值等；
i) 是否需要保持關系型數據庫中的實體完整性、參照完整性或用戶自定義完整性；
j) 是否可以更改數據類型，比如在針對字符串類型的“性別”（男/女）進行去標識化時，是否可以變成數字類型表示（1/0）；
k) 是否需要滿足至少若干個屬性值相同，以加強數據的不可區分性；
l) 是否可以對屬性值實施隨機噪聲添加，對屬性值做微小變化；
m) 去標識化的成本約束。

5.4.4　實施去標識化

根據選擇的去標識化模型和技術，對數據集實施去標識化。主要工作包括：
a) 若存在多個需要去標識化的標識符，則根據數據特點和業務特性設定去標識化的順序；
b) 依次選擇相應的工具或程序；
c) 設置工具或程序的屬性和參數，如設置數據源、用戶名/口令、算法參數等；

本文章首發在網安wangan.com 網站上。

地球胖頭魚

1.3k 聲望

暫無個人描述~

點贊

5.4 處理標識

5.4 處理標識

5.4.1 概述

5.4.2 預處理

5.4.3 選擇模型技術

5.4.4 實施去標識化

推薦文章：

5.4.1　概述

5.4.2　預處理

5.4.3　選擇模型技術

5.4.4　實施去標識化