附錄D(資料性附錄)去標識化面臨的挑戰
附錄D(資料性附錄)去標識化面臨的挑戰
D.1 聚合技術的挑戰
聚合未必意味著保障了隱私保護,尤其是當數據被多個公開發布的數據源包含時。下面舉個例子,學校通過聚合的方式,來公布學生表現好壞分別有多少人:
| 表現 | 學生個數 |
|---|---|
| 良 | 30 |
| 中 | 50 |
| 優 | 20 |
在接下來的一個月,有名新同學加入,然后學校又重新發布了上述表格
| 表現 | 學生個數 |
|---|---|
| 良 | 30 |
| 中 | 50 |
| 優 | 21 |
通過對比上面這兩個表,可以推斷出后加入的學生是優秀表現,這是因為聚合的方法沒能在多次數據重發布中統一起來以保證保護隱私。單獨考慮聚合的方法并不能確保達到隱私保護的目的,但是,差分隱私的方法在理論上保證了采用聚合時的隱私保護,同時也維護了較高的數據精確度,這類方法采用了添加可控的“隨機噪聲”的方式實現。
D.2 高維數據的挑戰
盡管對直接標識符進行清理和對準標識符進行轉化,一些高維數據仍展現出可識別的特征,這些數據可以用來和相關個體進行關聯。
D.3 關聯數據的挑戰
數據的關聯方式多種多樣。假名允許來自同一個人的數據記錄聯系在一起。家族標識符允許父母的數據與子女聯系起來。設備標識符允許將數據關聯到物理設備,并可能將來自同一設備的所有數據聯系在一起。數據也可以與地理位置相關聯。
數據間的聯系提供了多樣的屬性,這些屬性可用于區分數據記錄與人群中其他人的真實身份,從而增加重標識的風險。例如,心率測量可能不被認為是可標識的,但是給定長的心率測量序列,數據集中的每個人都將具有獨特的心率測量的特征,因此數據集就可能容易與另一個數據集包含這些相同值的關聯起來。地理位置數據可以隨著時間的推移而聯系起來創建個體行為時間位置模式可以作為重標識目的的“指紋”,即使每個人的記錄位置很少。
D.4 組合的挑戰
在計算機科學中,組合是指將多個功能結合在一起,創造出更復雜的功能。復雜系統的一個特征是組合創建的復雜功能可能會產生不可預知的結果,即使它們是由非常簡單的組件構成的。
當去標識化時,重要的是要了解所使用的技術是否會在組合時保留其隱私保證。例如,如果相同的數據集通過兩種不同的去標識化可用,則必須注意如果兩個下游數據集被重新組合,隱私保證是否保留。
D.5 增量去標識化的挑戰
數據去標識化之后,出現新的增量數據時,可以考慮兩種方式:
a) 每次對全量數據進行去標識化;
b) 首次全量去標識化,后面僅對增量數據進行去標識化。
GB/T37964-2019 信息安全技術 個人信息去標識化指南
推薦文章: