錄C（資料性附錄）去標識化模型和技術的選擇

GB/T37964-2019 信息安全技術個人信息去標識化指南 /

錄C（資料性附錄）去標識化模型和技術的選擇

C.2　常見標識符的去標識化參考

C.2.1　姓名的去標識化

姓名是一種常用的標識符，適用的去標識化方法舉例如下：
a) 泛化編碼。使用概括、抽象的符號來表示，如使用“張先生”來代替“張三”，或使用“張某某”來代替“張三”。這種方法是用在需要保留“姓”這一基本特征的應用場景；
b) 抑制屏蔽。直接刪除姓名或使用統一的“”來表示。如所有的姓名都使用“**”代替；
c) 隨機替代。使用隨機生成的漢字來表示，如使用隨機生成的“辰籌獵”來取代“張三豐”；
d) 假名化。構建常用人名字典表，并從中選擇一個來表示，如先構建常用的人名字典表，包括龔小虹、黃益洪、龍家銳、……等，假名化時根據按照順序或隨機選擇一個人名代替原名。如使用“龔小虹”取代“張三豐”。這種方法有可能用在需要保持姓名數據可逆變換的場景；

C.2.2　身份證號的去標識化

身份證號也是一種常用的標識符，國內身份證號按照GB 11643—1999《公民身份號碼》制定的規則進行編碼，其結構分為地址碼、出生日期碼、順序碼和校驗碼，常見的去標識化方法舉例如下：

a) 抑制屏蔽。直接刪除身份證號或使用統一的“”來表示。如所有的身份證號都使用“*****”代替；

b) 部分屏蔽。屏蔽身份證號中的一部分，以保護個人信息。如“440524188001010014”可以使用“440524****0014”、
“4405241880014”或“*188*****”代替，上述數據可分別用在需要保密出生日期、保密出生日期但允許對數據按時代作統計分析、保密所有信息但允許對出生日期按時代作統計分析等場景；

d) 數據合成。采用重新產生的數據替代原身份證號，如使用數據集中的記錄順序號替代原身份證號，或隨機產生符合身份證號編碼規則的新身份證號代替原始值。

C.2.3　銀行卡號的去標識化

銀行卡號在很多應用中和個人身份密切關聯，是一種常用的標識符。銀行卡號是按照規則進行編碼的，其結構分為發卡機構標識代碼、自定義位和校驗碼。常見的去標識化方法舉例如下：

a) 抑制屏蔽。直接刪除銀行卡號或使用統一的“”來表示。如所有的銀行卡號都使用“****”代替；

b) 部分屏蔽。屏蔽銀行卡號中的一部分，以保護卡號信息。如分別可以屏蔽銀行卡號中的發卡機構標識代碼和自定義位；
c) 可逆編碼。采用密碼或其他變換技術，將銀行卡號轉變成另外的字符，并保持可逆特性。如使用密碼和字符編碼技術。這種方法適用于使用銀行卡號做數據庫主鍵的應用場景；

C.2.4　地址的去標識化

對于地址，常用的去標識化方法舉例如下：
a) 泛化編碼。使用概括、抽象的符號來表示，如“江西省吉安市安福縣”使用“南方某地”或“J省”來代替；
b) 抑制屏蔽。直接刪除姓名或使用統一的“”來表示。如所有的地址都使用“*****”代替；
c) 部分屏蔽。屏蔽地址中的一部分，以保護地址信息。如使用“江西省XX市XX縣”來代替“江西省吉安市安福縣”；

C.2.5　電話號碼的去標識化

常見的電話號碼去標識化方法舉例如下：
a) 抑制屏蔽。直接刪除電話號碼或使用統一的“”來表示。如所有的電話號碼都使用“000000”代替；
b) 部分屏蔽。屏蔽電話號碼中的一部分，以保護號碼信息。如“19888888888”可以使用“198***”、 “1988888”或“***8888”代替；
c) 隨機替代。使用隨機生成的一串數字來表示，如使用隨機生成的“2346544580”來取代“19888888888”；

C.2.6　數值型標識符的去標識化

常用的數值型標識符的去標識化包括：
a) 泛化編碼。使用概括、抽象的符號來表示，如“有四個人，他們分別是藍色、綠色和淺褐色的眼睛”來代替“有1個人是藍色眼睛，2個人是綠色的眼睛，1個人是淺褐色的眼睛”；
b) 抑制屏蔽。直接刪除數值或使用統一的“”來表示。如所有的數值都使用“****”代替；
c) 頂層和底層編碼。大于或者小于一個特定值的處理成某個固定值。例如，年齡超過70歲的一律用“大于70歲”描述，以保障滿足此條件的人數多于20000人；
d) 部分屏蔽。使用數值的高位部分代替原有數值，如百分制考試成績全部使用去掉個位數、保留十位數的數值代替；
e) 記錄交換。使用數據集中其他記錄的相應數值代替本記錄的數值。如設定規則，將記錄集中的所有的身高數據取出并全部打亂位置后（其他屬性數據位置不變）放回原數據集中。這種方法可以保持數據集的統計特性不變；
f) 噪聲添加。相對原始數據，產生微小的隨機數，將其加到原始數值上并代替原始數值。如對于身高1.72米，產生隨機數值-0.11米，加到原始數值后將其變為1.61米；

C.2.7　日期的去標識化

在數據集中，日期有多種存在形式，包括出生日期、開始日期、紀念日等。常見的對日期的去標識化方法包括：
a) 泛化編碼。使用概括、抽象的日期來表示，如使用1880年代替1880年1月1日；
b) 抑制屏蔽。直接刪除日期數據或使用統一的“*”來表示。如所有的數值都使用“某年某日”代替；
c) 部分屏蔽。對日期中的一部分做屏蔽，如1880年某月1日代替1880年1月1日；
d) 記錄交換。使用數據集中其他記錄的相應數值代替本記錄的數值。如設定規則，將記錄集中的所有的日期數據取出并全部打亂位置后（其他屬性數據位置不變）放回到原數據集中。這種方法有利于保持數據集的統計特性；
e) 噪聲添加。相對原始數據，產生微小的隨機數，將其加到原始數值上并代替原始數值。如對于出生日期1880年1月1日，產生隨數值32天，加到原始數值后將其變為1880年2月2日；

C.2.8　地理位置的去標識化

地理數據在數據集中的表現形式多種多樣。地理位置可以通過地圖坐標推斷出來（例如，39.1351966，-77.2164013），可以通過街道地址（例如清華園1號）或者郵編（100084）。地理位置也可能隱藏在文本數據中。
一些地理位置是不可標識的（例如，一個擁擠的火車站），而另一些是高度可標識的（例如，一個單身漢居住的房子）。單獨的地址可能并不可標識，但是如果將它們表示的位置與個人相關聯則會成為可標識的信息。
對地理位置信息進行去標識化，采用的噪聲值很大程度上取決于外界因素。例如在中心區范圍內通過加減100m的范圍，而偏遠地區通過加減5km來得到充足的模糊化結果；或者基于行政區劃進行泛化，比如將“清華園1號”泛化為“北京市”，以保障此范圍內的人數多于20000人。
添加噪聲時也要考慮噪聲對數據真實性的影響。例如，將一個居民的沿海住所搬遷到內陸甚至跨政治領域范疇的另一個國家，這種方式有時是不可取的。

C.3　去標識化模型的應用

如果針對重標識風險的量化保證納入了組織的目標中，則可執行合適的去標識化模型。
對于微數據，K-匿名是提供針對重標識風險的量化保證的一種方法。可利用不同的去標識化技術執行K-匿名。因此，去標識化數據的有效性將由模型中所含的特定去標識化技術決定。例如，如果去標識化數據需要在記錄級保持真實性，則隨機化技術無法用來實現K-匿名。
差分隱私是一種廣泛適用于以下情況的方法：需要可證明的隱私水平，而且針對數據訪問及噪聲添加是可行的。除了采用不同隱私模型來實現標準的統計分析工具（如平均值、標準偏差及直方圖）之外，還可定制適用于特定應用的不同的隱私系統，這些應用采用統計工具作為其邏輯的一部分。比如數據挖掘工具（如聚類算法）及機器學習算法（如決策樹、支持向量機及回歸）。

本文章首發在網安wangan.com 網站上。

錄C（資料性附錄）去標識化模型和技術的選擇

錄C（資料性附錄）去標識化模型和技術的選擇

C.2 常見標識符的去標識化參考

C.2.1 姓名的去標識化

C.2.2 身份證號的去標識化

C.2.3 銀行卡號的去標識化

C.2.4 地址的去標識化

C.2.5 電話號碼的去標識化

C.2.6 數值型標識符的去標識化

C.2.7 日期的去標識化

C.2.8 地理位置的去標識化

C.3 去標識化模型的應用

推薦文章：

C.2　常見標識符的去標識化參考

C.2.1　姓名的去標識化

C.2.2　身份證號的去標識化

C.2.3　銀行卡號的去標識化

C.2.4　地址的去標識化

C.2.5　電話號碼的去標識化

C.2.6　數值型標識符的去標識化

C.2.7　日期的去標識化

C.2.8　地理位置的去標識化

C.3　去標識化模型的應用