實際數據脫敏工作中需要注意的問題如下:
數據脫敏算法不可逆:數據脫敏算法通常應當是不可逆的,必須防止使用非敏感數據推斷、重建敏感原始數據。但在一些特定場合,也存在可恢復式數據脫敏需求。
保留源數據特征:脫敏后的數據應具有原數據的大部分特征,因為它們仍將用于開發或測試場合。帶有數值分布范圍、具有指定格式(如信用卡號前四位指代銀行名稱)的數據,在脫敏后應與原始信息相似;姓名和地址等字段應符合基本的語言認知,而不是無意義的字符串。在要求較高的情形下,還要求具有與原始數據一致的頻率分布、字段唯一性等。
數據引用的完整性:數據的引用完整性應予保留,如果被脫敏的字段是數據表主鍵,那么相關的引用記錄必須同步更改。
非敏感字段同樣脫敏處理:對所有可能生成敏感數據的非敏感字段同樣進行脫敏處理。例如,在學生成績單中為隱藏姓名與成績的對應關系,將“姓名”作為敏感字段進行變換。但是,如果能夠憑借某“籍貫”的唯一性推導出“姓名”,則需要將“籍貫”一并變換。
數據脫敏過程應是自動化、可重復的:因為數據處于不停的變化中,期望對所需數據進行一勞永逸式的脫敏并不現實。生產環境中數據的生成速度極快,脫敏過程必須能夠在規則的引導下自動化進行,才能達到可用性要求;另一種意義上的可重復性,是指脫敏結果的穩定性。在某些場景下,對同一字段脫敏的每輪計算結果都相同或者都不同,以滿足數據使用方可測性、模型正確性、安全性等指標的要求。
實現數據脫敏需求,并保證脫敏過程安全:隨著互聯網的普及、大數據價值的飆升,敏感信息泄漏事件已經充斥在日常生活中,企業是敏感信息的聚集地,也是數據泄漏的源頭。數據共享、分析等才有價值,也就導致數據泄漏。目前脫敏是國家法律法規要求,也是企業核心數據不被泄漏的基本保護措施,在脫敏過程中也需要保證數據安全,防止脫敏過程中核心數據泄漏,實現合規。
回答所涉及的環境:聯想天逸510S、Windows 10。
實際數據脫敏工作中需要注意的問題如下:
數據脫敏算法不可逆:數據脫敏算法通常應當是不可逆的,必須防止使用非敏感數據推斷、重建敏感原始數據。但在一些特定場合,也存在可恢復式數據脫敏需求。
保留源數據特征:脫敏后的數據應具有原數據的大部分特征,因為它們仍將用于開發或測試場合。帶有數值分布范圍、具有指定格式(如信用卡號前四位指代銀行名稱)的數據,在脫敏后應與原始信息相似;姓名和地址等字段應符合基本的語言認知,而不是無意義的字符串。在要求較高的情形下,還要求具有與原始數據一致的頻率分布、字段唯一性等。
數據引用的完整性:數據的引用完整性應予保留,如果被脫敏的字段是數據表主鍵,那么相關的引用記錄必須同步更改。
非敏感字段同樣脫敏處理:對所有可能生成敏感數據的非敏感字段同樣進行脫敏處理。例如,在學生成績單中為隱藏姓名與成績的對應關系,將“姓名”作為敏感字段進行變換。但是,如果能夠憑借某“籍貫”的唯一性推導出“姓名”,則需要將“籍貫”一并變換。
數據脫敏過程應是自動化、可重復的:因為數據處于不停的變化中,期望對所需數據進行一勞永逸式的脫敏并不現實。生產環境中數據的生成速度極快,脫敏過程必須能夠在規則的引導下自動化進行,才能達到可用性要求;另一種意義上的可重復性,是指脫敏結果的穩定性。在某些場景下,對同一字段脫敏的每輪計算結果都相同或者都不同,以滿足數據使用方可測性、模型正確性、安全性等指標的要求。
實現數據脫敏需求,并保證脫敏過程安全:隨著互聯網的普及、大數據價值的飆升,敏感信息泄漏事件已經充斥在日常生活中,企業是敏感信息的聚集地,也是數據泄漏的源頭。數據共享、分析等才有價值,也就導致數據泄漏。目前脫敏是國家法律法規要求,也是企業核心數據不被泄漏的基本保護措施,在脫敏過程中也需要保證數據安全,防止脫敏過程中核心數據泄漏,實現合規。
回答所涉及的環境:聯想天逸510S、Windows 10。