5.3 識別標識
5.3 識別標識
5.3.1 概述
識別標識符的方法包括查表識別法、規則判定法和人工分析法。
5.3.2 查表識別法
查表識別法指預先建立元數據表格,存儲標識符信息,在識別標識數據時,將待識別數據的各個屬性名稱或字段名稱,逐個與元數據表中記錄進行比對,以此識別出標識數據。
建立的標識符元數據表,應包括標識符名稱、含義、格式要求、常用數據類型、常用字段名字等內容。
5.3.3 規則判定法
規則判定法是指通過建立軟件程序,分析數據集規律,從中自動發現標識數據。
組織可分析業務特點,總結可能涉及到直接標識符和準標識符的數據格式和規律,確立相關標識符識別規則,然后通過運行程序,自動化地從數據集中識別出標識數據。如可依據GB 11643—1999《公民身份號碼》建立身份證號碼識別規則,并通過自動化程序在數據集中自動發現存在的身份證號碼數據。
組織識別標識數據宜先采用查表識別法,并根據數據量大小和復雜情況,結合采用規則判定法。規則判定法在某些情況下有助于發現查表識別法不能識別出的標識符,如標識符處于下面情況時:
a) 業務系統存儲數據時未采用常用的字段名稱,如使用“備注”字段存儲身份證號;
b) 數據中存在混亂或錯誤情況,如“備注”字段前100條記錄的值為空,而后10000條記錄的值為用戶身份證號碼。
5.3.4 人工分析法
人工分析法是通過人工發現和確定數據集中的直接標識符和準標識符。
組織可在對業務處理、數據集結構、相互依賴關系和對數據集之外可用數據等要素分析的基礎上,綜合判斷數據集重標識風險后,直接指定數據集中需要去標識化的直接標識符和準標識符。
人工分析法在結構化、半結構化和非結構化數據應用場景下都可使用。在下列場景時,人工分析法具有明顯的優勢:
a) 數據集中的多個不同數據子集之間存在關聯、引用關系時,如通過數據挖掘算法,可關聯分析數據集中多個非常見標識符屬性后識別出唯一的用戶身份;
b) 數據集中有特別含義的數據,或者數據具有特殊值、容易引起注意的值,從而可能被用來重標識時,如超出常人的身高、獨特的地理坐標、罕見的病因等。
GB/T37964-2019 信息安全技術 個人信息去標識化指南
推薦文章: