<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    5.4 處理標識

    5.4 處理標識

    5.4.1 概述

    處理標識步驟分為預處理、選擇模型技術、實施去標識化三個階段工作。

    5.4.2 預處理

    預處理是在對數據集正式實施去標識化前的準備過程。一般地,預處理是對數據集施加某種變化,使其有利于后期進行處理。
    預處理階段工作可參考如下方法進行:
    a) 形成規范化,或滿足特定格式要求的數據;
    b) 對數據抽樣,減小數據集的規模;
    c) 增加或擾亂數據,改變數據集的真實性。

    5.4.3 選擇模型技術

    不同類型的數據需要采用不同的去標識化技術,所以在去標識化的早期階段,重要的一步是確定數據的類型和業務特性,選擇合適的去標識化模型和技術。選擇的參考因素包括但不限于如下方面:
    a) 是否需要對重標識風險進行量化;
    b) 聚合數據是否夠用;
    c) 數據是否可刪除;
    d) 是否需要保持唯一性;
    e) 是否需要滿足可逆性;
    f) 是否需要保持原有數據值順序;
    g) 是否需要保持原有數據格式,如數據類型、長度等保持不變;
    h) 是否需要保持統計特征,如平均值、總和值、最大值、最小值等;
    i) 是否需要保持關系型數據庫中的實體完整性、參照完整性或用戶自定義完整性;
    j) 是否可以更改數據類型,比如在針對字符串類型的“性別”(男/女)進行去標識化時,是否可以變成數字類型表示(1/0);
    k) 是否需要滿足至少若干個屬性值相同,以加強數據的不可區分性;
    l) 是否可以對屬性值實施隨機噪聲添加,對屬性值做微小變化;
    m) 去標識化的成本約束。

    5.4.4 實施去標識化

    根據選擇的去標識化模型和技術,對數據集實施去標識化。主要工作包括:
    a) 若存在多個需要去標識化的標識符,則根據數據特點和業務特性設定去標識化的順序;
    b) 依次選擇相應的工具或程序;
    c) 設置工具或程序的屬性和參數,如設置數據源、用戶名/口令、算法參數等;

    本文章首發在 網安wangan.com 網站上。

    上一篇 下一篇
    討論數量: 0
    只看當前版本


    暫無話題~
    亚洲 欧美 自拍 唯美 另类