<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    專家觀點:如何無損保護敏感機器學習訓練數據

    VSole2022-12-28 21:33:27

    此前有文章討論過機器學習(ML)數據保護問題,重點強調了操作查詢數據所帶來的現實挑戰。即,ML系統在使用過程中所面臨的數據暴露風險很可能會高于前期訓練的時候。

    粗略估計,貝里維爾機器學習研究所(BIML)確定的已知機器學習安全風險中,數據安全風險至少占據了60%。這塊風險(60%)又進一步細分為操作數據暴露風險和訓練數據暴露風險,占比大致為九比一。訓練數據即使只是ML數據風險中的一小部分,但也是很重要的一小部分。結果就是,我們確實需要花費一些精力來緩解ML帶來的操作數據風險問題,同時還需要考慮訓練數據暴露問題。

    有意思的是,ML數據安全領域里似乎每個人都只談論訓練數據保護問題。為什么會這樣呢?別忘了,ML的最終事實在于,完成所有學習的算法,其實不過就是實例化機器可運行形式的數據!

    所以,只要你的訓練數據集包含敏感數據,那你用ML通過這些數據構造出來的機器也包含敏感信息。而如果你的訓練集包含偏差數據或受監管數據,那你用ML通過這些數據元素構建的機器就包含偏差或受監管信息。如果你的訓練集包含企業機密數據,那你用ML通過這些數據元素構建的機器就包含企業機密信息。諸如此類。

    算法是數據,并通過訓練變成數據。

    顯而易見,ML領域將重點放在保護訓練數據上是有一些好處的。不出意外,應對訓練數據問題的主流觀點之一是修復訓練數據,使其不再直接含有敏感、偏差、受監管數據和機密數據。極端一點的話,你甚至可以干脆從訓練集中剔除這些數據元素。沒那么瘋狂,但同樣有問題的做法是調整訓練數據,屏蔽或模糊掉敏感、偏差、受監管數據和機密數據。

    我們不妨花點時間研究下這個問題。

    數據所有者和數據科學家

    這個機器學習新范式里最難理順的一個問題是誰來管哪種風險。這個問題不解決,那怎么設置和實施信任邊界的問題就有點棘手了。比如說,我們可不僅僅需要區別并了解操作數據和訓練數據,還得進一步確定誰擁有(和應該擁有)訓練數據訪問權。

    更糟糕的是,訓練數據元素是否存在偏差、是否屬于受保護的類成員、是否受法律保護、是否受監管、是否機密數據等問題,甚至更加棘手。

    先討論最重要的事。首先,有人生成了可能會出問題的數據,是這些數據組件的所有者。該數據所有者最終可能會獲得一堆需要他們擔負起保護責任的數據,比如種族信息、身份證號、人臉照片等等。這是數據所有者。

    通常情況下,數據所有者與數據科學家不是同一個實體,數據科學家負責用數據來訓練機器做一些有意思的事情。也就是說,安全人員需要確定數據所有者和訓練ML系統的數據科學家之間的重要信任邊界。

    很多時候,數據科學家需要與數據所有者控制的“放射性”訓練數據保持距離。于是,該怎么做呢?

    差分隱私

    我們先從最糟糕的敏感訓練數據保護方法講起:什么都不做。或者更糟糕的情況:在假裝要做點什么的同時故意什么都不做。舉個例子,Facebook(如今更名為Meta了)多年來大肆宣揚的人臉識別數據聲明。Facebook利用其用戶的大量人臉照片打造了一套人臉識別系統。很多人認為這是個重大隱私問題。(也有人非常擔心人臉識別系統的種族偏見到底有多深,但這是另一碼事了。)

    在人臉識別系統上遭遇隱私壓力后,Facebook構建了一套數據轉換系統,用于將原始人臉數據(照片)轉換為矢量。這套系統名為Face2Vec,其中每張人臉都有唯一的Face2Vec表示。隨后,Facebook聲稱已刪除了所有人臉,但卻保有巨大的Face2Vec數據集。注意,從數學上講,Facebook壓根兒就沒為保護用戶隱私做出任何努力。相反,他們保留了用戶人臉數據的唯一表示。

    最常見的隱私保護措施是差分隱私。簡單講,差分隱私旨在通過從統計意義上“破壞”數據來保護特定數據點,讓個別敏感數據點不再存在于數據集中,但ML系統仍能正常工作。其中訣竅在于保留所得ML系統的功能,即使訓練數據已經被聚合和“模糊化”過程破壞了。如果數據組件被這一過程過度處理,那ML系統就無法正常運作了。

    但如果ML系統用戶可以確定某個人的數據就在原始訓練數據中(所謂“成員推理”),那么該數據就破壞得還不夠。注意,差分隱私是通過在訓練前編輯敏感數據集本身而起作用的。

    開發中的商業化系統需要調整訓練過程本身,從而屏蔽訓練數據集中的敏感點。這一方法的要點是在訓練和推理時都采用同一種數學變換,從而防止敏感數據暴露(包括成員推理)。

    該方法基于互信息數學思想,僅將高斯噪聲添加到非歸納特征,從而在模糊數據集的同時不傷及其推理能力。這一思想的核心在于構建隱藏在敏感特征層的內部表示。

    針對性特征混淆最棒的是可以保留數據所有者和數據科學家之間常有的信任邊界,幫助數據擁有者免遭數據科學家偷窺數據。

    內置安全

    以上這些就意味著敏感訓練數據問題解決了嗎?并不。任何新興領域都會遇到的問題仍然存在:構建和使用ML系統的人需要內置安全。也就是說,在構建系統時就要意識到訓練數據敏感性風險并加以緩解。

    而這么做的時機就在當下。如果我們構建了一堆暗藏巨大數據暴露風險的ML系統,那就純屬給自己挖坑了:未來將直面又一場安全災難。

    大數據機器學習
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    這篇技術干貨 帶你了解深信服的AI技術
    近日,Mintegral通過了2022年網絡安全等級保護第三級測評,表明Mintegral的信息安全管理能力,已達到國內非銀行機構的最高標準。據了解,Mintegral在算法技術上持續投入,是首批將DCO動態創意優化技術與互動創意相結合的廣告平臺之一。在每次廣告請求篩選廣告時,Mintegral的算法會自動增加一個創意組合維度、產生更多的候選結果,讓Mintegral的投放效率具備一定的比較優勢。
    近年來,移動金融發展迅速,新業態、新模式層出不窮。用戶通過智能手機終端進行投資理財、消費借貸、交易支付等金融業務操作,大大提升了金融業務的便捷性。各商業銀行也都推出了手機銀行、直銷銀行、微信銀行等多元化移動金融渠道。
    近日,國際權威IT研究機構Gartner發布《2022中國網絡安全技術成熟度曲線》報告。快速滿足等級保護要求,為600多朵私有云提供安全資源池服務。可視化的安全監控與態勢感知,統一管理提升運維處置效率。態勢感知建立基于全國的縱橫聯動態勢感知Gartner認為,中國態勢感知技術是安全信息和事件管理平臺的現代、集中和發展版本。數據分類分級對數據安全、數據治理和合規項目至關重要。
    Github滲透測試文檔資料集合
    沒有數據安全就沒有國家安全,數據安全治理作為數據安全體系重要的組成部分引起了各行各業越來越多的關注。從數據環境下海量數據面臨的安全風險出發,結合數據在使用過程中的安全需求,給出了一種動態防御的數據安全治理架構,并對該架構下的關鍵技術進行了研究。該架構能夠為數據安全治理提供體系化安全治理思路,其中的關鍵技術可以為該架構的實現提供有效支撐。 《中華人民共和國數據安全法》(下文簡稱:數據安全法)的正
    數據質量的高度敏感要求,數據質量的優劣極大程度影響AI模型的應用效果,必須進行多維度的質量檢查,以及對實時性高要求,實時數據分析、推薦和預警時,數據源更強調具備實時性接入能力。最后是AI引擎的自我迭代階段。達到AI模型上線后的持續迭代優化。考慮到數據訓練規模擴張,數據類型異構,數據噪聲指數級增加,對此AI 引擎能針對性地進行數據自動發現。
    數據暴政與數據光明
    2022-06-09 11:26:54
    背景:現如今,空前且大規模的人類行為數據的可用性正在深刻地改變著我們所處的世界,經濟學、公共衛生學、醫學、生物學、城市科學等在這一趨勢中都受到影響。各個組織、公民個人正在積極嘗試、創新和改編算法決策工具以了解全球人類行為模式,并為解決社會重要性問題提供決策支持。
    此前,本公號發表過的關于數據要素治理的相關文章包括: 《非個人數據在歐盟境內自由流動框架條例》全文中文翻譯(DPO沙龍出品) 簡析歐盟《數字市場法》關于數據方面的規定 數據流通障礙初探——以四個場景為例 對“數據共享合法化”的分析與思考系列之一:以《關于歐洲企業間數據共享的研究》為起點 對“數據共享合法化”的分析與思考 系列之二 ——歐盟B2B數據共享的案例研究 對“數據共享合法化”的分析與思考
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类