專家觀點：如何無損保護敏感機器學習訓練數據 - 網安 - 專業的網絡安全產業、社區、知識平臺

此前有文章討論過機器學習（ML）數據保護問題，重點強調了操作查詢數據所帶來的現實挑戰。即，ML系統在使用過程中所面臨的數據暴露風險很可能會高于前期訓練的時候。

粗略估計，貝里維爾機器學習研究所（BIML）確定的已知機器學習安全風險中，數據安全風險至少占據了60%。這塊風險（60%）又進一步細分為操作數據暴露風險和訓練數據暴露風險，占比大致為九比一。訓練數據即使只是ML數據風險中的一小部分，但也是很重要的一小部分。結果就是，我們確實需要花費一些精力來緩解ML帶來的操作數據風險問題，同時還需要考慮訓練數據暴露問題。

有意思的是，ML數據安全領域里似乎每個人都只談論訓練數據保護問題。為什么會這樣呢？別忘了，ML的最終事實在于，完成所有學習的算法，其實不過就是實例化機器可運行形式的數據！

所以，只要你的訓練數據集包含敏感數據，那你用ML通過這些數據構造出來的機器也包含敏感信息。而如果你的訓練集包含偏差數據或受監管數據，那你用ML通過這些數據元素構建的機器就包含偏差或受監管信息。如果你的訓練集包含企業機密數據，那你用ML通過這些數據元素構建的機器就包含企業機密信息。諸如此類。

算法是數據，并通過訓練變成數據。

顯而易見，ML領域將重點放在保護訓練數據上是有一些好處的。不出意外，應對訓練數據問題的主流觀點之一是修復訓練數據，使其不再直接含有敏感、偏差、受監管數據和機密數據。極端一點的話，你甚至可以干脆從訓練集中剔除這些數據元素。沒那么瘋狂，但同樣有問題的做法是調整訓練數據，屏蔽或模糊掉敏感、偏差、受監管數據和機密數據。

我們不妨花點時間研究下這個問題。

數據所有者和數據科學家

這個機器學習新范式里最難理順的一個問題是誰來管哪種風險。這個問題不解決，那怎么設置和實施信任邊界的問題就有點棘手了。比如說，我們可不僅僅需要區別并了解操作數據和訓練數據，還得進一步確定誰擁有（和應該擁有）訓練數據訪問權。

更糟糕的是，訓練數據元素是否存在偏差、是否屬于受保護的類成員、是否受法律保護、是否受監管、是否機密數據等問題，甚至更加棘手。

先討論最重要的事。首先，有人生成了可能會出問題的數據，是這些數據組件的所有者。該數據所有者最終可能會獲得一堆需要他們擔負起保護責任的數據，比如種族信息、身份證號、人臉照片等等。這是數據所有者。

通常情況下，數據所有者與數據科學家不是同一個實體，數據科學家負責用數據來訓練機器做一些有意思的事情。也就是說，安全人員需要確定數據所有者和訓練ML系統的數據科學家之間的重要信任邊界。

很多時候，數據科學家需要與數據所有者控制的“放射性”訓練數據保持距離。于是，該怎么做呢？

差分隱私

我們先從最糟糕的敏感訓練數據保護方法講起：什么都不做。或者更糟糕的情況：在假裝要做點什么的同時故意什么都不做。舉個例子，Facebook（如今更名為Meta了）多年來大肆宣揚的人臉識別數據聲明。Facebook利用其用戶的大量人臉照片打造了一套人臉識別系統。很多人認為這是個重大隱私問題。（也有人非常擔心人臉識別系統的種族偏見到底有多深，但這是另一碼事了。）

在人臉識別系統上遭遇隱私壓力后，Facebook構建了一套數據轉換系統，用于將原始人臉數據（照片）轉換為矢量。這套系統名為Face2Vec，其中每張人臉都有唯一的Face2Vec表示。隨后，Facebook聲稱已刪除了所有人臉，但卻保有巨大的Face2Vec數據集。注意，從數學上講，Facebook壓根兒就沒為保護用戶隱私做出任何努力。相反，他們保留了用戶人臉數據的唯一表示。

最常見的隱私保護措施是差分隱私。簡單講，差分隱私旨在通過從統計意義上“破壞”數據來保護特定數據點，讓個別敏感數據點不再存在于數據集中，但ML系統仍能正常工作。其中訣竅在于保留所得ML系統的功能，即使訓練數據已經被聚合和“模糊化”過程破壞了。如果數據組件被這一過程過度處理，那ML系統就無法正常運作了。

但如果ML系統用戶可以確定某個人的數據就在原始訓練數據中（所謂“成員推理”），那么該數據就破壞得還不夠。注意，差分隱私是通過在訓練前編輯敏感數據集本身而起作用的。

開發中的商業化系統需要調整訓練過程本身，從而屏蔽訓練數據集中的敏感點。這一方法的要點是在訓練和推理時都采用同一種數學變換，從而防止敏感數據暴露（包括成員推理）。

該方法基于互信息數學思想，僅將高斯噪聲添加到非歸納特征，從而在模糊數據集的同時不傷及其推理能力。這一思想的核心在于構建隱藏在敏感特征層的內部表示。

針對性特征混淆最棒的是可以保留數據所有者和數據科學家之間常有的信任邊界，幫助數據擁有者免遭數據科學家偷窺數據。

內置安全

以上這些就意味著敏感訓練數據問題解決了嗎？并不。任何新興領域都會遇到的問題仍然存在：構建和使用ML系統的人需要內置安全。也就是說，在構建系統時就要意識到訓練數據敏感性風險并加以緩解。

而這么做的時機就在當下。如果我們構建了一堆暗藏巨大數據暴露風險的ML系統，那就純屬給自己挖坑了：未來將直面又一場安全災難。