淺論數據安全中的隱私計算方法之差分隱私

安全小白成長記2022-07-21 10:55:48

近年來，隨著大數據、人工智能、云計算等數字技術的蓬勃發展，新技術帶來了新業態和新的增長。然而，隱私泄露、網絡欺詐、流量欺詐等現象的存在也成為數據要素健康流通的阻礙，為互聯網治理帶來挑戰，因此構建一個安全的數據協作技術環境顯得十分必要且緊迫。而隱私計算可以在數據不泄露的前提下，對數據進行計算并得到計算結果，在創造更好的數據底層環境的同時，體現數據深層價值，深入推動行業傳統數據業務轉型。

然而什么是隱私計算？有專家認為，隱私計算是指在保護數據本身不對外泄露的前提下實現數據分析計算的技術集合。從技術機制來看，隱私計算涉及三大技術體系的聯合創新：其一是人工智能算法；其二是分布式系統和底層硬件；其三是密碼學設計。

對于隱私計算而言，一般目前有幾種比較主要的方法，包括安全多方計算（MPC），其提出者是唯一的中國籍圖靈獎獲得者姚期智教授（Paul Yao）。但在提出時由于計算機的算力非常有限，故僅存在于理論的模型，但隨著計算機計算能力的整體提升以及集群/云計算的發展，使得安全多方計算成為現實；另外一種比較主流的是聯邦學習，聯邦學習本質上是人工智能的一種；第三種則是可信執行環境（TEE），即通過軟硬件方法在中央處理器中構建一個安全的區域，保證其內部加載的程序和數據在機密性和完整性上得到保護。

本文主要討論的是另一種與上述方法均存在差異的隱私計算方法（不是算法），即差分隱私（Difference Privacy)。那什么是差分隱私？簡而言之，差分隱私就是利用一些隨機化的方法，在兩個鄰近的數據集的查詢結果中添加一些隨機化的內容，使得攻擊者無法通過查詢結果的差異來推測其中存在的隱私信息。

那什么是鄰近的數據集？嚴格的意義上而言，所謂臨近數據集就是僅相差一條數據記錄的兩個數據集。那么什么又是推測結果呢？實際上推測就是我們不用通過直接訪問含有隱私內容的數據，而僅僅是通過兩次或多次查詢數據集中的其它信息而間接計算得到相關結果。

有點抽象！舉個簡單的例子，如在一個單位里有99個員工，他們都是男士，且只有2個已婚人士，而此時又來了一個美女員工，但對于其它97個未婚男士（其它兩個已婚男士沒準也關心）急于知道這個美女的婚姻狀況，于是他們可以通過統計員工數據庫中的相關婚姻信息就能推測出這個美女到底是否為單身（注意只需要統計就行，而不用單獨、直接地訪問這位女士的個人記錄），這就是通過相鄰數據集來對某些隱私信息進行推測（因為美女員工入職前，所有已婚員工的數量是2，待她入職后則這個數量如果不變則說明她是未婚否則是已婚）。

那如何來防止這類間接的數據攻擊呢？我們可以在查詢的結果中加入一些所謂隨機性，使得兩次的查詢結果間看上去是非常相似的，從而不能通過此類方法來進行。一般而言我們經常用的隨機化方法就是所謂拉普拉斯（Laplace）隨機化方法。

目前已經有不少開源項目都支持對于差分隱私的計算，如Facebook的Opacus框架或者Google RAPPOR算法。

來源：聚銘網絡

原文鏈接：https://baijiahao.baidu.com/s?id=1738044635005161480

大數據數據安全

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接