ACM TDS'22:深度學習中基于擾動的梯度下降優化方法
深度學習在各個領域取得巨大成功,其成功與海量數據的提供密切相關。 但一般而言,大數據集中包含豐富的敏感數據,因此模型訓練應該具有避免隱私泄露的能力。 為實現該目標,許多工作將差分隱私應用到深度學習中以保護訓練階段的模型隱私。 針對該問題,本文提出一種新的擾動迭代梯度下降優化算法(PIGDO),并證明其滿足差分隱私的標準。 此外,本文還提出一種改進的矩統計方法(MMA)以進行隱私分析,與原有矩統計方法相比,MMA統計方法能夠獲得更為嚴格的隱私損失上界。 實驗結果表明,PIGDO算法不僅能提高模型的準確度和訓練速度,而且在達 到相同準確度的同時,比現有算法具有更好的隱私保護能力。
該成果“Differentially Private Deep Learning with Iterative Gradient Descent Optimization ”發表在ACM/IMS Transactions on Data Science, 2022。 ACM/IMS Transactions on Data Science是數據科學領域綜合性期刊。

- 論文原文:
- https://dl.acm.org/doi/pdf/10.1145/3491254
背景與動機
深度學習在取得巨大成功的同時,其安全問題也廣受關注。 最近的研究表明,訓練有素的機器學習模型仍容易受到隱私風險的影響。 因此,在利用深度學習時有必要考慮隱私保護問題。 與其他的隱私保護方法相比,在攻擊者具有最大背景知識的情況下,差分隱私能夠抵抗各種類型的攻擊。 繼經典的差分隱私SGD算法提出,已有許多后續工作利用各種技巧來提高梯度擾動后的模型準確度,同時達到令人滿意的隱私保護效果。 主要的改進方法包括兩類: 一類通過研究每個梯度分量的靈敏度以添加依賴于靈敏度的噪聲來獲得更高的模型準確度。 另一類使用的改進策略是基于不同特征和模型輸出之間的相關性,自適應地向梯度中注入噪聲。 然而,基于靈敏度分析的梯度擾動法通常需要求解高維靈敏度約束條件,這在深層神經網絡中是難以解決的。 類似地,基于 相關度分析的梯度擾動法需要在不同神經網絡層中計算每個特征的相關度,這將導致計算效率低下。雖然這兩類方法都是為每個梯度分量或每個神經元梯度添加適當的噪聲而設計,但它們對實現可行而高效的隱私保護學習算法提出更為嚴格的要求。
因此,考慮到上述 梯度擾動機制的局限性,我們從全局的角度來對現有梯度擾動方法進行改進。此外,大多數現有的深度學習工作,在實現差分隱私時都采用DPSGD來控制訓練數據對訓練過程的影響。然而,SGD算法有其固有缺點,如難以逃脫鞍點和選擇合適的學習率。這些缺 點可通過自適應梯度下降優化算法來克服,因此我們選擇梯度下降優化算法來進行深度學習訓練。 理論上,梯度下降優化算法提供比傳統SGD更好的收斂速度,而且其具有如自適應動量等性能優勢,能夠克服傳統SGD算法的缺點。 最后,在上述分析的基礎上,我們將梯度下降優化算法整合為迭代分量,并在該分量中注入適當的噪聲,以達到更好的整體模型效用。
設計與實現
本文提出一種基于擾動的迭代梯度下降優化算法(PIGDO)來實現差分隱私。 該算法框架適用于廣泛使用的ADAM、Adagrad和RMSprop三種自適應梯度下降優化算法。 具體而言,在該算法中,我們首先引入一個專門針對差分隱私深度學習的訓練參數: 批量大小 L。 批量大小的引入是用于合理地增加噪聲,它不同于傳統機器學習中用于方便計算的批次概念。 隨后,我們成批地執行計算任務,將一些小批量聚合成大批量以添加合適的噪聲。 通過從樣本中隨機選取大量樣本以進行迭代,并利用梯度下降優化算法計算所選樣本上損失函數的梯度
。 其次 ,考慮到梯度下降過程中,梯度可能會變得很大,根據靈敏度定義,這樣很難得到有用的梯度靈敏度,因此為實現差分隱私學習算法帶來挑戰。 為克服這一困難,可以采用梯度裁剪,即用閾值C 對梯度
的L2 范數進行裁剪以限定每個樣本的梯度。 換言之,用
替換 每個梯度
以將
降至范數C 。 之后,計算這些裁剪梯度的平均值,并將隨機噪聲
添加至該平均值 以實現噪聲擾動。 最后,在每一步迭代中使用噪聲梯度
來更新模型參數。 由于每步迭代都滿足差分隱私,基于其組合性質,最終的模型參數也將滿足嚴格的差分隱私標準。
除輸出模型參數外,噪聲的添加使得本算法的隱私損耗上界分析成為另一大關鍵挑戰。因此,我們以PIAdam為例,具體分析如何計算差分隱私梯度下降優化算法的隱私損失。值得說明的是,該理論分析過程同樣適用于其他 差分隱私梯度下降優化算法的 隱私性能分析。在基于擾動的深度學習算法中,為得到訓練良好的差分隱私深度學習模型,通常需要經過多次迭代訓練,這些迭代組合步驟最終會導致較大的整體隱私損失。因此,需要提出合適的隱私損失計算方法 來解決該問題。已有一 些方法來對隱私損失進行統計,最新的技術是根據隨機變量中矩的概念來對隨機隱私損失函數進行度量,并提出矩統計方法以對多次組合的隱私變量進行累積計算。該方法比傳統的強組合定理實現更緊致的隱私損失估計。然而在矩統計方法,其對總體隱私損失進行等價無窮小變換,導致最終的隱私上界變得寬松。針對該問題,本文在理論計算中保留原始總體隱私損失并給出嚴格定理,以證明PIAdam滿足差分隱私。從最終結果可知,本文的隱私損失上界不僅具有便于計算的明確表達式而且實現比原先的矩統計方法更為緊致的上界。
為進行實驗評估,我們進行三個流行的圖像分類任務,包括MNIST手寫數字識別、CIFAR-10圖像分類和Fashion-MNIST服裝圖像分類。 本實驗設置下的MNIST非隱私模型訓練/測試準確率達到98.62%/98.57%,表明本實驗設置下的神經網絡結構能夠實現與最新模型相當的性能。 CIFAR-10的非隱私模型可以達到86%的測試準確度。 Fashion-MNIST是一種新的數據集,可以看作是MNIST數據集的替代,其非隱私模型訓練/測試準確率達到97.94%/88.85%。 在三個數據集上,我們將差分隱私梯度下降優化算法PIAdam與現有的ADPPL、 ADADP(INFOCOM'20)、EXP(S&P'19)和DPSGD(CCS'16)算法進行比較。在準確性方面,下圖給出具有不同隱私級別的三種情況下的訓練結果:對應于 大噪聲級別的高隱私級別(σ=8)、對應于中等噪聲級別的中隱私級別(σ=4)和對應于小噪聲級別的低隱私級別(σ=2)。 在每個圖片中,我們給出PIAdam、ADADP、ADPPL、EXP和DPSGD的測試準確度,這些測試準確度隨著時間的變化而變化。 結果表明,PIAdam在所有級別的測試準確度上都超過或大致相當于其他算法。 當噪聲為8時,PIAdam的測試準確率高達92.02%,比ADADP(91.25%)、ADPPL(90.92%)、EXP(89.75%)和DPSGD(88.91%)分別提高了0.82%、1.65%、2.5%和3.48%。 同樣,當噪聲σ=4時,PIADAM的測試準確率達到95.93%,接近ADADP的95.43%; PIADAM仍比ADPPL(94.94%)、EXP(94.54%)和DPSGD(94%)分別提高1.05%、1.47%和2%。 在噪聲為2時,PIADAM的測試準確度達到98.21%,比ADADP、ADPPL和EXP提高了1%以內,但仍比DPSGD(96.81%)提高了1.44%。 可以證明, 本文所提基于擾動的迭代梯度下降優化算法比DPSGD(CCS'16)等工作獲得更好的準確度。



在隱私損失計算方面,下圖給出隱私損失隨時間變化的四條曲線,它們分別對應于矩統計方法MA、zCDP、RDP和所提的改進矩統計方法MMA。 由圖可知,本文提出的MMA方法總是比矩統計和zCDP方法具有更低的隱私損失。 此外,MMA方法的隱私損失比矩統計和zCDP方法增長得更慢。 這意味著對于給定的總體隱私預算,本文的方法允許執行更多的訓練次數,這通常會實現更高的模型準確度。 總體而言,本文的優化方法在隱私保護和模型準確性方面都更加有效。

詳細內容請參見:
Xiaofeng Ding, Lin Chen, Pan Zhou, Wenbin Jiang, and Hai Jin, "Differentially Private Deep Learning with Iterative Gradient Descent Optimization," ACM/IMS Transactions on Data Science, vol. 2, no. 4, pp. 1-27, 2022.
https://dl.acm.org/doi/pdf/10.1145/3491254