聯合國發布《隱私增強技術指南》
2023年2月13日,聯合國大數據和數據科學專家委員(UNCEBD)會發布《隱私增強技術指南》(The PET Guide)。指南重點關注隱私增強技術在官方統計數據中的應用,旨在幫助各國的國家統計局更好地理解和運用隱私增強技術處理敏感數據,提升數據的準確性和安全性,進而助力政府科學合理決策。
隱私增強技術是用于安全處理和共享敏感數據的技術,旨在平衡隱私保護和數據可用性,可以分為輸入端和輸出端兩大類。指南的主體部分包含五個章節:第一章是背景簡介,第二章是方法分類,第三章是各國案例研究,第四章是技術標準,第五章是法律和監管。
一、背景簡介
官方統計數據是世界各國政府做出明智決策的可靠信息來源。為保證官方統計數據的可信性、相關性、及時性和高質量,處理調查和普查獲得的個人和企業數據在所難免。由于其中涉及到大量敏感數據,政府、企業、個人和數據保護機構都對此高度關注。利用隱私增強技術可以有效降低數據安全風險,從數據全生命周期維度保護個人隱私和數據安全,增強數據主體的信心和信任,進而平衡統計分析的靈活性和隱私保護的有效性之間的矛盾。
為此,聯合國設立了隱私增強技術實驗室(UN PET Lab),希望通過實驗評估、培訓交流和支持服務三大功能,助力各國更好地了解和運用隱私增強技術。
二、方法分類
指南重點介紹了七種隱私增強技術的技術概況、發展歷史、安全模型和使用成本等。一是多方安全計算(sMPC),是指允許對多方輸入的數據進行聯合計算,每一參與方只能獲得正確計算結果,對其他參與方的輸入數據保密的輸入端技術。多方安全計算常見的技術選擇是混淆電路(Garbled Circuit)和線性秘密共享(linear secret sharing)。二是同態加密(HE),是指直接對加密數據進行計算產生加密結果,由數據控制者自行解密的輸入端技術。同態加密可以應用于將數據外包給不受信任的第三方處理者、不完全信任的計算環境等,實踐中往往應用于醫療領域。三是差分隱私(DP),這是一種嚴格強調隨機性的輸出端隱私標準,旨在量化數據庫中單個記錄的最大信息量,防止因多次查詢后計算結果的微小改動反向推導而導致的隱私泄露。四是合成數據,是指將敏感數據集轉換為具有相似統計學特征、但不透露個人信息的新數據集的輸出端隱私技術,可以運用在需要共享敏感數據的領域。五是分布式學習,是指利用多個計算節點訓練機器學習、深度學習模型的隱私協議,保證用戶數據永遠不會離開設備,可以分為聯邦學習(FL)和拆分學習(SL)兩種。六是零知識證明(ZK),是指允許一方向另一方證明某項聲明的真實性,而無需提供作為前提的相關秘密信息。近年來,零知識證明被廣泛運用于加密貨幣、身份驗證的相關應用程序。七是可信執行環境(TEE)和安全飛地,是指與計算機主處理器和內存隔離并進行加密通信的數據處理環境,可以緩釋輸入隱私、代碼隱私、代碼驗證風險。以上七種隱私增強技術,相關機構可以根據實際需要選擇特定技術或者技術組合。
指南第三章詳細列舉了十八個涉及隱私增強技術的具體案例,涉及跨部門使用、多種技術組合、多國合作參與、公私部門協作等具體場景,涵蓋美國、加拿大、歐盟、英國、意大利、荷蘭、韓國、印度尼西亞等國家和地區。其中,十五個案例仍處于構思或部署階段,另外三個已經實際投入使用。
指南第四章概述了隱私增強技術的標準情況,包括關鍵技術標準和間接相關標準等。自《聯合國隱私保護技術手冊》出版以來,與隱私增強技術和人工智能相關的標準制定活動顯著增加,尤其是在機器學習領域。與以往注重事后經驗積累不同,隱私增強技術的相關標準制定活動越來越關注對“已知的已知”和“已知的未知”兩種潛在危害的事前防范,相關標準也更加關注精細的技術細節。
三、法律監管
目前,世界主要國家和地區尚未出臺專門針對隱私增強技術的監管政策,其技術特性也使得隱私增強技術難以納入到現有的規制框架。隨著政府、機構和企業等對隱私增強技術的認識不斷提高,對于隱私增強技術在不同應用場景下的合規性確認需求也愈發迫切。
指南提出了五大合規要點:一是強烈建議任何涉及到使用隱私增強技術進行數據分析的項目都應當盡早咨詢法律專家,盡量在技術參數部署之前完成相應的合規審查,否則會大大增加合規成本和違法風險。二是立法一般不會強制性使用隱私增強技術,但是隱私增強技術客觀上可以滿足法律對于“數據最小化”“數據保護設計”“默認數據保護”等要求,特定監管機構可能會針對某些特殊場景推薦或要求使用特定的隱私增強技術。三是隱私增強技術的使用必須要與現行法律、政策和社會文化規范相協調一致,以負責任的態度開辟新的發展機遇。四是涉及到使用來自兩個及兩個以上司法管轄區的數據集會使情況變得更加復雜,應當充分考慮跨境數據規制等要求。五是不同法系和司法管轄區對于同一隱私增強技術在特定場景下的使用是否適當可能會做出不同判斷,希望立法者及時發布隱私增強技術適用的案例指導。
具體舉例而言,美國《加州消費者隱私法》(CCPA)適用于企業和服務提供商,但可能不適用于政府部門和非盈利機構等;而歐洲《通用數據保護條例》(GDPR)項下的數據保護責任適用于數據控制者和處理者,包括政府部門和非盈利機構。根據GDPR,出于歷史研究或統計目的等對個人數據進行的某些處理可能會被豁免或受到相對寬松的監管,具體細節取決于歐洲經濟區(EEA)具體國家和地區的法律要求。荷蘭《統計法》明確禁止公開發表用于統計學目的的個人、家庭及組織數據,涉及到公司或組織數據,有正當充分理由認定公司或組織對此無異議的可以發布。英國信息專員辦公室(ICO)一直在就隱私增強技術開展咨詢,并發布了《匿名化、假名化和隱私增強技術指南》。歐洲對于隱私增強技術的更多監管動向還應當關注《歐洲數據戰略》《數據治理法》《數字服務法》《數字市場法》和《人工智能法案》等法律文件。
在具體操作流程方面,指南建議了四步流程法。一是列出參與數據處理、技術開發等任一環節的所有參與者。從法律角度,隱私增強技術的主要參與者有五類,分別是立法者、監管機構、受保護客體、義務主體、隱私增強技術生產商或供應商。二是確認每個參與者適用的法律范圍,包括法律施加的確認性要求和禁止性規范。明確隱私增強技術的法律監管環境非常重要,對于數據安全、最小化、公平性、準確性、問責制等方面的要求可能同時并行于多部法律規范。此外,還要考慮數據處理者如何影響隱私增強技術參與者對數據的使用,例如限制向其他參與者披露派生數據產品。隱私增強技術在超出數據處理、使用、披露限制以外對數據主體產生的影響也應當關注,例如對某些數據集的長期訪問可能是保證準確性和可問責性的需要,但會因對數據主體的保護要求而被禁止。三是分析隱私增強技術部署與相關法律要求的一致性,指南指出類似于“隱私增強技術是否合法”的問題并非有效提問,因為幾乎沒有法律會對該問題給出是或者否的準確答案,這是基于對隱私增強技術的不了解或者是奉行技術中立原則的法律設計,保證法律在保持穩定性、相關性、靈活性的基礎上適應現代技術快速發展的需要。四是上述相關問題在數據的全生命周期都要納入考量和重新審視。在構思設想和需求建立階段,盡早引入法律專家以充分識別法律風險很有必要,包括對功能性需要和非功能性需要的法律建議;在設計研發階段,數據的規劃采集涉及到劃定主要數據和輔助數據的范圍,需要考慮到不同司法管轄區下對數據安全和隱私保護的具體監管要求,例如特定目的、從第三方獲取數據、跨境數據流動等;在模型構建階段,經處理后的人工數據、合成數據或真實數據被用于集中式或分布式構建模型和測試模型。由于合成數據通常來源于處理后的真實數據,難免涉及到隱私保護、偏差引入、異常值修正等問題;在模型部署階段,經過測試的模型正式開始處理真實的實時數據,發揮功能性效用,輸出決策結果;在操作監控階段,隱私增強技術模型收集、處理、分析并輸出數據,流程中還包括不間斷的身份認證、合規評估、偏差修正、結果確認等監控功能;在模型退役階段,數據需要經處理以滿足安全刪除、存檔或重新利用的相關要求,要充分考量法律在數據安全和隱私保護方面的合規要求,尤其要防止未經授權的反向數據解析,及時采取適當措施解決去識別化的安全風險。