隨著人臉識別技術(FR,Facial Recognition)迅速普及,反人臉識別技術(AFR,Anti-Facial Recognition)作為對抗性研究變得越來越重要。反識別技術能夠在某些情況下幫助用戶避免不必要的面部識別,同時也能夠促進人臉識別技術的可用性和安全性。本文將對不同的反人臉識別技術進行全面分析。
0x01 工作介紹
近年來,人臉識別系統的部署數量迅速增長,并成為人們日常生活中越來越常見的一部分。然而,這也引發了人們對濫用人臉識別技術的擔憂。現在,個人或機構可以利用一定的資源從社交媒體和在線資源中提取訓練數據,構建能夠識別大量用戶面部的識別模型。
為了對抗未經授權的人臉識別行為,反人臉識別工具應運而生。這些工具針對人臉識別系統的不同組成部分,包括數據收集、模型訓練和實時識別等方面,旨在防止未經授權的人臉識別。盡管大多數工具仍處于實驗原型階段,但其中一些工具已經發布了公共軟件版本,并受到了廣泛媒體關注,例如Fawkes、LowKey和CV Dazzle等。這些反識別工具在技術方面存在很大差異,并且針對人臉識別系統的不同工作階段提供解決方案。為了更好地了解這些工具的特點、突顯性能權衡、并確定未來的發展方向,有必要對這些工具進行綜合分析和研究。
0x02 人臉識別系統
A. 技術介紹
作為背景,本章將概述當今的人臉識別系統及其實際應用,包括系統的關鍵工作階段和部署方式。人臉識別系統通過對面部特征進行識別來區分不同的個體,通常是通過將未知面部的圖像(或視頻)與已知面部數據庫進行比較。在過去的二十年中,這項技術取得了顯著的發展,并產生了許多不同的分支。
目前,最先進且廣泛應用的人臉識別系統采用深度神經網絡(DNN,Deep Neural Network)從給定的面部圖像中提取獨特的特征。人臉識別系統可以表示為S = {G,F,C,D},其目標是將查詢圖像xI與個體的真實身份I相關聯。具體包括以下方面:
? 被查詢圖像(xI):要被F識別的面部圖像。
? 預處理引擎(G):為識別任務準備原始面部圖像的處理功能,例如,檢測和裁剪單個面部。
? 面部特征提取器(F):將面部圖像轉換為特征向量的 DNN,即個體獨特面部特征的數學表示。
? 參考數據庫(D):面部圖像及其已知身份的特征向量vI的集合,即用戶 I 的真實圖像 R 和 F(G(R)) = vI。
? 實時分類器(C):此函數運行查詢搜索,將被查詢圖像 F(G(xI)) 與 D 進行匹配。如果最接近的特征向量 vI 足夠相似,則被查詢圖像將被識別為 I。理想情況下,它應該產生 C(F(G(xI )), D) = C(F(G(R)), D),其中 xI 是之前未識別的 I 圖像,R是參考 I 的真實圖像。
? 人臉識別與面部驗證:要注意人臉識別和面部驗證(Face Verification)是有區別的。面部驗證廣泛應用于驗證移動設備上的用戶,例如 iPhone 上的 Face ID。它通過將用戶的面部特征與授權用戶存儲的面部特征進行比較來進行驗證。雖然這兩個系統使用了類似的技術來分析面部圖像,但面部驗證系統需要用戶明確同意才能部署,而許多人臉識別系統在未經用戶同意的情況下運行。因此,大多數反識別工具并不針對面部驗證系統。此外,面部驗證系統可以被看作是人臉識別系統的一種特例,其中參考數據庫只包含一個用戶的特定面部信息。人臉識別系統的識別流程如下所示:

B. 工作階段
人臉識別系統的整體工作階段對應于其特定的子任務,其中包含用戶和人臉識別系統之間存在直接交互的五個關鍵階段。下圖描述了人臉識別系統 S = {G, F, C, D} 的五個工作階段。包括圖像收集、圖片預處理、訓練特征提取器、創建參考數據庫和查詢匹配。整體流程包括兩個主要部分:面部特征提取器和參考數據庫的創建;以及針對未知面部的實時識別。

系統的五個工作階段如下:
階段① - 收集面部圖像:面部圖像主要來自兩個來源,即在線圖像抓取或物理拍攝人物照片。
階段② - 原始圖像預處理:從第一階段獲得的原始圖像通常具有不同的面部大小和背景中的其他人,因此結構不佳。為了簡化下游任務,系統 S 使用了圖像預處理引擎 G。該引擎通過面部檢測(包括自動面部裁剪)來移除背景并提取每個面部,然后對數據進行標準化處理。這樣可以確保后續的特征提取和匹配過程的準確性和一致性。
階段③ - 訓練特征提取器:基于深度神經網絡(DNN)的人臉識別系統的關鍵元素是特征提取器 F,用于從圖像中計算面部特征。為了實現準確的識別,計算出的特征向量在同一人的照片之間必須高度相似,但在不同個體的照片之間必須足夠不同。為了實現這一目標,大多數現有系統采用在特征提取器 F 的訓練過程中添加額外損失函數的方法,直接優化特征空間中不同面部之間的參數。為了最大程度地提高效率,特征提取器通常在數百萬張標記的圖像上進行訓練。收集、標記和訓練大規模人臉數據集需要大量資源。因此,許多公司傾向于購買預訓練好的特征提取器。在第三階段使用的圖像被稱為訓練圖像。
階段④ - 創建參考數據庫:人臉識別系統需要一個包含已知(已標記)面部的大型數據庫,以便對未知(未標記)面部進行識別。為此,需要建立一個參考數據庫 D,其中包含被識別個體的標記面部圖像。這些圖像經過收集和預處理后,傳遞給特征提取器 F,從而生成相應的特征向量。參考數據庫包括特征向量和對應的身份標簽。在第四階段中使用的圖像被稱為參考圖像,用于與查詢圖像進行匹配和識別。
階段⑤ - 識別圖像中的面部:在實時識別階段,人臉識別系統接收并通過預處理引擎 G 對被查詢圖像(即未知人臉圖像)進行預處理。然后,特征提取器 F 提取該圖像的特征向量。接下來,系統使用分類器 C 對提取的特征向量與參考數據庫 D 進行查詢,并找到與之最匹配的項(如果存在)。如果被查詢圖像的特征向量與參考數據庫中存儲的數據在特征空間距離(例如,L2范數或余弦相似度)上足夠接近,則系統輸出匹配項。這個過程表示了第五階段的實時識別過程。
0x03 反人臉識別模型
A. 威脅模型
某些商業人臉識別系統使用的圖像來源引發了嚴重的隱私問題。舉例來說,Clearview.ai和PimEyes這兩家公司在用戶不知情或未經同意的情況下從社交媒體網站上抓取了超過30億張圖像用于他們的系統。針對這種被濫用的人臉識別系統 S = {G, F, C, D},用戶 P 可以采取反識別工具進行對抗,扮演防御者的角色。在這種情況下,用戶 P 的目標是防止系統對其進行識別。也就是說,對于給定用戶 P 的圖像 xP,反識別工具應該使特征提取器 F 產生 C(F(G(xP))) ≠ P,即生成的特征向量與用戶 P 的特征向量不匹配。
通過使用反識別工具,用戶 P 可以采取針對性的防御措施,以保護其隱私并防止被商業人臉識別系統識別出來。反人臉識別技術通常做出以下假設:
? 用戶 P 對人臉識別系統 S 沒有特殊的訪問權限或權力,但希望通過修改或以其他方式控制自己的面部圖像,以避免不必要的識別。
? 用戶 P 希望避免面部識別,但也可能希望他們的圖像對其他目的有用。例如,如果 P 在個人網站上發布頭像,他們希望確保頭像不會被抓取并用于人臉識別引擎中,同時仍然可以被網站訪問者識別。因此,反識別工具應該在最大程度上保護隱私的同時盡可能減少圖像的干擾。
? 人臉識別系統 S 的目標是創建或維護準確的面部識別操作。此外,S 是大規模部署的,并不專門針對用戶 P 進行識別。
B. 反識別策略
人臉識別系統 S = {G, F, C, D} 在五個不同的階段中運行,涉及到圖像捕獲、預處理、特征提取等操作。在這些階段中,系統 S 與個體 P 進行交互,涉及到收集、處理和使用圖像數據。這意味著個體 P 可以在不同階段針對特征提取器 F 采取防御措施。具體而言,反識別工具可以對五個階段中的任何一個相關組件產生影響,包括圖像 x、預處理器 G、特征提取器 F、參考數據庫 D 和分類器 C。下圖展示了反識別工具針對每個階段中的防御行為和目標。

針對人臉識別不同工作階段,反識別工具所使用的針對性防御策略如下:
針對階段①的防御:在圖像收集階段,人臉識別系統 S 會收集標記或未標記的圖像 x,這可以通過物理拍照或從在線來源抓取圖像來實現。標記的圖像可用于訓練或構建人臉識別系統的參考數據庫,而未標記的圖像可以用作被查詢或測試的圖像。在這個階段,反識別工具的目標是中斷數據收集過程,以防止人臉識別系統 S 獲取個體 P 的可用面部圖像 xP。這可能涉及采取措施,如遮擋面部、修改圖像特征或使用隱私保護技術,以使個體 P 的面部圖像在收集過程中不被識別系統獲取。
針對階段②的防御:在第二階段,人臉識別系統 S 使用預處理引擎 G 對收集到的面部圖像進行一系列數字轉換,例如人臉檢測、背景裁剪和歸一化。這些預處理步驟有助于提高后續階段的識別準確性和可靠性。針對這個階段,反識別工具可以以 G 為目標,通過采取不同的策略來破壞預處理功能,從而使處理后的圖像無法被人臉識別系統使用。這些策略包括向圖像注入噪聲和偽影,或者從圖像中刪除個體 P 的身份信息,例如防止檢測到人臉。這些不同的策略可以表示為 2a 和 2b。
針對階段③的防御:第三階段專門用于訓練人臉識別系統 S 中的特征提取器 F。在這個階段,反識別工具的目標是試圖通過毒化訓練圖像來降低特征提取器 F 的準確性。這可以通過向訓練圖像中添加噪聲、修改圖像細節或以其他方式篡改圖像的特征信息來實現。
針對階段④的防御:為了創建人臉識別系統中使用的分類器 C 所需的參考數據庫,標記的參考圖像通過特征提取器 F 進行處理,從而生成它們的特征向量。在這個階段,反識別工具的目標是試圖破壞為個體 P 創建的參考圖像的特征向量,以便將錯誤的特征向量存儲在數據庫中。
針對階段⑤的防御:在查詢匹配階段,反識別工具的目標是阻止分類器 C 準確匹配查詢圖像 xP 的特征向量和特征提取器 F 存儲在參考數據庫中的個體 P 的特征向量。通常,這可以通過對查詢圖像進行擾動或修改來改變其特征向量,從而阻止分類器 C 的準確匹配。
在反識別工具中,有很大一部分工具針對 2a 階段和第三至第五階段應用了對抗性機器學習(AML)技術,例如投毒或規避技術,以阻止人臉識別系統 S 。而針對第一階段和第 2b 階段的工具則屬于非AML技術的范疇,其目的是通過其他手段來干擾或破壞人臉識別系統的相關步驟。
0x04 階段①:阻止數據收集
目標:在數據收集階段,系統 S 的目標是獲取可用的人臉圖像 x,無論是從在線來源還是物理來源。通常情況下,S會收集數以百萬計甚至數十億的高質量人臉圖像,用于構建參考數據庫或訓練特征提取器。個體 P 的目標是通過應用反識別工具防止他們的面部圖像 xP 被收集,并防止其被用作參考圖像或被查詢圖像。為實現這一目標,個體可以采用在線或物理遮蔽或破壞技術。在針對數據收集階段的反識別技術中,面臨以下主要挑戰:
(1)需要了解和適應不斷創新的數據收集技術。隨著技術的不斷進步,人臉數據收集方式也在不斷演變,因此反識別工具需要不斷更新和適應這些技術的變化。
(2)攝像頭廣泛部署使得躲避拍攝變得困難。在現實生活中,攝像頭幾乎無處不在,這增加了個體避免被拍攝的挑戰。因此,反識別技術需要應對廣泛的監控攝像頭和其他拍攝設備。
A. 解決方案
對于面部圖像的收集,可以有兩種來源:在線圖像抓取和物理相機捕捉。在線圖像抓取是指收集在線發布的圖像,這些圖像由非數據收集者拍攝(例如用戶和用戶的朋友)。相比之下,物理相機捕捉是指數據收集者直接使用相機拍攝圖像。因此,針對這一階段的反識別工具可以分為兩類:防止爬取和防止拍攝。
(1)防止在線圖像抓取:大多數人臉識別系統中使用的人臉圖像來自于在線社交媒體平臺的抓取。因此,有效地阻止系統 S 進行抓取的方法之一是防止網頁抓取。雖然每個用戶可以盡力隱藏他們的在線足跡,但大多數反識別技術需要在線平臺(如Flickr)或外部幫助。
? 在線平臺反爬:安全社區已經廣泛研究了反爬技術,在線平臺可以使用速率限制、數據限制、基于 ML的爬蟲檢測等技術。然而,隨著爬蟲開發者使用更復雜的工具來繞過檢測,很大一部分爬蟲仍然未被發現。
(2)避免拍攝:普通人現在可以使用智能手機隨時為任何人拍攝高質量的照片。這些照片可以被類似 PimEyes 的人臉識別系統收集和使用。此外,商業人臉識別系統越來越多地使用路邊監控攝像頭捕捉面部照片,特別是在大城市地區和商店內部。
? 面部隱藏:個體可以通過穿著衣物、戴帽子、戴口罩或改變頭部姿勢來防止(可用的)面部圖像被攝像頭捕捉到。
? 攝像頭干擾:人們可以通過簡單地向攝像頭照射激光來阻止相機捕獲(可用的)圖像,而不會破壞攝像頭本身。其他方法包括使用織物或貼紙覆蓋攝像頭。
B. 隱私/效用權衡
要完全阻止數據收集是具有挑戰性的,因為它要求對個體的在線身份進行細粒度的控制,并需要了解何時和如何被拍攝照片。這對用戶來說可能是困難的,因為它會限制他們的活動。此外,在某些情況下,規避數據收集是不可能的,例如在企業和招聘網站上發布的照片。
同時,反爬工具可能會降低服務提供商的性能,因為這些工具可能會出現誤報和增加部署成本。因此,在設計和應用反識別工具時需要權衡效果和成本。然而,近年來針對第一階段的反識別方法已經取得了一些進展。例如,自適應反抓取技術可以提高攻擊者的門檻,增加了抓取的復雜性。這種技術可以適應不斷創新的數據收集技術,使抓取者更難以繞過反爬措施。
0x05 階段②:干擾預處理
在第二階段中,預處理器 G對原始人臉圖像進行一系列操作,以準備圖像供后續階段使用。針對這個階段的反識別方法旨在破壞預處理器 G,通過對原始圖像進行變換,產生一個修改后的圖像 x',使經過處理后的人臉圖像 G(x') 無法被后續的識別階段使用。
目標:S 的目標是使用預處理器 G 從許多原始圖像中獲取結構良好的人臉圖像。P 的目標是防止他們的臉被 G 從原始圖像中檢測/提取,或者在這些圖像中將面部數據匿名化。其主要挑戰是如何在不失真的情況下實現匿名化。也就是說,當修改 P 的圖片以規避面部檢測或刪除身份信息時,修改后的圖像應該仍然類似于用戶 P 的面部以保持對 P 有用。另一個挑戰是克服 S 部署的(自適應)防御以保護 G。
A. 解決方案
(1)防止面部檢測:面部檢測系統通常依賴于深度神經網絡(DNN)來準確推斷原始圖像中人臉的位置,并提取居中的頭像。為了防止有效的人臉檢測和提取,反識別技術的目標是生成一個對抗性圖像 x',使得經過預處理器 G 處理后的結果 G(x') = z,其中 z 是一個無用的結果,無法傳遞給特征提取器 F。為了創建對抗性圖像 x',現有的反識別工具利用針對深度神經網絡模型的對抗性擾動。對抗性擾動是在對抗性機器學習領域中的概念。這些經過精心設計的基于像素的擾動被添加到原始圖像中,可能導致深度神經網絡產生錯誤的分類結果。擾動的生成過程通常通過迭代優化來實現,該過程旨在最大程度地增加模型錯誤分類的可能性,并將擾動的可見性降至最低。生成過程的具體方法可能因個體 P 對系統 S 的了解程度而異,包括白盒和黑盒的不同策略。
使用對抗性擾動的反識別工具通常根據擾動添加的方式進行細分。如果個體 P 可以直接訪問圖像,那么擾動可以直接添加到數字格式的圖像中。這可以通過在圖像的像素級別引入微小的變化或噪聲來實現,以干擾面部檢測和識別算法。另一種方式是個體 P 可以使用定制的物理擾動補丁來阻止面部檢測。這些物理擾動補丁可以是穿戴的物品,例如特制的 T 恤,其中包含模式或顏色,能夠干擾面部檢測系統的視覺算法。
? 直接修改數字圖像:使用反識別工具,用戶可以在發布圖像之前直接向這些圖像添加對抗性擾動。這種對抗性擾動的目的是干擾人臉識別系統的面部檢測和特征提取過程,使得提取的面部信息無法準確識別和匹配。目前的人臉識別系統不能使用帶有適當擾動的圖像來提取面部信息。
? 帶有擾動的物理對象:用戶通常無法直接訪問面部圖像來修改它們,但可以采取其他方法來注入對抗性擾動。一種方法是攜帶或佩戴物理對象,使得在拍攝用戶照片時相機也會捕捉到這些物理對象,從而在圖像中引入對抗性擾動。常用方法包括:(i) 化妝:通過使用化妝技巧,用戶可以改變面部外觀,例如改變妝容、輪廓或顏色,以干擾面部檢測系統的算法。(ii) T恤或貼紙:佩戴特定設計的T恤或貼紙,可以在用戶的面部圖像中引入特定的圖案或紋理,干擾面部檢測算法的識別過程。
? 在攝像頭上貼標簽:這種方法是將對抗性擾動轉化為半透明貼紙,并將其放置在攝像頭上。該貼紙會在不知不覺中修改攝像頭拍攝的圖片,以防止在這些圖像中檢測到人和面部。
(2)面部數據匿名化:P可以通過面部圖像匿名化來去除身份信息。在這種情況下,P創建了一個x',使得G(x') ≠ G(x),即處理后的結果仍然可用,但是帶有一個虛假身份。(i) 物理匿名化可以通過戴口罩、帽子、化妝等方式輕松實現,這與第一階段中的躲避圖像捕獲類似。(ii) 在數字匿名化方面,使用生成對抗網絡(GAN)和差分隱私是推薦的方法。可以使用GAN將面部圖像轉換為潛在空間向量,然后修改這些向量以刪除身份信息,并從修改后的向量中重新生成圖像。修改后的面部仍然具有人類的外觀,但已經匿名化,無法準確識別。
B. 隱私/效用權衡
許多針對第二階段的反識別方法,試圖解決可用性問題,通過將針對 G 的對抗性補丁具象化為可穿戴的服裝或物體。然而,這種特殊服裝的外觀可能對于普通人來說顯得怪異,因此可能難以被接受。此外,面部數據匿名化通常會導致匿名化后的面部與原始面部有顯著差異,包括外形、膚色、頭發顏色等的變化。這些修改后的圖像失去了傳統圖像的許多可應用場景,例如圖像共享等。
0x06 階段③:干擾特征提取器
所有的人臉識別系統 S 都需要一個有效的特征提取器 F 來區分人的面部。在針對第三階段的反識別技術中,重點是通過干擾 F 的訓練來生成無法使用的提取器 F'。
目標:人臉識別系統 S 的目標是通過使用可用的訓練數據來訓練高質量的特征提取器F,以便通過 F 提取的特征向量準確識別人臉。因此,P 的目標是通過阻礙訓練來防止 S 訓練出有效的特征提取器 F,但在實現這一目標時面臨兩個挑戰:首先是在保持干擾效果的同時最大限度地減少干擾過程引入的訓練面部圖片的失真。第二個挑戰是在不需要完全控制數據集的情況下破壞F的訓練。
A. 解決方案
數據投毒是對抗性機器學習領域的一種技術,通過操縱深度神經網絡(DNN)模型的訓練數據,外部對象可能會對模型的訓練產生惡意影響。投毒模型的目的是使模型表現出各種錯誤行為,從對特定輸入的錯誤分類到完全錯誤的預測,現有的反識別技術側重于后者。
(1)數據不可學習(Unlearnable) :通過在訓練數據上注入特制的噪聲,可以使DNN模型無法從數據中進行學習。這種噪聲會誤導模型,使其認為數據已經被學習,從而阻礙了必要的參數更新。當用戶提交不可學習的面部圖片作為特征提取器F的訓練樣本時,提取器將無法從這些樣本中學到有益的信息,從而無法提高其性能。訓練一個有效的特征提取器 F 需要數以百萬計甚至數十億的人臉圖像。如果訓練數據中包含大量不可學習的樣本,即無法提供有用信息的樣本,那么F將無法達到實際部署所需的精度水平。
(2)添加對抗性直連(Shortcut):直連是在CNN模型發展中出現的一種非常有效的結構,它允許梯度直接反向傳播到更淺的層。這種結構可以加速模型的訓練過程,并幫助解決梯度消失問題。然而,通過在數據集中注入對抗性的shortcut,訓練在此數據上的模型將過度適應這些對抗性shortcut,從而無法學習到有意義的語義特征。這意味著經過訓練的特征提取器模型對特征空間的理解是扭曲的,無法產生高質量的人臉特征向量。
B. 隱私/效用權衡
針對第三階段的反識別技術確實存在一些缺點,其中最主要的缺點是需要付出大量努力才能破壞訓練數據集。大多數方法要求 P 能夠控制大部分訓練數據,以使特征提取器 F 不可用。這意味著 P 需要能夠干擾或篡改足夠數量的訓練樣本,這可能需要大量時間和計算資源。此外,一旦系統S發現干擾的存在,特征提取器 F 可以丟棄被干擾的數據集,并使用其他數據源來重新訓練模型。
0x07 階段④:破壞數據庫
在第四階段中,系統 S 使用特征提取器F創建一個參考數據庫 D,其中包含標記的人臉特征向量。這個數據庫 D 被用來輔助識別面部。 針對這個階段的反識別工具試圖通過在數據庫 D 中使用不正確的面部-標簽映射來干擾系統 S 的分類器 C,使其無法將被查詢圖像識別為 P。因此,當真實圖像 xP 被展示給系統 S 進行識別時,被破壞的數據庫 D ′ 將產生一個分類結果 C(F(G(xP )), D′ ) = I,其中 I ≠ P。
目標:在這個階段,系統 S 的目標是創建一個參考數據庫,其中包含 S 希望識別的人的特征向量(由特征提取器F生成)的準確副本。P 的目標是防止 S 的特征提取器 F 創建準確的特征向量,然后 C 將無法匹配到 P 的被查詢圖像。因此,P 通過修改/操縱 S 用來創建其參考數據庫的 P 的參考圖像來破壞 S。針對此階段的反識別技術需要修改 P 的參考圖像,以生成不正確的特征向量,同時盡量減少這些圖像的失真。這面臨兩個挑戰:首先,當 S 在其數據庫 D 中保持了一些原始的、未經修改的 P 人臉圖像時,它們會保持高性能,即能夠準確識別和匹配。其次,保護必須持續存在,即使 P 對系統 S 做出了不正確的假設(特別是對提取器F和分類器C)。
A. 解決方案
此類別的反識別技術側重于在特征向量存儲到 D 之前對其進行毒化。具體的毒化技術取決于關于 S 的分類器 C 的基本假設 :
(1)基于分類的匹配:假設分類器 C 被添加到特征提取器F的淺層作為分類層。在這種情況下,反識別工具試圖通過隱藏或投毒攻擊者P的參考圖像來破壞最終的分類輸出。具體而言,它們通過向 P 的參考圖像中添加難以察覺的擾動,使得這些圖像的特征向量與正確的表示相距甚遠。當分類器 C 在這些被移位的特征向量上進行訓練時,系統 S 會將錯誤的特征空間與 P 的身份相關聯。如果這樣做,在對 P 進行實時識別時,會造成(未隱藏)被查詢圖像的錯誤匹配。
(2)基于最近鄰的匹配:假設分類器 C 使用的是 K-最近鄰算法,可以通過添加數字對抗擾動來改變 P 的參考圖像的特征表示。這些擾動的圖像為 P 創建了一個參考特征向量,該向量不同于 P 的實時查詢圖像的參考特征向量,從而阻礙分類器。此外,群體驅動的方法也可以應用于防御過程中。用戶通過修改他們的圖像以保護其他用戶。這些修改會導致不正確的特征向量混淆特定用戶的前K個匹配集,從而混淆正確的特征向量。
B. 隱私/效用權衡
大多數針對第四階段的反識別工具通常會直接向圖像添加可見的擾動。這些可見的擾動可能會降低受保護圖像的視覺質量和可用性,特別是當這些圖像打算發布在社交媒體等公共平臺上時。這種可見性和保護之間的權衡似乎是不可避免的問題。
0x08 階段⑤:實時識別規避
最后一組的反識別工具旨在通過生成失真圖像 x′P 來誤導分類器的結果,例如 C(F(g(x′P)),D)=I ≠ P,從而防止系統 S 的分類器 C 對實時查詢圖像進行正確識別。這種方法對于那些認為自己的圖像已經存在于參考數據庫 D 中的用戶來說,可以提供一次性的保護。
目標:在實時識別階段,系統 S 的目標是使用分類器C來識別查詢圖像中的人臉,并將其匹配到參考數據庫 D 中相應的特征向量。而用戶 P 的目標是通過改變其查詢圖像,使得分類器 C 無法將其與數據庫 D 中的相應特征向量正確匹配。假設 S 的參考數據庫 D 包含 P 的準確特征向量,這存在兩個關鍵挑戰:首先是在不引入明顯的圖像失真的情況下實現成功規避。此外,還需要克服為了保護特征提取器F和分類器C而可能部署的防御措施。
A. 解決方案
對抗性擾動是用于規避深度神經網絡的常見方法,因此可應用于規避人臉識別。這些擾動可以在物理環境中或數字環境中應用。
(1)物理規避:第一組反識別方法主要通過讓 P 佩戴物理對象,將對抗性擾動注入到面部圖像中,以阻止識別和分類。這些方法與前文中針對第二階段的方法相類似,但其重點不在于面部檢測,而是針對人臉識別系統的分類過程。其中一些工具采用對抗性妝容和眼鏡等方式。最近出現的兩個方向包括:使用更大且獨立的對抗性補丁以提高規避效果,以及通過投射可見光或紅外光到用戶的臉上來實現數字控制和人眼難以察覺的擾動。
(2)在線規避:P 可以通過在線方式修改未標記的人臉圖像,以防止其被分類器 C 準確分類。在這個類別中,大多數方法采用傳統的對抗生成技術,創建最小可見擾動,以使 S 的特征提取器產生錯誤的特征向量。
B. 隱私/效用權衡
在物理規避技術中,確保物理規避工具的有效性需要用戶在可能存在攝像頭的所有情況下佩戴它們。這意味著用戶需要在需要保護隱私的環境中始終佩戴這些物理工具,以防止被攝像頭準確識別。這對于提供持續的保護可能是具有挑戰性的,因為用戶需要時刻保持警惕并使用適當的物理規避工具。與第四階段一樣,也存在擾動大小和數字規避技術的規避成功之間的權衡。
0x09 反識別技術設計
A. 理想設計屬性
(1)長期穩健性:一個有效的反識別工具應該能夠提供持久的保護,隨著人臉識別技術的演進,始終保護用戶 P 免受濫用的人臉識別系統的影響。
(2)廣泛的保護范圍:許多用戶在現實生活中已經有多年的數字身份,例如,他們多年前發布的面部照片可能沒有受到反識別保護。因此,一個有效的反識別工具應該能夠在現實場景中提供保護,盡管這可能具有挑戰性。
(3)不依賴第三方:理想情況下,反識別工具應該能夠由用戶 P 單獨操作,無需第三方的幫助或參與,同時實現強大的保護。這樣做的好處之一是限制將潛在敏感的用戶數據暴露給第三方,例如像 Facebook 這樣的中央內容提供商,或者其他愿意幫助用戶 P 的友好用戶。
(4)用戶友好性:這個屬性衡量用戶 P 使用反識別工具所需付出的代價。一個有效的反識別工具應該能夠在保護用戶的同時最小化對他們日常生活的影響,而不需要他們穿著奇怪的妝容、衣服或配飾。
(5)對其他用戶的影響最小:用戶 P 可以通過誤導系統 S(給出空或無信息的結果)或故意欺騙系統 S,使其將其識別為另一個用戶 P',以保護自己的隱私。然而,后一種情況可能對用戶 P' 產生負面影響,引發潛在的社會風險。因此,一個有效的反識別工具應該盡量最小化對其他用戶的不良影響。
B. 面臨的挑戰
(1)過度依賴對抗性機器學習(AML):大多數反人臉識別工具在第二到第五階段中使用了對抗性機器學習技術,但這些技術存在一些局限性。首先,基于AML的反識別工具表現出高性能,但缺乏可證明的保護保證。其次,自適應人臉識別系統可以克服基于AML的保護。例如,系統S可以對抗性地訓練特征提取器F以抵御惡意樣本,并在處理面部圖像或將其添加到參考數據庫之前從圖像中移除對抗性擾動。雖然更先進的擾動生成方法可能提高反識別工具的短期性能,但缺乏可證明的、持久的保護是一個更難克服的障礙。解決這個問題的可能途徑包括將可證明的保證集成到擾動生成過程中,或考慮提供具備可證明保護的替代技術。
(2)在線足跡:大多數互聯網用戶在網上擁有自己或他人發布的面部圖像,其中一些圖像可能已被人臉識別數據庫捕獲。每天有超過18億張照片上傳到在線平臺,這意味著用戶的未修改照片很可能長期存在于網絡上,其中一些照片可能已經在參考數據庫中。為了解決這個問題,由在線平臺管理的反識別工具可以更好地保護在線足跡免受人臉識別系統的抓取。這些平臺可以保護用戶或其他人發布的個人照片,并更好地部署更強大的保護機制。例如,在線平臺可以使用群組偽裝技術,如Fawkes或FoggySight,來破壞由其站點圖像組成的參考數據庫。在圖像被抓取后,在線平臺可以使用源跟蹤技術來識別被盜圖像。這些方法應與增強的反爬技術相結合,以防止大規模爬取面部圖像,例如采用更嚴格的速率限制、訪問權限和啟發式檢測,以確保個人的在線足跡更安全。
(3)面部圖像的持久性:一個與在線足跡相關但不同的挑戰是面部數據的持久性。大多數人在整個成年生活中擁有相同的面孔,即使面容隨著年齡變化,仍然可以被大多數人臉識別系統識別為獨特個體。為了長期有效,反識別工具必須在多年的時間內隱藏相同的靜態數據(同一張臉)。
(4)人臉識別系統缺乏透明度:人臉識別系統的工作方式缺乏透明度,這限制了反識別工具的開發和測試。無法訪問專有人臉識別系統時,無法對系統進行全面的功效測試。此外,開發人員不知道人臉識別系統如何操作,以及它是否能夠繞過反識別系統。全球人臉識別市場在2020年價值386億美元,因此利益相關者擁有足夠的資源來發展新的訓練方法或架構,以繞過反識別工具的保護,并可能侵犯用戶的隱私。解決這個問題的方法可能包括增加人臉識別系統的透明度和可審計性,以確保反識別工具的有效性和用戶隱私的保護。
0x0A 結論
隨著人臉識別系統的大規模應用和數量持續增長,反人臉識別技術也在迅速發展,預計未來反識別工具的需求將繼續上升。本文對反人臉識別技術的現狀進行了評估,其中許多工具利用對抗性擾動來規避人臉識別模型,這在短期內往往是有效的,但缺乏長期的保證,但不能從根本上對抗未來的人臉識別系統。未來的反識別技術可以針對人臉識別的第一階段和第 四階段進行更多的探索,這可以提供更廣泛的保護。
隨著人臉識別系統的廣泛應用和不斷增長,反人臉識別技術的需求也將不斷增加。本文對反人臉識別技術的現狀進行了評估,發現許多工具利用對抗性擾動來規避人臉識別模型,在短期內通常是有效的。然而,這些方法缺乏長期的保證,無法根本上對抗未來的人臉識別系統的發展。未來的反識別技術應該進行更深入的研究和探索,在穩健性、保護范圍、不依賴第三方、用戶友好性和對其他用戶影響最小等方面進行改進和發展。這樣才能更好地應對濫用人臉識別系統所帶來的挑戰,并保護用戶的隱私和數字身份。
E安全
聚銘網絡
安全牛
合天網安實驗室
安全內參
看雪學苑
安全圈
FreeBuf
信息安全與通信保密雜志社
中國信息安全
FuzzWiki
威脅棱鏡