IEEE TIP'22:面向人臉識別的高質量類中心學習方法研究
隨著計算機視覺與人工智能的發展,人臉識別被廣泛地應用到人們生活的各個方面,如人臉認證、人臉支付、監控視頻分析以及嫌犯追逃等。以Softmax損失函數為基礎的人臉識別算法極大地改善了人臉識別性能。這些識別算法致力于為每一個人臉類別學到一個類中心,并使人臉樣本能夠緊密圍繞在對應類別類中心周圍,同時使不同類中心之間盡可能地保持足夠間隔。然而當前方法平等對待每一個樣本,因此當訓練集中某一人臉樣本中低質量樣本占多數的時候,在損失函數的約束下,類中心將會靠近這些低質量的樣本,使得類中心的表示能力大大降低,這將削弱復雜場景下的人臉識別性能。
為了解決這一問題,我們提出了一個面向人臉識別的高質量類中心學習方法。其主要包含兩個主要的損失,一個是質量感知的分類損失(LID),另一個是高質量感知的類中心損失(LC)。在LID中,我們對不同質量的樣本賦予了不同的scale和margin值,給高質量樣本更大的scale值可以引導類中心靠近高質量樣本,為低質量樣本賦予更大的margin可以進一步促使低質量樣本緊緊圍繞在類中心周圍。最終學到的類中心能夠靠近高質量樣本,從而改善類中心的特征表示能力,提升模型性能。LC則是通過直接構造類中心與高質量樣本間的L2損失,進一步引導類中心靠近高質量樣本。LID和LC的結合可以有效地引導類中心靠近高質量樣本,使類中心包含更多具有人物表示特征的關鍵信息,從而提升特征提取模型的特征提取能力。
該成果“HQ2CL: a High-Quality Class Center Learning System for Deep Face Recognition”已于2022年發表在IEEE Transactions on Image Processing (TIP)期刊的31卷上。TIP是計算機學會(CCF)計算機圖形學與多媒體方向的A類期刊,也是人工智能領域的頂級期刊,當前的影響因子為11.041。

- 論文鏈接:
- https://ieeexplore.ieee.org/document/9852153
背景與動機
近年來,作為典型的分類損失函數,Softmax與神經網絡最后輸出層緊密聯系在一起,并被廣泛地應用于各種分類任務,并取得了良好的分類效果。對于具有C個類別的分類任務,其Softmax損失形式可以表示如下:

其中,N為一個mini-batch的樣本數,xi是其中第i個樣本的特征,yi則是xi對應的類別。顯然,樣本特征在經過線性變換(也即是網絡全連接)之后得到了C個類別的分數,對應的第yi個類別的分數與總類別分數之和的比值,即為該樣本正確分類的概率。這也是Softmax損失的本質所在。不過,Softmax損失只是將樣本特征區分開,并不會約束樣本特征之間的分類間隔。因此,在類別和樣本都更多的人臉識別任務中,Softmax損失約束能力就顯得尤為不足。
為了將Softmax用于人臉識別,研究人員對其形式做了很多改進。如,將線性變換的偏移bj置為0;將樣本特征xi和線性變換權重wj進行L2正則化,也即是將xi和wj都變成了單位向量(模長為1)。因此,
,
其中
為樣本特征xi和權重wj之間的夾角。由于wj與xi具有相同的形式,因此我們也稱其為類中心。基于上述改進,損失函數形式可以表示為:

因此,在該式中,樣本特征與線性變換權重之間夾角的余弦值就直接表示了樣本所屬類別的分數。在此基礎上,研究人員進一步增加了一個角度間隔m去縮小樣本特征與其所屬類別權重之間的夾角,從而進一步提升模型的類間可區分度以及類內緊奏性。同時,為了確保損失的收斂性,研究人員使用了一個尺度s對夾角余弦值進行縮放。基于此,新的損失函數可以表示為:

在該損失的約束下,訓練得到的人臉識別性能大幅度提升,模型特征表示能力更強。然而,當前訓練集中的樣本質量參差不齊,這會對上述約束產生嚴重干擾。為了改善模型對低質量樣本(如大角度、低分辨率、模糊等)的特征表示能力,訓練集中往往包含了大量低質量樣本,但當前方法平等對待訓練集中的每一個樣本,當樣本中低質量樣本過多時,為了更好地對訓練集進行擬合,類中心會從這些占據大多數的低質量樣本中學習人物的特征表示信息,而忽視了高質量樣本中更能表示人物身份屬性的關鍵特征信息,從而導致類中心質量降低,干擾特征提取模型的學習訓練。當使用該特征提取模型對復雜場景下人臉進行識別時,往往得不到預期的識別效果。因此,如何緩解因訓練集中樣本質量差異對模型性能產生的傷害,改善復雜場景下人臉識別性能,仍是一個亟待解決的關鍵問題。
設計與實現
當我們訓練一個人臉識別模型時,實際就是在迭代一個骨干網絡
和一個網絡全連接層權重W。其中,骨干網絡
用于將樣本從圖像轉為特征向量,而網絡全連接層權重W也可以看做是由C個人物的類中心向量組成。對于人臉識別任務來說,在部署階段,待識別人臉及其對應類別往往不在訓練集中,所以類別類中心W則在實際推理階段被舍棄。我們期待的理想結果是,骨干網絡
可以很好地提取給定任意一張人臉圖像的特征,使得該特征可以表征該人物的關鍵識別信息。然而,訓練集中不同類別包含有占大多數的低質量樣本,在訓練時,為了得到更好的擬合效果,這些對應類別的類中心向量會更靠那些低質量樣本(包含更少的人物關鍵識別信息),從而使得骨干網絡提取得到的特征也不能很好地表示人物身份。因此,本文致力于改善那些擁有低質量樣本的類別類中心的質量,從而改善骨干網絡提取特征的表征能力。

圖1 面向人臉識別的高質量類中心學習系統
如上圖1所示,為了改善類中心質量,我們首先基于樣本質量評估模型以及基于現有方法訓練得到的樣本特征與類中心之間的相似度來計算每一個樣本的質量,然后根據質量值將每一個類別中的所有樣本劃分為高質量和低質量兩個部分,具體樣本質量評估方法可以參考我們的論文。正如先前提到的那樣,當前方法平等對待每一個訓練樣本,每一個樣本擁有相同的尺度值s和角度間隔m。研究表明s的大小可以有效控制樣本在訓練中的重要性,而角度間隔m則控制著該樣本與類中心之間的距離。因此,為了實現我們改善類中心質量的目的,在構造身份損失LID時,我們為兩個不同質量的樣本賦予不同的尺度值s和不同的角度間隔m。賦予高質量樣本更大的s值可以增加高質量樣本在訓練中的作用,引導類中心靠近高質量樣本;而為低質量樣本賦予更大的m可以進一步促使低質量樣本更加緊密地圍繞在類中心周圍。最終學到的類中心能夠靠近那些高質量樣本,低質量樣本則在分類間隔m的約束下更加緊密的靠近類中心,從而改善類中心的特征表示能力,提升模型的特征表示能力,在面對新的人物或樣本時,也能夠更好地保持模型識別性能。
我們也進一步提出了一個高質量類中心損失LC,通過直接構造類中心與高質量樣本間的L2損失,進一步引導類中心靠近高質量樣本,改善類中心質量。最后,我們將LC與身份損失LID結合在一起,在二者的共同約束下,類中心將從高質量樣本學習借鑒到更多的人物身份屬性關鍵特征,從而進一步幫助改善骨干網絡的特征表征能力,提升模型識別性能。
實驗評估

圖2 類中心與高質量樣本間相似度分布對比

圖3 高質量樣本與低質量樣本間相似度分布對比
為了驗證提出方法的有效性,如圖2所示,我們首先對比了提出方法與Arcface方法在類中心與高質量樣本間的特征相似度分布情況,可以看出,提出的方法確實使得類中心更加靠近高質量樣本。如圖3所示,我們進一步對比了高質量樣本與低質量樣本間的相似度分布,提出的方法也顯著地拉近了低質量與高質量樣本間的距離。上述實驗結果表明,提出的方法可以有效地改善類中心的質量,這些類中心可以更加靠近高質量樣本,低質量樣本也會更加緊湊地圍繞在類中心周圍。

圖4 提出方法與現有方法對比結果
如圖4所示,我們使用多個人臉識別算法作為對比,并在多個人臉數據集上,對提出的高質量類中心方法進行評估驗證。實驗結果表明,與現有的人臉識別方法相比,在多種不同基準數據集上,提出的方法都得到了最佳結果,特別是在大規模人臉基準數據集IJB和MegaFace上。
詳細內容請參見:
Xianwei Lv, Chen Yu, Hai Jin and Kai Liu, "HQ2CL: A High-Quality Class Center Learning System for Deep Face Recognition," in IEEE Transactions on Image Processing, vol. 31, pp. 5359-5370, 2022, doi: 10.1109/TIP.2022.3195638.