語音欺騙檢測研究與分析
摘 要:語音作為一種常用的生物特征,往往會被用于通過性安全認證。隨之而來的就是ASV 系統安全問題,攻擊者會試圖通過偽裝成另一個已注冊說話人的聲音來通過 ASV 系統的檢測。隨著 AI 的發展,使用語音合成和語音轉換等手段后的欺騙攻擊都可以呈現出其他特定說話人的高質量、可信的語音信號,從而對 ASV 構成威脅。與欺騙攻擊相對應,語音欺騙檢測是一種識別防御技術,國內外相關人員進行了最新的研究。基于此,介紹了最前沿挑戰的欺騙檢測技術,并對這些技術的局限性和未來進行分析。
隨著人工智能技術的發展,生物識別技術徹底改變了我們的個人識別方法,并在維護個人、國家和全球安全方面發揮了至關重要的作用。目前,指紋、人臉和聲紋等常見的生物特征已經被大量應用。例如我們日常生活中使用的某些智能手機、智能穿戴設備就配備了聲紋解鎖功能。以上功能全部基于自動說話人驗證(Automatic Speaker Verification,ASV) 系 統,ASV 系統通過對輸入的語音進行二分類判別,判斷該語音來源的用戶是否為已注冊用戶。通過性安全認證系統往往會帶有安全問題,由于ASV 通常用于電話或其他無人看管、無人監督或面對面接觸的分布式場景,并因為語音這一生物特征的特殊性和常見性,語音比其他生物特征信號更容易受到惡意干擾或操縱,致使識別系統受到攻擊 。攻擊者對識別系統的輸入特征進行模仿、轉換、篡改,就極有可能在生物識別系統中“蒙混過關”。中國人民銀行發布的《移動金融基于聲紋識別的安全應用技術規范》中明確說明,移動金融領域中聲紋識別技術要能夠抵御語音欺騙。2020 年 12 月,清華大學人工智能研究院、AIIA- 得意音通聲紋技術聯合實驗室和中國電信股份有限公司研究院聯合發布了《中國聲紋識別產業發展白皮書 2.0》,介紹了目前國內聲紋識別技術發展的 12 大趨勢。這些都表明了語音欺騙檢測是未來語音處理方面研究的一個熱點、重點問題。因此,為保障安全性,語音識別系統需要具備能夠準確判斷輸入生物特征的能力,為了解決這一難題,語音欺騙檢測技術由此誕生。這對研究學者們來說是一個挑戰,同時也引起了國內外學者極大的興趣。
本文介紹了語音欺騙檢測的研究現狀,包括語音欺騙方法、研究數據集和評價指標,著重闡述了國內外針對語音欺騙檢測的最新挑戰賽的研究進展,并對其中的具體方法進行分析。最后,對語音欺騙檢測技術的局限性和未來發展進行分析。
1
語音欺騙攻擊
語音欺騙攻擊是指攻擊者使用某些語音欺騙攻擊手段生成一段新的語音或將某段語音偽裝成已注冊說話人的聲音,進而將其輸入到ASV 系統,以達到混淆通過 ASV 系統檢測的目的。ASV 系統 是一個通過性安全識別系統,識別輸入的語音是否為特定人的語音。自動說話人驗證分為兩個步驟,如圖 1 所示。

圖 1 語音欺騙檢測系統
語音欺騙方法最早可追溯到 20 世紀六七十年代,語音欺騙的方法包括語音模仿、語音回放、文本到語音合成(Text To Speech,TTS)、語音轉換(Voice Conversion,VC)。目前語音欺騙攻擊方法可分為兩大類:邏輯訪問(Logical Access,LA)攻擊和物理訪問(Physical Access,PA)攻擊。一般將使用語音合成方法的攻擊歸為 LA 攻擊,包括 TTS 和 VC;通過語音回放使用錄音設備進行重放攻擊,屬于 PA 攻擊。
語音模仿是指攻擊者模仿目標說話人的聲音,使自己的聲音盡量與目標說話人的聲音相似,從而讓語音識別系統將攻擊者的聲音誤認為注冊說話人的聲音 。語音回放是指使用錄音設備錄制目標說話人的語音,然后將錄音輸入到 ASV 系統 。使用不同錄音設備和播放設備的錄制聲音對 ASV 系統的攻擊效果也不同 。TTS 是一種將文本文字生成一段與特定說話人聲音非常相似的語音的技術。TTS 主要由 2 個階段組成:文本分析階段和波形生成階段。殘差網絡、生成對抗網絡等深度神經網絡技術的進步提高了轉換后的語音質量 。雖然 VC 與 TTS 同屬于語音合成攻擊,但兩個技術還有一些不同。VC 是將一個人的聲音轉換為另一個人的聲音,這也就表示 VC 系統的輸入是語音信號,而不是一段文本文字。
2
語音欺騙檢測
2.1 語音欺騙檢測簡介
語音欺騙攻擊與語音欺騙檢測是矛和盾的關系,語音欺騙檢測是為了進行語音的鑒偽。
2013 年后語音欺騙檢測才得到人們關注,經過兩年籌備,第一次 ASVspoof 挑戰賽 在德國德累斯頓舉行,
2015 挑戰賽對 TTS 和 VC等語音合成方法的欺騙攻擊進行檢測 。2017年在瑞典斯德哥爾摩舉行的
2017 挑戰賽 則重點關注語音回放欺騙攻擊。
2019 年之后的挑戰賽都關注了多種語音攻擊方式,如
2019 挑戰賽同時關注了TTS、VC 和語音回放的欺騙攻擊方式 ,在語音合成攻擊檢測挑戰中收到 49 份挑戰結果,在語音回放攻擊檢測挑戰中收到 51 份挑戰結果 。2021 年 Interspeech 會議在捷克布魯諾舉行,
2021 挑戰賽在關注 TTS、VC 和語音回放 欺騙方法的基礎上,還關注了深度偽造(Deep Fake,DF)語音欺騙攻擊方法,DF 任務類似于 LA 任務(包括壓縮數據),但沒有說話人驗證,這次挑戰收到 95 份研究結果。最近的 SASV Challenge 2022 挑戰賽 同時關注了ASV 系統和反措施(Counter Measure,CM)系統,SASV 將
對 CM 的關注點擴展到對集成系統的考慮上,其中 CM 和 ASV 子系統都經過優化來提高系統的可靠性。這次的挑戰賽吸引了 53 個注冊團隊,收到了 23 個提交結果。其中,在 SASV Challenge 2022 挑戰賽上,來自“昆山杜克大學 -OPPO”聯合實驗室的團隊取得了全球第 2 名的成績 。但是現在還沒有一種單一的網絡模型能夠同時滿足自動說話人識別和語音欺騙聯合優化檢測。
2.2 語音欺騙檢測流程
一個語音欺騙檢測的流程如圖 1 所示。由于輸入 ASV 系統的語音的欺騙方法未知,傳統的語音欺騙檢測系統無法同時檢測 LA 和 PA 兩種攻擊。將 CM 與 ASV 系統進行串聯使用,在語音輸入到 ASV 系統之前,對其進行識別,區分這段語音是真實的還是欺騙的,只有真實的語音才能夠輸入到ASV系統中進行下一步驗證。
2.3 語音欺騙檢測的聲紋特征
1962 年,Bell 實驗室的 Kersta 等人 發表了一種基于時頻譜圖的說話人識別方法,正式提出“聲紋”(Acoustic Fingerprint)這一概念。語音欺騙檢測與自動說話人識別都可以歸屬為二分類問題,語音信號經過預處理,變成具有固定時間間隔的音頻幀,然后從這些音頻幀中提取出具有固定維度的特征,這些特征將被輸入到深度神經網絡中。
語音欺騙檢測與說話人識別所使用的聲紋特征也有所不同,比如梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCC),雖然能夠較為準確地描述語音中的特征信息,但不能很好地區分真假語音,因此 MFCC 成為說話人識別系統中的常用特征,但在語音欺騙檢測系統中的效果不理想。除此之外,常用的聲紋特征還有原始頻譜(Raw spec)、梅爾頻譜(Mel spec)、 線 性 頻 率 倒 譜 系 數(Linear Frequency Cepstral Coefficient,LFCC)、單頻濾波倒譜系數(Single Frequency Filtering Cepstrum Coefficient,SFFCC)、感知線性預測系數(Perceptual Linear Predictive,PLP)、 常 數 Q 倒 譜 系 數(ConstantQ Cepstral Coefficients,CQCC)、長期變量 Q 變換頻譜(Long-term Variable Q Transform,L-VQT spec),這些聲紋特征提取步驟如圖 2 所示。

圖 2 聲紋特征提取步驟
3
語音欺騙檢測挑戰賽
每一屆語音欺騙檢測挑戰賽都會提供專門的數據集以及評價指標供研究者們使用。參賽團隊注冊并參加挑戰,每個團隊可以報名參加一個或兩個挑戰場景。最終,每個團隊應提交一份詳細說明策略方法(功能和分類器等)和相關技術的系統描述文件以及對應某個挑戰場景的分數文件。
3.1
2019 挑戰賽
ASVspoof 2015 的任務是設計出能夠區分使用 TTS 或 VC 系統產生的真實語音和欺騙性語音的對抗解決方案;
2017 挑戰的重點是設計旨在檢測重放欺騙攻擊的對策 。為了應對兩類語音欺騙攻擊手段,
2019 擴展了之前的挑戰。
2019 是第一個專注于全部 3 種主要攻擊類型的挑戰,即源自 TTS、VC 和語音重放欺騙的攻擊。相對于 2015 年的改進,包括增加使用了最新的 TTS 和 VC 技術,這些技術利用了這 4 年在這兩個領域取得的重大進展。相對于 2017 年的改進,使用了更加可控的評估設置來評估重放欺騙攻擊對策。雖然 2017 年的挑戰是根據真實回放的欺騙攻擊的記錄創建的,但使用不受控制的設置使得結果比較難分析。此次
2019 挑戰在語音合成攻擊檢測挑戰中收到 49 份挑戰結果,在語音回放攻擊檢測挑戰中收到 51 份挑戰結果。
3.1.1
2019 數據集
2019 LA 數據集基于 VCTK 的標準多說話人語音合成數據集而生成。從 107 位說話者(46 位男性,61 位女性)中收集了真實的語音,欺騙性語音是使用多種不同的欺騙算法從真實數據中生成的。2019 LA 訓練數據集包括來自 20 位說話者(8 位男性,12 位女性)的真實和欺騙性語音,每個欺騙語音是根據 2 種語音轉換和 4 種語音合成算法(A01~A06)之一生成的;測試集包括從多個說話者收集的一組無法預測真實或欺騙性的語音,大約有8萬次試驗,測試數據集大小約為 4 GB。測試集的記錄條件與開發數據集完全相同,欺騙語音是根據各種難以預測的欺騙算法(A07~A19)生成的,但它們是生成開發數據集的欺騙算法的變體。
PA 考慮了在傳感器級別執行的欺騙攻擊,這意味著真實的和欺騙的語音都在采集之前通過物理空間傳播,因此這種情況下的欺騙攻擊被稱為重放攻擊。PA 訓練和開發集是根據總共27 種不同的聲學配置錄制的,并有 9 種不同的回放配置。與語音合成攻擊場景相同,測試集在說話人方面與其他兩個集合是不相交的,大約有 13.5 萬次試驗。
如表 1、表 2 所示,與 2015 年和 2017 年版本類似,2019 年的數據集包含使用不同技術(TTS 和 VC 算法)和回放場景生成的訓練、開發和測試集。
表 1 ASVspoof 2019 LA 數據集詳細信息

表 2 ASVspoof 2019 PA 數據集詳細信息

3.1.2 ASVspoof 2019 評價指標
(1)等錯誤率(Equal Error Rate,EER)。EER 是評估 ASV 和其他生物識別系統準確性的標準指標 ,2019 挑戰中將其作為次要評價指標。參與者需要為每個測試集記錄一個單一的實值檢測分數,較高的檢測分數表明更有可能觀察到真實的人類語音,而相對較低的分數則表明更大的欺騙攻擊可能性。給定特定系統的所有檢測分數,首先計算錯誤拒絕率(False Rejection Rate,FRR) 和 錯 誤 接 收 率(FalseAcceptance Rate,FAR),分別表示出閾值 s 處的

式中:
分別為 s 的單調遞減和遞增函數。等錯誤率(EER)對應于兩個檢測錯誤率重合的閾值
即
(2)串聯檢測成本函數(Tandem Detection Cost Function,t-DCF)。
2015 年和 2017 年挑戰側重于獨立系統的開發和評估,
2019 首次采用串聯檢測成本函數(t-DCF)這一以 ASV 為中心的新評價指標,而將 EER 作為次要指標。
2019 采用的 t-DCF 基本形式如下:

如式(1)、式(2)所示。常數
由 t-DCF 成本、Priors 和 ASV 系統檢測誤差決定:

式 中:
分別為 ASV 系統錯誤拒絕目標說話人和錯誤接收非目標說話人的成本(cost);
分別為 CM 系統錯誤拒絕真實語音試驗和錯誤接受欺騙語音試驗的成本。此外,預先設定了目標
非目標
和欺騙
類的先驗概率,其中
成本和先驗概率預先固定為表3 中所示的值。最后,
為固定ASV 系統在特定ASV 檢測閾值下的檢測錯誤率。其中,
和
分別為傳統的未命中率(被拒絕的目標用戶的比例)和誤報率(被接受的非目標用戶的比例);
是針對 ASV 系統的欺騙樣本的未命中率(被 ASV 拒絕的欺騙樣本的比例)。
表 3 ASVspoof 2019 中預設的 t-DCF 成本函數參數

原始 t-DCF 可能難以理解。通常將歸一化的 t-DCF 定義為:

式中:
是定義為
的默認成本。通過分別在式(3)中設置
(CM 閾值 s → +∞)和
(CM 閾值 s → -∞)得到
在前一種情況下,標準化的 t-DCF 寫為:

其中
在后一種情況下,標準化的 t-DCF則寫為:

其中
權重 α 或 β 表示兩個錯誤率分別在t-DCF中所占的比例。與過去兩個挑戰版類似,
2019 并不關注閾值設置(校準),而是將每個評估的 CM 的閾值固定為與完美校準相對應的最佳值。也就是說,挑戰排名將基于最小標準化 t-DCF,定義為:

其中
是使用 ground truth從測試集確定的最佳閾值。
3.2
2021 挑戰賽
ASVspoof 2021 是雙年度挑戰系列的第四屆挑戰,為提高 CM 系統的泛化性,本次挑戰除了繼續關注 LA、PA 任務,還引入了一項涉及深度偽造語音檢測的新任務。LA 任務是基于
2015 和
2019 LA 任務,并考慮到電話場景。2019 年 LA 任務建立在 2015 年第一版的基礎上,考慮了最先進的神經網絡和聲學波形模型,最終,此次挑戰收到 95 份挑戰研究結果。
3.2.1
2021 數據集
2021 通過考慮電話編碼和傳輸進 一 步 擴 展 了 挑 戰,
2021 沒有發布新的訓練或開發數據集 ,挑戰者繼續使用
2019 數 據 集 的 訓 練 和 開 發 集。新 的LA 和 PA 測試集包括從與 ASVspoof 2019 測試集對應的相同 48 位說話者(21 位男性,27 位女性)收集的語音記錄。DF 任務的數據不僅來自VCTK 基礎語料庫,還來自其他(未公開的)語料庫。
2021 LA 測試數據集包含針對每個揚聲器的新試驗以及真實電話系統引入的編碼和傳輸偽像。
2021 LA 測試數據包括通過 IP 語 音(VoIP)和公共交換電話網絡(PSTN)在內的各種電話系統傳輸的真實和欺騙性語音。LA 測試集欺騙試驗來自 13 種不同的語音合成和語音轉換欺騙攻擊算法之一(A07~A19),但除了攻擊算法,欺騙的和真實的試驗數據都使用 7 種不同的編解碼器中的一種作為傳輸結果,表 4 中列出了 7 個評估條件,帶下劃線的評估條件存在于測試集中,但不在訓練集中。
表 4 ASVspoof 2021 LA 數據集評估條件

2021 PA 測試集包括與
2017 數據集類似的真實和重放樣本,但具有與
2019 PA 數據集類似的更好的控制設計。真正的試驗數據在真實的物理空間中呈現給 ASV 系統,而重放攻擊被獲取,然后使用不同質量的設備重新呈現。因此,PA 測試數據集包含來自環境和回放設備的混響和附加噪聲。真實語音來自 VCTK 語音庫,使用具有合理平坦頻率響應的高質量揚聲器將原始語音呈現給ASV 系統(而不是由真正的說話者發出)。
DF 測試數據集展示了音頻編碼和壓縮偽影,還包括在不同域中捕獲的數據。DF 測試數據集是使用常用媒體存儲的、不同有損編解碼器處理的真實和欺騙的語音集合。音頻數據被編碼,然后被解碼以恢復未壓縮的音頻,該過程引入了依賴于編解碼器類型和配置的失真。測試集取自
2019 LA 測試集以及其他來源,其中包括使用 100 多種不同的欺騙算法生成的欺騙攻擊。與 LA 類似,表 5 列出了 9 個評估條件,帶下劃線的評估條件出現在測試集中,但不在訓練集中 。
表 5
2021 DF 數據集評估條件

3.2.2 ASVspoof 2021 評價指標
(1) 等 錯 誤 率(EER)。DF 任務的主要指標是等錯誤率(EER)。由于 DF 任務不包括ASV 系統,因此該任務使用不需要指定代價和先驗概率參數的、能很好反映 CM 系統區分真實和欺騙語音能力的通用 EER 指標。
(2)串聯檢測成本函數(t-DCF)。
2021 采用兩種不同的性能指標 。LA 和 PA 任務的主要指標是串聯檢測成本函數(t-DCF)。它評估 CM 和 ASV 組合(串聯)性能,將 CM視為放置在未受保護的 ASV 系統之前的“真實 /欺騙門”。該指標反映了貝葉斯的風險,可以通過選擇不同的檢測成本和類別先驗參數來針對不同的應用進行調整。在
2019 中使用的 t-DCF 指標在 2021 挑戰中進行了簡化,以包含更少的參數,
2021 中使用的指標形式如下:

式中:
分別為 CM 系統檢測閾值為 τ 時的錯誤拒絕率和錯誤接收率;
和
為成本函數參數。這些參數不僅取決于預定義的成本和先驗參數,還取決于 ASV 性能;
和
取決于 ASV 在真實測試中的性能,而
隨 ASV 系統欺騙誤報率線性增加。對于 LA 和PA 任務(見表 6)以及它們各自的訓練和測試集,參數
,
是不同的。
2019 挑戰中式(5)的
項(ASV 下限)被丟棄,而
2021 挑戰保留了
從式(5)中可以看出,ASV 下限是使用無差錯 CM(沒有遺漏或誤報)獲得的 t-DCF,它反映了由 ASV 系統引起的錯誤。
與 2019 挑戰中的 t-DCF 類似,在 2021 挑戰中,也將其標準化為式(10)所示:

表 6 ASVspoof 2021 挑戰 LA 和 PA 任務的 t-DCF 參數

3.3 SASV 2022 挑戰賽
最新的 SASV 2022 挑戰與之前的
系列挑戰不同,最小串聯檢測成本函數(t-DCF)反映了欺騙攻擊和CM 對 ASV 系統的影響,但
挑戰系列側重于為固定的ASV 系統開發 CM,然而當 CM 和 ASV 子系統都得到優化時,可以為聯合檢測驗證系統提供更好的性能。SASV 挑戰將
對 CM 的關注擴展到集成系統,其中 CM 和 ASV 子系統都經過優化以提高可靠性,圖3顯示了SASV 2022挑戰的具體內容。

圖 3 SASV 2022 挑戰的具體內容
SASV 2022 挑戰的目標是通過提供一個框架來支持優化協同運行的 CM 和 ASV 系統,并最終促進單一或集成系統。在這個方向上的先前工作較少,因此該挑戰的目標是:(1)彌合 ASV研究和 CM 系統研究之間的差距以及相應研究團隊之間的差距;(2)擴展 ASV 場景并將欺騙攻擊考慮在內;(3)促進集成模型向集成 SASV 解決方案的發展,并使該解決方案能夠在揚聲器和反欺騙嵌入上運行;(4)鼓勵開發能夠區分不同說話人所說的話語以及欺騙性話語的單一模型。
該挑戰目前的研究現狀如圖 4 所示,此次挑戰允許參賽者使用單一的或集成的模型,并希望參賽者的模型在識別說話人身份的同時還能檢測出該語音是真實的還是虛假的。2022 年的挑戰使用
2019 protocols,雖然 SASV協議 利用
2019 LA 數據,但它們與
挑戰賽的參與者使用的協議不同,它們不是 CM 協議,而是 ASV 協議,更具體地說,是 SASV 協議(協議格式見表 7)。后者涉及 3種類型的實驗:(1)注冊說話人產生的真實的、目標話語;(2)非注冊說話人產生的真實的、非目標話語;(3)注冊說話人的欺騙、非目標話語,包含合成或轉換的語音。該挑戰提供不相交的協議,以支持挑戰參與者對 SASV 解決方案的開發和測試。此次的挑戰賽收到了 53 個注冊團隊提交的 23 個研究結果。

圖 4 SASV 2022 挑戰研究現狀
表 7 SASV 2022 協議格式

3.3.1 SASV 2022 數據集
SASV 2022 挑戰賽的參與者可以使用以下數據集:
2019 LA 訓練數據集;
2019 LA 開發數據集;VoxCeleb2 數據集。由于
2019 LA 數據集提供了真實說話者標簽,因此它也可用于 ASV 系統的培訓和開發。VoxCeleb2 數據集是為 ASV 實驗而設計的,它不包含欺騙數據。VoxCeleb2 數據集是通過抓取名人采訪的在線視頻收集的,是從 150 480 個獨特的視頻中提取的,平均個人話語長度為 7.8 s。VoxCeleb2 數據集的開發數據集用于 ASV 子系統的訓練;
2019 LA 數據集在 2019挑戰中已經進行過介紹,不再贅述。
2019 LA 訓練集可用于訓練 CM 子系統,也可與VoxCeleb2 數據集結合使用以進行 SASV 研究。
3.3.2 SAVS 2022 評價指標
SASV 2022挑戰也采用EER作為評價指標,此次挑戰使用經典 EER(SASV-EER)作為主要指標來評估 SASV 性能,兩個額外的 EER 評估值作為次要指標(評價指標如表 8 所示)。
說話人驗證 EER(SV-EER)涉及目標試驗和真實的非目標試驗的組合,而欺騙 EER(SPF-EER)涉及目標試驗和欺騙的非目標試驗的組合。
表 8 SASV 2022 挑戰評價指標

4
語音欺騙檢測方法比較與分析
4.1 語音欺騙檢測方法比較
表 9 將
2019、2021 兩次語音欺騙檢測挑戰賽共計 7 個賽道中的前 5 名所使用的特征和分類器進行總結,以供研究學習。
4.2 語音欺騙檢測方法分析
語音欺騙檢測分為基于傳統機器學習(ML)分類器的方法和基于深度學習的方法。對表 9中的方法進行簡要分析。因為 2021 挑戰中提交的檢測技術較為新穎,為此重點分析 2021 挑戰中的檢測方法。
由于
2021 挑戰 LA 任務考慮了信道效應等噪聲對語音信號的影響,導致本次 LA挑戰總體結果不如 2019 年 LA 挑戰。此次挑戰排名第一的團隊將循環神網絡與殘差網絡相結合,利用編解碼增強和修剪音頻的數據增強方法來訓練多個子系統,其中兩個子系統基于原始波形特征、頻譜圖特征和LightCNN(LCNN)、ResNet 兩個并行分類器,它們被轉發到 LSTM,分數通過權重進行相加。此外,另一個子系統使用 SincNet 前端和 LSTM 后端,該子系統的輸出分數進一步與上面的加權平均分數融合。排名第二的團隊所用數據增強方法是將輸入音頻使用預加重和 a-law 算法進行處理,將 LFCC 特征從處理后的音頻中提取出來并輸入到兩個基于 ResNet 的分類器中,再計算兩個分類器輸出分數和的平均值。
表 9 ASVspoof 2019、2021 挑戰賽方法比較

續表

2021 PA 攻擊檢測挑戰結果并不是很理想,相同排名參賽隊伍的 EER 指標相較于另外兩個檢測任務都是比較差的,這也說明了語音回放檢測的難度確實比較大,尤其是錄音環境較好的情況下,錄音與真實語音難以區分。排名第一的團隊使用一個基于高斯混合模型(GMM)和變分自動編碼器(VAE)的分類學習框架,通過房間模擬和兩次參數分別為 0.9和 1.1 的速度擾動來進行數據增強。該方法使用的聲學特征是對數頻譜圖,將對數頻譜圖輸入到 WORLD、HifiGAN、MelGAN 神經聲碼器得到過濾后的頻譜圖,再將原始頻譜圖和過濾后的頻譜圖通過時間軸進行平均操作后用時間頻率來表示。一個 GMM 和一個 VAE 使用時間平均頻譜圖進行訓練,而另一個 GMM 使用原始對數頻譜圖和過濾后的頻譜圖進行訓練,兩個分類器的輸出分數以相同權重進行相加。除此之外,Witkowski 等人 采用倒置 MFCC(IMFCC)、線性 預 測 倒 譜 系 數(LPCC)、LPCCres、CQCC、MFCC 和倒譜特征來訓練 GMM 進行重放攻擊檢測。Monteiro 等人 [29] 分別基于針對重放和克隆攻擊的兩個單獨訓練模型的預測來訓練模型,提出了端到端 LCNN 集成模型,雖然這種方法優于 ASVspoof 基線模型 ,但增加了特征計算成本。
雖 然
2021 挑 戰 首 次 進 行 深 度 偽造(DF)語音欺騙檢測,但前五名的挑戰結果比 PA 任務的結果還要好一些。DF 任務排名第一的團隊與 LA 任務的第一名是同一個隊伍,這里不再陳述。排名第五的團隊使用單一的網絡和新型時頻變換算法——長期變量 Q 變換,而且還得到了比較理想的結果。該團隊使用基于CondenseV2Net 的卷積網絡,利用從長期變量Q 變換(L-VQT)導出的對數功率譜進行訓練,在此之前,訓練數據通過 mp3、m4a、wma 方法增強并修剪為 4 s 的塊。
5
結 語
本文介紹了國內外針對語音欺騙檢測的最新挑戰的研究進展、研究數據集、評價指標等。對語音欺騙檢測方法進行歸納,并對其中的具體方法進行分析。
目前最先進的語音欺騙檢測方法已經可以取得很高的準確性和較低的等錯誤率,但是仍然有一些方面需要進一步研究。
2021中的 LA 挑戰考慮了在有信道效應的干擾、噪聲、混響的場景,希望通過挑戰提高系統的魯棒性。SASV 2022 挑戰的目標是希望開發出能夠滿足同時檢測多種攻擊方式,泛化性能好,并且能夠欺騙檢測和說話人驗證聯合檢測的系統。ASVspoof和 SASV 可能會在未來合并以進行共同評估。
現有的欺騙檢測和說話人驗證聯合檢測模型大多是集成的模型,這種集成的模型存在網絡層數多,復雜度高,計算量大等缺點;或者是采用后端融合方法的網絡模型。以上兩種模型訓練量都很大,不適用于小型設備,如手機等可以用語音登錄驗證的設備。因此,未來可以將語音欺騙聯合檢測技術、語音欺騙檢測和說話人驗證聯合檢測技術與知識蒸餾等方法結合,進行知識轉移、模型壓縮,降低網絡模型的復雜度。未來也希望能夠使用單一網絡模型解決聯合優化檢測的問題。
除此之外,非接觸多模態技術正在蓬勃發展,疫情期間,在門禁、閘機等多種場景下都提出了非接觸需求。語音欺騙檢測、語音識別可以與其他生物識別技術如人臉、指紋識別技術相融合,多模態技術融合后的產品形態將會明顯提升用戶使用體驗以及產品的安全性。