3秒復制任何人的嗓音，微軟音頻版DALL·E細思極恐；谷歌Chrome新特性：基于網站啟用和禁用擴展程序

VSole2023-01-16 14:22:00

3秒復制任何人的嗓音，微軟音頻版DALL·E細思極恐

只需3秒鐘，一個根本沒聽過你說話的AI，就能完美模仿出你的聲音。

例如這是你的一小句聊天語音：

這是AI根據它模仿你說話的音色：

是不是細思極恐？

這是微軟最新AI成果——語音合成模型VALL·E，只需3秒語音，就能隨意復制任何人的聲音。

它脫胎于DALL·E，但專攻音頻領域，語音合成效果在網上放出后火了：

有網友表示，要是將VALL·E和ChatGPT結合起來，效果簡直爆炸：

看來與GPT-4在Zoom里聊天的日子不遠了。

還有網友調侃，（繼AI搞定作家、畫家之后）下一個就是配音演員了。

所以VALL·E究竟怎么做到3秒鐘模仿“沒聽過”的聲音？

用語言模型來分析音頻

基于AI“沒聽過”的聲音合成語音，即零樣本學習。

語音合成趨于成熟，但之前零樣本語音合成效果并不好。

主流語音合成方案基本是預訓練+微調模式，如果用到零樣本場景下，會導致生成語音相似度和自然度很差。

基于此，VALL·E橫空出世，相比主流語音模型提出了不太一樣的思路。

相比傳統模型采用梅爾頻譜提取特征，VALL·E直接將語音合成當成了語言模型的任務，前者是連續的，后者是離散化的。

具體來說，傳統語音合成流程往往是“音素→梅爾頻譜（mel-spectrogram）→波形”這樣的路子。

但VALL·E將這一流程變成了“音素→離散音頻編碼→波形”：

具體到模型設計上，VALL·E也和VQVAE類似，將音頻量化成一系列離散tokens，其中第一個量化器負責捕捉音頻內容和說話者身份特征，后幾個量化器則負責細化信號，使之聽起來更自然：

隨后以文本和3秒鐘的聲音提示作為條件，自回歸地輸出離散音頻編碼：

VALL·E還是個全能選手，除了零樣本語音合成，同時還支持語音編輯、與GPT-3結合的語音內容創建。

那么在實際測試中，VALL·E的效果如何呢？

連環境背景音都能還原

根據已合成的語音效果來看，VALL·E能還原的絕不僅僅是說話人的音色。

不僅語氣模仿到位，而且還支持多種不同語速的選擇，例如這是在兩次說同一句話時，VALL·E給出的兩種不同語速，但音色相似度仍然較高：

同時，連說話者的環境背景音也能準確還原。

除此之外，VALL·E還能模仿說話者的多種情緒，包括憤怒、困倦、中立、愉悅和惡心等好幾種類型。

值得一提的是，VALL·E訓練用的數據集不算特別大。

相比OpenAI的Whisper用了68萬小時的音頻訓練，在只用了7000多名演講者、6萬小時訓練的情況下，VALL·E就在語音合成相似度上超過了經過預訓練的語音合成模型YourTTS。

而且，YourTTS在訓練時，事先已經聽過108個演講者中的97人聲音，但在實際測試中還是比不過VALL·E。

有網友已經在暢想它可以應用的地方了：

不僅可以用在模仿自己的聲音上，例如幫助殘障人士和別人完成對話，也可以在自己不想說話時用它代替自己發語音。

當然，還可以用在有聲書的錄制上。

不過，VALL·E目前還沒開源，要想試用可能還得再等等。

語音合成

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

語音欺騙檢測研究與分析

2023-07-28 10:16:57

與欺騙攻擊相對應，語音欺騙檢測是一種識別防御技術，國內外相關人員進行了最新的研究。目前，指紋、人臉和聲紋等常見的生物特征已經被大量應用。2017年在瑞典斯德哥爾摩舉行的 2017 挑戰賽則重點關注語音回放欺騙攻擊。這次的挑戰賽吸引了 53 個注冊團隊，收到了 23 個提交結果。由于輸入 ASV 系統的語音的欺騙方法未知，傳統的語音欺騙檢測系統無法同時檢測 LA 和 PA 兩種攻擊。

3秒復制任何人的嗓音，微軟音頻版DALL·E細思極恐；谷歌Chrome新特性：基于網站啟用和禁用擴展程序

2023-01-16 14:22:00

語音合成趨于成熟，但之前零樣本語音合成效果并不好。相比傳統模型采用梅爾頻譜提取特征，VALL·E直接將語音合成當成了語言模型的任務，前者是連續的，后者是離散化的。除此之外，VALL·E還能模仿說話者的多種情緒，包括憤怒、困倦、中立、愉悅和惡心等好幾種類型。不過，VALL·E目前還沒開源，要想試用可能還得再等等。

打造一流AI測試環境、助力產業健康發展——人工智能關鍵技術與應用評測工業和信息化部重點實驗室工作縱覽

2022-05-18 13:49:05

實驗室建設以來，不斷深耕人工智能技術、支撐和服務能力，有效推動人工智能技術水平的進步和應用水平的提升。

深度偽造技術的發展及影響

2021-09-06 10:11:52

2020年8月，美國會研究服務處發布《深度偽造與國家安全》和《人工智能與國家安全》兩大報告，明確指出深度偽造已成為對手信息戰的一部分，對手可利用深度造假技術對抗美國及其盟國，生成虛假新聞報告，影響公開披露的信息，瓦解公眾信任等。尤其是2020年美國大選將至，美各界對深度偽造信息也是嚴陣以待，采取各種措施圍追堵截。深度偽造技術在近幾年迅速興起，為國家間的政治抹黑、網絡攻擊、軍事欺騙、經濟犯罪甚至恐怖

基于人工智能的網絡空間內容安全治理方法研究

2023-06-27 09:41:06

近年來，人工智能技術對社會的發展產生了深刻的影響和推動作用。

實戰 | 認知智能助力平安銀行數字化轉型

2023-03-14 13:44:31

AI服務層統一管理模型服務，服務上線推理之后由AI服務層統一對外提供服務。AI服務層支持不同模型服務的編排、模型服務的AB測試和模型服務的監控。

從虛假信息到深度造假：網絡攻擊者如何操縱現實

2023-03-13 09:37:14

近期，電視劇《狂飆》的爆火，激起了一些UP主的二創激情，將劇中的“CP”角色通過AI換臉移植到其他影視片段中，形成讓網友驚呼“眼前一黑”的戲劇化效果，同時也收獲了滿滿流量。乍一看這只是單純的娛樂行為，但有時諸如”AI換臉“等深度造假技術（Deepfakes）可不只是”逗你笑“這么簡單，背后的安全隱患不容忽視。

我國擬禁止或限制出口激光雷達、稀土、航天器及機器人等制造技術

2023-01-31 10:18:20

1月28日，據商務部網站消息，我國商務部會同科技部等部門關于《中國禁止出口限制出口技術目錄》修訂公開征求意見的意見反饋正式截止。知情人士也表示，目前并沒有對外公布美、荷、日達成協議的計劃。與此同時，ASML的全球業務也將繼續進行，行業需要穩定性和可靠性，以避免全球半導體行業進一步動蕩。中國大陸是ASML第三大市場，后者顯然不希望失去中國市場。對于美方的做法，中國方面多次表示堅決反對。

2023年阻止網絡釣魚攻擊的三種方法

2022-11-29 12:33:00

魚叉式網絡釣魚：網絡攻擊者向他們知道擁有所需信息的特定目標發送電子郵件，例如銷售部門或IT部門的員工。捕鯨式網絡釣魚：向首席執行官或首席財務官等企業高管發送電子郵件，這是一項備受矚目的目標詐騙的一部分。由于網絡釣魚攻擊以人員為目標，網絡安全專家一致認為，針對這一點的最佳防御措施是向員工提供安全意識培訓。幫助人們變得更明智、更有感知力、更有彈性和響應能力的解決方案將會獲得對抗網絡釣魚攻擊的勝利。

人工智能對網絡攻擊的影響及軍事作戰領域的全新應對思想

2022-01-04 13:39:10

Darktrace是全球領先的網絡人工智能（AI）公司，也是自主響應技術的創造者，到目前為止，Darktrace已經建立了很多的關鍵技術和能力，其總部設在美國舊金山和英國劍橋。

VSole

網絡安全專家