<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    3秒復制任何人的嗓音,微軟音頻版DALL·E細思極恐;谷歌Chrome新特性:基于網站啟用和禁用擴展程序

    VSole2023-01-16 14:22:00

    3秒復制任何人的嗓音,微軟音頻版DALL·E細思極恐

    只需3秒鐘,一個根本沒聽過你說話的AI,就能完美模仿出你的聲音。

    例如這是你的一小句聊天語音:

    這是AI根據它模仿你說話的音色:

    是不是細思極恐?

    這是微軟最新AI成果——語音合成模型VALL·E,只需3秒語音,就能隨意復制任何人的聲音。

    它脫胎于DALL·E,但專攻音頻領域,語音合成效果在網上放出后火了:

    有網友表示,要是將VALL·E和ChatGPT結合起來,效果簡直爆炸:

    看來與GPT-4在Zoom里聊天的日子不遠了。

    還有網友調侃,(繼AI搞定作家、畫家之后)下一個就是配音演員了。

    所以VALL·E究竟怎么做到3秒鐘模仿“沒聽過”的聲音?

    用語言模型來分析音頻

    基于AI“沒聽過”的聲音合成語音,即零樣本學習。

    語音合成趨于成熟,但之前零樣本語音合成效果并不好。

    主流語音合成方案基本是預訓練+微調模式,如果用到零樣本場景下,會導致生成語音相似度和自然度很差。

    基于此,VALL·E橫空出世,相比主流語音模型提出了不太一樣的思路。

    相比傳統模型采用梅爾頻譜提取特征,VALL·E直接將語音合成當成了語言模型的任務,前者是連續的,后者是離散化的。

    具體來說,傳統語音合成流程往往是“音素→梅爾頻譜(mel-spectrogram)→波形”這樣的路子。

    但VALL·E將這一流程變成了“音素→離散音頻編碼→波形”:

    具體到模型設計上,VALL·E也和VQVAE類似,將音頻量化成一系列離散tokens,其中第一個量化器負責捕捉音頻內容和說話者身份特征,后幾個量化器則負責細化信號,使之聽起來更自然:

    隨后以文本和3秒鐘的聲音提示作為條件,自回歸地輸出離散音頻編碼:

    VALL·E還是個全能選手,除了零樣本語音合成,同時還支持語音編輯、與GPT-3結合的語音內容創建。

    那么在實際測試中,VALL·E的效果如何呢?

    連環境背景音都能還原

    根據已合成的語音效果來看,VALL·E能還原的絕不僅僅是說話人的音色。

    不僅語氣模仿到位,而且還支持多種不同語速的選擇,例如這是在兩次說同一句話時,VALL·E給出的兩種不同語速,但音色相似度仍然較高:

    同時,連說話者的環境背景音也能準確還原。

    除此之外,VALL·E還能模仿說話者的多種情緒,包括憤怒、困倦、中立、愉悅和惡心等好幾種類型。

    值得一提的是,VALL·E訓練用的數據集不算特別大。

    相比OpenAI的Whisper用了68萬小時的音頻訓練,在只用了7000多名演講者、6萬小時訓練的情況下,VALL·E就在語音合成相似度上超過了經過預訓練的語音合成模型YourTTS。

    而且,YourTTS在訓練時,事先已經聽過108個演講者中的97人聲音,但在實際測試中還是比不過VALL·E。

    有網友已經在暢想它可以應用的地方了:

    不僅可以用在模仿自己的聲音上,例如幫助殘障人士和別人完成對話,也可以在自己不想說話時用它代替自己發語音。

    當然,還可以用在有聲書的錄制上。

    不過,VALL·E目前還沒開源,要想試用可能還得再等等。

    ?

    語音合成
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    與欺騙攻擊相對應,語音欺騙檢測是一種識別防御技術,國內外相關人員進行了最新的研究。目前,指紋、人臉和聲紋等常見的生物特征已經被大量應用。2017年在瑞典斯德哥爾摩舉行的 2017 挑戰賽 則重點關注語音回放欺騙攻擊。這次的挑戰賽吸引了 53 個注冊團隊,收到了 23 個提交結果。由于輸入 ASV 系統的語音的欺騙方法未知,傳統的語音欺騙檢測系統無法同時檢測 LA 和 PA 兩種攻擊。
    語音合成趨于成熟,但之前零樣本語音合成效果并不好。相比傳統模型采用梅爾頻譜提取特征,VALL·E直接將語音合成當成了語言模型的任務,前者是連續的,后者是離散化的。除此之外,VALL·E還能模仿說話者的多種情緒,包括憤怒、困倦、中立、愉悅和惡心等好幾種類型。不過,VALL·E目前還沒開源,要想試用可能還得再等等。
    實驗室建設以來,不斷深耕人工智能技術、支撐和服務能力,有效推動人工智能技術水平的進步和應用水平的提升。
    2020年8月,美國會研究服務處發布《深度偽造與國家安全》和《人工智能與國家安全》兩大報告,明確指出深度偽造已成為對手信息戰的一部分,對手可利用深度造假技術對抗美國及其盟國,生成虛假新聞報告,影響公開披露的信息,瓦解公眾信任等。尤其是2020年美國大選將至,美各界對深度偽造信息也是嚴陣以待,采取各種措施圍追堵截。深度偽造技術在近幾年迅速興起,為國家間的政治抹黑、網絡攻擊、軍事欺騙、經濟犯罪甚至恐怖
    近年來,人工智能技術對社會的發展產生了深刻的影響和推動作用。
    AI服務層統一管理模型服務,服務上線推理之后由AI服務層統一對外提供服務。AI服務層支持不同模型服務的編排、模型服務的AB測試和模型服務的監控。
    近期,電視劇《狂飆》的爆火,激起了一些UP主的二創激情,將劇中的“CP”角色通過AI換臉移植到其他影視片段中,形成讓網友驚呼“眼前一黑”的戲劇化效果,同時也收獲了滿滿流量。乍一看這只是單純的娛樂行為,但有時諸如”AI換臉“等深度造假技術(Deepfakes)可不只是”逗你笑“這么簡單,背后的安全隱患不容忽視。
    1月28日,據商務部網站消息,我國商務部會同科技部等部門關于《中國禁止出口限制出口技術目錄》修訂公開征求意見的意見反饋正式截止。知情人士也表示,目前并沒有對外公布美、荷、日達成協議的計劃。與此同時,ASML的全球業務也將繼續進行,行業需要穩定性和可靠性,以避免全球半導體行業進一步動蕩。中國大陸是ASML第三大市場,后者顯然不希望失去中國市場。對于美方的做法,中國方面多次表示堅決反對。
    魚叉式網絡釣魚:網絡攻擊者向他們知道擁有所需信息的特定目標發送電子郵件,例如銷售部門或IT部門的員工。捕鯨式網絡釣魚:向首席執行官或首席財務官等企業高管發送電子郵件,這是一項備受矚目的目標詐騙的一部分。由于網絡釣魚攻擊以人員為目標,網絡安全專家一致認為,針對這一點的最佳防御措施是向員工提供安全意識培訓。幫助人們變得更明智、更有感知力、更有彈性和響應能力的解決方案將會獲得對抗網絡釣魚攻擊的勝利。
    Darktrace是全球領先的網絡人工智能(AI)公司,也是自主響應技術的創造者,到目前為止,Darktrace已經建立了很多的關鍵技術和能力,其總部設在美國舊金山和英國劍橋。
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类