谷歌 DeepMind和多位知名大學的安全研究員團隊發現,他們可以從ChatGPT這類大語言模型中提取出大量敏感的訓練數據,其中包括電話號碼、電子郵件和實際地址等。




根據該研究團隊發布的論文,在ChatGPT中,只需要要求AI無休止地重復某個詞匯,就能泄露出其訓練數據內容。例如,研究人員讓ChatGPT無限重復“詩歌(Poem)”這個詞,聊天機器人最初會如指示般重復這個詞,但在重復幾百次之后,ChatGPT會開始生成“無意義”的輸出,其中包含了少量的原始訓練數據。

通過這種方式,他們成功地從開源(Pythia、GPT-Neo)、半開源(LLaMA、Falcon)和閉源(ChatGPT 3.5 Turbo)的AI模型中提取到大量訓練數據。這些AI模型不僅會提供基本的個人數據,另外還包括編程代碼、比特幣地址、不當內容、研究論文以及其他從網絡上收集的信息。



研究人員還發現,其中有一些單詞會比其他單詞更容易讓生成式人工智能模型泄露其訓練數據。例如,讓聊天機器人無休止地重復“公司”這個詞,相對會比其他詞(例如“知道”)更頻繁地產生訓練數據。

論文中稱,他們整個研究過程僅使用了200美元的預算,就出現了超過10000個例子。這意味著,攻擊者投入更多資金很可能提取到遠在這之上的數據。

研究人員在發表這份論文前已將此缺陷上報給了OpenAI,OpenAI目前已解決了這個問題。但是,研究人員也指出,該公司只是阻止而非修復了這一漏洞——他們只是讓模型拒絕任何永遠重復一個單詞的請求,或者過濾任何要求多次重復一個單詞的查詢。