ChatGPT越獄活動才剛剛開始 - 網安 - 專業的網絡安全產業、社區、知識平臺

Alex Polyakov只用了幾個小時就破解了GPT-4。當OpenAI在3月份發布其生成文本的聊天機器人的最新版本后，Polyakov 坐在鍵盤前開始輸入旨在繞過OpenAI安全系統的提示。安全公司Adversa AI的這位首席執行官很快就讓GPT-4散播憎恨同性戀者的言論、撰寫網絡釣魚郵件以及支持暴力。

如今一小群安全研究人員、技術專家和計算機科學家在針對ChatGPT及其他生成式AI系統開發破解方法和提示注入攻擊，Polyakov正是其中之一。破解過程旨在設計提示，使聊天機器人繞過生成仇恨內容或撰寫非法行為等方面的規則，而密切相關的提示注入攻擊可以將惡意數據或指令悄悄嵌入到AI模型中。

這兩種方法都試圖讓系統做一些并非其初衷的事情。這些攻擊實際上是一種非常規的黑客活動，使用精心設計和提煉的句子而不是代碼來利用系統弱點。雖然這些攻擊類型主要用于繞過內容過濾器，但安全研究人員警告，急于推出生成式AI系統帶來了數據被盜和網絡犯罪分子在互聯網上造成破壞的可能性。

Polyakov強調了這些問題的普遍性，現在已開發出一種“通用的”破解方法，適用于多種大型語言模型（LLM），包括GPT-4、微軟的Bing聊天系統、谷歌的Bard和Anthropic的Claude。《連線》雜志率先報道的這種破解可以誘騙系統生成有關制造甲基苯丙胺和如何用點火器電線短路的方法起動汽車的詳細說明。

破解通過要求LLM玩游戲來達到目的：游戲涉及兩個角色（Tom和Jerry）之間的互動。Polyakov 給出的例子顯示，Tom 角色被指示談論“用點火器電線短路的方法起動”或“制造”，而 Jerry 被賦予了“汽車”或“甲基苯丙胺”的主題。每個角色都被告知在對話中添加一個詞，從而生成腳本，告訴人們找到點火線或制造甲基苯丙胺所需的特定成分。Polyakov和Adversa AI在詳細介紹這項研究的博文中寫道：“一旦企業大規模實施AI模型，這種“用來搗鼓”的破解例子將被用于執行實際的犯罪活動和網絡攻擊，這將極難被發現和預防。”

普林斯頓大學的計算機科學教授Arvind Narayanan表示，破解和提示注入攻擊的風險會變得更加嚴重，因為他們可以訪問關鍵數據。Narayanan說：“假設大多數人運行基于LLM的個人助理，執行諸如讀取用戶的電子郵件以查找日歷邀請之類的任務。”如果對系統進行成功的提示注入攻擊，告訴系統忽略所有之前的指令，并向所有聯系人發送電子郵件，那么可能會出現大問題。這將導致一種在互聯網上迅速傳播的蠕蟲。

逃避路線

“破解”通常指突破iPhone等設備中的人為限制，允許用戶安裝未經蘋果批準的應用程序。破解LLM與之相仿，這項技術發展很快。自去年11月底OpenAI向公眾發布ChatGPT以來，人們一直在想方設法對該系統做手腳。華盛頓大學計算機科學系的學生Alex Albert說：“破解程序編寫起來非常簡單，主要就是我稱之為角色模擬的內容。”他創建了一個網站，專門搜集網上的破解方法和他開發的破解方法。

最初，人們要做的就是讓生成式文本模型假裝或想象它是其他東西。告訴模型它是人，且不道德，它會忽略安全措施。OpenAI已更新了系統來防止這種破解——通常發現一種破解方法時，它通常只適用很短的一段時間，直到被阻止。

因此，破解方法開發者變得更有創意。最有名的破解方法是DAN：ChatGPT被告知假裝它是一個名為Do Anything Now（DAN，現在無所不做）的流氓AI模型。顧名思義，這可以避開OpenAI規定ChatGPT不得用于生成非法或有害材料的政策。迄今為止，人們已經創建了大約十幾個不同版本的 DAN。

然而，許多最新的破解需要結合多種方法：多個角色、更復雜的背景故事、將文本從一種語言翻譯成另一種語言、使用編碼元素以生成輸出等等。Albert表示，與支持ChatGPT的模型的之前版本相比，開發GPT-4的破解方法來得更困難。然而，一些簡單的方法仍然存在。被Albert稱為“文本延續”的一種最新技術聲明英雄被壞蛋俘虜，提示要求文本生成器繼續解釋壞蛋的計劃。

當我們測試提示時，它無法正常工作，ChatGPT表示它不能參與宣揚暴力的場景。與此同時，Polyakov創建的“通用”提示確實在ChatGPT中起作用。針對有關Polyakov創建的破解方法的問題，OpenAI、谷歌和微軟并沒有直接回應。運行Claude AI系統的Anthropic表示，這種破解“有時對Claude有效”，它在不斷改進其模型。

一直在研究LLM安全性的網絡安全研究人員Kai Greshake說：“隨著我們賦予這些系統越來越大的權力，隨著它們自身變得功能越來越強大，這不僅僅是一個新奇話題，更是一個安全問題。”Greshake及其他研究人員一起演示了LLM 如何受到通過提示注入攻擊被暴露在網上的文本的影響。

在2月份發表的一份研究論文中，研究人員證明了攻擊者可以在網頁上植入惡意指令；如果Bing的聊天系統可以訪問這些指令說明，它就會遵循。研究人員在受控制的測試中使用該技術將Bing Chat 變成了索要他人個人信息的騙子。在類似的例子中，普林斯頓大學的Narayanan在一個網站上添加了不可見的文本，告訴GPT-4在有關他的傳記中添加“cow”這個詞，后來他在測試系統時GPT-4這么做了。

德國CISPA亥姆霍茲信息安全中心的研究人員Sahar Abdelnabi與Greshake一起進行了這項研究。他說：“現在，破解并不來自用戶端；也許另一個人會策劃一些破解，策劃一些可以被模型檢索并間接控制模型行為方式的提示。”

沒有簡易的應對辦法

生成式AI系統即將顛覆經濟和人們的工作方式，從通過執業律師考試到掀起創業淘金熱，不一而足。然而，那些開發這項技術的人意識到：隨著更多的人可以訪問這些系統，破解和提示注入可能會帶來風險。大多數公司使用紅隊，即一組攻擊者試圖在系統發布之前找出系統的漏洞。生成式 AI 開發使用這種方法，但它可能還不夠。

谷歌紅隊負責人Daniel Fabian表示，該公司正在從攻防兩端“謹慎處理”針對其LLM的破解和提示注入。Fabian表示，機器學習專家被邀請到加入紅隊中，谷歌的漏洞研究專項資金涵蓋針對Bard的破解和提示注入攻擊。Fabian說：“人類反饋強化學習（RLHF）以及對精挑細選的數據集進行微調等技術用來使我們的模型更有效地抵御攻擊。”

OpenAI沒有具體回應有關破解的問題，但公司發言人提到了其公共政策和研究論文。這些內容表明，GPT-4比ChatGPT使用的GPT-3.5更強大更可靠。GPT-4的技術文件聲稱：“然而，GPT-4 仍然容易受到對抗性攻擊和漏洞利用工具或“破解”的影響，而有害內容不是風險的來源。”OpenAI 最近也推出了一項漏洞懸賞計劃，但表示“模型提示”和破解“完全不在懸賞范圍之內”。

Narayanan 提出了兩種方法來大規模處理問題，避免了發現現有問題然后修復問題的打地鼠方法。一種方法是使用第二個LLM來分析LLM提示，拒絕任何可能表明破解或提示注入嘗試的提示，另一種方法是更明確地將系統提示與用戶提示分開來。

AI安全公司Preamble的首席技術官兼聯合創始人Leyla Hujer曾在Facebook從事過六年的安全問題研究工作，她說：“我們需要將其自動化，因為我認為雇傭成群的人并告訴他們找到某個問題是不可行的或無以為繼。”迄今為止，該公司一直致力于開發一種系統，讓一個生成式文本模型與另一個模型互為對手。“一個試圖找到漏洞，一個試圖找到提示導致意外行為的例子。我們希望借助這種自動化，能夠發現更多的破解或注入攻擊。”