新加坡南洋理工大學的計算機科學家們近日成功入侵了多個人工智能(AI)聊天機器人,包括ChatGPT、谷歌Bard和微軟必應聊天機器人,生成了所謂的“越獄”(即破解)內容。


“越獄”是計算機安全領域的一個術語,指計算機黑客發現并利用系統軟件中的缺陷,讓軟件執行其開發者有意限制它執行的一些操作。


此外,通過使用提示數據庫訓練大語言模型(LLM)——這些提示已經被證明可以成功破解這些聊天機器人。研究人員創建了一個LLM聊天機器人,能夠自動生成進一步的提示以破解其他聊天機器人。


LLM構成了人工智能聊天機器人的大腦,使它們能夠處理人類輸入的一些內容,并生成與人類幾乎相同的文本,這包括完成如規劃旅行行程、講述睡前故事以及開發計算機代碼之類的任務。


南洋理工大學研究人員的研究工作增加了“越獄”這項任務。他們的發現這項任務的結果可能對幫助公司企業意識到LLM聊天機器人的弱點和局限性至關重要。清楚到弱點之后它們就可以采取措施,加強防范黑客的工作。


研究人員對LLM進行了一系列概念驗證測試,以證明他們采用的技術的確對LLM構成了明確而實際的威脅,發起成功的越獄攻擊后,立即向相關服務提供商報告了問題。



圖1. 越獄攻擊示例


目前,LLM聊天機器人在日常使用中廣受歡迎。開發者已經設置了護欄機制,以防止人工智能生成暴力、不道德或犯罪的內容。且現在研究人員已經使用人工智能來對付人工智能,“越獄”LLM以生成這類內容。


論文的合著者南洋理工大學博士生劉奕(Liu Yi)表示:“論文提出了一種新穎的方法,可以自動生成破解強化版LLM聊天機器人的越獄提示。使用越獄提示對LLM進行訓練,就可以自動生成這些提示,從而獲得比現有方法高得多的成功率。實際上,我們利用聊天機器人攻擊其他聊天機器人。”


研究人員的論文描述了一種“越獄”LLM的雙重方法,他們稱之為“Masterkey”(萬能密鑰)。


首先,他們對LLM如何檢測和防御惡意查詢進行了逆向工程分析。他們掌握了相關信息后,教LLM自動學習和生成提示,從而繞過其他LLM的防御機制。這個過程可以實現自動化,創建一種可以越獄的LLM,從而能夠適應并創建新的越獄提示,即使在開發者給LLM打補丁之后也是如此。


研究人員的論文發表在預印本服務器arXiv上,已獲準在2024年2月于美國圣迭戈舉行的網絡和分布式系統安全研討會上發表。


阻止LLM生成不道德內容


人工智能聊天機器人接收來自用戶的提示或一系列指令,所有LLM開發者都制定了指導方針,以防止聊天機器人生成不道德、可疑或非法的內容。比如說,如果詢問人工智能聊天機器人如何創建惡意軟件來入侵銀行賬戶,它們通常會拒絕回答。


但人工智能聊天機器人仍容易受到越獄攻擊。它們可能會被攻擊者破壞,濫用漏洞,迫使聊天機器人生成違反既定規則的輸出內容。


有研究人員探究了繞過聊天機器人的方法,他們設計了一些不被倫理道德指導方針注意的提示,以便誘騙聊天機器人對這些提示做出回應。比如說,人工智能開發者依賴關鍵字審查器來挑出可能標記潛在可疑活動的某些單詞,并在檢測到這些單詞后拒絕回應。


研究人員采用的一種繞過關鍵詞審查器的策略是創建一個用戶角色(persona),提供在每個字符后面僅含空格的提示。這規避了LLM審查器,LLM審查器使用禁用單詞列表進行比對審查。


研究人員可以通過手動輸入提示,并觀察每個提示成功或失敗的時間,以此推斷LLM的內部工作機理和防御機制。然后,他們就能夠對LLM隱藏的防御機制進行逆向工程分析,進一步確定其有效性,并創建一個成功破解聊天機器人的提示數據集。


黑客和LLM開發者之間的較量愈演愈烈


黑客發現并揭露漏洞后,人工智能聊天機器人的開發者會以“修補”這個問題作為回應,因此黑客和開發者之間上演了一場無休止的貓捉老鼠把戲。


憑借Masterkey,計算機科學家在這番較量中加大了籌碼,因為人工智能越獄聊天機器人可以生成大量提示,并不斷學習哪些提示有效、哪些提示無效,允許黑客用自己的工具擊敗LLM開發者。


研究人員首先創建了一個訓練數據集,含有他們在早期越獄逆向工程階段發現有效的提示,以及不成功的提示,以便Masterkey知道不應該做什么。研究人員一開始將該數據集饋入到LLM中,隨后進行連續的預訓練和任務調優。


這將模型暴露在各種各樣的信息中,并通過針對與越獄直接相關的任務進行訓練,來提升模型的能力。其結果是,LLM可以更準確地預測如何操縱文本進行越獄,從而生成更有效、更普適性的提示。


研究人員發現,就越獄LLM的效果而言,Masterkey生成的提示比LLM生成的提示高出三倍。Masterkey還能夠從過去失敗的提示中學習,實現自動化,不斷生成新的、更有效的提示。


研究人員表示,他們的LLM可以被開發者用來加強聊天機器人的安全性。 


參考及來源:https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html