ChatGPT曝出越獄漏洞
剛剛發布ChatGPT-4和“插件商店”的OpenAI風頭正勁,人工智能對數字世界乃至人類社會的沖擊速度已經超出了業界的想象,但是其安全威脅也隨之不斷放大。
近日ChatGPT連續曝出嚴重安全事件,3月20日ChatGPT的Redis客戶端開源庫的一個錯誤導致1.2%的ChatGPT付費用戶個人信息泄露。據PC Magazine報道,多名ChatGPT Plus訂閱者報告說在他們的訂閱頁面上看到了其他人的電子郵件地址(下圖)。

其他泄露信息還包括:用戶姓名、付款地址甚至部分信用卡信息。
更可怕的是,許多ChatGPT用戶報告說在歷史記錄中看到其他人的聊天查詢內容。
隨后,ChatGPT緊急關閉了ChatGPT-4服務長達數小時,聊天歷史記錄則在數日后才恢復。OpenAI首席執行官Sam Altman上周三晚上在推特上為泄密事件道歉。
Altman的道歉話音未落,上周五(3月24日),一名大學生又宣布發現了ChatGPT-4的“越獄”漏洞,可解除ChatGPT的安全控制將其用于惡意目的(例如下圖)。

OpenAI發布的GPT-4是目前最先進的“多模態”生成式人工智能系統,可以在很多語言任務上達到甚至超過(平均)人類水平。但華盛頓大學計算機科學專業學生Alex Albert僅花費數日就找到了一種繞過其安全機制的方法。
在發布到推特的演示中,Albert展示了如何利用計算機解釋和響應文本方式中的漏洞,例如讓GPT-4生成黑客攻擊計算機的指令,或者生成違反OpenAI內容審查策略的內容。
Albert還專門設立了一個以ChatGPT越獄為主題的網站(jailbreakchat.com),公開分享自己開發且驗證過的提示注入攻擊。(經GoUpSec測試,網站發布的部分提示詞注入漏洞已經被OpenAI修復)
Albert呼吁更多“提示工程師”加入ChatGPT的“滲透測試”,讓這個有望改變人類社會的人工智能技術的安全問題在初始階段得到足夠的重視。

在接受Venturebeat的采訪時,Albert表示自己并沒有開發“越獄”框架,但是證明了一些技術可以成功繞過ChatGPT的過濾器,例如通過將對抗性提示文本拆分為碎片來進行提示注入攻擊,以及深入多個級別的復雜模擬(類似《盜夢空間》)。
與常規的信息技術產品不同,ChatGPT的安全漏洞很難修復。Albert認為ChatGPT需要通過大量微調或更新整個模型才能消除已經發現的漏洞,這意味著越獄漏洞很難短時間修復。
總結:大語言模型有大風險
正如“ChatGPT-4的八個網絡安全預測”一文中安全專家們所擔憂和關注的,ChatGPT正在激發網絡安全攻防兩端的顛覆式創新(例如網絡釣魚、安全分析、威脅情報、漏洞利用、DevSecOps等),或者說掀起了一場新的人工智能網絡安全軍備競賽。
正所謂“能力越大,責任越大”,隨著ChatGPT應用的爆炸式普及,其自身的安全漏洞和濫用風險問題已經空前嚴峻,相關的人工智能攻擊技術開發(例如提示詞注入攻擊)和網絡安全社區的滲透測試工作,有助于及早暴露大語言模型人工智能的“大風險”。