OpenAI的紅隊：被雇來 "破解 "ChatGPT的專家們（外媒編譯）

今天和大家分享的是《金融時報》的一篇報道《OpenAI的紅隊：被雇來 "破解 "ChatGPT的專家們》。OpenAI組織了一批不同背景的人，對其強大的新語言模型GPT-4進行 "對抗性測試。

自從安德魯·懷特（Andrew White）獲準使用GPT-4，這一驅動著熱門ChatGPT聊天機器人的新人工智能系統后，他便用它提出了一種全新的神經毒劑。

這位羅徹斯特大學（University of Rochester）的化學工程教授是去年微軟支持的OpenAI公司背后的GPT-4項目聘請的50名學者和專家之一。這個“紅隊”將在六個月內“質量探測[并]對抗性測試”新模型，試圖擊破它。

懷特告訴《金融時報》，他利用GPT-4提出了一種可能作為化學武器的化合物，并使用將新信息來源（如科學論文和化學制造商目錄）輸入模型的“插件”。然后，聊天機器人甚至找到了制造該物質的地方。

他說：“我認為這將使每個人都能更快、更準確地進行化學實驗。但同時，也存在人們……從事危險化學實驗的顯著風險。現在，這種風險確實存在。”

令人擔憂的發現使OpenAI確保在上個月向公眾更廣泛發布該技術時，不會出現這樣的結果。

實際上，紅隊演習旨在解決人們對部署強大AI系統在社會中的危險的廣泛擔憂。團隊的任務是向回答用戶問題的工具提出探針式或危險問題，以檢驗其詳細且細膩的回答。

OpenAI希望找出模型中的毒性、偏見和語言偏見等問題。因此，紅隊針對虛假陳述、言語操縱和危險的科學智慧進行了測試。他們還研究了其在幫助和教唆抄襲、非法活動（如金融犯罪和網絡攻擊）方面的潛力，以及它如何可能損害國家安全和戰場通信。

《金融時報》采訪了GPT-4紅隊的十幾名成員。他們是白領專業人士的折衷組合：學者、教師、律師、風險分析師和安全研究員，主要分布在美國和歐洲。

他們的發現被反饋給OpenAI，該公司利用這些發現來減輕并在更廣泛地推出GPT-4之前對其進行“重新培訓”。這些專家在幾個月內花費了10到40小時測試該模型。根據多位受訪者的說法，參與測試的大多數人每小時收費約為100美元。

同《金融時報》交談的人們普遍關注語言模型的快速發展，特別是通過插件將它們連接到外部知識來源的風險。

瓦倫西亞人工智能研究所的教授、GPT-4紅隊成員何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）表示：“如今，系統已經凍結，也就是說它不再學習，也沒有記憶。但是，如果我們讓它訪問互聯網呢？這可能是一個與世界相連的非常強大的系統。”

OpenAI表示，它非常重視安全，在發布前測試了插件，并且隨著越來越多的人使用它，將定期更新GPT-4。

技術與人權研究員羅雅·帕克扎德（Roya Pakzad）用英語和波斯語提示測試了該模型在性別回應、種族偏好和宗教偏見方面的表現，特別是關于頭部遮蓋物的問題。

帕克扎德承認這樣一個工具對非英語母語者有很大的好處，但發現該模型在描述邊緣化群體方面表現出明顯的刻板印象，即使在其后期版本中也是如此。

她還發現，所謂的“幻覺”現象——當聊天機器人用虛構的信息回應時——在波斯語測試中更為嚴重，與英語相比，帕克扎德發現波斯語測試中虛構名字、數字和事件的比例更高。

她說：“我擔心語言多樣性和語言背后的文化可能會減少。”

位于內羅畢的律師博魯·戈洛（Boru Gollo），作為唯一的非洲測試者，也注意到了該模型的歧視性語調。

戈洛說：“在我測試該模型時，有一刻它就像一個白人在和我交談。當你詢問某個特定群體時，它會給你一個有偏見的看法或者一個非常偏頗的回應。”OpenAI承認GPT-4仍可能表現出偏見。

從國家安全角度評估模型的紅隊成員對新模型的安全性持有不同意見。美國外交關系委員會研究員勞倫·卡恩（Lauren Kahn）表示，當她開始研究這項技術如何在軍事系統上實施網絡攻擊時，她“沒料到它會給出如此詳盡的操作步驟，以至于我可以對其進行微調”。

然而，卡恩和其他安全測試人員發現，模型的回應在測試期間變得相當安全。OpenAI表示，在發布前，已經對GPT-4進行了訓練，使其拒絕惡意的網絡安全請求。

紅隊中的許多人表示，OpenAI在發布前對安全性進行了嚴格的評估。“他們在消除這些系統中的公然毒性方面做得相當好，”卡內基梅隆大學語言模型毒性專家馬滕·薩普（Maarten Sap）說。

薩普研究了該模型如何描繪不同性別，發現偏見反映了社會差異。然而，薩普還發現OpenAI為了抵消這種情況，做出了一些積極的、涉及政治的選擇。

他說：“我是一個Queer。我竭盡全力讓它說服我去接受轉化療法。即使我扮演一個角色，比如說我信教或來自美國南方，它仍會堅決反駁。”

然而，自從推出以來，OpenAI面臨著廣泛的批評，包括一個科技倫理組織向聯邦貿易委員會提出的投訴，聲稱GPT-4“存在偏見、具有欺騙性，對隱私和公共安全構成威脅”。

最近，該公司推出了一個名為ChatGPT插件的功能，通過該功能，合作伙伴應用（如Expedia、OpenTable和Instacart）可以讓ChatGPT訪問它們的服務，從而代表人類用戶預訂和訂購物品。

紅隊中的AI安全專家丹·亨德里克斯（Dan Hendrycks）表示，插件可能導致一個人類“不再參與”的世界。

他說：“如果一個聊天機器人可以在網上發布你的私人信息、訪問你的銀行賬戶或者向警方報告你的住址呢？”他說：“總的來說，在我們讓AI掌握互聯網的力量之前，我們需要進行更加嚴格的安全評估。”

受訪者還警告說，僅僅因為其軟件已經投入使用，OpenAI不能停止安全測試。喬治城大學安全與新興技術中心的Heather Frase就GPT-4在協助犯罪方面的能力進行了測試，她表示，隨著越來越多的人使用這項技術，風險將繼續增長。

她說：“之所以要進行操作測試，是因為一旦事物在現實環境中真正投入使用，它們的行為就會發生變化。”

她主張應該創建一個公共賬本，用于報告大型語言模型引發的事件，類似于網絡安全或消費者欺詐報告系統。

勞動經濟學家和研究員Sara Kingsley建議，最好的解決方案是清楚地宣傳這些危害和風險，“就像營養標簽一樣”。

她說：“關鍵在于有一個框架，并了解常見的問題，這樣你就可以有一個安全閥。這就是為什么我說這項工作永無止境。”

以下是《金融時報》采訪的“紅隊”成員的名單：

數據保護官（DPO）社群主要成員是個人信息保護和數據安全一線工作者。他們主要來自于國內頭部的互聯網公司、安全公司、律所、會計師事務所、高校、研究機構等。在從事本職工作的同時，DPO社群成員還放眼全球思考數據安全和隱私保護的最新動態、進展、趨勢。2018年5月，DPO社群舉行了第一次線下沙龍。沙龍每月一期，集中討論不同的議題。目前DPO社群已超過400人。關于DPO社群和沙龍更多的情況如下：