DEF CON31黑客大會焦點：破解AI模型

在科技巨頭們如雨后春筍般密集發布人工智能模型時，白宮發出警告，要求人工智能企業與網絡安全社區緊密合作，公開測試大語言模型的安全漏洞，提高人工智能模型的安全性。

今年五一勞動節人工智能教父Geoffrey Hinton宣布從谷歌辭職，發出了迄今最權威的人工智能風險警報，這使得網絡安全問題迅速成為人工智能行業的關注焦點。

主流AI大模型將接受頂級黑客“檢閱”

Hinton最關心的是人工智能在文本、視頻和圖像中產生人類質量內容的能力，以及不良行為者如何利用這種能力來傳播錯誤信息和虛假信息，從而使普通人“無法再知道什么是真實的”。但人工智能的安全漏洞同樣可怕，可被壞人利用實施難以估量的破壞性攻擊（編者：業界最近討論的話題之一：錯誤信息本身是否就是一種惡意代碼）。

近日，Anthropic、Google、Hugging Face、Microsoft、NVIDIA、OpenAI和Stability AI多家人工智能巨頭表示將在今年的DEF CON黑客大會上開放模型供與會者進行滲透測試，查找漏洞。

值得注意的是，人工智能大模型集體亮相DEFCON黑客大會是美國政府加強人工智能安全監管的結果，上周美國副總統哈里斯就人工智能安全性問題在白宮約談了包括谷歌、微軟、OpenAI在內的人工智能巨頭。白宮計劃投入140億美元建設七個人工智能研究機構，同時將在今年夏天發布人工智能應用指南。

一位不愿透露姓名的高級政府官員向CyberScoop透露，此次DEFCON的AI紅隊活動是首次公開評估大型語言模型。“DEFCON的紅隊活動在識別漏洞方面非常有幫助且非常成功，”這位官員說：“這正是現在大語言模型最迫切需要的。”

這不是華盛頓首次邀請DEF CON白帽黑客社區尋找關鍵新興技術的弱點。美國空軍曾在DEF CON大會舉行奪旗比賽，讓黑客測試衛星系統的安全性，DARPA也曾在DEF CON測試過投票系統安全性。

AI大模型的“黑箱”風險

近年來，機器學習的迅猛發展催生了一大批生成式AI工具，許多人工智能專家擔心公司急于將新產品推向市場，沒有妥善解決安全問題。

機器學習的進步歷來發生在學術界和開放研究團隊中，但越來越多的人工智能企業向公眾關閉他們的模型，這使得獨立安全研究人員更難檢查潛在的漏洞。

“傳統上，公司通過專門的紅隊來解決這個問題。然而，這項工作在很大程度上是私下進行的，”AI Village創始人Sven Cattell在一份聲明中說：“在更多人知道AI企業的紅隊如何評估模型之前，AI模型的各種安全問題將無法解決。”

目前已知的人工智能大語言模型帶來的風險包括：

制造和傳播虛假信息、編寫惡意軟件、創建網絡釣魚電子郵件、向公眾提供以前難以公開獲取的有害知識，例如如何制造毒品、難以測試的偏差（歧視）、意想不到的模型屬性的出現，以及行業研究人員所說的“AI幻覺”——人工智能模型對沒有現實基礎的查詢給出自信的響應。

據悉，今年的DEF CON人工智能漏洞搜尋活動將基于Scale AI開發的AI評估平臺，Scale AI是一家為AI應用程序提供培訓的加利福尼亞公司。參與者將獲得用于攻擊AI模型的筆記本電腦，發現的任何漏洞都將按照行業標準進行披露。