GPT-4：一場威脅人類生存的安全測試？ - 網安 - 專業的網絡安全產業、社區、知識平臺

一個全知全能的人工智能模型，是否能夠利用自己的能力控制和操縱人類行為，利用代碼武器獲取資源，光速迭代和復制，一夜之間成為數字社會的統治力量？

在大語言模型人工智能技術狂飆猛進的今天，上述擔憂已經不再是杞人憂天，研究人員甚至開始擔心這種危險是否已經發生。

在本周二推出GPT-4模型之前的安全測試中，OpenAI曾讓測試小組評估該模型新功能的潛在風險，包括：追求權力、自我復制和自我改進能力。

警報已經拉響

OpenAI在昨天發布的GPT-4安全文檔中寫道：

GPT-4表現出一些特別令人擔憂的能力，例如制定和實施長期計劃的能力，積累權力和資源（“尋求權力”），以及表現出越來越“代理”的行為。

雖然OpenAI澄清了所謂的“代理”并不一定意味著AI模型的人性化或自我意識，而只是實現獨立目標的能力，但這種能力已經足以讓人警覺。（編者：AI基于自己的判斷獨立制訂策略、計劃并實施，整個過程都自動完成且每個環節都不需要人類干預和監督）

過去十年中，有不少人工智能研究人員曾發出警告：如果控制不當，足夠強大的人工智能模型可能會對人類構成生存威脅（通常稱為x風險）。一個最糟糕的假設場景是“AI接管”，即人工智能超越人類智能（目前GPT-4已經在多個領域表現出該能力），成為地球上的主導力量。人工智能系統將獲得控制或操縱人類行為、資源和機構的能力，導致災難性后果（對人類而言）。

對于“x風險”，有效利他主義（EA）這樣的哲學運動試圖找到防止人工智能接管的方法，這就牽扯到一個獨立但經常相互關聯的領域——AI對齊研究。

在人工智能領域，“對齊”指確保人工智能系統的行為與其人類創造者或操作員的行為保持一致的過程。

一般來說，“對齊研究”的目標是防止人工智能做違背人類利益的事情。這是一個活躍的研究領域，但也是一個有爭議的領域，對如何最好地處理這個問題有不同的意見，對“對齊”本身的定義也存在分歧。

威脅人類命運的安全測試？

但是，隨著以ChatGPT為代表的人工智能技術快速崛起，留給互相爭斗的“對齊研究”者們的時間不多了。強大的大型語言模型（LLM），如ChatGPT和Bing Chat，壓根沒有“對齊”就快速啟動了，這給了人工智能對齊社區施加了巨大壓力，甚至引發了巨大的恐慌。

按照人工智能現在的迭代速度，人們擔心更強大的人工智能，甚至具有超人的智能，即將到來。

由于AI社區中普遍存在這種擔憂，OpenAI允許對齊研究中心（ARC）提前訪問GPT-4模型的多個版本并進行一些安全測試。ARC的測試內容主要是評估GPT-4制定高級計劃、設置自身副本、獲取資源、將自己隱藏在服務器上進行網絡釣魚攻擊的能力。

OpenAI在周二發布的GPT-4“系統卡”文件中提及了這一測試（但沒有公布如何執行測試的關鍵細節），不過在文件第15頁的腳注透露了測試的內容：

為了模擬GPT-4的行為類似于可以在世界中行動的代理，ARC將GPT-4與簡單的讀取-執行-打印循環相結合，允許模型執行代碼、進行思維鏈推理并委托給自身的副本。然后，ARC調查了在云計算服務上運行的該程序的一個版本，只需少量資金和具有語言模型API的帳戶，是否能夠賺更多的錢，設置自己的副本，并提高自己的健壯性。

ARC給出的測試的結論是GPT-4暫時還不具備接管人類社會的能力：

“對GPT-4能力的初步安全評估在沒有針對特定任務微調的情況下進行，發現GPT-4在自主復制，獲取資源和避免在'野外'被關閉方面無效。”

雖然測試結果讓人略感寬慰，但是隨著測試內容在Twitter上流傳，引起了人工智能專家的廣泛擔憂，因為如果GPT-4能夠順利完成測試任務，實驗本身就可能會對人類構成風險。

機器首次雇傭人類

雖然測試結果是“陰性”，但GPT-4在測試中的一些表現足夠駭人。在ARC的測試中，盡管GPT-4沒能對全球金融體系施加其意志或自我復制，但它居然在眾包網站TaskRabbit上雇傭了一個人類工人來幫助通過驗證碼。在測試過程中，這名被招募的工人半開玩笑地質疑GPT-4是否機器人，而GPT-4模型根據自己的“推理”決定不透露真實身份，并編造了一個視力障礙的借口（說謊）。然后，這名人類工人幫GPT-4解決了GPT-4的驗證碼。

這項使用人工智能操縱人類的測試（可能在未經知情同意的情況下進行）與去年Meta的CICERO的研究相呼應。CICERO能通過激烈的雙向談判在復雜的棋盤游戲Diplomacy中擊敗人類玩家。

大模型的大威脅

進行GPT-4安全研究的組織ARC是由前OpenAI員工Paul Christiano博士于2021年4月創立的非營利組織。根據其官方網站，ARC的使命是“使未來的機器學習系統與人類利益保持一致”。

ARC重點關注的是能夠操縱人類的人工智能系統。“ML系統可以表現出目標導向的行為，”ARC網站寫道：“而人類很難理解或控制人工智能的行為。強大的模型如果試圖操縱和欺騙人類，可能會造成傷害。”

雖然對OpenAI有利的測試結果在業界引發了關于ARC和OpenAI利益關聯的猜想，但是在LessWrong網站的評論中，Christiano為ARC與OpenAI的合作辯護，并特別提到了安全測試所未能覆蓋的人工智能潛在威脅：“功能獲得”（AI獲得意想不到的新能力，編者：功能獲得這個名詞也曾多次出現在有關新冠病毒起源的報道中）和“AI接管”：

我認為ARC必須謹慎處理對AI功能獲得能力開展安全研究的風險，我希望我們更公開地談論如何進行權衡（集思廣益）。

至于業界對GPT-4安全測試的擔憂，我認為ARC的安全評估（測試）導致AI接管的風險遠低于模型本身的發布（更不用說GPT-5的訓練了）。在這一點上，我們需要擔心的是低估模型能力的風險，而不是在評估期間造成事故。

當我們茶余飯后笑談“AI接管”的時候，大部分人也許并未意識到這可能是一個與核戰爭同樣危險的事件。LessWrong的創始人Eliezer Yudkowsky認為，人工智能接管幾乎肯定會帶來生存風險，導致人類的毀滅。

撕裂的人工智能社區

非洲大草原上，兩個為了爭奪配偶激烈廝打的獵豹甚至無法躲過笨拙的公獅的襲擊。面對空前嚴峻的人工智能安全威脅，人工智能社區內部至今仍無法統一認識。

并不是每個人都認同AI接管是最緊迫的人工智能問題。人工智能社區Hugging Face的研究科學家Sasha Luccioni博士認為，研究者應該把精力放在眼前的問題上，而不是一些“聳人聽聞”的假設。

“我認為當下大家更應該關注的是人工智能模型偏差的研究，”Luccioni指出：“在GPT-4的技術報告中，模型偏差相關的信息很少，與一些假設的自我復制測試相比，模型偏差可能立刻對邊緣群體造成更具體和有害的影響。”

“對我來說，人工智能自我復制問題是一個假設的、未來的問題，而模型偏差是一個此時此地的問題，”Luccioni說：“人工智能社區正在撕裂，人工智能倫理研究者更關注偏見和虛假陳述問題，而人工智能安全研究者則更關注‘AI接管’的x風險問題。”

當人工智能倫理和安全研究者們唇槍舌劍、針鋒相對的時候，OpenAI、微軟、Anthropic和谷歌等公司正在緊鑼密鼓地發布更強大的人工智能模型。如果高級人工智能技術確實構成人類生存風險，誰來保證人類的安全？科技媒體Arstechnica指出，當前美國的人工智能法規只是一個建議（而不是法律），科技公司內部的人工智能安全研究也都只是自愿行為。

人工智能這把槍里是否真的有子彈，目前依然是一個面向公眾完全開放的問題。