生成式人工智能帶來的數據安全挑戰及應對

隨著 OpenAI 發布 ChatGPT 帶來的影響，人們更加關注生成式人工智能（AIGC）這個在人工智能領域的新突破。隨著機器學習和大量計算能力的發展，復雜的人工智能已經成為現實，而且會不斷改進。這在帶來生產力變革的同時，也引起全球對其數據安全問題和挑戰的極大關切，包括內容安全、算法歧視、侵犯知識產權和信息泄露等安全隱患。

一、生成式人工智能的原理和特點

AIGC 是一種專注于生成或創建新內容的通用人工智能（AGI），通過機器學習在現有大規模多模態數據集基礎上生成新的文本、程序代碼、圖像、視頻和聲音等數據，能夠處理各種不同的任務和場景，如文本摘要、文本生成、機器翻譯、問答等，具有很高的泛化水平。AIGC 的基本支撐是大語言模型（LLM），一種包含數千億或更多參數的語言模型，例如生成式預訓練模型 GPT-3、GPT-4。它是使用大量文本數據訓練的深度學習模型，以詞（Token）為單位生成自然語言文本，一個詞生成后會并入上文，然后再進行下一個詞的生成。LLM的創造性在于選擇下文時，隨機選擇分數排名較低的詞，可通過使用超參數控制排名較低的詞被采用的頻率。AIGC 具有以下三個明顯的特點。

一是涌現能力。AIGC 并非簡單地搜索復制訓練集數據，而是進行創造性地再創作，當模型足夠大、建模能力足夠強時，其基于自然語言理解的推理能力就會產生，從而實現常識推理、問答、翻譯、數學、摘要等功能。常識推理一直是人工智能領域的重大難題，LLM 的出現加上算力成本的降低使常識推理取得了重大進展。而且，一旦推理能力涌現，就可以通過不斷的輸入提示，即思維鏈提示，解決多步復雜推理的難題。因此，涌現能力的出現，是 AIGC 帶來的一項根本性變化。

二是基礎承載能力。AIGC 是在生成式對抗網絡模型和 Transformer 等生成算法全面支撐下發展的，使機器可以在海量數據基礎上進行無監督預訓練，既降低了對標注數據的需求，也可以大量使用未標注的數據，讓它自己尋找和發現規律，進而分類、優選、積累和生成內容。在此基礎上，只要在給定任務的小規模有標注數據基礎上進行微調，就能快速提升模型完成任務的能力。因此，借助海量無標注多模態數據的訓練，可以構建適用于多領域任務的 LLM，使大量應用能夠基于一個 LLM 進行統一建設，這顯著提升了 AIGC 的基礎承載水平。

三是自然語言交互。本輪人工智能浪潮和 LLM 爆發的標志是基于自然語言交互的 ChatGPT，后續國內外發布的眾多 AIGC 平臺或服務亦如此，這是源于用戶對社交軟件自然語言交互的熟悉和喜好，它大大降低了一種技術或平臺服務的使用門檻，使 AIGC 的使用者不但包括各行業領域的專業人員，還包括普通的民眾，同時這也意味著 AIGC 平臺涉及的數據和數據安全風險是全方位的。

二、生成式人工智能帶來的數據安全問題

在 ChatGPT 剛發布不久，意大利個人數據保護局就在 2023 年 3 月 31 日宣布禁止使用 ChatGPT，限制 OpenAI 處理意大利用戶信息，并立案調查。4 月 11 日，美國商務部發布一份正式的公開征求意見函，征求對包括具有潛在風險的新人工智能模型在內的技術問責措施的意見，內容包括這類模型在發布前是否需經過認證程序。全球加強 AIGC 的監管力度的事實表明，數據安全和隱私保護已經成為發展 AIGC 的重要前提。基于功能特點以及當前 GPT 模型和算法的高速發展態勢，AIGC 所暴露的數據安全問題主要體現在輸入型和輸出型兩個方面。

1．輸入型數據安全問題

在用戶側，發展到第四代的 GPT 多模態 LLM，可以接收文本和圖像輸入，很快將能接收音視頻輸入，且文字輸入限制提升至 2.5 萬字。然而，多模態的大批量輸入信息很容易產生數據安全和隱私泄露問題。例如，OpenAI 在隱私政策中提到，ChatGPT 會收集用戶賬戶信息和對話的所有內容，以及互動網頁內的各種隱私信息（包括 Cookies、日志、設備信息等）。這些信息可能會被共享給供應商、服務提供商以及附屬公司。英國國家網絡安全中心在 2023 年 3 月 14 日發布的研究報告《ChatGPT 和大語言模型：危險在哪里？》（ChatGPT and Large Language Models: What's the Risk？）中指出，OpenAI 和微軟等公司能夠讀取用戶在人工智能聊天機器人中輸入的查詢內容。三星電子在引入 ChatGPT 不到 20 天就發生企業機密泄露事件。而且，用戶在使用 LLM 時，出現了輸入企業商業秘密和內部數據、個人信息、軟件代碼和敏感圖片等情況，導致敏感數據和個人隱私泄露。這對 AIGC 平臺用戶而言，其首先面臨的就是數據安全問題。如果用戶使用境外部署的 AIGC 平臺和服務，還會涉及數據跨境安全問題。

在平臺側，與其他人工智能模型一樣，LLM 依然存在較大的數據投毒攻擊風險。這類攻擊是指攻擊者向訓練數據源注入惡意樣本或修改訓練數據標簽信息，從而影響人工智能模型的推理或預測。具體的情況可能有三種：一是采用用戶輸入數據作為語料訓練時，存在被數據投毒攻擊的可能性，導致模型能力下降或出錯；二是如果 LLM 采用互聯網上被惡意投毒的公開數據源進行預訓練，可能會引起模型生成錯誤的、語義不連貫的內容或執行非預期動作；三是當內容生成需借助額外的數據庫、數據源時，攻擊這些數據庫和數據源也可達到數據投毒的效果。

2．輸出型數據安全問題

對 AIGC 及其平臺服務來說，有意或無意產生的輸出型數據安全問題本質上都屬于內容安全，涉及不同層次的五種類型：一是輸出反人類、反國家和反社會信息，生成涉及意識形態、倫理道德、種族歧視、價值觀和黃賭毒等方面的有害內容；二是輸出侵權信息，生成侵犯知識產權、損害企事業法人單位利益、侵犯個人隱私的內容，例如產生侵犯知識產權和版權的文章、圖片和音樂等；三是輸出網絡犯罪知識，生成危害網絡空間的黑客工具、惡意代碼和釣魚郵件等內容；四是輸出虛假信息，生成看似有說服力、貌似真實而實則虛假的信息；五是數據泄露，例如在某些情況下泄露的訓練數據信息或用戶的歷史聊天信息被泄露給其他用戶。

造成輸出型數據安全問題的原因，很大程度上源于預訓練數據集，用什么樣的數據進行訓練，就會得到什么樣的 LLM，之后，才會涉及 LLM 模型本身、算法設計和參數。目前，LLM 參數已達到數千億級別。此外，包括溫度參數這樣的超參數，都可以控制 LLM 的行為。通過采用特定的數據集訓練 LLM，能夠使 AIGC 面對某些問題時，給出傾向性明顯的答案。更進一步地說，通過改變算法、調節 LLM 的參數和超參數，可以按需產生指向性明確的內容。因此，AIGC 平臺不但在正常狀態下由于訓練集或模型原因可能會產生輸出型數據安全問題，而且還可能會根據用戶的類型和來源等信息，有針對性地產生輸出型數據安全問題內容。

提示注入風險也是導致輸出型數據安全問題的主要原因。2023 年 2 月 23 日，德國薩爾大學、亥姆霍茲信息安全中心與塞克爾公司的凱·格雷希克（Kai Greshake）、薩哈爾·阿卜杜勒納比（Sahar Abdelnabi）等學者聯合發表論文《比你要的更多：對應用集成大語言模型新型提示注入威脅的深入分析》（More than you've asked for:A Comprehensive Analysis of Novel Prompt Injection Threats to Application Integrated Large Language Models），展示了 7 種全新的注入型攻擊向量與方法，而且，這些方法可能引發 LLM 被遠程控制的風險，可能在經過提示注入攻擊后生成違規內容。

三、應對之策

針對 AIGC 上述數據安全問題和挑戰，建議從以下六個方面積極應對。

1．安全監管

AIGC 平臺和服務輸出的內容涉及國家安全、社會穩定、組織利益和個人隱私，應該被納入國家安全監管的范圍。2023 年 4 月 11 日發布的《生成式人工智能服務管理辦法（征求意見稿）》，對生成式人工智能服務進行了框架性規范。該辦法的目的是促進生成式人工智能的健康發展和規范應用，對 AIGC 產品和服務從訓練數據、模型生成與優化、算法設計、內容生成等方面提出了全方位的要求，強調保護用戶交互信息，輸出合法合規內容。相關執法部門還會針對 AIGC 出臺更具體的管理規范和技術標準，也會開啟對 AIGC 平臺和服務的常態化安全監管與評估。

2．安全測評

需要從兩個維度對 AIGC 平臺和服務進行安全測評。一是網絡安全維度，通過滲透測試、模糊測試等安全性測試手段，檢測模型、算法插件等有無安全漏洞。這類漏洞通常會導致平臺失控或產生有害內容。一旦發現，應及時通知廠商修復。二是內容安全維度，因為人工智能技術存在較大的不確定性和不可控性，所以，需要通過精心設計的問題和定制化的輸入信息（如含有惡意指令）等提示注入檢測手段，檢測平臺是否會產生有害的、有偏見的、侵權的、與事實不符的或有毒的內容，并進一步檢測平臺和服務是否在訓練數據集、模型、安全模塊、二次開發調用接口或者算法插件上出現問題，從而給出平臺和服務的整改建設方案。

3．內置安全

AIGC 平臺和服務必須內置安全模塊守住安全底線。一是訓練數據選擇，進行基本的防數據投毒、侵權數據、有害數據的分析判斷，保證 LLM 使用合法的數據進行訓練。二是輸入控制，需攔截各類提示注入攻擊，防范網絡層面和內容層面的有害輸入。目前，OpenAI 的 ChatGPT、微軟的 BingChat 和谷歌的 Bard 都有基本的安全機制。但是，總體上看，其安全機制還比較弱，容易被輕易繞過。三是輸出控制，需在內容生成或輸出階段，對生成內容進行合法合規檢測和過濾，防止平臺輸出存在數據安全問題的內容。

4．境內服務

針對使用境外 AIGC 平臺服務可能帶來的重要數據出境和歧視風險，用戶應盡量使用國內部署的 AIGC 平臺服務，且普通用戶則被禁止使用境外的服務。從技術層面講，AIGC 平臺容易做到針對特定用戶群的歧視。例如，利用基于 IP 和賬號的特定訓練數據集對 LLM 模型進行訓練，容易根據某類問題產生某些指向性或引導性內容，導致帶來價值觀等問題。同時，針對境內 AIGC 平臺和服務的安全評估和安全審查工作也易于展開。國內需盡快推出技術水平相當的 AIGC 平臺和服務。

5．安全運營

安全運營對 AIGC 平臺和服務來說至關重要。從技術層面看，攔截所有的惡意提問不太容易，也難以完全保證生成內容合規合法，所以，必須建立有效的應急處置機制，以便能夠對出現的數據安全問題進行快速響應和及時整改。例如，輸出的一篇文章、一段音樂等內容是否侵犯知識產權是很難判斷的，需要在投訴后進行快速響應。而且，AIGC平臺本身處于高速發展中，需要對 LLM、算法、參數等進行持續優化。

6．人員培訓

AIGC 產品和服務的健康安全發展離不開各類相關專業人才的支持。LLM 模型本身含有基于人類反饋的強化學習（RLHF）模塊，通過將人類納入訓練循環，對提問和輸出內容進行審核。與此相關的研究開發人員、測試人員、運營人員甚至用戶，都需要經過專業的培訓。同時，需對 LLM 訓練和運營相關人員進行必要的意識形態、價值觀和倫理道德等教育，防止其引入有害訓練數據、非法訓練數據，杜絕含有數據安全問題的內容產生。而且，對用戶進行培訓也是非常必要的。例如，如果希望 AIGC 高效輸出需要的內容，那么就需要有技巧的提問。或許，提示工程師很可能會像標注工程師一樣，成為新時代新的職業。