大模型時代公共數據分類分級治理

以大語言模型為代表的新型人工智能技術取得重要突破，為經濟社會發展帶來機遇的同時，也產生了數據安全和隱私、侵害個人信息權益等問題。近日，國家網信辦等七部委印發了《生成式人工智能服務管理暫行辦法》，首次提出對生成式人工智能服務實行包容審慎和分類分級監管，明確了訓練數據處理活動和數據標注等要求，規定了生成式人工智能服務規范。該辦法亦提出推動公共數據分類分級有序開放，擴展高質量的公共訓練數據資源。進入大模型時代，公共數據安全將面臨極大的風險和挑戰，生成式人工智能發展既要加強高質量公共數據有效供給，也要加強對公共數據的安全保護，推動公共數據分類分級和合規使用，防范人工智能服務風險。

大模型時代的數據安全風險新變化

近年來，我國陸續出臺了一系列法律法規，包括《網絡安全法》《數據安全法》《個人信息保護法》，明確堅持數據分類分級的安全保護制度，保護個人信息，堅持保障數據安全與促進數據安全開放并重利用。應該看到，生成式人工智能訓練過程中涉及多源數據融合應用。研究表明，公共數據資源占全社會數據資源總量的80%左右，公共數據安全和隱私將是大模型使用和研發過程中一個極為重要的問題。大模型時代的數據安全風險正在面臨新的變化。

第一，從文本數據到多模態數據，數據分類分級難度增大。盡管OpenAI并未公開GPT-4語言模型數據量，但從公開數據來看，GPT-3語言模型由1750億個參數訓練而成，由此迭代而來的GPT-4語言模型顯然需要更龐大的數據量作為支撐。大模型加速多模態發展，數據類型從文本拓展到圖片、音頻、視頻。高質量、大規模、多樣性的數據需求對數據分類分級的效率、成本提出了挑戰。

第二，從靜態保護到數據全生命周期，數據安全環境日益復雜。傳統數據安全以靜態保護數據實體為主，大模型需要依賴海量數據進行訓練和學習，數據由靜止轉向流動，數據安全場景發生了變化。數據安全不僅要保護數據實體，還要以數據分類分級為基礎，對生成式人工智能從訓練到投入使用的全生命周期的個人信息處理和數據保護作出規范。比如，數據收集階段通過網絡爬蟲抓取、直接向個人信息主體收集、進行數據交易等方式均涉及大量的合規風險點，數據預處理階段對所收集數據進行清洗、標準化、標注與特征提取等步驟可能涉及演繹侵權。

第三，從單一主體到多元主體，數據安全管控形勢嚴峻。生成式人工智能的模型開發涉及多個步驟，包括數據采集、數據標注、數據清洗、模型訓練、模型優化等。鑒于模型開發涉及大量的數據處理活動，其中各環節通常不會由同一主體執行，而是由行業內不同主體分工協作、共同完成。比如，企業通常以外包的方式將數據標注任務通過其自有的平臺分包給從業的公司或個人，因此管理難度增大，對履行合規義務提出了更大的挑戰。過長的模型開發鏈路以及多主體間的數據處理導致數據安全風險責任不清，追蹤溯源更加困難。

推動公共數據分類分級治理的路徑選擇

公共數據分類分級治理是一項復雜的系統工程，必須完整、準確、全面貫徹黨中央決策部署，梳理數據在采集、預訓練、結果輸出等全生命周期過程中面臨的安全風險，以分類分級為關鍵抓手，建構大模型時代的公共數據分類分級治理體系。

第一，在制度上兼顧數據安全和發展。數據分類分級是大模型時代數據安全保護和數據要素市場化的前提，只有做好分類分級才能對數據安全管理采用更加精細化的措施。國家層面需盡快建立數據分類分級保護制度框架，制定清晰、具體、可操作的大模型訓練數據需求清單及負面清單，對不同類型和不同風險等級的數據采取差異化的管理措施。適時擴大數據分類分級的法律適用范圍，不能囿于安全保護視域，既要強調數據監管和規則，同時也要強調數據開發利用。加快推動公共數據授權運營，規范公共數據授權、加工、經營、安全監管等數據活動，推動公共數據資源有序合規進入一級市場。

第二，在管理上建立多方聯動機制。建立政府部門、行業組織、開發者等不同主體參與的聯動機制，及時反饋、共同治理生成式人工智能數據安全面臨的新風險、新進展、新挑戰，實現大模型數據安全與發展的多元共治。政府要發揮主導作用，對參與公共數據治理的數據運營商、研究支撐機構、數據交易機構等主體實施分類分級監管，落實網絡安全、數據安全、個人信息保護等相關要求。行業組織可依法制定本行業數據分類分級標準，結合行業具體應用場景、數據屬性和重要程度，制定和推廣數據安全規范和團體標準。同時，鼓勵生成式人工智能產業鏈條上的各類管理、開發、研究人員合法合規地發掘數據資產，開放數據資源、參與數據交易。

第三，在技術上創新智能分類分級方法。建設公共訓練數據資源平臺，聚焦金融、醫療、交通、空間等建設公共數據專區，提供安全、可信的數據清洗、加工環境，打造高質量的人工智能訓練數據集和中文語料數據。利用自然語言處理、卷積神經網絡等技術對公共數據進行智能識別，對數據編目識別模型進行快速分級，用實例數據識別模型對分級模型進行深度識別，動態掃描數據資產，從而實現智能化自動化公共數據分類分級。根據分詞結果、詞性屬性以及不同的數據責任主體，探索利用多方安全計算、區塊鏈等新技術構建與之匹配的公共數據集開放共享機制，在確保數據安全可控的前提下，實現公共數據可信流通。