ChatGPT在數據安全領域的應用前景
一. 引言
ChatGPT[1]是由OpenAI推出的一種基于Transformer的自然語言處理模型,在智能問答、對話生成、文章摘要等任務上都取得了較好的成績,具有較強的泛化能力,能夠針對不同的場景進行自適應調整,因此有著較為廣泛的應用前景。ChatGPT模型通過大規模的數據訓練,利用深度學習技術學習語言模式和語義關系,從而實現高效的自然語言處理和對話生成。由于其在人工智能領域的出色表現和影響力,ChatGPT在學術界和工業界都受到了廣泛的關注和研究。
ChatGPT橫空出世后,在安全界引起了極大的轟動,從惡意代碼的生成與檢測、漏洞的掃描與處理到安全專家系統,ChatGPT無不彰顯其在安全場景下巨大的潛力。
作為網絡安全的重要一環,數據安全是指保護數據不被未經授權的訪問、使用、修改、泄露、破壞或丟失,確保數據的完整性、可用性、保密性、可控性和可審計性。可以說,在當今時代保障數據安全已經成為了國家、社會、企業和個人最為緊迫的任務之一。
二. ChatGPT助力綠盟數據安全治理體系建設
綠盟科技針對數據安全治理體系建設,提出了“知、識、控、察、行”的數據安全方法論[2]。
知與識-敏感數據定義與識別以及風險識別
開展數據安全建設的第一步就是:定義什么是敏感數據,基于業務特點進行數據的識別、數據分類、數據分級。數據分類分級的準確清晰,是后續數據保護的基礎。
依托定義好的敏感數據分類和分級對全體數據進行檢測,判斷其分類分級,數據安全建設的重要能力之一。

圖 1. 敏感數據定義
ChatGPT的強大能力可以直接應用在敏感數據定義與識別上,在圖1中我們定義了一些敏感數據,并在圖2中向其發送數據進行判斷。在這一過程中,ChatGPT完成了敏感數據的定義與識別任務,識別出數據中潛在的敏感信息,并將其分類和分級,為后續的數據保護工作奠定了基礎。

圖 2. 敏感數據識別
值得一提的是,在以往的方案中會對結構化數據、半結構化數據和非結構化數據采取不同的手段進行處理,而對于ChatGPT這樣的大型語言模型來說,有文本存在即可嘗試處理。因此,我們使用三種不同類型的數據對ChatGPT的敏感數據分級分類能力進行了測試,如圖3所示,取得了正確分類的結果。

圖 3. ChatGPT對不同類型數據識別能力
不難看出,ChatGPT在敏感數據定義與識別上具有能力與潛力,但在實際工程應用中仍存在著難點:(1)ChatGPT并非本地化部署,所有的數據輸入都會發送給OpenAI的服務器,帶來了數據泄露的風險,因此一個自主可控的模型尤為重要;(2)作為大語言模型,ChatGPT擅于處理結構化和半結構化等帶有較多文本信息的數據,但對于包含了影音圖像等多媒體信息的非結構化數據的處理則更具挑戰性;(3)實際工程應用中數據量、單個數據大小將以幾何程度提升,現有ChatGPT服務限制了來自單個用戶的海量、超長數據接收和處理能力,因而帶來了本地部署的需求。
完成敏感數據分類分級后,風險識別的也是一個重要的步驟。數據在采集、存儲、傳輸、處理、交換、銷毀的數據生存周期中,會在IT系統的各種環境中存在,因此,環境的安全成為數據安全的重要因素之一。IT系統一旦出現安全隱患,都會導致系統環境中的敏感數據泄漏或丟失。針對風險識別,ChatGPT能夠起到一定的輔助作用。以漏洞掃描為例,ChatGPT可以識別出潛在的漏洞點,并給出風險評估與修復建議(如圖4所示)。在協議安全性分析方面,ChatGPT可以對協議進行語義理解,根據協議中的語義信息進行安全性分析和風險識別(如圖5所示),以此幫助安全人員更好地理解和分析協議中存在的潛在安全問題。

圖 4. ChatGPT輔助漏洞掃描與識別

圖 5. ChatGPT進行協議安全性分析
顯然,ChatGPT在一定程度上可以輔助安全人員進行風險識別的工作,但如果需要落地成為一個自主的風險識別工具,仍有難點:(1)ChatGPT無法直接和環境進行交互并分析結果,需要中間層或者人為進行交互;(2)在協議分析的過程中,輸入的主題內容不變但ChatGPT返回的結果基于概率生成,導致結果具有隨機性;(3)ChatGPT使用2021年及之前的數據訓練而成,因此對于之后新發現的漏洞、風險無法做到及時更新學習。
控-根據敏感數據的級別,設定數據在全生命周期中的可用范圍,利用規范和工具對數據進行細粒度的權限管控
對數據的管控手段需要覆蓋全部環節,由外向內防止攻擊入侵,由內向外防止數據濫用、偽造和泄露。由外向內的管控防御主要依賴于入侵檢測、身份認證等技術。而由內向外的管控防御包括數據防泄漏、數據脫敏等技術。在入侵檢測和威脅情報分析上,ChatGPT已經證明了其能力。但在涉及到需要設計的系統中,如統一身份認證、數據防泄漏等領域,ChatGPT僅能作為輔助工具發揮作用。具體而言,ChatGPT可以協助實現一些具體的細分功能,如數據加密、數據水印等,也可以提供系統設計建議和方法論。但是,對于系統整體的設計和實現,仍需要專業團隊的參與。

圖 6. ChatGPT數據脫敏
在圖6中,ChatGPT能夠識別到請求的敏感數據并進行脫敏操作,但仍有錯誤現象出現。能夠得出結論,在數據的管控階段,我們更多需要系統的設計能力,但ChatGPT此時只能提供方法論上的指導和具體細分功能的初步實現,在一定程度上能夠減輕工作壓力,但無法完全取代人類工作。
察-對數據進行監督監察,保障數據在可控范圍內正常使用的同時,也對非法的數據行為進行了記錄,為事后取證留下了清晰準確的日志信息
敏感數據監察分析是“察”的主要組成部分,能夠發現安全問題與異常事件。敏感數據監察分析包括了協議分析技術、大數據分析技術以及用戶行為分析技術UEBA[3]。

圖 7. ChatGPT進行HTTP請求分析
協議分析、大數據分析、用戶行為分析是密不可分的技術,在當前環境下,網絡數據呈現著海量、流速高的特點。ChatGPT對單一數據能夠做到解析與分析(如圖7所示),但真實場景幾乎不會只用單一的數據進行解析與分析。例如,一個UEBA數據集中共有528690條不同數據,ChatGPT難以進行完整的數據接收。在圖8中,我們使用少量數據讓ChatGPT建立機器學習模型進行了UEBA檢測任務。



圖 8. ChatGPT進行UEBA檢測任務(真實ret值為0.0886)
行-對不斷變化的數據做持續性的跟蹤,提供策略優化與持續運營的服務
不斷發展的業務和不斷變化的數據帶來了對數據安全優化改進與持續運營的需求。數據安全策略的設置主要是根據合規要求而來的,而使用ChatGPT作為合規分析工具吸引了較為廣泛的關注。

圖 9. ChatGPT隱私政策合規性測評指標體系構建
合規分析主要分為了政策文本解析與程序系統分析兩個部分,合規分析最主要的依據是按照相關法律法規構建的合規性測評指標體系,ChatGPT的出現對法律法規解析、政策文本解析(隱私權保護聲明等)和程序系統分析提供了一種潛在的解決方案[4]。
如圖9所示,針對法律法規,ChatGPT能夠生成一套隱私政策合規性測評指標體系。并且能夠解析政策文本,給出具體評分和改進建議(如圖10所示)。

圖 10. ChatGPT政策文本解析與評分
如圖11所示,ChatGPT完成了對代碼的靜態分析和隱私合規性的檢測。相較于靜態分析,動態分析可以更加全面地檢測代碼中存在的安全問題,并能夠捕獲代碼在運行時產生的漏洞,因此對代碼的分析往往會使用動靜結合的方式進行,而如果使用ChatGPT進行代碼動態分析,其交互能力將會成為主要瓶頸[5]。

圖 11. ChatGPT代碼靜態檢測
三、總結
ChatGPT的爆火,除了OpenAI的免費策略外,其較為強大的表現也起到了推動性作用。本文結合綠盟科技數據安全治理體系,探究了ChatGPT在數據安全領域的應用前景與影響。總而言之,對于數據安全鄰域內的識別檢測和生成任務(代碼生成、文本生成等),ChatGPT能夠有效應對,但對于設計類型的任務,ChatGPT現階段仍只能起到方法論上的指導作用。并且由于受到模型本地化、交互以及輸入輸出限制的影響,ChatGPT在安全領域的大規模應用并沒有完全普及,但ChatGPT和類似模型的出現仍會大大推動數據安全、網絡安全的建設發展。
參考文獻
[1] OPENAI. ChatGPT[EB/OL]. https://chat.openai.com/
[2] 綠盟科技. 綠盟數據安全解決方案白皮書 [R], 2019.
[3] SHASHANKA M, SHEN M-Y, WANG J. User and entity behavior analytics for enterprise security; proceedings of the 2016 IEEE International Conference on Big Data (Big Data), F, 2016 [C]. IEEE.
[4] HARKOUS H, FAWAZ K, LEBRET R, et al. Polisis: Automated analysis and presentation of privacy policies using deep learning; proceedings of the 27th {USENIX} security symposium ({USENIX} security 18), F, 2018 [C].
[5] LINDORFER M, NEUGSCHWANDTNER M, PLATZER C. Marvin: Efficient and comprehensive mobile app classification through static and dynamic analysis; proceedings of the 2015 IEEE 39th annual computer software and applications conference, F, 2015 [C]. IEEE.