ChatGPT在數據安全領域的應用前景

VSole2023-03-03 09:31:47

一. 引言

ChatGPT[1]是由OpenAI推出的一種基于Transformer的自然語言處理模型，在智能問答、對話生成、文章摘要等任務上都取得了較好的成績，具有較強的泛化能力，能夠針對不同的場景進行自適應調整，因此有著較為廣泛的應用前景。ChatGPT模型通過大規模的數據訓練，利用深度學習技術學習語言模式和語義關系，從而實現高效的自然語言處理和對話生成。由于其在人工智能領域的出色表現和影響力，ChatGPT在學術界和工業界都受到了廣泛的關注和研究。

ChatGPT橫空出世后，在安全界引起了極大的轟動，從惡意代碼的生成與檢測、漏洞的掃描與處理到安全專家系統，ChatGPT無不彰顯其在安全場景下巨大的潛力。

作為網絡安全的重要一環，數據安全是指保護數據不被未經授權的訪問、使用、修改、泄露、破壞或丟失，確保數據的完整性、可用性、保密性、可控性和可審計性。可以說，在當今時代保障數據安全已經成為了國家、社會、企業和個人最為緊迫的任務之一。

二. ChatGPT助力綠盟數據安全治理體系建設

綠盟科技針對數據安全治理體系建設，提出了“知、識、控、察、行”的數據安全方法論[2]。

知與識-敏感數據定義與識別以及風險識別

開展數據安全建設的第一步就是：定義什么是敏感數據，基于業務特點進行數據的識別、數據分類、數據分級。數據分類分級的準確清晰，是后續數據保護的基礎。

依托定義好的敏感數據分類和分級對全體數據進行檢測，判斷其分類分級，數據安全建設的重要能力之一。

圖 1. 敏感數據定義

ChatGPT的強大能力可以直接應用在敏感數據定義與識別上，在圖1中我們定義了一些敏感數據，并在圖2中向其發送數據進行判斷。在這一過程中，ChatGPT完成了敏感數據的定義與識別任務，識別出數據中潛在的敏感信息，并將其分類和分級，為后續的數據保護工作奠定了基礎。

圖 2. 敏感數據識別

值得一提的是，在以往的方案中會對結構化數據、半結構化數據和非結構化數據采取不同的手段進行處理，而對于ChatGPT這樣的大型語言模型來說，有文本存在即可嘗試處理。因此，我們使用三種不同類型的數據對ChatGPT的敏感數據分級分類能力進行了測試，如圖3所示，取得了正確分類的結果。

圖 3. ChatGPT對不同類型數據識別能力

不難看出，ChatGPT在敏感數據定義與識別上具有能力與潛力，但在實際工程應用中仍存在著難點：(1)ChatGPT并非本地化部署，所有的數據輸入都會發送給OpenAI的服務器，帶來了數據泄露的風險，因此一個自主可控的模型尤為重要；(2)作為大語言模型，ChatGPT擅于處理結構化和半結構化等帶有較多文本信息的數據，但對于包含了影音圖像等多媒體信息的非結構化數據的處理則更具挑戰性；(3)實際工程應用中數據量、單個數據大小將以幾何程度提升，現有ChatGPT服務限制了來自單個用戶的海量、超長數據接收和處理能力，因而帶來了本地部署的需求。

完成敏感數據分類分級后，風險識別的也是一個重要的步驟。數據在采集、存儲、傳輸、處理、交換、銷毀的數據生存周期中，會在IT系統的各種環境中存在，因此，環境的安全成為數據安全的重要因素之一。IT系統一旦出現安全隱患，都會導致系統環境中的敏感數據泄漏或丟失。針對風險識別，ChatGPT能夠起到一定的輔助作用。以漏洞掃描為例，ChatGPT可以識別出潛在的漏洞點，并給出風險評估與修復建議（如圖4所示）。在協議安全性分析方面，ChatGPT可以對協議進行語義理解，根據協議中的語義信息進行安全性分析和風險識別（如圖5所示），以此幫助安全人員更好地理解和分析協議中存在的潛在安全問題。

圖 4. ChatGPT輔助漏洞掃描與識別

圖 5. ChatGPT進行協議安全性分析

顯然，ChatGPT在一定程度上可以輔助安全人員進行風險識別的工作，但如果需要落地成為一個自主的風險識別工具，仍有難點：(1)ChatGPT無法直接和環境進行交互并分析結果，需要中間層或者人為進行交互；(2)在協議分析的過程中，輸入的主題內容不變但ChatGPT返回的結果基于概率生成，導致結果具有隨機性；(3)ChatGPT使用2021年及之前的數據訓練而成，因此對于之后新發現的漏洞、風險無法做到及時更新學習。

控-根據敏感數據的級別，設定數據在全生命周期中的可用范圍，利用規范和工具對數據進行細粒度的權限管控

對數據的管控手段需要覆蓋全部環節，由外向內防止攻擊入侵，由內向外防止數據濫用、偽造和泄露。由外向內的管控防御主要依賴于入侵檢測、身份認證等技術。而由內向外的管控防御包括數據防泄漏、數據脫敏等技術。在入侵檢測和威脅情報分析上，ChatGPT已經證明了其能力。但在涉及到需要設計的系統中，如統一身份認證、數據防泄漏等領域，ChatGPT僅能作為輔助工具發揮作用。具體而言，ChatGPT可以協助實現一些具體的細分功能，如數據加密、數據水印等，也可以提供系統設計建議和方法論。但是，對于系統整體的設計和實現，仍需要專業團隊的參與。

圖 6. ChatGPT數據脫敏

在圖6中，ChatGPT能夠識別到請求的敏感數據并進行脫敏操作，但仍有錯誤現象出現。能夠得出結論，在數據的管控階段，我們更多需要系統的設計能力，但ChatGPT此時只能提供方法論上的指導和具體細分功能的初步實現，在一定程度上能夠減輕工作壓力，但無法完全取代人類工作。

察-對數據進行監督監察，保障數據在可控范圍內正常使用的同時，也對非法的數據行為進行了記錄，為事后取證留下了清晰準確的日志信息

敏感數據監察分析是“察”的主要組成部分，能夠發現安全問題與異常事件。敏感數據監察分析包括了協議分析技術、大數據分析技術以及用戶行為分析技術UEBA[3]。

圖 7. ChatGPT進行HTTP請求分析

協議分析、大數據分析、用戶行為分析是密不可分的技術，在當前環境下，網絡數據呈現著海量、流速高的特點。ChatGPT對單一數據能夠做到解析與分析（如圖7所示），但真實場景幾乎不會只用單一的數據進行解析與分析。例如，一個UEBA數據集中共有528690條不同數據，ChatGPT難以進行完整的數據接收。在圖8中，我們使用少量數據讓ChatGPT建立機器學習模型進行了UEBA檢測任務。

圖 8. ChatGPT進行UEBA檢測任務(真實ret值為0.0886)

行-對不斷變化的數據做持續性的跟蹤，提供策略優化與持續運營的服務

不斷發展的業務和不斷變化的數據帶來了對數據安全優化改進與持續運營的需求。數據安全策略的設置主要是根據合規要求而來的，而使用ChatGPT作為合規分析工具吸引了較為廣泛的關注。

圖 9. ChatGPT隱私政策合規性測評指標體系構建

合規分析主要分為了政策文本解析與程序系統分析兩個部分，合規分析最主要的依據是按照相關法律法規構建的合規性測評指標體系，ChatGPT的出現對法律法規解析、政策文本解析（隱私權保護聲明等）和程序系統分析提供了一種潛在的解決方案[4]。

如圖9所示，針對法律法規，ChatGPT能夠生成一套隱私政策合規性測評指標體系。并且能夠解析政策文本，給出具體評分和改進建議（如圖10所示）。

圖 10. ChatGPT政策文本解析與評分

如圖11所示，ChatGPT完成了對代碼的靜態分析和隱私合規性的檢測。相較于靜態分析，動態分析可以更加全面地檢測代碼中存在的安全問題，并能夠捕獲代碼在運行時產生的漏洞，因此對代碼的分析往往會使用動靜結合的方式進行，而如果使用ChatGPT進行代碼動態分析，其交互能力將會成為主要瓶頸[5]。

圖 11. ChatGPT代碼靜態檢測

三、總結

ChatGPT的爆火，除了OpenAI的免費策略外，其較為強大的表現也起到了推動性作用。本文結合綠盟科技數據安全治理體系，探究了ChatGPT在數據安全領域的應用前景與影響。總而言之，對于數據安全鄰域內的識別檢測和生成任務（代碼生成、文本生成等），ChatGPT能夠有效應對，但對于設計類型的任務，ChatGPT現階段仍只能起到方法論上的指導作用。并且由于受到模型本地化、交互以及輸入輸出限制的影響，ChatGPT在安全領域的大規模應用并沒有完全普及，但ChatGPT和類似模型的出現仍會大大推動數據安全、網絡安全的建設發展。

參考文獻

[1] OPENAI. ChatGPT[EB/OL]. https://chat.openai.com/

[2] 綠盟科技. 綠盟數據安全解決方案白皮書 [R], 2019.

[3] SHASHANKA M, SHEN M-Y, WANG J. User and entity behavior analytics for enterprise security; proceedings of the 2016 IEEE International Conference on Big Data (Big Data), F, 2016 [C]. IEEE.

[4] HARKOUS H, FAWAZ K, LEBRET R, et al. Polisis: Automated analysis and presentation of privacy policies using deep learning; proceedings of the 27th {USENIX} security symposium ({USENIX} security 18), F, 2018 [C].

[5] LINDORFER M, NEUGSCHWANDTNER M, PLATZER C. Marvin: Efficient and comprehensive mobile app classification through static and dynamic analysis; proceedings of the 2015 IEEE 39th annual computer software and applications conference, F, 2015 [C]. IEEE.

信息安全數據安全

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

關于第38次全國計算機安全學術交流會征文的通知

2023-03-21 10:48:19

本次年會由公安部網絡安全保衛局指導，中國計算機學會主辦，計算機安全專業委員會承辦。網絡安全作為網絡強國、數字中國的底座，將在未來的發展中承擔托底的重擔，是我國現代化產業體系中不可或缺的部分。為辦好本次大會，充分發揮專委會在服務國家網絡安全戰略發展需要，促進學術成果交流，提升學術研究水平的作用，本次會議的主題為“夯實網絡安全防線，構建中國式現代化網絡強國”。

信查查8月網絡安全宣傳月：網安則國安，國安則民安

2022-08-01 10:04:14

信查查通過多年在網絡安全行業的耕耘，成為了眾多單位、電信、銀行、電商、高等院校、醫院、企業等單位的長期合作伙伴。從個人層面來看，網安問題會帶來私人信息泄露，進而威脅生命、財產安全。從政企層面來看，關鍵數據資產的泄露可能招致國家網絡信息系統被攻擊的危險，尤其是針對關鍵性基礎設施的網絡攻擊會導致重大國家安全事故。

天融信獨家承辦的2022年中國工業信息安全大會數據安全分論壇成功舉行！

2023-01-11 10:13:11

構建安全數據底座，護航數字經濟發展。數據已成為數字經濟時代最為活躍的新型生產要素。

數據安全能力建設實施指南

2021-10-02 13:45:24

本指南依據《信息安全技術 數據安全能力成熟度模型》（簡稱DSMM）制定，以數據為核心，重點圍繞數據生命周期，從組織建設、制度流程、技術工具和人員能力等四個方面，提供數據安全能力建設的具體實施指南，為組織數據安全能力建設提供參考。

證券期貨行業如何做好數據安全管理與保護

2022-12-06 07:21:59

指引制定背景隨著近年來相關法律法規與行業標準相繼出臺，數據安全體系建設的監管要求日趨嚴格。基本原則在過程域劃分原則上，指引中的數據存儲階段涵蓋了數據刪除和數據銷毀兩個環節，進行了部分環節的合并與調整。同時指引還針對數據安全管理部門、合規風控部門、業務管理部門、信息技術部門和內部審計部門明確了各部門的數據安全管理職責的責任劃分，建立了數據安全工作分工協作的機制。

數據安全需求全面升級下的市場機遇和挑戰

2022-07-19 11:18:29

遇到的考驗與挑戰數據安全治理咨詢現狀數據安全治理指的是數據安全分類分級、個人數據風險評估等與數據安全相關的咨詢服務。為解決客戶的數據安全分類分級及數據風險評估，明朝萬達提供了一整套的底層基礎能力，支撐對客戶的數據安全分類分級和數據風險評估的數據安全領域的咨詢團隊、專用工具集、方法論和經驗沉淀、數據安全產品及研發團隊和駐場人員。

工業互聯網數據安全治理實踐

2022-12-06 09:18:51

數據時代，數據自身安全以及數據保護的安全成為關注的重點，工業化互聯網數據安全成為工業互聯網發展的重要基礎，隨著《數據安全法》的正式頒布，數據在安全體系中占據了核心地位。其中，數據信息安全強調保護數據資產不受意外或未經授權的訪問、更改或破壞，確保其可用性、完整性和機密性。流入控制系統的信息必須受到充分保護，同時還要保護物理過程的安全性和彈性。

電信領域數據安全標準體系現狀與思考

2022-05-18 13:15:38

數據安全問題涉及公眾利益、社會穩定與國家安全，亟需規范安全管理，加強安全防護。而數據安全標準是開展數據安全管理、規范行業數據安全要求、指導企業提升數據安全能力的重要抓手。

數據安全治理現狀研究與分析

2022-04-03 07:29:01

近年來，國內外數據泄露事件頻發，大量企業的商業利益、聲譽受損。數據安全法律法規相繼頒布，監管力度不斷升級，企業逐漸意識到數據安全治理的重要性與緊迫性。通過對2021年開展的企業數據安全治理能力評估現狀進行整理，總結企業數據安全治理工作在組織建設、人才培養、技術工具等方面的現狀與趨勢，提供能力提升思路，以供業界參考。

《數據安全法》指導下的數據安全發展

2021-11-29 14:50:44

作為我國數據安全領域的基礎性法律、國家安全領域的重要法律，《數據安全法》的出臺體現了當前數字經濟發展對安全的關鍵需求，為我國數據安全的發展之路提供了指引。

VSole

網絡安全專家