數據安全技術和市場之我見
數據安全,從本質上來說,幾乎是所有安全產品的終極防護目標。從廣義來講,大部分攻擊行為,都和數據有關。例如“勒索病毒”,它最初是利用系統漏洞攻入,找到硬盤上的重要數據并加密,最終目是收取“解密費”。從這個角度看,不論是網絡安全產品,還是數據安全產品,最終目標都是為了保護用戶的數據安全。
數據安全是如此重要,然而卻又如此復雜。因為技術的復雜性,以及和業務結合的復雜性,過去十幾年一直沒有占據安全市場的主要比例。這種情況現在發生了一些改變,或者說迎來了契機——從國內外近年來數據安全事件頻發的形勢、數據作為生產要素的新的認知、以及立法的密集程度,可以預測到數據安全市場未來會占據通用安全市場越來越多的份額,也會以更快的增長速度持續增長。
一、數據安全市場整體情況
1.規模
按照2019年數據看,根據海外市場研究機構VMR統計,全球數據安全市場規模約為173.8億美元,2019-2025之間預測該市場年復合增長率約為17.35%。根據國內機構統計,2019年我國數據安全市場規模僅為38億人民幣元,僅占全球數據安全市場規模的3.4%。相比較于中國安全整體市場占全球份額7%的比例,數據安全市場的比例也是偏低的。
2.增速
看看市場增速整體情況,全球網絡安全市場的年復合增長率為9.7%,數據安全的年復合增長率約為17.35%,說明數據安全市場的增速遠大于平均安全市場增速。
3.基礎投資下的高增長預期
另外,從基礎設施投資角度看, IDC預測中國數據量增速最為迅猛,預計2025年將增至48.6ZB,占全球數據圈的27.8%,成為全球最大的數據圈。那么如果從投資角度看,中國數據安全市場的份額理論上應在2025年占到全球的27.8,而現在僅為3.4%,這里面也有很大的增長空間。
從上可分析,未來中國數據安全市場容量有巨大的增長空間。如果以2025年作為時間節點來推測,按照全球年復合增長率約為17.35%推測,全球在2025年數據安全市場規模會達到532.63億美元;按照中國27.8%的數據總量占比折算,國內2025年的數據安全市場理論上應該達到148億美元。今年已經是2022年了,按照這個推測,未來5年,數據安全市場會形成一個千億人民幣級別的子市場。
查閱了一些其他機構統計的數據和分析,大致基本吻合。不過,實際上需要考慮到中美安全市場大概3年的時間差,以及基礎設施投資后業務上線的時間周期,整體打一個7折來估算,2025年國內數據安全市場大致應該是103億美元左右總盤子,折合人民幣600億人民幣左右。
二、數據安全立法情況
國內外主要相關法律法規情況如下:
2022年4月美國:《加州消費者隱私法案(CCPA)》
2018年5月歐盟:《通用數據保護條例(GDPR)》
2003年5月日本:Act on the Protection of Personal Information,“APPI”)
2021年6月中國:《中華人民共和國數據安全法》
2021年4月中國:《中華人民共和國個人信息保護法》
國外數據安全相關立法,主要以保護個人數據隱私安全為主;國內的兩部法律,除了保護個人,還有保護國家數據安全的要求。
有了頂層立法,各主要行業隨后跟進落地本行業相應的技術規范,如金融行業陸續發布了《個人金融信息保護技術規范》、《金融數據安全數據安全分級指南》、《金融數據安全數據生命周期安全規范》,其他行業如運營商、政府、證券、醫療也陸續發布了對應的行業規范。
按照國內安全相關立法到落地的節奏,一般是先“初稿征詢意見”->“經過1年左右的公示,正式頒布”->“各行業跟進,指定對應的技術規范和執行細則”->“產品和檢查措施落地”->“市場爆發”。
目前數據安全市場中的新需求部分“隱私保護”“數據分級”“大數據安全利用”這幾塊,還處于“各行業跟進,相關技術規范和執行細則落地”這個階段。因為數據安全涉及面比較多,在這個階段還是比較需要嚴謹的,具體是需要一些實際的探索和討論,以及典型案例的實際運作探索,最終形成明確的完善的落地執行細則這樣。
舉例來說,比如一個互聯網交通企業的數據安全,可能會涉及交通、金融、公安、稅務等各個部門,技術上會涉及傳統數據庫、大數據、隱私計算等等,地域上可能會跨多個省行政區域甚至國際區域,要做數據審查,不論從監管的協調,還是技術的成熟度,都具備很多未確定的需要探索的環節,因此這個階段我估計時間會比較久一些。
通讀數據安全法,核心點主要有如下幾個:
職能角色:網信辦是總體協調部門,負責統籌協調網絡數據安全和相關監管工作;工業、電信、交通、金融、自然資源、衛生健康、教育、科技等主管部門承擔本行業、本領域數據安全監管職責;公安機關、國家安全機關等依照本法和有關法律、行政法規的規定,在各自職責范圍內承擔數據安全監管職責;
制度:國家建立數據分類分級保護制度——這也是目前很多數據安全分級產品的產生背景;國家建立數據安全審查制度,對影響或者可能影響國家安全的數據處理活動進行國家安全審查——這也是去年滴滴、BOSS直聘等數據審查的落地頭幾個企業案例的法律背景。
法律責任:明確了數據安全泄露事件,是可以入刑責的;如果是國家機關的數據泄露了,一把手是要被處分甚至判刑的。
另外,從立法的深層意義看,不僅僅是保護數據本身的安全。從數字社會的未來藍圖看,數據已成為了未來的生產要素之一,類似于石油這樣的資源。也就是說,未來的豐富的數據資源,是可以充分的融合、挖掘,并產生新的生產力的。所以,數據安全法也體現了國家會把數據視為未來戰略資源,并會高度重視以及加以保護的考慮。
三、數據安全產品分類
從產品類型角度分類,數據安全產品大致可以分為特定目標防護產品和平臺類產品兩類,產品的歷史大致是從90年代末到現在,一共走過了20年左右的歷史。
1.單點防護產品(2000年—2015年)
主要是圍繞著數據庫保護和電子文檔保護為主的產品,以特定防護目標作為防護對象,解決特定安全防護需求的問題,以單點產品為主,比如:電子文檔加密、DLP(數據防泄漏保護)、數據脫敏、存儲備份、數據庫審計。代表企業有億賽通、明朝萬達、安和金華、美創、瑞數等。
2.平臺類產品(2015年—至今)
數據安全治理(兩類技術路線:一類以數據分級為主線,一類以數據生命周期為主線(DSMM))、隱私計算、數據分級等。代表企業有安恒、綠盟、奇安信、華控、藍象、全知、美創等。
單點防護產品(老產品),共同的特征是以某個特定場景的需求為主,如針對數據庫的防護產品,對于文檔的加密產品,屬于單點產品。這類產品產品形態硬件和軟件類型大致各占一半,技術難度較高,如電子文檔加密產品,技術難點在于既要加密,又要能按照權限控制分發,并且兼容各種文檔格式;數據庫審計,難度在于黑盒的模式下去識別各種商業數據庫的協議和操作內容,以及減少因為協議的誤判對業務造成的中斷影響。老產品走過了十幾年的時間,相對來說功能和需求場景都比較確定,組成了數據安全的基礎產品族。對應的每個子領域都有標桿廠商,代表廠商有億賽通,明朝萬達,安和金華等,在這里不過多贅述。
再看一下平臺類產品。
屬于近年的新產品,解決的主要是近年來大數據的應用帶來的新的安全問題。
舉個新需求的例子。
去年頒布的《數據安全法》,第二十一條明確規定了“國家建立數據分類分級保護制度”,指的是根據數據在經濟社會發展中的重要程度,以及一旦遭到篡改、破壞、泄露或者非法獲取、非法利用,對國家安全、公共利益或者個人、組織合法權益造成的危害程度,對數據實行分類分級保護。
那么需求來了,以前的保護對象是一個數據庫,或者一個文檔,沒有分級分類的這個要求。而現在保護的對象,是一個區域、一片單位的所有的數據源,且在做防護之前,首先要梳理清楚,做好分級分類。傳統數據安全產品顯然不具備這樣的功能。
相應的,產品的品類就誕生了——數據分級分類產品,比如全知的“數據資產地圖系統“,從官網介紹可到介紹:“數據資產地圖系統”是一款面向企業靜態數據資產發現并進行自動化數據分類分析的數據安全產品,能夠通過全面盤點數據資產、梳理標識數據,實現在復雜環境下自動化掃描并識別定位敏感業務信息。同時,通過數據的分類分級梳理,形成重要數據資產清單,并有效識別數據風險,為企業數據資產管控提供安全規范和技術依據。產品架構是這樣的,如下:

原理大致是這樣:
首先通過掃描和對接各種數據源(數據庫),對數據資產進行全面的掃描和采集;然后,對數據進行自動識別和分級分類,打上標簽,存入大數據系統;最后,形成數據資產清單,全網數據資產可視
再舉個例子:
某大型企業,下轄十幾個子公司,數據源多樣化,且分布在不同的物理位置。日常工作中,總部需要采集子公司的數據,子公司也會使用總部的數據,數據交叉環節多,管控不易,資產不清,風險不可視。
上述問題非單點類安全產品可解決,屬于數據安全治理的范疇。客戶需要這么一套系統:能夠有效的發現數據資產(包括子公司的),形成數據資產地圖;能夠定義和識別重要數據,并打上標簽。能夠面向不同的數據源,下發安全訪問的策略,控制數據訪問權限;能夠持續監控數據安全風險;能夠對數據風險進行溯源。
典型的產品架構如下:

3.隱私計算產品
我們知道,很多行業比如政務、醫療、金融等各行業、單位機構本身掌握大量的價值數據,在社會治理或者商業數據挖掘的需求下,是需要結合這些數據進行二次挖掘的。通俗來說,就是需要根據不同行業提供的數據源,挖掘有價值的分析結果,但是又不能把各個行業的數據都拿走。最簡單的例子就是疫情分析,比如張三,去過哪些地方,密接了那些人,是否有疫情擴散的風險,需要知道這個結果,但是又要保證這些信息的隱私性,不能造成信息泄漏。
如果沒有隱私計算的機制,這些行業客戶不敢、不愿、也不能開放數據用于共享。所以必須要有一類產品能夠作為數據交換平臺,可控地將數據開放給第三方做數據挖掘分析,第三方在平臺上的數據挖掘行為可監管、可審計、可追溯;原始數據不出本地,受益方只能獲取審核后的價值數據。最終達到確保數據所有權和使用權的分離,可用不可見、可用不可取。幫助企業創造新的數據交易模式,合法合規、安全地對外開放數據,釋放出數據的潛在價值。
隱私計算相對比較新,他主要依賴幾個核心數學概念,理解了這幾個概念才好理解這個產品:
聯邦學習(Federated Learning)
是一種分布式機器學習技術,通俗來說,就是能得到數學模型的結果,但是卻不會拿走參與的數據。比如計算出“某一類疾病的患者最喜歡去的十大場所”,需要匯總醫院醫療數據和不同場所的顧客數據,進行聯邦學習模型計算,進而得到這個統計結論。運算中主要是通過數學模型進行的,過程中不會拿走原始數據。
其核心思想是通過在多個擁有本地數據的數據源之間進行分布式模型訓練,在不需要交換本地個體或樣本數據的前提下,僅通過交換模型參數或中間結果的方式,構建基于虛擬融合數據下的全局模型,從而實現數據隱私保護和數據共享計算的平衡,即“數據可用不可見”、“數據不動模型動”的應用新范式。
同態加密
通俗來講,各個數據源單位,提供的都是加密后的數據,不影響數據模型預算的結果。具體來說,同態加密是運用數學算法,對經過同態加密的數據進行處理得到一個輸出,將這一輸出進行解密,其結果與用同一方法處理未加密的原始數據得到的輸出結果是一樣的。
比如說,數據提供方擔心數據的源信息被計算平臺拿走,所以采用特殊算法對原始數據進行加密,數據平臺得不到原始數據,但卻可以利用數學算法得到統計的結果。
可信計算環境
可信執行環境(Trusted Execution Environment, TEE)通過軟硬件方法在中央處理器中構建一個安全的區域,保證其內部加載的程序 和數據在機密性和完整性上得到保護。TEE是一個隔離的執行環境,為在設備上運行的受信任應用程序提供了比普通操作系統(Rich Operating System, RichOS)更高級別的安全性以及比安全元件(Secure Element, SE)更多的功能。
隱私計算產品,基本原理就是采用上面的算法,綜合利用脫敏、加密等技術,為各方數據源提供一個安全、隱私的計算平臺,來運行不同的數據統計模型。
這類產品的主要客戶是具備多樣化、跨行業、跨部門數據來源的企業或事業單位,如大數據局、醫療、安全、能源、政府等單位。另外這些年,我國也建立了多個區域性的大數據市場平臺公司,各個數據源能夠以商品的方式提供,在滿足安全、隱私、合規的前提下,為社會生存創造數據挖掘的二次價值。
四、數據安全產品的難點
和通用網絡安全產品不同,數據產品更靠業務。數據安全產品的復雜性,主要就是基于這個原因。總的來說,因為數據安全產品更靠近客戶的核心業務,因此產品的準確度會比通用安全產品的要求更高。因為一個錯誤的規則,很可能造成客戶業務災難性的中斷,或者核心數據的破壞。
另外數據安全產品的實施成本特別高,主要是因為和業務緊耦合的緣故,開發、部署階段,會涉及大量的對接、修改以及后續運維工作。在商業角度,這種情況就不是個“好產品”,因為一個客戶一個特殊需求,無法實現批量復制和快速售賣,短期做大困難。
還有個問題就是風險高,責任大。數據安全產品一旦出問題,造成客戶數據丟失、業務中斷、數據無法解密,這些情況都是客戶難以忍受的,也具有極高的責任風險。所以,技術不精的廠商,不是很敢碰這類產品。
另外還有一個非技術因素的難點,就是各部門的數據要打通,而數據都是各個部門的核心業務,這意味著在組織架構上需要調整在先。如果沒有重構組織架構,數據安全產品的落地阻力會非常大。而重構組織架構,意味著崗位的調整,在現實工作中,這個難度難比天高,需要較長一段時間來完成。
具體來說,難點主要有如下:
1.對接數據源難
各類商業數據庫因為是閉源產品,協議黑盒,版本多變,缺乏統一的標準,因此在對接各類數據源的時候,協議解析這塊特別耗費人力,難度也較大。
2.分類分級難
對各類數據進行分類分級,不僅僅是算法的問題,難在安全廠商根本不具備各行各業的業務知識,因此如準確何識別某一個行業的數據屬于哪一級,如何分類,是需要大量的專業知識和實施成本的。
3.算法難
目前脫敏、隱私計算等算法還不夠成熟,運行效率有限,會導致數學模型計算出來的結果不準確,在“計算”和“隱私”之間,完美的算法的平衡點很難把握,很多時候難以做到既安全又保密。
4.控制難
因為耦合了業務系統,因此如果要對某一個數據操作進行如“阻斷”的操作,很難精準的把握住控制的時機和效果,以及誤阻斷對業務系統帶來的災難性后果
5.業務耦合復雜
因為業務耦合多,因此實施部署的時候會涉及較多的對接、修改、調整,造成軟件實施和二次開發的成本巨大,產品實施周期較長
五、總結
數據安全產品,以高于網絡安全產品的增速,在五年內會增長到600億左右的市場份額,這幾乎是2021年全部安全產品的總盤子,未來在數據安全領域一定會有新的顛覆性的巨頭企業出現。
數據安全,不僅僅是產品問題,還結合了組織、流程、人,未來的產品趨勢是產品+平臺+運營,綜合的解決方案模式會成為市場的主流。
雖然有諸多難點,但是數字社會的構建勢不可擋的過程,對數據安全的遠景我是非常的看好。人類社會發展到這里,不采用數字治理的方式,是無法進行新一次科技革命的,這是時代的內需要求,不需要懷疑。而技術問題,會隨著時間的推移,預測未來3~5年間將會大部分解決掉;組織架構問題,也會隨著時間逐步解決。那么可期待的市場爆發高點,會出現在未來3年后的時間點,只需要等待即可。
國家已經明確將數據作為戰略資源的高度提出,相關法律法規近一年來密集的落地。相比之下,安全企業對數據安全的認知程度還需要跟上國家的高度,加大投入,更進一步。