陳純院士、馮登國院士論數據安全治理 - 網安 - 專業的網絡安全產業、社區、知識平臺

中國工程院陳純院士：

時序大數據實時智能處理技術及網絡安全應用

一、引子

今天所講的話題，是從技術的角度探討網絡安全如何從時序大數據實時智能處理技術上的應用。時序數據 我們先來看一下，數據是怎么來的？原來人類社會是二元的，即人類社會和物理空間，因為有了互聯網、移動互聯網、物聯網，隨時隨地產生了很多的數據，這些數據放在信息空間里，就帶來了很多問題，包括網絡空間的安全問題。這些數據是怎么來的，以及它們在不同環境下有哪些系統？我們知道人工智能、虛擬現實、增強現實、云計算、區塊鏈等，這些都是圍繞著數據來的，隨時隨刻產生，這些數據與以前的最大不同就在于每一個數據都有時間戳，所以我們才稱之為時間數據。從計算機的專業角度來看，在信息空間怎么來表征人類社會或物理空間的一個對象或者一個事件，基本上是兩種方式：一種稱之為特征空間，采用一個特征矢量的形式，比如我們關心一個人的健康狀態，有的醫生可以選取20個特征，血壓、心跳、血糖、血脂等，每個是20維的就形成了這么一個特征空間。還有一個是關系圖譜，就是在網絡空間、信息空間里面我們把特征或者對象、事件之間的關系，這一種數據表達的結構就是關聯圖譜。時序數據是怎么來的？我將它比喻為就像不斷產生的水流進水庫一樣，水庫里的水存起來了就是歷史大數據，正在流向水庫的水就是流式數據，所以時序大數據（Time Series Batch）就是原來的批式大數據加上流式數據。當然圖數據也是一樣，它隨著時間的變化而不斷變化。這就是一種時序數據。時間為“綱”和網絡攻防 現在我們要實時處理的數據要時序數據驅動，無論是大數據驅動還是別的，都是在時間概念上的驅動，所以需要在線分析、計算，然后要實時智能的決策。那么在網絡安全上，我們根據網絡流量的數據是典型的時序大數據。流量上無論檢測到什么數據實際上它都是時序數據，所以實時的攻防、動態的防御，是當前網絡安全的重點與難點，為什么難？因為它根據數據來，響應一定要快，而且要在時間的概念上，所以我們說時序數據驅動的網絡的攻防應該是熱數據加上歷史數據。難度在哪里呢，它主要是要時序的特征指標的實時分析計算，這些計算在毫秒和微秒級，這樣才能動態，而且是線上而不是線下的。第三個要有一些實時的智能攻防決策，就是所謂的智能模型。這就特別需要網絡安全的專家、學者包括一些企業，怎樣把時序數據的這種能力加進去，加在智能攻防的決策上。由此可見，何時序大數據的實時分析是非常重要的。

二、時序大數據實時分析計算

發展路徑 從大數據的發展路徑上看，數據處理從上世紀70年代開始是數據庫，有了數據庫，不管在事務處理還是別的一些處理，就不用每一個應用都要在底層的文件系統上寫，可以直接用數據庫。當時有一些數據庫是非常重要的，我們知道MY SQL、Oracle、DB2等現在都在用。到了80年代數據大起來的，就有了數據倉儲，但是數據庫它的數據量小的時候實時響應還可以，到了數據倉儲，數據量大的時候響應就慢，當時也有很多產品，包括Oracle也推出數據倉儲。到了本世紀初，大數據起來了，量特別大，包括原來的數據庫以及數據倉儲都無法解決問題，所以才有另外一些系統。那時候它分成兩類，還有一個圖數據庫，圖數據庫就像Neo4j等等，這些都算圖數據庫。實際上對于時序的數據或對流數據的處理是在2012年左右才開始的。可以看出來開源的很多軟件，像Storm等等這些都是當年開始的。在這前面的大數據處理基本上是線下的對歷史數據的處理。為什么流數據處理特別重要？因為動態來了，一直到2017、2018年所有的大數據處理還是分成兩類，一類就是線上流的我們叫熱數據處理，另一類是線下的批式大數據處理。怎樣把時間軸上的那個維度算起來是非常重要的，所以后來包括國內外都在做，我們這邊就做了流立方。流立方一個要有大數據量，同時要低時延，要響應短，這就構成了一個時序大數據的實時分析計算。這里有兩條線，一條是有關圖的時序分布式圖數據的處理，還有時序大數據的實時分析計算。這里的計算就是為大數據分析而來的，而最重要的是特征的計算、指標計算，沒有這些指標的計算就很難有大數據的方。哪些指標呢？像均值方差、協方差，包括最大值、最小值、上升趨勢、下降趨勢等幾十個統計指標，這是非常重要的。以前我們說線下的數據計算很容易，或是流進來的數據計算也容易，它僅僅是對于特征空間來算的，而不是對于時間軸來算的，所以時序大數據的實時分析計算它是在時間軸上的計算，這個就非常重要了。關鍵技術 我們來看一看，它的關鍵技術在哪里。我認為，關鍵技術之一是“面向復雜時序特征指標的增量計算”。我們要快，所以一定要是增量計算。舉一個簡單的例子，比如我們對所關注的數據進行檢測，我們有20個特征構成了一個向量，1秒鐘取樣一次的話，三年來的數據已經存起來了，這一秒鐘所取的向量數據要計算它的方差、均值、最小值、最大值、復雜算法、靜態函數等，這個算的話你不可能把三年來的數據，包括這一秒鐘的數據重新來算一遍，這肯定做不到毫秒甚至微秒，這時候一定要有增量計算能力。這個技術非常重要。第二個關鍵技術是“面向網絡時序數據處理的動態時間窗口”。以前我們的計算沒有時間軸，僅僅是針對不同的特征而的。比如我們對一個人的健康感興趣的話有20個指標，以前的指標沒有時間軸，現在因為是實時監測，假如說一分鐘或半個小時檢查一次的話，他的心跳跟血壓、血糖等等關聯的空間特征以外，還在時間軸上有所反映，哪個特征在前哪個特征在后，它一定表示了一個新世界，以前是沒有的，以前我們把時間軸去掉，把所有的數據都給擠成了特征這個層面。有了這個技術，在網絡安全上，面向網絡所有的數據，動態的時間窗口就要有，這也是非常重要。第三個技術，“網絡事件序列識別技術”（復雜網絡處理CEP）。復雜事件的檢測，涉及事件模式增量匹配問題，以及疊加通用算法的增量統計問題，這些都需要做研究。這些技術非常重要，相對來說也就比較難，因為以前沒有時間軸，有了時間軸，所有的算法都要重新寫、重新做研究。第四個關鍵技術是關于圖的，“動態網絡關聯圖譜的實時分析計算”。我們知道動態網絡的關聯圖譜實的時分析非常重要。關鍵是要大，大圖的時序圖譜極速的增量建圖、時序圖譜的分布式處理，以及面向時序圖譜的查詢語言等等都需要做。我們希望能做一個10億頂點、100億邊的這么一個時序的前提。為什么說是10億個頂點，舉例子來說，假如中國移動現在有9億多個電話號碼，每一個電話號碼代表一個人的話，我們構建了一個9億多點的每兩兩之間有關聯的關系，這些關系有低頻關系，比如父子關系、同學關系。但還有一些是動態實時的，比如說是不是在實時通話，是不是在實時聯系。當我們把這些圖快速建立起來，這時候隨著時間變化這個邊都要有變化，所以這個關鍵技術也是非常重要的。對于網絡安全，事件關聯圖譜分析也非常重要。

三、時序大數據實時智能技術體系

有了這些分析指標，我們怎樣用智能模型來輸入？現在一個系統，是不是一個實時智能的系統關鍵是否用上了人工智能模型。這是一個用數據來學習的模型，這就是從人工智能、機器學習、深度學習，用大數據批式標記的數據等等，就形成了智能模型。無論是怎樣的智能模型，結合分析計算就構成了這么一個架構，這個架構是一個一般架構，我們把它稱之為時序大數據的實時智能技術體系架構。從圖上（略）看出右上方就是智能模型體系，這個智能模型可以深度學習，可以一般的機器學習，也可以基于規則等模型，這些模型學習后可以稱為知識模型，就放到左上方去，這就是所謂的智能模型。這個智能模型的輸入是前面說的一些指標計算特征，實時的圖譜、指標的計算、特征的提取，在這前面的左下方就是數據。這張圖（略）就是時序大數據的實時智能技術體系的架構。時序大數據的指標計算，就是指標計算、特征采取和實時超圖，這個就是時序的計算，而以前都沒有加上時間軸，沒有時間軸就談不上數據驅動，因為所有的數據驅動都是在時間的概念上的。以前的大數據分析與系統沒有時間概念，只是把即時采集到的數據從特征向量的形式以及關聯圖譜的形式直接的來進行智能模型處理，但它的指標計算沒有在時間軸上進行。所以加了時間軸，加了一維的話就完全不一樣了，就像我們對于一個人的健康一樣，餐后血糖、餐前血糖完全不一樣，或者說血糖高與血壓之間，一個前一個后就完全不一樣。這樣就形成了從采集到實時加工，以及數據的實時分析，就用流立方、圖立方進行時序指標計算，將指標計算輸入到最上邊的從線下的智能學習平臺來的，或是從知識圖譜平臺、深度學習、機器學習來的，還有一些數據挖掘的像評分卡生成等等的模型，這樣實時的決策就構成了一個閉環的時序大數據的實時智能體系，它可以應用在各行各業。舉一個例子，流進來的數據要實時的數據流進行指標計算，在時序概念上要統計哪些指標，包括計數、求和、平均、最大、最小、方差、標準差、協方差等等，這些都要算得快，時效性要到毫秒級，由于數據大還要高擴展性和高并發。圖也一樣，從簡單的邊到聚合邊，時間軸上到T3等等，每一個都在變，要實時，有狀態、時序、分布式，這些都是新的系統，這些技術怎樣構成平臺與系統，最終形成產品，怎樣使用，尤其是在我們網絡安全的領域，我特別希望，從事網絡安全的專家及企業怎樣能夠把時序實時數據處理技術應用在上邊。

四、網絡安全應用案例

幾個網絡安全方面的例子。第一，機器人攻擊防御。機器人攻擊防御，有效保證數據安全。這里講一個例子，鐵路購票系統12306，很多人網上購票，但有很多黃牛網站以及爬蟲爬數據。2018年以前通過12306購票的話，為了區別是不是爬蟲，系統會給你一批照片要你點擊，很麻煩。同樣，當年黃牛們網站、爬蟲網站就把圖片往全國發讓人幫他點，點成功一個五毛錢。所以圖片驗證沒辦法解決好。這幾年人工智能技術發展得好，直接機器識別。這時候怎么辦，有沒有針對異常購票的智能識別，把爬蟲網站攻擊防御都給防住？目前用22臺PC服務器就可以做到很好的防御，現在我們買票就用不著了，那個時候特別是春節期間爬蟲是很厲害的，達到每秒170萬次。關鍵是動態防御要根據數據，有效地進行實時的識別，識別出異常和攻擊才能采取措施，這個識別要是毫秒級的。第二個例子是網絡靶場。我們這個是用流立方/圖立方來做的，基于網絡事件的時空關系的實時計算，用時序指標進行實時計算，時序聚合邊的實時建圖，時序關聯圖實時模型匹配，由于用到時序這個概念就可以查出很多出來。它的應用場景有很多，攻擊檢測、APT攻擊、DDOS攻擊、多層跳板機攻擊等。應用環境現在做的一個仿真模擬試驗，10臺服務器能做到安全事件的吞吐量達到了2萬+/秒，這在以前是很難想象的。所以我也希望網絡安全用時序的時空關系的實時計算，研究用這些計算的指標來建立一個新的，能進行實時攻防或動態攻防來識別網絡異常情況。第三個例子是工控安全的探測識別。工控安全的探測感知，是指網絡行為的時序特征實時計算，基于時序大數據實時智能決策的風險來源識別，其實就是怎樣把一些我們認為的安全事件用時序指標刻畫出來。可以從中看出加上時間維度，使得我們對于大數據的計算多了一個維度，那完全是不一樣的。現在有了這些指標，需要在不同的行業將模型建立起來，這些模型尤其是計算模型，更高級的是智能模型，深度學習、機器學習等。這個需要大家來一起進行研究。我在這里簡單舉了三個例子，網絡安全中實時攻防、動態攻防，只要是面向數據的，對未來不可測的，我們不能用黑白名單或IP掃描簡單處理。基本的處理辦法只能是攻防，要防的話就一定要在時間軸上統計找出其規律，然后用專家的知識和模型快速地進行實時攻防，這在網絡安全領域是非常有效的。

中國科學院馮登國院士：

大數據環境下隱私保護與風險管控技術

一、背景與挑戰

首先介紹大數據環境下隱私保護與管控技術的研究背景與挑戰。大家都知道各類網絡信息系統產生的數據規模越來越大，大量高價值信息隱藏在其中。提高數據共享能力，并以此為基礎提升數據的發掘利用水平是不可逆轉的發展趨勢。一方面要高度共享數據，有效發掘利用數據；另一方面，有效控制數據，保護用戶隱私等安全需求，二者之間存在明顯的沖突。我們從大數據的訪問模式與挑戰來看存在的挑戰，在大數據離線發布模式下，數據越來越開放，如何實現個人隱私保護是我們遇到的一大挑戰；另一方面，在大數據在線查詢模式下數據越來越集中，如何實現大數據使用及服務的有效管控是我們面臨的又一大挑戰。造成用戶隱私信息泛濫的原因有很多，涉及用戶、黑客與犯罪分子、服務提供商等多方面因素：用戶過度披露個人信息隱私，不利于個人實現網絡空間中的身份匿名，黑客與犯罪分子的風險不斷提升，因此對用戶行為與屬性進行預測的準確率也在不斷提高，而服務提供商未能安全有效地管理用戶的隱私信息，導致用戶信息被盜取倒賣或流失。上述問題的解決離不開配套法規、政策的支持與嚴格的管理手段，但更需要有可信賴的技術手段支持。當前，隱私保護主要面臨三個方面的技術挑戰：第一個挑戰，用戶身份匿名保護難。用戶身份重識別攻擊以及行為模式挖掘技術的發展，導致用戶身份匿名保護更加困難。大數據場景下，用戶數據來源與形式多樣化，攻擊者可通過鏈接多個數據源發起身份重識別攻擊，識別用戶真實身份。由于用戶日常活動具有較強的規律性，攻擊者可通過讓用戶軌跡、行為分析等識別出匿名用戶的真實身份。隨著概率圖模型及深度學習模型的廣泛應用，攻擊者不僅可以挖掘用戶外在特征模式，還可以發現其更穩定的潛在模式，從而提升匿名用戶的識別準確率第二個挑戰，敏感信息保護難。我們這里講的敏感信息是指社交關系、位置屬性等信息。基于數據挖掘與深度學習等人工智能方法，用戶敏感信息易被推測。可以通過共同好友、弱連接等發現用戶之間隱藏的社交關系，發現用戶社交關系隱私。可以通過以往軌跡分析預測目的地、用戶隱藏的敏感位置，也可以根據其社交關系推測其可能出現的位置，透露用戶位置隱私。可以通過社交網絡中的群組發現識別出用戶的宗教、疾病等敏感屬性，發現用戶屬性隱私。第三個挑戰，隱私信息安全管控難。用戶隱私信息被采集后，數據控制權轉落到網絡服務商，而網絡服務商往往缺乏足夠的技術手段保證隱私數據的安全存儲、受控使用與傳播，從而導致用戶隱私數據被非授權使用、傳播或濫用。密文云存儲可解決機密性問題，但帶來性能損失與可用性降低問題；其實際部署應用離不開高效的密文檢索與密文計算技術。目前廠商普遍缺乏實現基于目的的訪問控制能力，盲目開放數據共享服務容易導致用戶隱私數據被濫用；需要基于風險的訪問控制技術，實現自底向上的策略挖掘與實施。

二、現狀與熱點

剛才簡要介紹了大數據環境下隱私保護與風險管控技術的背景，及隱私保護所面臨的三大技術挑戰。下面介紹大數據環境下隱私保護與風險管控技術的研究現狀與熱點。下面主要從四方面來介紹：1、身份匿名保護與去匿名化技術 大數據場景下，用戶數據來源與形式多樣化。攻擊者可通過綜合多個數據源，鏈接相同或近似用戶，提升識別匿名用戶的可能性。這些方法很多，比如基于不同數據源的位置共現評估函數定義用戶軌跡相似度，可高度準確地查找合并多個基于位置服務(LBS)APP中的匿名用戶；基于推特文本信息與用戶軌跡信息，實現相似用戶分組與組內軌跡建模，發現高相似用戶；基于社交網絡中的節點屬性和圖結構定義用戶相似度，可發現多個社交網絡中的相似用戶。由于用戶日常活動具有較強的規律性，攻擊者對用戶移動軌跡建模分析，識別匿名用戶，或實現用戶位置隱私的推斷與預測，不僅能挖掘用戶外在特征模式，還能發現其更穩定的潛在行為模式。采用的方式主要是基于馬爾科夫鏈（MC）模型的分析方法、基于隱馬爾可夫（HMM）模型的分析方法、基于混合高斯模型（GMM）的分析方法、基于LDA主題模型的分析方法等等。此外，經過深度神經網絡（DNN）訓練，軌跡的深度學習表示可實現匿名軌跡重識別，進一步實現用戶位置隱私的推斷與預測。比如基于循環神經網絡（RNN）、長短期記憶（LSTM:long-short term memory）等模型可以學習出位置停留點之間的轉移時序特征，能夠從社交網絡的匿名軌跡中提取出用戶標識，基于變分自編碼器模型的軌跡深度學習，可以學習出影響用戶位置分布的隱含態。隨著攻擊者能力迅速增長，傳統的K-匿名技術體系局限性日益凸顯，基于差分隱私保護的方法受到更多的關注，差分隱私保護提供一種不限定攻擊者能力，且能嚴格證明其安全性的隱私保護框架。有兩類差分隱私保護，一種是集中式差分隱私保護。在這種模式中，用戶數據被采集后集中進行隨機化處理，即使攻擊者已掌握除了攻擊目標之外的其他所有記錄信息，仍無法獲得該攻擊目標的確切信息。這種方法初期僅應用于（數據庫）線性查詢與數據發布場景，后逐漸擴展服務于TOP-K頻繁模式挖掘、決策樹、聚類、支持向量機等機器學習算法，以及用戶位置與軌跡數據發布等多樣化應用場景第二種是本地差分隱私保護。用戶數據在本地隨機化處理后再被采集，擁有任意背景知識的攻擊者無法根據擾動后的單個用戶數據，推測用戶的原始數據，典型的協議包括Rappor協議、SH協議、Piecewise協議等，分別用于頻率統計與均值計算。2014年，谷歌在Chrome中采用本地差分隱私算法（Rappor協議）收集用戶行為數據，包括用戶任務管理器中的進程和瀏覽過的網站等。2016年，蘋果宣布開始在iOS數據收集行為中對行為統計數據應用差分隱私算法，統計數據包括QuickType鍵盤常用詞和emoji表情頻繁程度等。盡管統計結果引入誤差，但當數據量足夠大時，仍然能在完成數據分析的同時保障用戶隱私安全。2017年，蘋果基于差分隱私技術收集手機上的健康數據（如運動，步數等），表明本地差分隱私保護技術已到了適用化程度。簡單總結一下身份匿名保護以及去匿名化技術的研究現狀：去匿名化不斷涌現新技術新方法，基于K-匿名技術體系的隱私保護方法局限性日益凸顯，基于差分隱私的保護方法受到更多關注。本地差分隱私保護方法可實現數據的安全采集，但算法可用性仍有很大提升空間。當前身份匿名保護與去匿名化技術的研究熱點主要歸納為以下三點：基于多源異構數據集的匿名保護技術；面向位置軌跡分析的匿名保護技術；本地差分隱私保護技術。2、敏感信息隱私挖掘與防護技術社交網絡服務商致力于分析用戶的偏好，向用戶推薦朋友，保持社交群體的活躍和黏性。而攻擊者可采用類似技術，根據攻擊目標現有的社交關系和其他屬性特征，對用戶的敏感社交關系、敏感屬性、位置與軌跡進行分析與預測在社交網絡隱私保護中，單純刪除敏感邊、敏感屬性、敏感位置并不能防止其被探知。采用與解決數據稀疏問題類似的技術，攻擊者可以由其他用戶公開發布信息推測出缺失的敏感信息。比如，即使敏感關系被保護，攻擊者也可通過共同朋友數目、弱連接數目、社交子群劃分來判斷用戶之間的社交距離，推測兩者間存在社交關聯的概率。針對Facebook的用戶數據分析顯示，具有相同屬性的用戶更容易成為朋友，用戶部分屬性與其社交結構具有較高的相關性。攻擊者可以通過用戶的可見屬性、社交關系及其所屬群組等信息來推測用戶未標注的敏感屬性。差分隱私提供可量化評估的隱私保護，并通過組合機制與高級組合機制可實現多個步驟的靈活組合。因此，由多項差分隱私保護算法構成的復雜機制，仍能提供差分隱私保護，但其隱私預算消耗將快速上升。以基于差分隱私的用戶位置與軌跡發布方法為例，不同機制中，總隱私預算隨著軌跡長度線性增長。這些方法有，基于位置直方圖、軌跡直方圖的差分隱私保護機制，基于前綴樹、層次樹等樹重構的軌跡差分隱私保護機制，基于位置聚類的軌跡差分隱私保護機制等。越來越多的數據作為訓練集用于機器學習或深度學習模型中的參數訓練，來對外提供機器學習即服務(MLaaS服務)，這個過程容易引發用戶隱私泄露。面臨的主要攻擊是模型逆向攻擊，這種攻擊從黑盒學習模型中逆向提取出訓練數據集信息，包括成員推理攻擊和屬性推理攻擊。成員推理攻擊是指，給定數據記錄和模型的黑盒訪問權限，推測出某條用戶記錄是否在模型的訓練數據集之中。屬性推理攻擊則是獲取訓練數據集本身的統計屬性信息。面向機器學習的隱私保護方法。由于模型攻擊的出現，我們不得不高度關注面向機器學習的隱私保護方法。當前主要有兩種，一種方法是支持差分隱私的機器學習算法，典型代表為支持差分隱私的隨機梯度下降（Differential Private SVD）算法。該算法滿足（ε,δ）-DP，且實驗結果表明，深度神經網絡的隱私保護可以在軟件復雜度、訓練效率和模型質量的適度成本下實現。另外一種方法是同態加密機器學習機制，典型代表為CryptoDL。在深度學習中，同態加密算法用于保護預測輸入和結果，以及訓練神經網絡模型參數，實現了卷積神經網絡上手寫字體分類。敏感信息隱私挖掘與防護技術的現狀小結：差分隱私提供可量化評估的隱私保護，但在復雜系統中隱私預算消耗過快。用戶數據應用于機器學習參數訓練時，易遭受模型逆向攻擊，需要面向機器學習的隱私保護方法。當前敏感信息隱私挖掘與防護技術研究熱點：一是基于差分隱私模型的敏感信息隱私保護方法，二是人工智能方法在敏感信息隱私挖掘與保護中的應用。3、密文檢索與密文計算技術密文檢索可實現用戶在無需解密數據而直接對密文數據實施檢索訪問的能力，包括關鍵字檢索與區間檢索。關鍵字檢索主要包括單關鍵字檢索與多關鍵字檢索。單關鍵字海量數據（109-1010量級）密文檢索方案將倒排鏈表分割并進行內存磁盤優化，實現了秒級的查詢響應。多關鍵字密文檢索在108 量級的密文數據庫上對多關鍵字查詢的響應速度達到了秒級。區間檢索包括單維區間檢索與多維區間檢索。單維區間檢索方案有兩類，一類是基于等值檢索的密文單維區間檢索方案：利用TDAG（Tree-like Directed Acyclic Graph）樹將數值轉換為關鍵字，從而以引入冗余數據為代價，提高方案的安全性。另一類是基于自適應索引和矩陣加密方案：支持數據動態更新的密文單維區間檢索，可根據檢索條件動態地索引數據，但同時數據的隱私泄露也會逐漸嚴重。多維區間檢索方案有很多，但涉及多維區間檢索方案的關鍵技術主要有：高安全性的密文多維區間檢索方案，基于R樹構造索引，并將R樹節點轉換為向量形式，通過謂詞加密安全地判斷搜索區間與節點是否相交，且不泄露額外信息，但是方案的檢索效率較低；對多維區間檢索擴展方案：檢索條件可為任意幾何圖形，基于R樹構造索引，基于半空間的思想構造陷門，并使用矩陣加密保護索引和陷門；安全的布爾空間關鍵詞檢索方案：基于EBFR (Encrypted Bloom Filter R-tree)樹構造索引，使用矩陣加密保證數據安全性。密文計算主要有兩類，一類是同態加密。使用同態加密可以直接在加密的索引上進行修改操作，可實現快速安全的加密數據更新。基于同態加密還可實現服務器端搜索排序。另外一類是函數加密。利用屬性基加密（ABE）可以實現密文訪問控制；基于隱藏向量加密（HVE）可以計算數據權值等；基于同態加密和函數加密技術，能夠在106 量級的數據庫上進行密文數據的均值和方差等計算，需要的時間代價為10秒級，并能夠遠程驗證結果的正確性，已經初步具有實用價值。簡要地總結一下密文檢索與密文計算技術的研究現狀：當前情況是這樣的，密文檢索技術效率較高但安全性論證不夠充分，密文計算技術理論上取得一定突破但實用性不強。當前密文檢索與密文計算技術的研究熱點可以歸納為以下兩點：一是高效安全的密文檢索方法；二是實用安全的密文計算方法。4、基于風險分析的訪問控制技術經典的訪問控制模型屬于“自頂向下”的訪問控制模式，而大數據場景下訪問需求無法明確預知。比如訪問控制策略依賴于環境上下文，大量實際數據訪問控制策略制訂需要專業領域知識，無法為其預先生成，容易導致授權不足或過度授權。這就需要“自底向上”的訪問控制模式，通過學習生成最佳訪問控制策略，實現自適應訪問控制。基于風險的訪問控制對訪問行為進行實時風險評估，并通過訪問過程中動態地權衡風險與收益實現訪問控制，具有較強的自適應性。當前基于風險的訪問控制主要有兩類方案，一類是基于風險閾值的訪問控制：根據資源內容和訪問用戶的屬性對資源進行風險估計，設定風險閾值，將用戶訪問行為帶來的風險總和限定在閾值內，實現基于風險的訪問權限自動調整；另一類是隱私感知的風險自適應訪問控制：采用概率主題模型對用戶的正常與異常訪問行為進行建模，更準確地度量異常訪問所帶來的風險。角色可被看作是大量用戶共享的一些權限組合。在用戶和權限規模較大時，可以采用“自底向上”方法來發現角色，進行角色挖掘。當系統的用戶基數越大、權限越多時，權限分配的潛在模式就越明顯，采用“自底向上”方法進行角色挖掘的效果就越好。傳統角色挖掘是針對已有的“用戶-權限”授權信息進行權限的聚類，將聚類結果作為角色，其合理性取決于已有授權信息的正確性。近年來，許多研究工作采用了更豐富的數據集進行角色挖掘，主要包括：生成式角色挖掘，非負矩陣分解方法生成式角色挖掘主要是從權限使用情況的歷史數據來獲得用戶的權限使用模式，進而產生角色，不局限于已有權限分配的準確性。基于權限使用日志，將角色挖掘問題映射為文本分析問題。采用主題模型LDA（Latent Dirichlet Allocation）和ATM（Author-Topic Model）進行生成式角色挖掘，生成角色能夠更加準確地反映權限的真實使用情況。而非負矩陣分解方法基于物理域、網絡域和信息域的多域信息構建實體-關系網絡，并將角色挖掘問題映射為網絡中的社群發現問題。采用非負矩陣分解方法進行角色挖掘，能夠發現權限之間存在的依賴關系，避免已有授權信息中存在的錯誤。簡單總結一下：當前經典的訪問控制模型已不適應大數據環境下的訪問控制需求，需要“自底向上”的訪問控制模型，但相關研究比較初步。當前基于風險分析的訪問控制技術的研究熱點可以歸納為以下兩點：一是基于風險分析的訪問控制機制，二是基于機器學習的策略與角色挖掘方法。

三、成果簡介

上面主要從四個方面對大數據環境下隱私保護與風險管控技術的研究現狀與熱點進行介紹。最后介紹一下我們團隊在這方面所做的一些研究工作。在大數據訪問控制方面，我們在2018年的時候提出一種基于主題模型的風險自適應訪問控制方法[SACMAT2018]。在敏感信息保護方面，提出一種安全計算環境構建方法[CCS2019]，提出一種個性化的本地差分隱私框架[DASFAA2019]，2018年提出一種基于混合帶的用戶軌跡隱私保護方法[TrustCom2018]。在密文檢索方面，在2017年提出一種安全高效的多維區間檢索方法[DASFAA2017]，2016年提出一種高效的多關鍵字密文檢索方法[WISE2016]。在去匿名攻擊方面，2019年提出一種針對用戶時空位置軌跡的去匿名攻擊方法[ICICS2017]。在這些研究成果的基礎上形成了一本著作《大數據安全隱私保護》，這本書系統梳理了現有的大數據安全與隱私保護技術方法與認識。