RSA 2023創新沙盒盤點｜HiddenLayer：針對機器學習攻擊的防護與響應平臺

全文共3608字，閱讀大約需7分鐘。

RSA Conference 2023將于舊金山時間4月24日正式啟幕。作為全球網絡安全行業創新風向標，一直以來，大會的Innovation Sandbox（創新沙盒）大賽不斷為網絡安全領域的初創企業提供著創新技術思維的展示平臺。

近日，RSA Conference正式公布RSAC 2023創新沙盒競賽的10名決賽入圍者，分別為AnChain.AI、Astrix、Dazz、Endor Labs、HiddenLayer、Pangea、Relyance AI、SafeBase、Valence Security、Zama。

4月24日（美國舊金山時間），創新沙盒將決出本年度冠軍，綠盟君在此立足背景介紹、產品特點、核心能力等，帶大家走進入圍十強廠商，洞悉創新發展趨勢。今天，我們要介紹的廠商是HiddenLayer。

公司介紹

HiddenLayer是機器學習算法和模型安全解決方案的提供商，成立于 2022 年美國得克薩斯州奧斯汀市。基于輕量化的軟件平臺方案，HiddenLayer能夠提供針對機器學習系統的威脅建模、風險評估培訓、紅隊評估服務。目前，已獲得種子輪600萬美元的融資。

創始人團隊來自Cylance，同樣是一家網絡安全領域的人工智能和機器學習創業公司，采用了深度學習等技術手段實現了惡意軟件的分析能力。HiddenLayer官網給出了一個故事，說明了團隊成立契機——源于2019年在Cylance發生的一次真實的對抗機器學習攻擊事件。HiddenLayer創始團隊成員發現，攻擊者采用模型推斷技術（Model Inference Attack），制造了可繞過Cylance惡意軟件檢測機器學習模型的惡意程序，并進一步控制了客戶設備。可見，機器學習的威脅攻擊面暴露并被利用的真實事件，是推動HiddenLayer團隊成立創業公司的核心驅動力之一。

圖1 典型模型推斷攻擊場景

技術背景介紹

ChatGPT等大模型（Large Language Models, LLMs）驅動的新一輪人工智能技術變革正在如火如荼的發展中。與此同時，人工智能技術廣泛、深入、持續應用中的伴隨安全風險，也逐漸上升到一個全新的高度。據統計，2021年全球的網絡攻擊估計造成了6萬億美元的損失。實際上，針對機器學習系統的攻擊技術研究領域非常活躍。一方面，相關的攻擊事件愈發頻繁，另一方面，針對機器學習、人工智能的開源工具集、攻擊框架也越來越多，如IBM發布的Adversarial Robustness Toolbox、Microsoft發布的Counterfit、CleverhansLab發布的Cleverhans、QData發布的TextAttack等等。

人工智能技術的涵蓋范圍很廣，包括機器學習技術、深度學習技術等各類數據科學和知識工程技術。人工智能的技術在各行各業的深入應用，以及數字空間、社會空間、物理空間的融合，使得人工智能的攻擊面已逐漸滲透到更廣泛的系統中。同時，人工智能技術棧涉及復雜的生命周期、部署框架與應用模式，其自身的攻擊面風險的建模隨之變得更復雜。

然而，傳統網絡空間威脅建模與威脅分析體系，主要面向傳統網絡空間攻擊者、技戰術、受害者、武器庫等主要實體與關系分析。在威脅建模的范圍上，缺乏針對人工智能系統關鍵要素，包括數據、算法、應用等維度的實體、關系范式適配，無法精確描述針對人工智能系統的攻擊事件上下文；在威脅建模的方法上，缺乏對人工智能系統脆弱性缺陷、威脅攻擊技戰術描述、分類、交換方面的描述機制與共識，極大的限制了人工智能攻擊面的識別、分析與風險分析。

隨著人工智能技術的快速演進，人工智能風險對抗已成為國內外重要的研究領域。針對人工智能復雜攻擊面風險的建模，我們可以參考以下幾個重要的框架。

首先是MITRE構建的攻擊面風險知識庫ATLAS（Adversarial Threat Landscape for Artificial-Intelligence Systems），類似于MITRE ATT&CK，從攻擊的視角，提供了描述人工智能攻擊風險的技戰術元語言詞庫。如圖所示，ATLAS按照攻擊階段，劃分了偵查（Reconnaissance）、資源開發（Resource Development）、初始訪問（Initial Access）、機器學習模型訪問（ML Model Access）、執行（Execution）、持久化（Persistence）、防御逃逸（Defence Evasion）、發現（Discovery）、收集（Collection）、機器學習攻擊準備（ML Attack Staging）、數據外泄（Exfiltration）、影響（Impact）多個戰術并給出了詳細的技術詞表，以及相關的技戰術定義、緩解措施以及相關案例。

圖2 MITRE ATLAS矩陣知識庫

類似MITRE ATT&CK，ATLAS可以用于攻擊模擬、攻擊防御、攻擊評估等多維度的覆蓋率分析，或作為攻擊關聯分析的知識庫基礎。

另外一個可用來描述人工智能系統風險的框架，是美國國家標準技術研究所NIST于2023年1月最新發布的Artificial Intelligence Risk Management Framework (AI RMF 1.0)。該框架將從Plan and Design、Collect and Process Data、Build and Use Model、Verify and Use Model、Verify and Validate、Deploy and Use、Operate and Monitor以及Use or Impacted這7個生命周期，給出了涉及的人工智能的風險驗證關鍵過程和利益相關人員。

該框架不同于MITRE ATLAS，AI RMF 1.0從開發構建的DevOps流程的角度，即從AI應用的擁有方給出了風險暴露面及其管理機制。

圖3 《AI RMF 1.0》中的人工智能風險生命周期和責任歸屬

除了以上兩個框架，人工智能的攻擊面及風險分析，還可以參考中國信通院的《人工智能安全框架（2020年）》等。

圖4 中國信通院的《人工智能安全框架（2020年）》

HiddenLayer技術分析

以上簡要概述了人工智能技術及其系統的攻擊面風險的技術矩陣與地圖。接下來，我們重點解讀HiddenLayer的技術能力。

3.1

核心產品和服務

3.1.1 產品

HiddenLayer提供的平臺稱為MLSEC PLATFORM，主要包括三個核心子產品（工具），包括：

MLDR，機器學習威脅檢測與響應。能夠提供實時威脅檢測，提供包含告警、隔離、畫像和誤導（misleading）等響應操作，支持你可配置的精調選項。
Model Scanner，模型掃描器。能夠提供脆弱性識別，失陷模型識別，以及惡意代碼注入的檢測。
Security Audit Reporting，安全審計報告。全面的報告AI/ML資產風險狀態，可定制的儀表盤和報告功能，以及脆弱性的分級功能等。

基于上述產品能力，能夠提供對模型推斷和竊取、數據投毒、攻擊逃逸、模型注入等方法的攻擊檢測和響應。

3.1.2 核心服務

HiddenLayer官網給出了其“CONSULTING SERVICES”，具體又包括以下核心能力。

威脅建模（THREAT MODELING）通過綜合的調研和攻擊預演，全面的評估業務需求和AI/ML威脅攻擊面。通過場景化的分析，評估整體的AI/ML環境和資產風險，可以交付相關系統的威脅向量、可能性、影響、受影響的資產以及緩解和恢復工作。
機器學習的風險評估（ML RISK ASSESSMENT）分析機器學習模型的整個運營流程，并深入分析關鍵模型的風險，提供機器學習技術的投資風險分析。
專家培訓（EXPERT TRAINING）為數據科學和安全團隊提供了解AML TTP（針對機器學習的威脅、戰術和程序）和最有效的對策來保護系統免受這些威脅的影響。
紅隊評估（RED TEAM ASSESSMENT）通過攻擊滲透團隊（Adversarial Machine Learning Research, AMLR）進行實戰化攻擊滲透進行現有的機器學習系統防御有效性。
人工智能/機器學習的模型掃描（AI/ML MODEL SCANNING）使用其模型完整性掃描器來測試和確認現有相關模型的被攻陷、被篡改等風險。
MLDR實現服務（ML DETECTION & RESPONSE (MLDR) IMPLEMENTATION SERVICES）提供其無侵入式MLDR軟件的集成服務。

從以上核心產品、服務能力來看，HiddenLayer可以提供給服務，或軟件集成的方式，向人工智能/機器學習的服務商、使用方等企業，提供定制化的攻擊面識別、攻擊防護、攻擊模擬等核心能力。

3.2

AI攻擊風險覆蓋

HiddenLayer采用前述MITRE ATLAS框架來歸類其AI攻擊檢測與響應的技術，其技術平臺的AI攻擊風險覆蓋情況如下圖。在技術覆蓋方面，下圖給出的矩陣技術種類，少于最新的ATLAS官網的矩陣技術種類，因此暫時按照HiddenLayer給出的版本進行統計。整體上，可以看到對ATLAS的戰術覆蓋率為100%。其中，大類技術的覆蓋為92.3%（36/39）。這其中，其MLDR平臺覆蓋61.5%（24/39），MODEL SCANNER技術覆蓋17.9%（7/39），專業服務能力覆蓋12.8%（5/39），其他未覆蓋7.7%。未覆蓋部分，包括Physical Environment Access，Data from information Repositories以及Exfiltration via CyberMeans三項技術，主要是非防護系統機制可控的部分，例如物理訪問等。

圖5 HiddenLayer的ATLAS風險矩陣覆蓋情況

整體上看，HiddenLayer通過三項核心平臺、工具和服務能力，基本覆蓋了ATLAS給出的核心AI系統攻擊面。從以下HiddenLayer系統的展示來看，其MLDR平臺的檢測告警，給出了檢測告警名稱、嚴重程度、防護的模型名稱、ATLAS ID、時間信息、請求信息及擋墻告警的處置情況，以及整體的告警統計情況。

圖6 HiddenLayer MLDR平臺展示

3.3

核心技術詳解：MLDR

類似端點檢測和響應（EDR）、擴展檢測和響應（XDR）或托管檢測和響應（MDR）等傳統網絡空間檢測與響應技術，機器學習檢測和響應（MLDR）旨在識別和防止針對機器學習系統的攻擊。MLDR監控機器學習模型的輸入和輸出，即發送到模型的請求以及相應的模型預測。通過分析和識別惡意、可疑或異于常態的活動數據，MLDR能夠在早期實現攻擊檢測并提供應對措施。

HiddenLayer提供的MLDR，是一種輕量級的、外掛式無侵入的軟件防護系統，不依賴機器學習模型的“內生安全”機制。MLDR產品包含兩個部分：本地安裝的客戶端和基于云的分析端，客戶端通過API與云端傳感器通信。客戶端部署在客戶的環境中，類似防火墻集成到機器學習模型服務流程中，并將所有模型查詢的輸入向量以及相應的預測發送到HiddenLayer 的云端API。然后，該數據用來分析以檢測惡意或可疑活動。如果檢測到任何這樣的活動跡象，則會以所選擇的方式將警報發送回給客戶，可以集成到Splunk、DataDog、HiddenLayer UI或客戶端命令行腳本。

圖7 HiddenLayer MLDR框架

在數據遙測層面，很顯然，這種將數據傳輸到云端的方式會帶來數據和隱私泄露的風險。HiddenLayer的MLDR解決方案是，后向量化方法。即HiddenLayer的客戶端只抽取機器學習模型向量化后的數據——匿名化的特征向量發送到云端的分析API。該客戶端可以使用單個命令安裝，并可以在幾分鐘內無縫集成到客戶的MLOps管道中。

在檢測機制層面，具體的方法我們不得而知，官方博客中顯示其技術是啟發式方法和機器學習分析技術的融合方法。
在告警機制層面，如前所述，能夠將檢測告警映射到MITRE ALTAS機器學習攻擊風險矩陣當中，并統一集成到各類SIEM平臺。
在攻擊響應層面，MLDR可以實現1）限制特定模型或請求者的訪問速率或封鎖惡意訪問；2）改變分類分數以防止梯度/決策邊界的發現；3）將流量重定向并對攻擊進行持續畫像；4）引入人類干預，支持手動分類和響應。

HiddenLayer給出幾個典型的針對機器學習系統的攻擊案例，介紹了其MLDR的檢測效果。例如，MLDR能夠快速檢出基于強化學習的惡意軟件生成框架MalwareRL生成的惡意樣本。其中，針對圖像單像素擾動攻擊，可通過監控帶有微小修改的大批圖像的輸入向量來檢測；針對HopSkipJump攻擊這種模型欺騙技術，可通過使用個別請求者模型輸入的時間序列的各種距離度量來進行識別；針對基于KnockOffNets框架模型推斷的模型竊取行為，通過輸入向量和預測結果序列的異常分析來檢測，類似一種多實體橫向分析UEBA方法。

圖 8 HiddenLayer MLDR檢出Malware生成的惡意樣本

總結

HiddenLayer提供針對機器學習和人工智能系統的攻擊檢測與響應技術、模型脆弱性掃描技術以及風險分析報告技術。這些技術構成了針對機器學習和人工智能系統的一套風險管控套件。整體上技術的構建框架和構建思路，遵循傳統網絡空間防護技術攻擊面識別、檢測響應等維度的基本框架。同時，HiddenLayer從AI/ML領域的最新研究技術出發，充分覆蓋了MITRE ATLAS框架中涉及的攻擊技戰術矩陣，給出了合理的，同時保護客戶隱私的檢測分析技術解決方案。

站在ChatGPT的人工智能發展的風口上，HiddenLayer給出了相對完整、可信的人工智能/機器學習模型及系統安全解決方案，為此筆者相信，HiddenLayer將是本界RSA創新沙盒冠軍的有利沖擊者。