數據共享/集成與數據安全似乎天生就是一對矛盾體。企業的營銷、銷售和人力資源等部門之間不斷增加的數據流在推動決策質量、增強客戶體驗、提高業務績效方面發揮著重要作用,但這同時也會對數據安全和合規性產生嚴重影響。

本文將首先討論原因,然后介紹安全集成數據的三個核心原則。

危險的數據訪問民主化

當今市場上有大量功能豐富到令人難以置信的無代碼和低代碼工具,可用于移動、共享和分析數據。提取、轉換、加載(ETL)和提取、加載、轉換(ELT)平臺、iPaaS平臺、數據可視化應用和數據庫即服務,這意味著非技術專業人員也可以相對輕松地使用這些平臺,而管理員的監督力度則越來越小。

此外,隨著企業SaaS應用數量不斷增長,對自助服務集成的需求只會不斷增加。

許多此類應用程序(如CRM和ERP)包含敏感的客戶數據、工資單數據、發票數據等。這些數據過去往往有嚴格控制的訪問級別,因此只要數據保留在系統中,就不會有太大的安全風險。

但是,一旦您從這些環境中獲取數據并將其提供給完全不同的訪問級別控制的下游系統,就會出現我們可以稱之為“訪問控制錯位”的情況。

例如,在倉庫中處理ERP數據的人員與原始ERP操作員的置信度和訪問級別是不同的。因此,簡單地將應用程序連接到數據倉庫(這將越來越頻繁),您將面臨泄露敏感數據的風險。例如,違反歐洲的GDPR或美國的HIPAA等法規,以及SOC 2 Type 2等數據安全認證的要求,更不用說利益相關者的信任了。

安全數據集成的三個核心原則

如何防止敏感數據不必要地流向下游系統?如何在數據分享時確保其安全?如果發生安全事件,如何減輕損失?

這些問題將通過以下三個安全數據集成的核心原則來解決:

原則一:單獨的關注點

通過分離數據存儲、處理和可視化功能,企業可以將數據泄露的風險降至最低。

想象一下,如果你經營一家電子商務公司。你的主生產數據庫(連接到您的CRM、支付網關和其他應用程序)存儲所有庫存、客戶和訂單信息。隨著公司的發展,您決定開始聘請數據科學家。后者上崗后的第一件事就是要求訪問包含上述所有信息的數據集,以便他們可以編寫數據模型,比如說,天氣如何影響訂購過程,或者特定品類中最受歡迎的商品是什么。

但是,讓數據科學家直接訪問主數據庫并不可行。因為即使科學家們并無惡意,但他們依然可能(無意中)將敏感的客戶數據從該數據庫導出到未授權用戶也可以查看的儀表板。此外,在生產數據庫上運行分析查詢可能會將數據庫速度拖慢到無法操作的地步。

這個問題的解決方案是明確定義需要分析的數據類型,并使用各種數據復制技術將數據復制到專門為分析工作負載(如Redshift、BigQuery或Snowflake)設計的輔助倉庫中。

通過這種方式,您可以防止敏感數據流向下游的數據科學家,同時為他們提供一個與生產數據庫完全分開的安全沙盒環境。

圖片來自 Dataddo

使用數據排除和數據屏蔽技術

數據排除和數據屏蔽技術有助于分離關注點,因為它們能完全阻止敏感信息流向下游系統。

事實上,大多數數據安全和合規問題實際上可以在從應用程序中提取數據時立即解決。畢竟,如果沒有充分的理由將客戶電話號碼從您的CRM發送到您的生產數據庫,為什么要這樣做?

數據排除的方法很簡單:如果你有一個系統,允許你像ETL工具一樣選擇要提取的數據子集,你可以不選擇包含敏感數據的子集。

當然,在某些情況下確實需要提取和共享敏感數據。這時候就需要用到數據屏蔽/哈希。

例如,假設您要計算客戶的運行狀況評分,唯一合理的標識符是他們的電子郵件地址。這將要求您將此信息從CRM提取到下游系統。為了保證它端到端的安全,您可以在提取時對其進行屏蔽或哈希處理。這保留了信息的唯一性,但使敏感信息本身不可讀。

數據排除和數據屏蔽/哈希都可以使用ETL工具實現。

值得一提的是,ETL工具通常被認為比ELT工具更安全,因為ETL允許在將數據加載到目標系統之前對其進行屏蔽或哈希處理。有關更多信息,請參閱ETL和ELT工具的詳細比較。

保持強大的審核和日志記錄系統

最后,確保有一個強大可靠的審核和日志系統,可查詢誰在訪問數據以及數據正如何流動。

當然,這對于合規性也很重要,因為許多法規要求企業證明他們正在跟蹤對敏感數據的訪問。但日志系統對于快速檢測和響應可疑行為也至關重要。

審計和日志記錄既是公司本身的內部責任,也是數據工具供應商的責任,如流水線解決方案、數據倉庫和分析平臺。

因此,在評估數據堆棧中添加日志工具時,請務必注意它們是否具有完善的日志記錄功能、基于角色的訪問控制和其他安全機制,如多重身份驗證(MFA)。SOC 2 Type 2認證也是加分項。

這樣,如果確實發生了潛在的安全事件,您將能夠進行取證分析并減輕損害。

總結:訪問與安全不是零和游戲

隨著時間的推移,企業將越來越多地面臨共享數據的需求,以及確保數據安全的需求。幸運的是,滿足其中一個需求并不一定意味著要犧牲另一個需求。

以上介紹的三個安全數據集成原則可以作為所有企業的安全數據集成策略基礎:

首先,確定可以共享哪些數據,然后將其復制到安全的沙盒環境中。

其次,盡可能通過將敏感數據集從管道中排除,將敏感數據集保留在源系統中,并確保對確實需要提取的任何敏感數據進行哈希處理或屏蔽。

第三,確保您的業務本身和數據堆棧中的工具具有強大的日志記錄系統,以便在出現任何問題時,您可以最大限度地減少損害并正確調查。