<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    專題研究 | Palantir 大數據能力分析研究

    VSole2021-09-21 07:23:09

    前言

    Palantir公司名稱來源于《指環王》,palantir是“seeing-stone”,可穿越時空、洞悉世間一切。公司于2003年5月注冊成立,總部設在美國科羅拉多州的丹佛,專門從事大數據分析。2020年9月29日登陸紐交所,估計潛在市場超過千億美元。公司強大的大數據能力能夠幫助客戶從所獲取的數據中產生實時準確決策并產生正確的行動,并且在數據使用過程中保護數據安全。其客戶包括CIA、DHS、NSA、FBI、海軍陸戰隊、空軍和特種作戰司令部等。最出名的案例是以大數據能力幫助美國軍方成功定位和擊斃基地組織首腦本拉登。本文首先介紹了Palantir公司典型案例與核心產品特性,其次從中分析梳理出了隱藏在產品特性中的關鍵技術,最后給出在研究過程中獲得的啟示并提出幾點建議,尤其是,必須要及早開展對手“Palantir級”大數據能力對我們的安全威脅分析。

    一、典型案例

    一是幫助美軍成功定位和擊斃基地組織首腦本拉登。Palantir公司軟件與專業人員合作,通過搜索與分析包括財政記錄、DNA樣本、聲音樣本、視頻剪輯、地圖、平面圖以及來自世界各地的情報等所有可用數據庫,識別出了有隱藏關系的信息,抽絲剝繭,成功找到本拉登藏身之所[1]。在講述本拉登喪命經過的《終結》一書中,作者如此描述Palantir公司:“Palantir公司的軟件是名副其實的‘殺手級’應用。公司里的數據分析人員會空降到客戶總部進行程序定制。這些數據分析人員把繁雜的大量信息變成直觀的關聯圖、柱狀圖、可視化地理分布圖。只需給工程師們幾天時間,讓他們分析、標記和整合所有零碎數據,該公司就能弄清楚所有的問題,包括恐怖主義。”[2]

    二是幫助美國證監會發現麥道夫“龐氏騙局”。Palantir公司軟件與專業人員合作,通過整合長達40年的海量交易記錄數據,在進行復雜的分析之后,發現了納斯達克前主席麥道夫的龐氏騙局,幫助多家銀行追回了麥道夫隱藏起來的數十億美元巨款[3]。

    二、核心產品

    一是Gotham。產品Gotham用于幫助客戶集成、管理、保護和分析來源廣泛、類型異構的大數據,幫助客戶有效地向數據提問并給出客戶可理解的答案。Gotham能夠高效集成和管理數據,將所有數據轉換成為單一的、一致的數據資產,將數據融合到以人為中心的模型中,數據因而被映射到人、地點、事物和事件等有意義的對象以及對象的關聯關系中,從而為數據的理解與應用奠定基礎。Gotham能夠標記、保護和跟蹤數據,在數據持續不斷流入產品期間應用安全規則,只有授權用戶才能訪問數據,當用戶處理數據時,會跟蹤和記錄所有操作。Gotham能夠高效分析大數據,搜索所有數據源,探索對于數據不同的假設,發現數據中隱藏的未知聯系和模式,能夠將人和數據有機融合在一起,當用戶進行協作分析時提高數據分享效率。

    二是Foundry。產品Foundry用于為客戶提供開放、互操作、可擴展平臺,幫助客戶實現快速的端到端的數據轉變,把數據轉變為決策,最終轉變為正確的行動。Foundry具備開放的API和數據格式,允許多樣化的分析工具接入,從而提供多樣化的高級分析能力。Foundry能夠將復雜的數據轉變為整個組織的人員都可理解的通用本體與知識圖譜,能夠使組織的整個數據生態系統互操作,使數據集和分析結果不斷反饋到產品中,從而使不同人員在彼此工作成果基礎上進行不斷迭代的深化分析,推動大規模協作。Foundry使得數據、分析以及目標知識的獲取成為一個循環互生的過程,分析的過程也成為對數據豐富的過程,數據的豐富又對分析反哺,從而使得對數據的持續分析衍生出更多可能性。

    三、關鍵技術

    一是數據預處理類技術。包括大規模數據噪聲消除技術,消除從不同來源采集到的數據中可能存在的冗余、錯誤、不精確等類型噪聲;多源異構數據統一化模型構建技術,通過統一化的模型描述多源異構數據;通用本體與知識圖譜構建技術,通過本體與知識圖譜方法組織數據;數據間關系圖構建技術,將數據之間直接的顯然的聯系通過圖數據結構表達;數據地理空間映射技術,將網絡空間中的數據與數據在物理空間中產生的地理位置、物體、事件等關聯。

    二是數據存儲類技術。主要包括內存數據庫技術,基于全新體系結構,改進數據緩存、并行操作等,將大量數據主拷貝常駐內存,大數據分析只與實時內存數據拷貝交互。

    三是數據分析類技術。包括大規模圖結構分析技術,分析以大規模圖數據結構描述的海量數據,從中提取出數據間隱含關系、數據異常值等高價值信息;流數據實時融合處理技術,實時分析以流形態輸入的數據,實時地將最近流入的數據與此前的數據及其分析結果融合處理,從中提取出數據變化趨勢等高價值信息;事件序列分析技術,分析以時間先后順序以事件形式描述的數據集合,從中提取出事件歷史走向、異常拐點等高價值信息;地理空間分析技術,分析與地理空間直接關聯的位置、物體、事件等數據,從中提取出目標活動規律等高價值信息;未知模式發現技術,分析大量的異構多源數據,從不同歸屬的數據集合中提取數據之間預期之外的隱藏聯系等高價值信息;新舊數據關聯關系實時發現技術,實時分析最近輸入數據,從中提取出其與已經存在的數據之間的關聯;行動結果數據增量分析技術,分析由此前的數據分析流程產生的決策而導致的行動所產生的新數據,將其輸入分析流程,從中產生對態勢新的理解以及對行動決策的調整;數據分析圖形化操作技術,將數據集合、關系、模式等以點、線、塊等進行圖形化表示,并以圖形元素的拖動、連接等操作便捷地進行分析任務的表達;數據統一搜索技術,構建格式統一、語法靈活的數據搜索語言,支持使用一種語言對結構化、半結構化、無結構化等異構數據的搜索;數據同步與信息一致化技術,保持在廣域分布式協同化數據分析任務中各個不同分析站點中數據變化的同步,保證所提取的信息在不同應用中一致。

    四是數據可視化類技術。包括事件序列可視化技術,依照時間先后順序動態展示變化中的事件數據,將事件的歷史走向、異常拐點等充分可視化;數據地理空間屬性可視化技術,在底層地圖之上展示與地理空間直接關聯的位置、物體、事件等數據,將目標活動規律等充分可視化;數據關系可視化技術,將不同數據點、數據集合之間的靜態、動態關系,通過圖形化、時間線等方式充分可視化;關鍵數據子集合展示技術,根據具體任務需求通過數據分析提取出的關鍵數據子集合,通過透視化、細節化等方式充分可視化。

    五是數據接口類技術。包括人工直覺機器語言編碼技術,將數據分析任務參與人員由于此前相關工作經驗積累與知識擴充等因素導致產生的對于當前任務中的數據、數據間關系、數據對任務支撐等方面產生的直覺,使用能夠使計算機理解的方式進行編碼,輸入至數據分析流程中;數據池自然語言查詢與反饋技術,根據分析任務不同階段對不同數據的需求,以自然語言方式,向由海量異構多源數據組成的數據池提出所需求數據的查找請求,并將數據池反饋的數據輸入分析任務流程;分布式協作數據共享技術,根據在多個地域、多個不同組織之間協作分析的任務具體需求,在廣域網上構建高安全虛擬專用數據網絡,以鍵值對KV數據庫表示待共享的數據,高效進行數據共享;多樣化分析工具集成技術,根據多樣化的數據分析任務需求,將不同的第三方數據分析工具快速融入任務流程,與任務中現有工具分工配合,擴展數據分析廣度與深度。

    六是數據安全保障類技術。包括數據訪問控制技術,通過綜合使用基于人員的、基于任務的、基于數據屬性的等多類訪問控制手段,嚴格保障只能由必須的人員在必須的時間和必須的地點對必須的數據進行訪問;數據操作跟蹤記錄技術,通過元數據記錄、數據庫日志、數據運算記錄、數據通信記錄等多個方面,持續記錄所有在數據上進行的操作。

    四、啟示建議

    數據,已經與土地、勞動力、資本、技術并列,成為我國第五大生產要素。對數據的收集、分析、利用、保護,將對大眾生活、社會生產、國家安全等產生越來越重要的影響。

    Palantir公司在幫助美軍成功定位和擊斃基地組織首腦本拉登等事件中,展示出世界頂尖的大數據能力。這種頂尖能力,一方面值得我們學習借鑒,另一方面必須引起我們高度警惕。由此,提出如下幾點建議。

    一是建議加速構建關鍵應用領域“Palantir級”大數據能力。在開源情報、網絡治理等關鍵應用領域,集合頂尖研究力量,加速突破大規模圖結構分析、未知模式發現等一系列關鍵技術,在此基礎之上迅速構建出基于大數據的開源情報精準獲取與分析、網絡輿情發展預測與管控等急需能力。

    二是建議及早開展對手“Palantir級”大數據能力對我們的安全威脅分析。對手“Palantir級”大數據能力,能夠從大數據中發現其它人與技術發現不了的模式、關系等新信息,這些新信息可能對我們的安全威脅造成極大隱患。這些隱患,可能是我們當前沒有充分意識到的。建議及早開展對手“Palantir級”大數據能力對我們的安全威脅分析,特別要重視對手先進人工智能技術的應用中,可能從我方“自認為已脫敏”的公開數據中分析獲取到的新信息,以及這些新信息對我們潛在的安全威脅。

    三是建議加速構建公開數據安全預處理能力。對手令人恐懼的“Palantir級”大數據能力,可能對我們造成極大威脅。我們的每一項公開數據,在我們眼里,在我們的“有限認知”里,肯定認為是可以公開的,對我們的隱私、安全等不會造成損害的。然而,在具備“Palantir級”大數據能力的對手眼里,在他們的“超出我們認知范圍外的認知”里,我們一項又一項的公開數據之間,可能就已經隱藏了損害我們的隱私、安全等的新信息,而這些新信息,對手的“Palantir級”大數據能力卻能夠挖掘出來。為了防范此類隱形威脅,我們必須加速突破數據本地擾動等一系列關鍵技術,構建公開數據安全預處理能力,使得對手的“Palantir級”大數據能力無法從我們的公開數據中挖掘出損害我們隱私、安全等的新信息。

    四是建議超前布局“對抗性”大數據能力。當對手在公開數據前對數據進行多類安全預處理后,我們現有的針對分析對手的大數據能力可能大面積失效。為了應對未來可能出現的此類“對抗性”局面,建議及早技術布局,針對進行安全預處理后的數據的處理分析難題,進行原始創新,突破一系列關鍵技術,構建獨步天下的“對抗性”大數據能力。

    參考文獻:

    [1] “基于數據挖掘的犯罪信息分析模型研究與應用”,湖南大學工程碩士學位論文,2018年。

    [2] “大數據在涉恐人員管控中的應用研究”,中國人民公安大學碩士學位論文,2018年。

    [3] “Leaked documents:Bernie Madoff convicted thanks to mysterious Palantir technology”,

    https://www.bizjournals.com/bizjournals/news/2015/01/12/leaked-documents-bernie-madoff-convicted-thanks-to.html

    (全文完)

    大數據palantir
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    Palantir公司名稱來源于《指環王》,palantir是“seeing-stone”,可穿越時空、洞悉世間一切。公司于2003年5月注冊成立,總部設在美國科羅拉多州的丹佛,專門從事數據分析。2020年9月29日登陸紐交所,估計潛在市場超過千億美元。
    此前,本公號發表過的關于數據要素治理的相關文章包括: 《非個人數據在歐盟境內自由流動框架條例》全文中文翻譯(DPO沙龍出品) 簡析歐盟《數字市場法》關于數據方面的規定 數據流通障礙初探——以四個場景為例 對“數據共享合法化”的分析與思考系列之一:以《關于歐洲企業間數據共享的研究》為起點 對“數據共享合法化”的分析與思考 系列之二 ——歐盟B2B數據共享的案例研究 對“數據共享合法化”的分析與思考
    摘 要:互聯網開源信息處理是指從互聯網上的公開信息源獲取數據并分析處理,進而獲得有價值的開源信息的過程。為充分了解國外互聯網開源信息處理的研究現狀,從開源數據采集、預處理、信息分析、決策支撐、相關系統等角度對近年來國外有關研究進行梳理,總結現有研究存在的普遍性問題,對未來研究進行展望。
    未來十年,我國網絡安全產業的中國式現代化發展之路會怎么走?
    以網絡安全企業和相關專業服務機構為主體的網絡安全產業滿足了絕大部分個人和商業機構信息化應用的安全保障需求,也承擔了眾多政府部門和部分特殊行業的安全保障工作。
    FIRST 2022 議題速遞
    2022-07-28 08:21:45
    FIRST 是成立于 1990 年的非營利組織,匯聚了全球的安全團隊和安全研究人員,旨在共同維護全球互聯網的安全。如今,已有全球 101 個國家的 635 個安全團隊加入了 FIRST,其中中國大陸參加的組織包括中國國家計算機網絡應急技術處理協調中心(CNCERT/CC)、中國移動、阿里、騰訊、奇安信等。
    由白宮支持并由科技巨頭Peter Thiel, Eric Schmidt和Craig Newmark提供部分資金的投資基金正在押注“深度技術”將使美國比中國更具優勢——尤其是在網絡安全方面。吉爾曼·路易 (Gilman Louie) 表示,美國需要做更多的事情來贏得“大國競爭”,這意味著支持人工智能、量子計算、聚變、微電子、6G通信、先進制造和合成生物學等領域的技術創新。
    隨著網絡空間安全上升為國家戰略,安全需求已由單一的軟硬件產品提供轉向全面專業的安全運營服務模式,各安全廠商爭先提出安全運營整體解決方案,安全即服務成為網絡安全產業發展重點。通過對網絡安全服務的國內外產業發展現狀進行分析,結合工程實踐提出針對網絡安全全生命周期的服務體系,并從技術創新和商業模式創新兩個方面對網絡安全服務產業發展提出建議。全面的分析和研究網絡安全服務的產業現狀、體系和發展建議,對完善優
    隨著春運出行高峰臨近,消費者頻繁買年貨、預訂機票和酒店,數據“殺熟”相關話題又登上熱搜。近期有媒體報道,在同一平臺、同一時間、預訂同一航班,3部手機機票差價高達930元。還有消費者在訂餐時,發現自己等級較高的賬號顯示的價格貴,等級較低的反而有優惠。
    數據農業
    2023-11-28 14:39:23
    數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类