網絡涉恐信息的識別發現與治理路徑
恐怖主義給世界各國人民帶來了巨大的災難和傷痛,嚴重威脅國際社會安全穩定。隨著國際反恐力度的加大,恐怖組織的物理活動空間受到極大壓縮,其恐怖活動的形式開始由線下轉為線上,互聯網成為恐怖組織策劃、煽動實施恐怖活動的重要手段和渠道。網絡涉恐信息隱蔽性強、影響力大,傳遞迅速、易于擴散且很難控制,識別與發現網絡涉恐信息,成為預防并從源頭打擊恐怖主義泛濫的主要手段。
一、從源頭清理網絡涉恐信息,及時阻斷恐怖主義網絡傳播
雖然網絡涉恐信息的內容和表現形式不同,但是,歸根結底,我們主張,凡是在網絡空間宣揚煽動恐怖主義的都是網絡恐怖活動,凡是聯合國認定的恐怖組織在網上的一切活動都是網絡恐怖行為,網絡恐怖活動和網絡恐怖行為產生的信息,都屬于網絡涉恐信息的范疇。
總體看,網絡涉恐信息主要包括以下四類:第一,煽動進行“圣戰”,聲稱要摧毀異教徒,招募自殺式恐怖主義襲擊者,煽動以“圣戰”殉教的狂熱,時刻保持戰爭狀態;第二,傳授恐怖主義實施的方法和技術,發布恐怖分子訓練手冊,傳授制爆方法和技術;第三,宣揚宗教極端思想,鼓吹除了真主以外,不服從任何人,公開抵制政府管理,歪曲、詆毀黨和國家政策;第四,煽動民族仇恨,以各種蠱惑人心的方法,公開煽動民族仇恨、民族歧視,煽動世界的穆斯林向異教徒發動“圣戰”,呼吁世界穆斯林對“圣戰者”進行援助。識別與發現網絡涉恐信息,從源頭上清理網絡涉恐信息,才能及時阻斷恐怖信息的網絡傳播。
(一)網絡涉恐信息是當前最主要的恐怖主義信息存在形式
恐怖組織利用網絡進行招募、宣揚極端主義思想,以及通過網絡進行恐怖主義融資等,這種以網絡為工具的工具型網絡恐怖主義傳播最重要的載體就是網絡涉恐信息。恐怖組織不斷加大利用網絡進行恐怖主義活動的力度,運用網絡涉恐信息為恐怖主義思想的傳播推波助瀾。自殺式恐怖襲擊、“圣戰”殉教、本· 拉登、“基地”組織等這些詞匯,越來越多地被視為一種符號性的精神感召。網絡涉恐信息承載了這種虛無縹緲的、意識形態化了的極端思潮,成為恐怖主義思想泛濫的極大隱患。
(二)識別與發現網絡涉恐信息是防范恐怖主義的第一步
人類社會進入互聯網時代,恐怖組織和恐怖分子在策劃組織恐怖襲擊時也會借助互聯網。恐怖組織會利用互聯網獲取情報、策劃行動;會利用搜索引擎檢索查找相關信息,搜索恐怖襲擊目標的結構、布置,以及周邊環境;會利用電子地圖規劃路線,做到人不出戶,卻已踩點;會查找可能的實施恐怖襲擊的地點及交通線路。恐怖分子還會利用社交網絡獲取進一步的信息,會借助某些社交網絡平臺進行行動前的效忠宣誓。在策劃階段,恐怖分子會在網絡上留下各種涉恐信息。在行動開始前和行動中,會利用網絡電話、小眾 App 等進行通信和勾連,用以協調行動。如果能識別和發現這些零散的、隱蔽的信息,并固定下來,梳理成為一條完整的鏈條,將會快速鎖定涉恐嫌疑人,迅速啟動應急響應方案,為預防恐怖主義事件發生奠定基礎。
(三)及時清理網絡涉恐信息切斷恐怖信息網絡傳播的渠道
對于普通人來說,最有可能接觸到恐怖主義思想的途徑就是網絡,網絡涉恐信息的存在成為吸引具有極端思想的個體加入恐怖組織的主要方式。網絡涉恐信息鼓勵個體發動獨狼式恐怖襲擊,直接危害社會,或者發布謠言,制造恐怖氣氛。媒體是恐怖主義的氧氣,宣傳是恐怖主義的母乳,及時清理網絡涉恐信息,就是切斷恐怖組織賴以生存的氧氣和母乳供給,從源頭上消除恐怖信息的網絡傳播。
二、網絡涉恐信息識別發現的一般路徑
識別與發現網絡涉恐信息,首先要確定數據源,這是劃定網絡涉恐信息的源頭,從根本上解決從哪兒識別的問題;接下來就是建立涉恐關鍵詞庫,解決用哪些詞進行篩查的問題,用大量樣本對計算機進行訓練,使計算機進行自動識別,提高識別效率;除了關鍵詞搜索之外,網絡涉恐信息還包含涉恐嫌疑人在網上的與恐怖主義有關的行為軌跡,例如觀看暴恐音視頻、進行網上的恐怖融資等,建立涉恐行為軌跡數據庫,可以完整勾勒涉恐嫌疑人的網絡涉恐行為,挖掘出隱藏的網絡涉恐信息。在涉恐關鍵詞庫和特征行為庫的基礎上,構建基于場景的業務特征模型,在不同的場景下感知并發現網絡涉恐信息。
(一)確定數據源是識別和發現網絡涉恐信息的首要工作
對網絡涉恐信息可能存在的數據源的確定是識別和發現網絡涉恐信息和數據的首要準備工作,這些數據源大多是開源數據,相對零散地散布在網絡空間。
恐怖組織發布網絡涉恐信息的方式呈現多層次、多渠道的特征,一般來說,主要有以下幾種方式。一是自建網站,通過建立自上而下的網站,專門發布暴恐音視頻等涉恐信息。幾乎所有活躍的恐怖主義組織都有自建的網站,甚至為了躲避政府審查與封鎖,各網站還建有多個鏡像。在這些恐怖組織的自建網站中,無一例外都有自己的組織“章程”,發展歷程、該恐怖組織的政治主張,以及關于“領導人”“烈士”的簡介等。二是利用現有通用的大型互聯網網站建立宣傳發布平臺,恐怖組織在各大平臺開通博客,發布恐怖組織的招募、宣揚信息。三是設置互動式論壇,利用社交網站進行恐怖主義思想的傳播和擴散。四是利用即時通信軟件進行溝通協調,恐怖組織使用各種即時通信方式進行通信。五是利用大型網盤音視頻分享網站服務提供恐怖音視頻下載。恐怖組織在各大網盤和音視頻分享網站注冊賬號,上傳實體文件,供恐怖分子瀏覽下載。
(二)建立關鍵詞庫明確搜索意圖進而定向追蹤涉恐嫌疑人
關鍵詞也稱關鍵字,是網站的三個要素之一(三個要素包括標題、描述和關鍵字)。它可以是一個詞或一個短句子。關鍵詞搜索是搜索引擎索引的主要方式之一,搜集某一個領域的常用關鍵詞并對其進行拓展,篩選優質關鍵詞并進行歸類,測試關鍵詞的流量、點擊和轉化,就可以在一定程度上認識某些用戶對某領域的搜索意圖。如果能夠梳理網絡涉恐信息這一領域的常用關鍵詞,可以對某個用戶搜索這些關鍵詞的流量和點擊率進行分析,就能夠摸清楚一些用戶搜索的意圖。從更深的層次講,可以通過關鍵詞搜索記錄,定向刻畫某些有涉恐嫌疑的人群,通過搜索流量的入口對其進行控制。
(三)建立行為軌跡特征庫可以幫助刻畫涉恐嫌疑人特征
軌跡行為特征分析是刻畫對象基本特點最直觀、高效的分析方式之一。人類行為是人類在生活中表現出來的生活態度及具體的生活方式,它是在一定的物質條件下,不同的個人或群體,在社會文化制度、個人價值觀念的影響下,在生活中表現出來的基本特征,或對內外環境因素刺激所做出的能動反應。社會學認為,人的行為特征是自發的、有原因的、有目標的、持久性的、可改變的。
從網絡涉恐信息中提取涉恐嫌疑人的行為軌跡,也會在一定程度上刻畫出涉恐嫌疑人特征。涉恐嫌疑人會自發搜索涉恐關鍵詞,且在網上網下做出的行動都出于一定原因,這些行為跟他的自身需求有關,也跟這種行為導致的后果相關。例如,涉恐人員突然不參與正常的社會交往,行為詭秘,與行為異常人員接觸,利用手機短信及微信等社交聊天軟件交流學習、閱讀非法宗教宣傳品,推薦非法宣傳品資料、文件等,這些行為都帶有其明確的目的性,是其極端思想外化的外在反應。犯罪嫌疑人的涉恐行為并非盲目的,它不但有起因,還有目標,都是為其實施恐怖主義活動進行鋪墊和策劃,這種行為,一般來說,又是持久性的,在目標沒有達成以前,是不會終止的。涉恐嫌疑人也許會根據不同的社會環境改變行為方式,或因為被打擊力度增強由外顯行為轉為潛在行為,但總是不斷地向著目標進行。涉恐嫌疑人的行為又是動態改變的。為了實現其設定目標,他們不僅經常改變行為方式,而且經過學習或訓練還會改變行為的內容。從網絡涉恐信息中提取這些行為信息,可以為準確判斷涉恐嫌疑人的動機提供依據。
(四)建立業務特征模型庫感知不同場景下涉恐對象的行為軌跡
恐怖主義是不對稱沖突中的政治暴力,通過暴力使他人受害或破壞非戰斗目標(一般是具有標志性的事物),試圖引起恐慌及心理上的畏懼。恐怖主義的目標是要透過暴力的表述在傳媒面前曝光以達到最佳的宣傳效果,以影響目標觀眾及達到短期或中期的目的,并進一步追求長期的最終目的。
通過對重大暴恐襲擊事件的分析,不難發現,恐怖襲擊要針對的目標特征明確,一般都是一個國家或地區的標志性建筑,或者是遭受恐怖襲擊可能造成重大的人身傷亡、財產損失或者社會影響的單位、場所、活動、設施,通過對這些重點場所的襲擊,以展示其威力并試圖動搖國家的根基,給遭受襲擊的國家政府帶來負面影響,從另一個方面提升恐怖組織的聲望及意識形態。一般來說,重點場所包含政治標志性建筑、劇場劇院、經濟中心建筑、人流量較大的火車站、客運站、地鐵站等。對于不同的場所的關注,網絡涉恐信息會表現出不同的特征。對這類網絡涉恐信息的識別與發現,可以感知在每個場景中涉恐對象的行為軌跡,及時做出預警。
三、網絡涉恐信息識別發現的技術支撐
網絡涉恐信息海量龐雜,實現計算機初步自動識別發現涉恐信息,是真正盤活數據,使數據發揮最大作用的基礎。利用知識圖譜技術,從實體的建立、實體屬性的添加和完善、規則的建立,以及基于規則的自動推理,最后實現可視化展示的層面,并完整刻畫網絡涉恐信息的識別與發現過程。知識圖譜并不是單一技術,而是一整套數據加工、存儲及應用流程,主要包含知識表示、知識抽取與知識挖掘、知識存儲與知識融合、知識檢索與知識推理。
(一)知識圖譜概念的初衷是增強用戶搜索質量及體驗
知識圖譜概念最早在 2012 年 5 月由谷歌正式提出,其初衷是為了優化搜索引擎返回的結果,增強用戶搜索質量及體驗。知識圖譜由一條條知識組成,每條知識表示為一個主謂賓的三元組(SPO),在邏輯結構上可分為模式層與數據層兩個層次,數據層主要由一系列事實組成,而知識將以事實為單位進行存儲。
(二)通過知識圖譜技術體系建設高質量的知識庫
知識表示就是對知識的一種描述,是對知識的一組約定,是一種計算機可以接受的用于描述知識的數據結構。知識表示是知識圖譜構建與應用的基礎。知識抽取,即從不同來源、不同結構的數據中進行知識提取,形成知識(結構化數據)存入知識圖譜。知識存儲是將有價值的知識經過選擇、過濾、加工和提煉后,按照一定的規則保存在適當媒介內,以利于需求者更為便利、快速地使用,并隨時更新和重組其內容和結構的活動。知識推理就是在已有知識的基礎之上,推斷出未知的知識的過程,進一步挖掘隱含的知識,從而豐富、擴展知識庫。知識表示、知識存儲和知識推理構成了知識圖譜的技術體系。
對網絡涉恐信息的識別與發現,可以通過輸入大量結構化或非結構化的包含涉恐信息和無關信息的數據,通過知識抽取技術,從這些數據中提取出與恐怖主義相關的實體、關系、屬性等知識要素,通過知識融合,使來自不同情報源的信息在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟,達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。
(三)基于知識圖譜進行業務模型數據驗證
利用知識圖譜技術,對形成的基于場景的業務模型要進行數據驗證。可以自建數據集,用現有的已經判定為恐怖主義犯罪的案例,同時,進一步擴充實踐數據。若能真正應用于現有數據平臺,則會對據此建立的模型有較大程度的改進,也會實際作用于實戰,為網絡涉恐信息的識別與發現進行初步的數據篩選,提高反恐工作效率,為后續的人工研判進行初步的數據準備。
四、網絡涉恐信息的治理路徑
網絡涉恐信息的肆虐和泛濫已引起國際社會的高度關注和警覺。聯合國安理會已通過 2129 號、2178號決議,要求國際社會加強對網絡恐怖主義的打擊力度。2129 號決議強調,恐怖分子及其支持者越來越多地利用互聯網進行恐怖活動,聯合國的反恐機構要會同各國和有關國際組織加強打擊恐怖組織和恐怖分子利用互聯網煽動招募、資助恐怖活動等行為。2178 號決議再次要求成員國竭力防止恐怖主義利用互聯網從事恐怖活動,鼓勵成員國打擊網上暴力極端主義的言論,共同采取措施防止恐怖分子利用恐怖音視頻進行恐怖活動。網絡涉恐信息不局限于某個國家、某個領域、某個平臺,每一個國家、企業、個人都必須承擔相應的責任和義務,對網絡涉恐信息源頭早杜絕、早發現、早處置,切斷網絡涉恐信息的傳播路徑。
(一)完善監管機制,加大對網絡運營商的監管力度
在網絡“信源→信道→信宿”結構關系中,網絡服務提供者對應的是“信道”這一網絡信息傳輸中具有中樞地位和作用的信息橋梁和通道。利用網絡所實施的恐怖行為會在網絡運營商的管理領域留下痕跡。
《中華人民共和國反恐怖主義法》第十八條、第十九條、第二十一條對電信業務經營者、互聯網服務提供者的技術支持、監管義務和網絡實名制安全查驗和安全管理義務都做了明確規定,并在第八十四條對電信業務經營者、互聯網服務提供者的相關責任義務不履行的狀況進行了相應的處罰規定。從法律條文角度分析,對網絡涉恐信息的識別與發現,其責任主體是網絡服務商,執法部門是公安機關和國家安全機關,責任主體的義務主要表現為技術支持、監管和實名制安全查驗管理,責任主體若違法需承擔明確的法律責任。
(二)完善技術,進一步提高分詞識別的效率和準確率
要進一步增強知識圖譜等人工智能方法發現網絡涉恐信息的能力,通過機器學習和更新迭代,擴充網絡涉恐信息的關鍵詞。分詞技術主要有“規則分詞”“統計分詞”和“混合分詞”(規則 + 統計)這三個主要流派。規則分詞是通過人工設立詞庫,按照一定方式進行匹配切分,其實現簡單高效,但對新詞很難進行處理。隨著機器學習技術的興起,統計分詞可以較好應對新詞發現,但太過于依賴語料的質量,因此,在實踐中,多是采用規則分詞和統計分詞相結合的混合分詞方法。網絡涉恐信息以多種形式、多種語言出現在多個網站、社交網絡平臺和即時通信軟件中,完善分詞技術,可以完善現有的涉恐信息關鍵詞庫、涉恐行為特征庫,進而改善業務應用模型,提高網絡涉恐信息識別發現的效率和準確率。
(三)與反恐工作實踐相結合,從源頭識別發現網絡涉恐信息
實踐是檢驗方法是否可靠的唯一標準。只有把涉恐信息關鍵詞庫、涉恐行為軌跡特征庫和基于業務場景建立的識別發現模型應用于實戰,經過大量的數據驗證,才能真正檢驗模型的效度和準確度,發揮模型最大的價值。在實踐檢驗中,可以根據不同的數據類型,結合各地網絡涉恐信息的多樣性和復雜性,進一步修正模型種類,調整模型中設定的參數,真正制定出一套適應不同地區、不同場景、不同類別的網絡涉恐信息的識別和發現模型,為信息化反恐做好信息篩選的第一步,為海量數據篩選助力,提高反恐工作效率,使恐怖主義的源頭治理更快、更準、更高效。