DeepJIT：用于實時缺陷預測的端到端深度學習框架

VSole2022-07-26 19:54:44

提出了一種用于JIT缺陷預測的端到端深度學習框架，從Commit消息和代碼變更中提取特征，基于所提特征來識別缺陷。作者在QT和OPENSTACK上對框架性能進行了評估，在QT下的AUC有10.36-11.02%的進步，在OPENSTACK下有9.51-13.69%的進步。DeepJIT的框架如圖1所示，由（1）輸入層，（2）特征提取層，（3）特征聯合層和（4）輸出層組成。

Fig. 1 DeepJIT框架

輸入層：
對于Commit，基于NLTK提取其單詞序列，使用PorterStemmer產生詞根，刪除停用詞以及罕見詞（在Commit中出現不到3次的詞）。
對于代碼變更，同樣使用NLTK進行處理。每個變更的文件通過一組刪除和添加的代碼行表示，每一個代碼行被處理為一個單詞序列。同時，使用<num>標簽表示數字，使用<unk>標簽表示未知詞，在每一行的開頭添加<added>或<deleted>標簽聲明該行是添加的還是刪除的。
特征提取層：

特征提取層的核心是兩個分別用于處理Commit向量和代碼變更向量的CNN。圖2是DeepJIT框架中用于處理Commit的CNN網絡結構。給定一個Commit詞序列，Commit的矩陣表示M由詞的詞向量組成，即：。

Fig. 2 用于處理Commit的CNN網絡結構

用于處理代碼變更的CNN網絡結構如圖3所示。作者提到，雖然代碼變更可以看做是單詞序列，但是其與自然語言的區別在于代碼是有結構的。代碼變更包括（1）不同文件的變更和（2）每個文件中不同種類的變更（添加和刪除）。

給定一個代碼變更C，涉及不同的文件。包含一系列的刪除和添加的代碼行。每一個代碼行由一個詞序列組成。因此，一個文件的代碼變更矩陣是一個N x L x d的矩陣，其中N表示文件中的代碼變更行數，L表示每一行的詞數，d表示詞嵌入維度。每一行經過一個CNN提取對應的行向量，行向量組合起來形成文件向量。文件向量再過一個CNN得到對應的表征向量。

C中的每一個文件F的表征向量被拼接起來作為C的表征向量，拼接方式如下。

Fig. 3 用于處理代碼變更的CNN網絡結構

特征聯合層：

特征聯合層的結構如圖4所示。Commit的表征向量和代碼變更向量被拼接起來，傳入全連接層進行特征融合，最終輸出一個概率值。

其中，h表示全連接層輸出。

Fig. 4 特征聯合層

由于存在缺陷的提交相比于clean提交的數據量差距很大，存在樣本不平衡的問題。為此，作者涉及了一個loss function來解決這個問題。

接下來就到了實驗部分，數據集如圖5所示，評估指標使用AUC。具體的參數設置請參考原文。

Fig. 5 數據集

為說明DeepJIT相對于state-of-art方法的有效性，作者設置了3個評估實驗：

5折交叉驗證。
短周期：JIT模型是使用在一個時間段發生的Commit來訓練的。假設較舊的提交更改可能具有不再影響最新提交的特征。
長周期：受到“更大量的訓練數據傾向于在缺陷預測問題中實現更好的性能”的啟發，使用在特定時期之前發生的所有提交來訓練JIT模型。

圖6是為短周期和長周期選擇訓練集的示例。使用Period 5作為測試數據集。當使用短周期模型時，使用Period 4作為訓練數據集；而使用長周期模型時，使用Period 1-4作為訓練數據集。

然而，實驗結果表明，三種評估方式下模型的性能相差無幾，說明基于過去或未來數據的訓練之間沒有差異。

Fig. 6 短周期和長周期選擇訓練集的示例

除此之外，作者還對（1）DeepJIT是否受益于Commit特征和代碼變更特征、（2）人工提取的特征對DeepJIT是否有效以及（3）DeepJIT的時間消耗進行了實驗。這里主要看一下是時間消耗的問題（因為我現在實驗就面臨著訓練一次的時間成本很高的情況），如圖7所示。作者是在Tesla P100上訓練的.

Fig. 7 時間消耗

端到端深度學習框架

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

DeepJIT：用于實時缺陷預測的端到端深度學習框架

2022-07-26 19:54:44

提出了一種用于JIT缺陷預測的端到端深度學習框架，從Commit消息和代碼變更中提取特征，基于所提特征來識別缺陷。每個變更的文件通過一組刪除和添加的代碼行表示，每一個代碼行被處理為一個單詞序列。

深度學習與工業互聯網安全

2022-01-11 14:49:50

工業互聯網安全是制造強國和網絡強國建設的基石，深度學習因其具有表達能力強、適應性好、可移植性高等優點而可支持“智能自主式”工業互聯網安全體系與方法構建，因此促進深度學習與工業互聯網安全的融合創新具有鮮明價值。本文從產業宏觀、安全技術、深度學習系統等角度全面分析了發展需求，從設備層、控制層、網絡層、應用層、數據層的角度剖析了深度學習應用于工業互聯網安全的發展現狀；闡述了工業互聯網深度學習應用在模

專題·原創 | 人工智能在網絡攻防領域的應用及問題分析

2021-08-04 16:03:08

網絡攻防對抗不斷演化升級，人工智能因其具備自學習和自適應能力，可為自動化網絡攻防提供助力，已成為網絡攻防的核心關鍵技術之一。

美國DARPA在人工智能領域的新發展

2021-09-13 18:02:58

美國國防高級研究計劃局(DARPA)一直處在人工智能研究的前沿，可以說，美國人工智能的發展很大程度上歸功于DARPA的支持。從20世紀60年代初至今，在60余年的研究中，從最初的基礎研究項目到軍事應用研究，DARPA在基礎研究和應用研究之間建立了平衡，先后進行了自然語言理解、感知和機器人、可解釋的人工智能、下一代人工智能、人機融合、基于人工智能的網絡攻擊與防御技術等領域的研究。

語音欺騙檢測研究與分析

2023-07-28 10:16:57

與欺騙攻擊相對應，語音欺騙檢測是一種識別防御技術，國內外相關人員進行了最新的研究。目前，指紋、人臉和聲紋等常見的生物特征已經被大量應用。2017年在瑞典斯德哥爾摩舉行的 2017 挑戰賽則重點關注語音回放欺騙攻擊。這次的挑戰賽吸引了 53 個注冊團隊，收到了 23 個提交結果。由于輸入 ASV 系統的語音的欺騙方法未知，傳統的語音欺騙檢測系統無法同時檢測 LA 和 PA 兩種攻擊。

聯邦學習開源框架FATE-Flow 源碼分析

2023-01-12 11:29:12

只有多方資源申請成功，才會向各方發送start job指令。在任務執行中會收集參與方狀態，進行下一步的調度。如果均未出錯，則將Job的狀態設置為WAITING。各個參與方在收到請求后，將Job狀態改為RUNNING。initiator 向各方發送start task的rpc請求。FATE-Flow從整個任務生命周期的管理，到上層對外暴露API結構，在整個聯邦學習中起著舉足輕重的作用。

國外互聯網開源信息處理研究綜述

2023-09-22 09:02:49

摘要：互聯網開源信息處理是指從互聯網上的公開信息源獲取數據并分析處理，進而獲得有價值的開源信息的過程。為充分了解國外互聯網開源信息處理的研究現狀，從開源數據采集、預處理、信息分析、決策支撐、相關系統等角度對近年來國外有關研究進行梳理，總結現有研究存在的普遍性問題，對未來研究進行展望。

針對移動支付的道德反欺詐系統

2022-04-25 17:17:58

一種新的反欺詐系統，用于掃描支付卡，并在各種性能的移動設備和硬件配置中都能很好地工作。

網絡信息體系的昨天、今天和明天

2021-09-03 13:16:22

1世紀以來，大數據技術蓬勃發展、軍事應用潛力凸顯，已逐步成為智能化裝備的重要技術基礎，成為打贏未來智能化戰爭和提升國防管理決策質量效率的重要引擎。美軍緊盯大數據發展戰略機遇，出臺了《國防部數據戰略》等一系列軍事數據戰略文件加速軍事數據建設，進而謀求以數據為中心的全方位軍事優勢。文章分析了美軍大力推進數據建設的需求動因，總結了美軍加快推進數據建設的主要路徑和做法，構建了“兩維三層”的美軍數據戰略體系

中國信通院發布“2022人工智能十大關鍵詞”

2022-08-17 13:09:44

2022年8月16日，在“2022可信AI峰會”上，中國信息通信研究院云計算與大數據研究所所長何寶宏正式發布并解讀了“2022 人工智能十大關鍵詞”。在應用方面，生成式AI既是生產要素，也是生產工具。AI新基建主要包括數據基礎設施、算力基礎設施和AI軟件設施。因此，AI軟件設施在近兩年成為產業焦點，AI開源框架生態、預訓練大模型體系、AI軟件平臺生態等內

VSole

網絡安全專家