<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    基于多模態學習的視覺實體鏈接

    Ann2021-12-04 18:03:16

    Introduction

    現有的視覺場景理解方法主要側重于粗粒度識別視覺對象以及他們之間的關系,而忽略了細粒度場景理解。事實上,例如新聞閱讀和網上購物等場景下,都存在細粒度識別出圖片中的元素為實體的需求。為此,這篇文章提出了一項新的研究任務:用于細粒度場景理解的可視化實體鏈接。首先從不同的模態中提取候選實體特征,然后設計了一個基于深度模態注意力神經網絡的學習排名方法,將所有的特征聚合起來,將視覺對象映射到知識圖譜中的實體。實驗表明,與baseline對比,這一方法的準確率從66%提高到了83%。

    Method

    論文方法的整體框架圖如圖所示,由特征提取模塊和視覺實體鏈接兩個模塊組成。

    圖像數據的處理是首先生成一個粗粒度的場景圖,再通過VGG-16網絡來提取圖像中物體的視覺特征。圖像的描述文本一方面會通過GRU網絡,提取物體的文本特征,另一方面會通過基于BERT的方法進行命名實體識別,并通過實體名在通用知識庫中搜索出候選的實體。分別獲得視覺特征、文本特征和知識圖譜特征后,利用提出的基于深度模態注意力神經網絡的學習排名方法(deep modal-attention neural network-based learning-to-rank method),匯總所有的特征并將視覺對象映射到知識圖譜中的實體。

    Experiments

    Datasets

    目前計算機視覺數據集基本上沒有命名實體的數據,因此論文作者建立了VELD(Visual Entity Linking Dataset)數據集,由39k個左右的新聞圖片和文字說明對組成,并且全部經過人工標注和篩選,確保圖片說明文字中含有相關的命名實體。

    VELD數據集與MSCOCO和BreakingNews的比較

    Tasks

    給定一個圖像的邊界框和相應的說明文字,目標是將圖像邊界框與DBpedia知識庫中相應的實體進行鏈接。


    Results

    作者提出的研究任務相對較新,用于比較的模型比較有限。下表是作者選擇的對于實體鏈接和視覺對象識別目前最常見的幾種方法進行的對比實驗結果,T表示文本模態、V表示視覺模態、KG表示知識圖譜模態。

    前兩個模型使用了視覺模態和知識圖譜模態信息,結果表明這類靜態離線訓練的深度神經網絡不能很好地完成視覺實體鏈接的任務,接下來的四個文本模態+知識圖譜模態的模型得到的結果也與作者的模型有較大差距。即使是與類似的多模態學習模型DZMNED對比,作者的模型依然有非常顯著的優勢。原因在于作者的模型是對于三種模態特征的融合,而不僅是簡單的基于模態的連接。

    上圖是模態融合的一個例子,在不同情況下不同的模態有著不同的權重,顏色越深則權重越大。以第一行為例,首先生成了Jobs,Apple,iPhone的候選實體列表。在對Jobs進行鏈接的過程中,可以看到視覺模態的權重要更大,因為從文本上看Jobs這一名字可能對應了很多個人;而對于AppleiPhone兩個實體來說,視覺模態的權重則比文本低得多,因為僅依靠文本就可以很容易地找到與上下文語義相對應的知識圖譜實體。

    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    現有視覺場景理解方法主要側重于粗粒度識別視覺對象以及他們之間關系,而忽略了細粒度場景理解。事實上,例如新聞閱讀和網上購物等場景下,都存在細粒度識別出圖片中元素為實體需求。為此,這篇文章提出了一項新研究任務:用于細粒度場景理解可視化實體鏈接。首先從不同模態中提取候選實體特征,然后設計了一個基于深度模態注意力神經網絡學習排名方法,將所有特征聚合起來,將視覺對象映射到知識圖譜中實體
    美國國防高級研究計劃局(DARPA)一直處在人工智能研究前沿,可以說,美國人工智能發展很大程度上歸功于DARPA支持。從20世紀60年代初至今,在60余年研究中,從最初基礎研究項目到軍事應用研究,DARPA在基礎研究和應用研究之間建立了平衡,先后進行了自然語言理解、感知和機器人、可解釋人工智能、下一代人工智能、人機融合、基于人工智能網絡攻擊與防御技術等領域研究。
    數字孿生作為數字化技術發展高級階段,成為推動城市治理數字化轉型重要組成部分。上海市徐匯區將數字孿生底座建設作為提升城市治理效能重要抓手,積極探索數字孿生賦能城市治理新模式、新路徑,目前已初步完成區域內數字孿生基礎建設,并逐步向應用場景拓展開放。二是構建全域建筑,基于GIS平臺推進三維建筑模型覆蓋、完善空間管理單位劃分并推動精細化建模,初步建成了覆蓋全區數字孿生底座。
    AI服務層統一管理模型服務,服務上線推理之后由AI服務層統一對外提供服務。AI服務層支持不同模型服務編排、模型服務AB測試和模型服務監控。
    2023年11月23日至25日,2023第八屆全國密碼技術競賽決賽和頒獎典禮在新疆大學博達校區圓滿落幕。
    人工智能密碼學”為觀察人工智能與密碼系統互動、影響提供新視角,也為當下后量子密碼技術探索提供新方案,無疑是一個值得探究新方向。
    6G移動通信網絡將通信領域邊界從物理世界進一步拓展至數字世界,通過在物理世界和數字世界之間提供即時、高效和智能連接來重塑世界,這一趨勢將開啟移動通信新篇章。6G網絡超大規模全局性連接將給網絡運營和管理帶來巨大挑戰,亟待革命性理論和技術創新。
    根據 MarketsandMarkets 公司 2018 年發布《安全市場中人工智能》報告,全球人工智能賦能安全市場規模在 2017 年已達 39.2 億美元,預計 2025 年將達到 348.1 億美元,平均每年增長率超過 30%。
    長期以來,人類試圖創造智能體來提高生產效率。隨著人工智能從六七十年代專家系統,發展到八十年代概率推理,再到近十年機器學習,機器已經初步具備人類分析能力(Analytical),甚至在許多領域比人類做得更好,例如垃圾郵件檢測、商品推薦、圖像識別、欺詐信息識別等。然而,人類不僅具備分析能力,還具備強大創造能力,例如設計產品、撰寫詩歌、制作游戲等。因此,生成式AI技術也逐步取得跨越式發展,并在
    Ann
    暫無描述
      亚洲 欧美 自拍 唯美 另类