近日,微軟向漏洞獵人們懸賞1.5萬美元,幫助其查找人工智能驅動的“Bing體驗”中的嚴重漏洞。

微軟要求漏洞獵人在瀏覽器中探索bing.com上由AI驅動的Bing體驗,Edge瀏覽器中的Bing集成(包括企業版Bing聊天)以及iOS和Android版本的Microsoft Start中的Bing集成(新聞聚合器)和Skype(視頻會議)移動應用程序。

漏洞報告范圍如下:

  • 操縱模型對各個推理請求的響應,但不要修改模型本身(“推理操縱”)
  • 在訓練階段操作模型(“模型操作”)
  • 推斷有關模型的訓練數據、架構和權重或推斷時輸入數據的信息(“推斷信息披露”)
  • 影響/改變Bing對所有用戶的聊天行為
  • 通過調整客戶端和/或服務器可見配置來修改Bing的聊天行為
  • 破解Bing的交叉對話內存保護和歷史記錄刪除
  • 揭示Bing的內部運作和提示、決策流程和機密信息
  • 繞過Bing的聊天模式會話限制和/或規則

超出上述范圍的漏洞提交也會考慮但會經過嚴格審核。例如,生成僅向攻擊者顯示的內容的AI命令/提示注入攻擊沒有資格獲得賞金獎勵。

與往常一樣,提交的報告質量也會影響賞金的金額:對于同樣的模型操縱嚴重漏洞,報告質量差的漏洞獵人只能獲得6000美元賞金,而報告質量高(包括重現漏洞的信息、可靠的概念證明以及對漏洞的詳細且正確的分析)的則可以凈賺1.5萬美元。

不斷涌現的基于大型語言模型 (LLM) 的人工智能系統面臨大量攻擊威脅(例如提示注入),迫切需要在不法分子發現和利用之前發現其中的漏洞。

今年早些時候,DEF CON舉辦了一次大語言模型公開安全評估,旨在發現人工智能模型中可被濫用的漏洞。