近日,程序員兼律師Matthew Butterick起訴微軟、GitHub和OpenAI,指控GitHub的人工智能開發輔助工具Copilot違反了開源許可條款,竊取開發人員成果,并向微軟索賠90億美元。
GitHub Copilot發布于2022年6月,是一款基于人工智能技術的編程輔助工具,使用OpenAI Codex在Visual Studio中生成實時源代碼和功能推薦。
Copilot使用GitHub公共存儲庫的數十億行代碼進行機器學習訓練,支持將自然語言轉換為多達數十種編程語言的代碼片段。
用AI洗碼?
此前火爆全網的人工智能繪畫模型Stable Diffusion曾因訓練數據“不干凈”被起訴。一位名為Lapine的藝術家通過Have I Being Trained網站反查LAION-B圖片庫,驚訝地發現自己從未授權任何人發布的私人病例照片居然出現在訓練數據集中。
微軟的“人工智能寫代碼”項目似乎也遇到了類似的問題。雖然Copilot可以加快編寫代碼的過程并簡化軟件開發,但它對公共開源代碼的使用讓專家擔心它違反了軟件許可歸屬和限制。
GPL、Apache和MIT等開源許可證一般會要求使用者注明源代碼作者姓名并注明許可證類型。
但是,根據程序員的爆料,Copilot會剔除代碼版權信息。即便代碼片段的長度超過150個字符并原封不動直接取自訓練集,也不會附加任何版權歸屬信息。
一段時間以來,一些程序員曾私下議論微軟的這種行為是“開源洗碼”,該“陰謀論”似乎正在變成現實,一位程序員在推特上爆料,在Copilot生成的代碼中包含其為前雇主編寫的,僅允許免費游戲使用的代碼(并要求附加版權聲明):

“似乎微軟無視基本的開源許可證條款和其他法律要求,用他人的勞動成果獲利。”訴訟中代表Butterick的律師事務所Joseph Saveri評論道。
更糟糕的是,有人發現Copilot在公共存儲庫上錯誤發布并泄露敏感信息,因為很多開源代碼中包含一些機密信息,例如API密鑰。
除了違反許可證外,Butterick還聲稱Copilot的開發功能違反了以下內容:
- GitHub的服務條款和隱私政策;
- DMCA 1202,禁止刪除版權管理信息;
- 加州消費者隱私法;
- 以及引起相關法律索賠的其他法律。
目前該訴訟已提交給美國加州北區地方法院,向微軟索賠90億美元。
根據起訴書:“每次Copilot向用戶輸出非法內容時,都會三次違反第1202條(分發許可相關內容時沒有附加:1.出處、2.版權聲明和3.許可條款)。即便平均每個Copilot用戶在使用產品的整個過程中只生成一段違規代碼(最早的Copilot用戶已經使用該軟件長達15個月),根據Copilot的用戶基數,GitHub和OpenAI累計違反了DMCA法規360萬次,每次違規的最低法定損失為2500美元,合計90億美元。”
開源社區的生態災難
Butterick在10月初的一篇博客文章中還談到了另一個問題:Copilot可能給開源社區帶來的生態災難。
Butterick認為,通過向人們提供(人工智能生成的)代碼片段但又從不告訴他們誰是代碼的創作者,微軟從根本上毀掉了開源生態賴以生存發展的貢獻和協作激勵機制。
“微軟正在創建一個新的圍墻花園,它將阻止程序員發現傳統的開源社區,”Butterick寫道。“隨著時間的推移,這個過程將使開源社區挨餓。用戶的注意力和參與度將遠離開源項目本身——遠離源代碼庫、問題跟蹤器、郵件列表、討論板等等。"
Butterick擔心,如果有足夠的時間,Copilot會導致開源社區衰敗,并反噬Copilot自身,導致其用來訓練模型的代碼數據質量下降。
GoUpSec點評:用人工智能生產內容,提高知識工人生產力是當下人工智能應用市場最大的熱點,但是人工智能繪畫和編程應用接連爆出“眼鏡蛇效應”,對版權圖片庫和開源社區的健康發展造成嚴重威脅。對于人工智能應用最大的細分市場——網絡安全,我們同樣要警惕人工智能“黑箱操作”和版權濫用在威脅情報、威脅檢測和響應等生態領域導致的“負優化”、“負激勵”和相關法律問題。
007bug
007bug
ManageEngine卓豪
Anna艷娜
007bug
Anna艷娜
X0_0X
Andrew
Andrew
X0_0X