ChatGPT在OpenAI開放測試后風靡全球,僅僅兩個月用戶便達到1億,這是OpenAI開發的基于GPT-3.5的AI驅動的聊天機器人,成為互聯網發展二十年來增長速度最快的消費者應用程序。但在其備受追捧的同時,ChatGPT也面臨數據安全方面的爭議。
南都大數據研究院注意到,在科技巨頭紛紛整合ChatGPT或布局“類ChatGPT”產品應用的同時,部分企業如微軟、亞馬遜等還提醒員工不要與ChatGPT分享敏感數據。
ChatGPT訓練數據的安全性問題引起各方高度關注。例如,從互聯網獲取海量數據進行模型訓練是否合法?生成的文本是否會被惡意利用?如何阻止人工智能在不良數據上構建和訓練?OpenAI是否可以在個人要求時從模型中完全刪除數據?對于更多潛在問題,有法律人士甚至呼吁加強AI監管。
亞馬遜、微軟提醒員工不要泄露數據
年初以來,在發現ChatGPT生成的文本中有疑似商業機密的情況后,不少科技巨頭開始提醒自己的員工不要在使用ChatGPT時輸入敏感信息數據。
據硅谷媒體報道,在一條從企業內部通信工具Slack泄露的信息中,亞馬遜的公司律師稱,他們在ChatGPT生成的內容中發現了與公司機密“非常相似”的文本,可能是由于一些亞馬遜員工在使用ChatGPT生成代碼和文本時輸入了公司內部數據信息,該律師擔心輸入的信息可能被用作ChatGPT迭代的訓練數據。
無獨有偶,有微軟員工曾在內部論壇上詢問,能否在工作中使用ChatGPT或其開發商OpenAI推出的產品。微軟首席技術官(CTO)辦公室的一名高級工程師回應稱,只要員工不與ChatGPT分享機密信息,就可以在工作時使用,但不要將敏感數據發送給OpenAI終端,因為OpenAI可能會將其用于未來模型的訓練。
復旦大學計算機科學技術學院教授韓偉力表示,無論是個人敏感數據還是企業敏感數據,常理來說大家都不應該分享。
據悉,作為大型語言模型,ChatGPT的訓練數據集包含TB級別的海量互聯網文本數據,代碼、詩歌、法律文件、自然對話都是這些數據的一部分。不少軟件開發工程師嘗試使用ChatGPT作為自己的代碼助手,ChatGPT可根據用戶提供的代碼片段或描述,生成代碼規范,甚至完整的實現方法。在提供描述的過程中,數據泄露可能成為一個問題。
ChatGPT收集的訓練數據合法嗎?
訓練像ChatGPT這樣的大型語言模型需要海量自然語言數據,其訓練數據的來源主要是互聯網,但開發商OpenAI并沒有對數據來源做詳細說明。由于ChatGPT提供了商業服務并從中獲利,不少人認為,背后的開發者在收集訓練數據時需要面臨更多的限制,用于收集 ChatGPT 數據的方法也需要披露。
從互聯網爬取海量數據合法嗎?如今,隨著ChatGPT以及一眾基于transformer大語言模型的問世,針對訓練數據的法律問題已經引起關注。
歐洲數據保護委員會(EDPB)成員Alexander Hanff質疑,ChatGPT是一種商業產品,雖然互聯網上存在許多可以被訪問的信息,但從具有禁止第三方爬取數據條款的網站收集海量數據可能違反相關規定,不屬于合理使用,此外還要考慮到受GDPR等保護的個人信息,爬取這些信息并不合規,而且使用海量原始數據可能違反GDPR的“最小數據”原則。
有網絡安全從業人士向南都大數據研究院表示,雖然網站可以通過設置包括robots.txt根文件、嗅探訪問者信息等軟性方式來防止網站內容被隨意爬取,目前并沒有100%可靠的方式使得可訪問的網頁內容不被爬取。
相關專家亦承認包括OpenAI在內的公司可以使用“合理使用”條款來避免受到收集互聯網數據而產生的法律責任,包括用于科學研究、教學、新聞報道、批判等公共事業的數據收集。但對于OpenAI提供的類似ChatGPT的模型調用服務是否適用“合理使用”條款,仍然存在爭議。
北京植德律師事務所合伙人兼合規部負責人王藝表示,從互聯網抓取數據并不當然違法,但要保證爬蟲技術不應侵犯個人和平臺權利,也不能破壞互聯網公共管理秩序。建議從三個方面劃定數據爬蟲技術合法使用的邊界:
- 一是網絡爬蟲應僅限于開放數據的獲取;
- 二是合法使用的數據爬蟲技術不應具有侵入性;
- 三是數據爬取應該基于正當目的。
OpenAI是否能遵循數據刪除權?
根據OpenAI官網公布的隱私政策,OpenAI并未提及類似歐盟GDPR等數據保護法規,在“使用數據”條款里,OpenAI承認會收集用戶使用服務時輸入的數據,但未對數據的用途作進一步說明。
根據GDPR第17條,個人有權要求刪除其個人數據,即“被遺忘權”或“刪除權”。然而,ChatGPT等大語言模型帶來的一個問題是,深度神經網絡是否可以“忘記”用于訓練自己的數據?對于OpenAI是否能夠在個人要求時從模型中完全刪除數據,業內人士認為,這類模型很難刪除個人信息的所有痕跡。此外,訓練此類模型花費高昂,AI公司也不太可能每次在個人要求刪除某些敏感數據后重新訓練整個模型。
在技術層面,深度神經網絡的黑箱特性也使得追蹤、溯源敏感數據在類似ChatGPT的大語言模型中的難度大大增加。
北京師范大學網絡法治國際中心執行主任吳沈括認為,從數據安全角度看ChatGPT,無論是數據獲取、匯聚、加工處理還是運算結果輸出,各個環節都存在風險,在高度智能化、高度自動化的新型應用場景當中,也存在更高的數據安全風險。
隨著大語言模型的發展,相關人士還擔心其可能會被惡意利用。例如,使用大語言模型,攻擊者可以在輸入少量文字后生成海量文本,這些文本可以被用來實施多種惡意活動,包括進行數據庫用戶名+密碼的撞庫攻擊,寫惡意軟件代碼,發布大量假新聞、誹謗文章或者仇恨內容等。
聲音:關注新法新規對生成式AI的規制
受訪專家表示,ChatGPT的數據安全問題值得關注。包括訓練數據是否保護個人信息,收集個人敏感信息是否取得單獨同意,收集和使用過程中是否會侵犯企業商業秘密,以及隱藏的算法歧視等問題都是生成類AI模型需要關注的數據安全問題;此外,使用ChatGPT寫惡意軟件代碼等情況時有發生,類似用法不僅會對網絡安全造成威脅,還會對國家安全造成隱患。
律師王藝表示,如何對AI技術應用進行有效監管以切實防范相關風險是世界各國重點關注的問題,AI技術應用的監管已從理論探討走向立法、執法實踐階段。對于更多潛在問題,需要時刻關注新法新規對生成式AI的規制。
對于平臺來說,首先需要保證訓練數據的獲取的合法性,包括合法使用爬蟲技術、合法處理個人信息等方面;對于用戶來說,使用過程中應保護企業信息與個人信息,對于敏感信息應按要求做出承諾或單獨同意,不應使用類似生成類AI進行刑事犯罪,危害網絡及社會安全。
今年初大火的ChatGPT和前段時間引起熱烈討論的AIGC都屬于生成類AI,國內巨頭也正在研發類似產品,在提供交互生成文本類產品的同時實現聲音、圖像甚至視頻的生成。目前,國內針對AI技術應用監管的相關立法尚處于起步階段,主要出臺了《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》等部門規章,針對AI技術應用監管的相關執法仍屬于九龍治水的格局,加快構建完善的AI監管法律治框架、明確監管機構具有非常重要的意義。
吳沈括表示,在目前數據權屬界定不明的歷史過渡階段,數據抓取、數據融合匯聚的合規問題必然更加突出。當前ChatGPT商用落地還未完全展現,矛盾并不尖銳,但對著商業應用的推進,各方之間的利益糾紛將更加突出,圍繞數據安全的問題也會更加明顯、頻繁。平臺在開發過程中要注重法律和倫理要求,用戶也要提高甄別意識,ChatGPT的運算輸出結果目前來說還不具有可驗證性和絕對可靠性。
虹科網絡安全
安全牛
GoUpSec
安全牛
安全牛
一顆小胡椒
安全圈
安恒信息
一顆小胡椒
安全牛
GoUpSec
D1Net