妥善應對ChatGPT帶來的個人信息保護挑戰
近期,隨著ChatGPT的火爆出圈,人們對人工智能生成內容技術越來越關注。在大型語言模型訓練下,ChatGPT不僅能夠模仿人類思維和學習過程,準確理解用戶意圖并提供快速回答,還能進行寫作、編曲、繪畫、制作視頻和編寫程序等創造活動,可以同時扮演“搜索引擎”“文本生成器”和“聊天機器人”等三重角色,從而實現真正意義上的人機對話,被譽為人工智能發展的里程碑。
在此背景下,Meta、微軟和谷歌等企業紛紛調整戰略,致力于開發類似的人工智能產品或促進既有業務與ChatGPT的深度融合,百度、阿里、科大訊飛等企業也計劃在今年推出應用落地的對話式人工智能產品。但是,在迅速成為產業發展新風口的同時,ChatGPT也給個人信息保護帶來新的挑戰,亟須探索相應對策。
ChatGPT對個人信息保護的挑戰
ChatGPT能夠“記住”問答中的個人信息,并用于模型訓練和內容生成。作為生成式人工智能(generative AI),ChatGPT本身即具備收集、儲存和使用個人信息的功能。首先,盡管ChatGPT在回答關于隱私的問題時聲稱其不會記住用戶的任何信息,也不會主動提供用戶個人信息。但是,它又表示與用戶對話的數據需要被存儲在開發者美國人工智能公司OpenAI或使用的云服務提供商的數據中心。其次,在人機交互問答中,提問者與ChatGPT分享的隱私和個人信息可能被用于未來模型的迭代訓練,ChatGPT模型訓練中使用的數據大多來自互聯網,后者可能包含大量的個人信息和數據,而未經用戶同意的數據抓取和訓練模型強大的推理能力又極大地增加了個人信息泄露的風險。再次,含有個人信息的問答內容可能成為模型訓練的基礎“語料”,這使ChatGPT輸出的內容包含用戶提供的個人信息或重要數據。即便泄露用戶個人信息的概率非常小,但如果加以刻意引導和提示,它仍然可能用來生成包含個人信息內容的回答。
ChatGPT還可能被用來生成虛假信息或惡意軟件,誘騙用戶泄露個人信息。首先,通過來自社交平臺的數據對ChatGPT進行模型訓練,可能生成虛假信息、誘騙信息和網絡釣魚軟件,破壞網絡輿論生態。其次,惡意使用者可能利用ChatGPT生成大量用戶名和密碼的組合,用于對在線賬戶“撞庫”攻擊,加之ChatGPT的自然語言編寫能夠生成逃避防病毒軟件監測的惡意軟件,這可能帶來網絡安全隱患。再次,不法分子有可能以較低的技術成本來盜用他人虛擬形象、冒充他人身份,導致個人數字身份被盜用、冒用,且難以被人們識別,這可能進一步侵犯個人人格尊嚴,給受害人造成經濟損失等。最后,虛假的社交媒體資料或聊天機器人可以收集個人敏感信息,并誘騙受害者提供更多的個人信息,進一步助長網絡誹謗、誣陷、詐騙、敲詐勒索等下游違法犯罪行為的發生。
各種類型的山寨版ChatGPT不斷涌現,且頻繁向消費者索取個人信息授權。近日,國內涌現出一批名字中包含“ChatGPT”的微信公眾號、小程序等產品,其頭像與ChatGPT官方圖標非常相似。目前,OpenAI并沒有在中國大陸提供有關ChatGPT服務,也沒有請其他公司代為運營。總體來看,這些在國內出現的ChatGPT可以分為兩種:一種是通過鏡像服務接入免費的GPT3.0版本為國內網民提供服務。當用戶通過鏡像訪問詢問一些涉及個人、企業等敏感信息的問題時,這些信息會暴露給提供鏡像服務的公司,同時也會上傳至OpenAI的服務器,由此增大個人信息泄露的風險。另一種是純粹的“山寨版”或“李鬼版”ChatGPT,它們不僅要求用戶必須提供完整個人信息才能使用,而且即便用戶完成這些步驟,服務系統也可能不回答任何問題,除非用戶觀看廣告或充值升級為VIP會員。此外,消費者也無法通過比對答案的方法來判斷自己得到的回答是真正的ChatGPT、其他人工智能模型或是人工作出的。
ChatGPT背景下的個人信息保護策略
加快數據合規建設,在人工智能設計中嵌入個人信息保護。企業應當嚴格落實數據合規建設的主體責任,積極參與數據合規體系建設。首先,嚴格落實《中華人民共和國個人信息保護法》《中華人民共和國數據安全法》等相關規定,設置專人專責的“數據保護官”,并將個人信息保護作為企業數據合規體系的重要內容。其次,充分運用技術措施和管理制度,確保個人信息安全。比如,在ChatGPT或類似生成式人工智能的研發和運營過程中,企業可以采取去識別化和隱私計算等技術,實現個人信息利用和保護之間的平衡。再次,采用定期審核、評估、驗證算法機制,防止企業基于個人信息匯總生成的“人格畫像”而對用戶采取不公正的區別對待。最后,落實《新一代人工智能倫理規范》,在人工智能全生命周期中融入倫理限制,完善倫理監管體系,促進大模型人工智能應用在法律法規和倫理指引的共同作用下向善發展。
嚴格審核數據來源,確保個人信息處理的合法性。個人信息作為人工智能對話中可能出現的內容,有必要對其進行特殊保護。首先,對數據合法性和真實性進行審核,防止虛假、錯誤的信息進入語言訓練模型,維護良好的網絡生態環境。其次,對于涉及個人信息的提問,應當謹慎回答相關問題,除非符合個人信息處理合法性的法律規定,否則禁止儲存或納入大型語言訓練模型。最后,對于互聯網主動公開的個人信息,應當核實信息的真偽和時效性,強化對個人信息完整性保護,防止出現“有毒的語料”。
強化輸出內容管理,健全防止個人信息泄露機制。對合成結果進行審核,建立健全對違法、不良信息的識別和阻斷機制。一方面,針對涉及個人信息的生成內容,需要從數據“輸出”端口進行過濾,可以采取“機器+人工”雙重安全審核、配合模塊化識別和動態調整機制,降低機器審核的誤報率。另一方面,為了確保輸出內容的正確性,還需要嚴格規范人工審核外包服務,促進人工審核服務在人員資質、業務流程和審核能力等方面形成統一的行業標準體系,最大可能地減少虛假、錯誤信息內容流出。
增強鑒別防范能力,防止被山寨人工智能騙取個人信息。在大數據時代,個人信息的重要性日益凸顯,個人信息保護意識也應當隨之提高。目前,ChatGPT還不支持國內用戶使用。在社會公眾急于嘗試新鮮事物心理的背景下,出現了許多自稱能夠為用戶對接ChatGPT或者直接標注為“ChatGPT中文版”“ChatGPT對話”的微信公眾號或小程序賬號,要求用戶使用手機號、驗證碼注冊登錄或獲取完整個人信息,提供服務需要收取費用,有些還公開邀請用戶加入代理推廣刷單。事實上,部分商家是借著ChatGPT的熱度來收取會員費或服務費,卻不提供任何服務。對于非法索取個人信息的行為,人們應當保持必要的警惕,在體驗人工智能“黑科技”的同時不忘守護好自己的“錢袋子”,防止以ChatGPT為名出現新型的電信網絡詐騙活動。