基于文本分類的隱私政策合規性分析
VSole2022-05-26 05:56:31
介紹
本文針對GDPR中的第13章對隱私政策進行合規性研究。
GDPR第13章對APP隱私政策進行了以下如圖1所示的9項規定,例如1. Collect Personal Info → Data Retention Period 代表如果APP要收集用戶信息,則必須告知用戶數據保留期限

圖1
方法

圖2
本文提出的方法如上圖2所示,輸入一篇隱私政策文本,首先進行文本分類,然后進行合規性驗證,輸出檢測結果。
文本分類
對隱私政策文本的每個句子分為以下10類(1.收集個人信息CPI;2. 數據保存期限DRP;3.數據處理目的DPP;4.個人信息控制者的聯系方式CD;5.用戶的訪問權RA;6.用戶修改/銷毀權PRE;7.用戶限制對個人信息處理的權利RRP;8.用戶拒絕處理數據的權利ROP;9.用戶對數據的轉移權利RDP;10.用戶投訴權RLC):

圖3
合規性驗證
GDPR第13章的9項規定(圖1)可以表示為“if A holds, then B must be satisfied”,A即“APP需要收集個人信息”,B即“隱私政策中需要向用戶告知的內容”,其又可以進行如下表示(圖4):

圖4
也就是說,如果一個隱私政策是合規的,它要么“并未說明要收集用戶個人信息”,要么“告知了用戶所有必要內容”,于是通過第一步的文本分類任務可以直接進行合規性驗證(文本分類任務中,第1類為“收集個人信息”,用于判斷文本中是否有句子表明了要收集個人信息;第2-10類為隱私政策中需要告知用戶的必要內容),即如果隱私政策合規,那么該隱私政策中的句子的預測標簽要么不存在1,要么就要同時包含2-10。
結果
本文用了SVM(將n-gram和tf-idf作為特征)、BiLSTM和BERT作為三個不同的分類模型,其結果如下圖:

圖5
VSole
網絡安全專家