反爬蟲爬取數據的措施有哪些

回答數量: 1

風險管理（專業級）RM/PL 高級信息系統項目管理師

反爬蟲爬取數據的措施有以下這些：

在WAF中封殺相應的User-Agent，這是最簡單的一種做法，但也最容易繞過，因為修改一下User-Agent就繞過了。
在WAF中啟用CC防護，限定指定時間段內請求的次數，但前提是采集量需要遠遠超過正常用戶的訪問量，不然就容易誤傷正常用戶。
使用前端JavaScript執行解碼或解密動作，提高爬取成本，因為爬取方需要執行同樣的解碼或解密動作，但對于直接模擬瀏覽器類型的爬蟲來說，此門檻效果不大。
限制IP是最常見的手段之一，為了效率，惡意爬蟲的請求頻率往往比正常流量高，找出這些IP并限制其訪問，可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點，容易誤傷正常用戶，攻擊者可以通過搭建IP池的方法，來解決這個問題。
在登錄頁等頁面，添加驗證碼，以識別是正常流量還是惡意爬蟲，也是一種基本的操作。不過如今爬蟲技術，早已能解決驗證碼的問題，例如二值化、中值濾波去噪等等。

回答所涉及的環境：聯想天逸510S、Windows 10。

1年前 / 評論