反爬蟲爬取數據的措施有以下這些:
在WAF中封殺相應的User-Agent,這是最簡單的一種做法,但也最容易繞過,因為修改一下User-Agent就繞過了。
在WAF中啟用CC防護,限定指定時間段內請求的次數,但前提是采集量需要遠遠超過正常用戶的訪問量,不然就容易誤傷正常用戶。
使用前端JavaScript執行解碼或解密動作,提高爬取成本,因為爬取方需要執行同樣的解碼或解密動作,但對于直接模擬瀏覽器類型的爬蟲來說,此門檻效果不大。
限制IP是最常見的手段之一,為了效率,惡意爬蟲的請求頻率往往比正常流量高,找出這些IP并限制其訪問,可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點,容易誤傷正常用戶,攻擊者可以通過搭建IP池的方法,來解決這個問題。
在登錄頁等頁面,添加驗證碼,以識別是正常流量還是惡意爬蟲,也是一種基本的操作。不過如今爬蟲技術,早已能解決驗證碼的問題,例如二值化、中值濾波去噪等等。
回答所涉及的環境:聯想天逸510S、Windows 10。
反爬蟲爬取數據的措施有以下這些:
在WAF中封殺相應的User-Agent,這是最簡單的一種做法,但也最容易繞過,因為修改一下User-Agent就繞過了。
在WAF中啟用CC防護,限定指定時間段內請求的次數,但前提是采集量需要遠遠超過正常用戶的訪問量,不然就容易誤傷正常用戶。
使用前端JavaScript執行解碼或解密動作,提高爬取成本,因為爬取方需要執行同樣的解碼或解密動作,但對于直接模擬瀏覽器類型的爬蟲來說,此門檻效果不大。
限制IP是最常見的手段之一,為了效率,惡意爬蟲的請求頻率往往比正常流量高,找出這些IP并限制其訪問,可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點,容易誤傷正常用戶,攻擊者可以通過搭建IP池的方法,來解決這個問題。
在登錄頁等頁面,添加驗證碼,以識別是正常流量還是惡意爬蟲,也是一種基本的操作。不過如今爬蟲技術,早已能解決驗證碼的問題,例如二值化、中值濾波去噪等等。
回答所涉及的環境:聯想天逸510S、Windows 10。