限制網站爬蟲的措施如下:
添加驗證碼:在登錄頁等頁面,添加驗證碼,以識別是正常流量還是惡意爬蟲,也是一種基本的操作。不過如今爬蟲技術,早已能解決驗證碼的問題,例如二值化、中值濾波去噪等等。
分布式爬蟲:分布式能在一定程度上起到反爬蟲的作用,當然相對于反爬蟲分布式最大的作用還是能做到高效大量的抓取。
注意配合移動端、web端以及桌面版:其中web端包括m站即手機站和pc站,往往是pc站的模擬抓取難度大于手機站,所以在m站和pc站的資源相同的情況下優先考慮抓取m站。同時如果無法在web端抓取,不可忽略在app以及桌面版的也可以抓取到目標數據資源。
限制User-Agent字段:User-Agent字段能識別用戶所使用的操作系統、版本、CPU、瀏覽器等信息,如果請求來自非瀏覽器,就能識別其為爬蟲,阻止爬蟲抓取網站信息。User-Agent字段雖然有效,但對于精心構造的爬蟲來說,效果并不好。攻擊者可以通過在惡意爬蟲請求的User-Agent字段中帶上baidu字符,偽裝成百度爬蟲繞過這一規則,無法被攔截。
限制IP:限制IP是最常見的手段之一,為了效率,惡意爬蟲的請求頻率往往比正常流量高,找出這些IP并限制其訪問,可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點,容易誤傷正常用戶,攻擊者可以通過搭建IP池的方法,來解決這個問題。
多賬號反爬:有很多的網站會通過同一個用戶單位時間內操作頻次來判斷是否機器人,比如像新浪微博等網站。這種情況下我們就需要先測試單用戶抓取閾值,然后在閾值前切換賬號其他用戶,如此循環即可。當然,新浪微博反爬手段不止是賬號,還包括單ip操作頻次等。
Cookies限制:根據業務需求,可對Cookies進行限制,要求用戶登錄后才能使用某些功能或權限,并針對同一賬號的訪問速度進行限制。
使用爬蟲管理產品:蔚可云提供了BotGuard爬蟲管理產品,通過交互驗證、大數據分析、合法性驗證等策略,幫助企業實時檢測、管理和阻斷惡意爬蟲。
回答所涉及的環境:聯想天逸510S、Windows 10。
限制網站爬蟲的措施如下:
添加驗證碼:在登錄頁等頁面,添加驗證碼,以識別是正常流量還是惡意爬蟲,也是一種基本的操作。不過如今爬蟲技術,早已能解決驗證碼的問題,例如二值化、中值濾波去噪等等。
分布式爬蟲:分布式能在一定程度上起到反爬蟲的作用,當然相對于反爬蟲分布式最大的作用還是能做到高效大量的抓取。
注意配合移動端、web端以及桌面版:其中web端包括m站即手機站和pc站,往往是pc站的模擬抓取難度大于手機站,所以在m站和pc站的資源相同的情況下優先考慮抓取m站。同時如果無法在web端抓取,不可忽略在app以及桌面版的也可以抓取到目標數據資源。
限制User-Agent字段:User-Agent字段能識別用戶所使用的操作系統、版本、CPU、瀏覽器等信息,如果請求來自非瀏覽器,就能識別其為爬蟲,阻止爬蟲抓取網站信息。User-Agent字段雖然有效,但對于精心構造的爬蟲來說,效果并不好。攻擊者可以通過在惡意爬蟲請求的User-Agent字段中帶上baidu字符,偽裝成百度爬蟲繞過這一規則,無法被攔截。
限制IP:限制IP是最常見的手段之一,為了效率,惡意爬蟲的請求頻率往往比正常流量高,找出這些IP并限制其訪問,可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點,容易誤傷正常用戶,攻擊者可以通過搭建IP池的方法,來解決這個問題。
多賬號反爬:有很多的網站會通過同一個用戶單位時間內操作頻次來判斷是否機器人,比如像新浪微博等網站。這種情況下我們就需要先測試單用戶抓取閾值,然后在閾值前切換賬號其他用戶,如此循環即可。當然,新浪微博反爬手段不止是賬號,還包括單ip操作頻次等。
Cookies限制:根據業務需求,可對Cookies進行限制,要求用戶登錄后才能使用某些功能或權限,并針對同一賬號的訪問速度進行限制。
使用爬蟲管理產品:蔚可云提供了BotGuard爬蟲管理產品,通過交互驗證、大數據分析、合法性驗證等策略,幫助企業實時檢測、管理和阻斷惡意爬蟲。
回答所涉及的環境:聯想天逸510S、Windows 10。