<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    反爬蟲爬取數據的措施有哪些


    發現錯別字 1年前 提問
    回答
    1
    瀏覽
    2087
    請勿發布不友善或者負能量的內容。與人為善,比聰明更重要!
    回答數量: 1
    風險管理(專業級)RM/PL 高級信息系統項目管理師

    反爬蟲爬取數據的措施有以下這些:

    • 在WAF中封殺相應的User-Agent,這是最簡單的一種做法,但也最容易繞過,因為修改一下User-Agent就繞過了。

    • 在WAF中啟用CC防護,限定指定時間段內請求的次數,但前提是采集量需要遠遠超過正常用戶的訪問量,不然就容易誤傷正常用戶。

    • 使用前端JavaScript執行解碼或解密動作,提高爬取成本,因為爬取方需要執行同樣的解碼或解密動作,但對于直接模擬瀏覽器類型的爬蟲來說,此門檻效果不大。

    • 限制IP是最常見的手段之一,為了效率,惡意爬蟲的請求頻率往往比正常流量高,找出這些IP并限制其訪問,可以有效降低惡意爬蟲造成的危害。不過限制IP也有自己的缺點,容易誤傷正常用戶,攻擊者可以通過搭建IP池的方法,來解決這個問題。

    • 在登錄頁等頁面,添加驗證碼,以識別是正常流量還是惡意爬蟲,也是一種基本的操作。不過如今爬蟲技術,早已能解決驗證碼的問題,例如二值化、中值濾波去噪等等。

    回答所涉及的環境:聯想天逸510S、Windows 10。

    1年前 / 評論
    亚洲 欧美 自拍 唯美 另类