<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    網絡爬蟲如何爬取網頁數據


    發現錯別字 3年前 提問
    回答
    1
    瀏覽
    362
    請勿發布不友善或者負能量的內容。與人為善,比聰明更重要!
    回答數量: 1
    CISAW CISP-PTE

    爬蟲是什么:網絡爬蟲(又被稱為網頁蜘蛛、網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。又被稱為網頁蜘蛛, 聚焦爬蟲, 網絡機器人。在FOAF社區中間, 更經常的稱為網頁追逐者,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

    爬蟲工作原理:網絡爬蟲系統一般會選擇一些比較重要的、出度(網頁中鏈出超鏈接數)較大的網站的URL作為種子URL集合。以這些種子集合作為初始URL, 開始數據抓取。

    爬蟲工作流程:

    1) 將這些種子URL集合放入待抓取URL隊列。

    2) 從待抓取URL隊列中, 取出待抓取URL, 解析DNS, 并且得到主機的ip, 并將URL對應的網頁下載下來, 存儲進已下載網頁庫中。此外, 將這些URL放進已抓取URL隊列。

    3) 分析已抓取URL隊列中的URL, 分析其中的其他URL, 并且將URL放入待抓取URL隊列,從而進入下一個循環。如此反復進行,直到遍歷了整個網絡或者滿足某種條件后,才會停止下來。

    根據用戶指令或設置爬取網頁數據可以通過網頁采集器實現,網頁采集器也是爬蟲的一種,常用的采集器推薦八爪魚、火車頭等。

    回答所涉及的環境:聯想天逸510S、Windows 10。

    3年前 / 評論
    亚洲 欧美 自拍 唯美 另类