爬蟲是什么:網絡爬蟲(又被稱為網頁蜘蛛、網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。又被稱為網頁蜘蛛, 聚焦爬蟲, 網絡機器人。在FOAF社區中間, 更經常的稱為網頁追逐者,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲工作原理:網絡爬蟲系統一般會選擇一些比較重要的、出度(網頁中鏈出超鏈接數)較大的網站的URL作為種子URL集合。以這些種子集合作為初始URL, 開始數據抓取。
爬蟲工作流程:
1) 將這些種子URL集合放入待抓取URL隊列。
2) 從待抓取URL隊列中, 取出待抓取URL, 解析DNS, 并且得到主機的ip, 并將URL對應的網頁下載下來, 存儲進已下載網頁庫中。此外, 將這些URL放進已抓取URL隊列。
3) 分析已抓取URL隊列中的URL, 分析其中的其他URL, 并且將URL放入待抓取URL隊列,從而進入下一個循環。如此反復進行,直到遍歷了整個網絡或者滿足某種條件后,才會停止下來。
根據用戶指令或設置爬取網頁數據可以通過網頁采集器實現,網頁采集器也是爬蟲的一種,常用的采集器推薦八爪魚、火車頭等。
回答所涉及的環境:聯想天逸510S、Windows 10。
爬蟲是什么:網絡爬蟲(又被稱為網頁蜘蛛、網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。又被稱為網頁蜘蛛, 聚焦爬蟲, 網絡機器人。在FOAF社區中間, 更經常的稱為網頁追逐者,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲工作原理:網絡爬蟲系統一般會選擇一些比較重要的、出度(網頁中鏈出超鏈接數)較大的網站的URL作為種子URL集合。以這些種子集合作為初始URL, 開始數據抓取。
爬蟲工作流程:
1) 將這些種子URL集合放入待抓取URL隊列。
2) 從待抓取URL隊列中, 取出待抓取URL, 解析DNS, 并且得到主機的ip, 并將URL對應的網頁下載下來, 存儲進已下載網頁庫中。此外, 將這些URL放進已抓取URL隊列。
3) 分析已抓取URL隊列中的URL, 分析其中的其他URL, 并且將URL放入待抓取URL隊列,從而進入下一個循環。如此反復進行,直到遍歷了整個網絡或者滿足某種條件后,才會停止下來。
根據用戶指令或設置爬取網頁數據可以通過網頁采集器實現,網頁采集器也是爬蟲的一種,常用的采集器推薦八爪魚、火車頭等。
回答所涉及的環境:聯想天逸510S、Windows 10。