網(wǎng)絡(luò)爬蟲的基本工作流程
通用網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL開始,以此獲得初始網(wǎng)頁上的URL列表,在爬行過程中不斷從URL隊(duì)列中獲一個(gè)的URL,進(jìn)而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標(biāo)記后得到頁面內(nèi)容,將摘要、URL等信息保存到Web數(shù)據(jù)庫中,同時(shí)抽取當(dāng)前頁面上新的URL,保存到URL隊(duì)列,直到滿足系統(tǒng)停止條件。其工作流程如圖1所示。

主題爬蟲工作流程
主題爬蟲需要根據(jù)一定的網(wǎng)頁分析算法,過濾掉與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它會根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL,并重復(fù)上述過程,直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁都會被系統(tǒng)存儲,經(jīng)過一定的分析、過濾,然后建立索引,以便用戶查詢和檢索;這一過程所得到的分析結(jié)果可以對以后的抓取過程提供反饋和指導(dǎo)。其工作流程如圖3所示。

深度網(wǎng)絡(luò)爬蟲工作流程
1994年Dr.jillEllsworth提出DeepWeb(深層頁面)的概念,即DeepWeb是指普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容的Web頁面¨。DeepWeb中的信息量比普通的網(wǎng)頁信息量多,而且質(zhì)量更高。但是普通的搜索引擎由于技術(shù)限制而搜集不到這些高質(zhì)量、高權(quán)威的信息。這些信息通常隱藏在深度Web頁面的大型動態(tài)數(shù)據(jù)庫中,涉及數(shù)據(jù)集成、中文語義識別等諸多領(lǐng)域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取,將是巨大的損失。因此,對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現(xiàn)實(shí)意義和理論價(jià)值。

-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
9139 -
爬蟲
+關(guān)注
關(guān)注
0文章
87瀏覽量
8033
發(fā)布評論請先 登錄
一張圖看懂遠(yuǎn)動通信裝置的工作流程
芯片ATE測試詳解:揭秘芯片測試機(jī)臺的工作流程
# 深度解析:爬蟲技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用
鋰電池組裝生產(chǎn)線——鋰電池電芯分選與組裝段工作流程
強(qiáng)強(qiáng)合作 西門子與日月光合作開發(fā) VIPack 先進(jìn)封裝平臺工作流程
ADI Power Studio工作流程與工具概述
恩智浦i.MX RT1180跨界MCU驅(qū)動EtherCAT的工作流程
【產(chǎn)品介紹】Altair SimLab可連接CAD的多物理場工作流
Nginx限流與防爬蟲配置方案
IBM推動AI智能體應(yīng)用加速普及
VirtualLab Fusion應(yīng)用:將光耦合入單模光纖的最佳工作距離
爬蟲數(shù)據(jù)獲取實(shí)戰(zhàn)指南:從入門到高效采集
NX CAD軟件:數(shù)字化工作流程解決方案(CAD工作流程)
網(wǎng)絡(luò)爬蟲的基本工作流程
評論