无遮挡很黄很刺激的视频,亚洲成AV人手机在线观看网站

網(wǎng)絡(luò)爬蟲的基本工作流程

通用網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL開始，以此獲得初始網(wǎng)頁上的URL列表，在爬行過程中不斷從URL隊(duì)列中獲一個(gè)的URL，進(jìn)而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標(biāo)記后得到頁面內(nèi)容，將摘要、URL等信息保存到Web數(shù)據(jù)庫中，同時(shí)抽取當(dāng)前頁面上新的URL，保存到URL隊(duì)列，直到滿足系統(tǒng)停止條件。其工作流程如圖1所示。

　網(wǎng)絡(luò)爬蟲的基本工作流程

主題爬蟲工作流程

主題爬蟲需要根據(jù)一定的網(wǎng)頁分析算法，過濾掉與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它會根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL，并重復(fù)上述過程，直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁都會被系統(tǒng)存儲，經(jīng)過一定的分析、過濾，然后建立索引，以便用戶查詢和檢索；這一過程所得到的分析結(jié)果可以對以后的抓取過程提供反饋和指導(dǎo)。其工作流程如圖3所示。

　網(wǎng)絡(luò)爬蟲的基本工作流程

深度網(wǎng)絡(luò)爬蟲工作流程

1994年Dr．jillEllsworth提出DeepWeb（深層頁面）的概念，即DeepWeb是指普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容的Web頁面¨。DeepWeb中的信息量比普通的網(wǎng)頁信息量多，而且質(zhì)量更高。但是普通的搜索引擎由于技術(shù)限制而搜集不到這些高質(zhì)量、高權(quán)威的信息。這些信息通常隱藏在深度Web頁面的大型動態(tài)數(shù)據(jù)庫中，涉及數(shù)據(jù)集成、中文語義識別等諸多領(lǐng)域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取，將是巨大的損失。因此，對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現(xiàn)實(shí)意義和理論價(jià)值。

　網(wǎng)絡(luò)爬蟲的基本工作流程

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴