網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲又名“網(wǎng)絡(luò)蜘蛛”,是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到按照某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取完為止的技術(shù)。
網(wǎng)絡(luò)爬蟲分幾類
1、通用Web爬蟲
通用網(wǎng)絡(luò)爬蟲所爬取的目標(biāo)數(shù)據(jù)是巨大的,并且爬行的范圍也是非常大的,正是由于其爬取的數(shù)據(jù)是海量數(shù)據(jù),故而對(duì)于這類爬蟲來說,其爬取的性能要求是非常高的。這種網(wǎng)絡(luò)爬蟲主要應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價(jià)值?;蛘邞?yīng)用于大型數(shù)據(jù)提供商。
2、聚焦網(wǎng)絡(luò)爬蟲
聚焦網(wǎng)絡(luò)爬蟲是按照預(yù)先定義好的主題有選擇地進(jìn)行網(wǎng)頁爬取的一種爬蟲,聚焦網(wǎng)絡(luò)爬蟲不像通用網(wǎng)絡(luò)爬蟲一樣將目標(biāo)資源定位在全互聯(lián)網(wǎng)中,而是將爬取的目標(biāo)網(wǎng)頁定位在與主題相關(guān)的頁面中,此時(shí),可以大大節(jié)省爬蟲爬取時(shí)所需的帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要應(yīng)用在對(duì)特定信息的爬取中,主要為某一類特定的人群提供服務(wù)。
3、增量Web爬蟲
增量式網(wǎng)絡(luò)爬蟲,在爬取網(wǎng)頁的時(shí)候,只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或者新產(chǎn)生的網(wǎng)頁,對(duì)于未發(fā)生內(nèi)容變化的網(wǎng)頁,則不會(huì)爬取。增量式網(wǎng)絡(luò)爬蟲在一定程度上能夠保證所爬取的頁面,盡可能是新頁面。
4、深層網(wǎng)絡(luò)爬蟲
在互聯(lián)網(wǎng)中,網(wǎng)頁按存在方式分類,可以分為表層頁面和深層頁面。所謂的表層頁面,指的是不需要提交表單,使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)頁面;而深層頁面則隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞之后才能夠獲取得到的頁面。在互聯(lián)網(wǎng)中,深層頁面的數(shù)量往往比表層頁面的數(shù)量要多很多,故而,我們需要想辦法爬取深層頁面。
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
9179 -
爬蟲
+關(guān)注
關(guān)注
0文章
87瀏覽量
8121
發(fā)布評(píng)論請(qǐng)先 登錄
攻克網(wǎng)絡(luò)通信時(shí)鐘挑戰(zhàn):高性能差分晶振解決方案
京東關(guān)鍵詞搜索商品列表的Python爬蟲實(shí)戰(zhàn)
網(wǎng)絡(luò)配線架的種類都是怎么分的你了解嗎
# 深度解析:爬蟲技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用
網(wǎng)絡(luò)通訊的結(jié)構(gòu)及地址
從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情
Nginx限流與防爬蟲配置方案
單模光纖線分為幾類?都有什么差異
穩(wěn)定、高效、智能:蜂鳥IP如何為技術(shù)玩家提供可靠動(dòng)態(tài)IP服務(wù)?
幾類寬帶圓極化天線設(shè)計(jì)
幾類網(wǎng)線怎么看出來的
愛普生SG3225EEN低抖動(dòng)差分晶振在網(wǎng)絡(luò)通信的應(yīng)用
網(wǎng)絡(luò)爬蟲分幾類
評(píng)論