網(wǎng)絡(luò)爬蟲(chóng)常用到的算法
1、深度優(yōu)先算法
該算法是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)從選定的一個(gè)超鏈接開(kāi)始,按照一條線(xiàn)路,一個(gè)一個(gè)鏈接訪(fǎng)問(wèn)下去,直到達(dá)到這條線(xiàn)路的葉子節(jié)點(diǎn),即不包含任何超鏈接的HTML文件,處理完這條線(xiàn)路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)訪(fǎng)問(wèn)新的起始頁(yè)面所包含的鏈接中的一條,直到到達(dá)葉子結(jié)點(diǎn)。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)爬蟲(chóng)在設(shè)計(jì)的時(shí)候比較容易。
2、廣度優(yōu)先算法
廣度優(yōu)先算法是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)先抓取起始網(wǎng)頁(yè)中包含鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在這個(gè)網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這種搜索方法是實(shí)現(xiàn)通用網(wǎng)絡(luò)爬蟲(chóng)的最佳方法,因?yàn)樗奶攸c(diǎn)是易于實(shí)現(xiàn),并且能夠避免陷進(jìn)一個(gè)無(wú)窮盡的深層分支中去,可以讓網(wǎng)絡(luò)爬蟲(chóng)并行處理,從而提高其抓取速度。
3、啟發(fā)式搜索算法
源于人工智能,即先通過(guò)在線(xiàn)獲得的領(lǐng)域知識(shí)評(píng)價(jià)待訪(fǎng)問(wèn)鏈接的價(jià)值,借以推斷信息資源的分布情況,然后按一定的原則選擇價(jià)值最大的鏈接進(jìn)行下一步的搜索,找到到達(dá)目標(biāo)節(jié)點(diǎn)的最佳路徑,刪除不好節(jié)點(diǎn),保留那些好的節(jié)點(diǎn),該算法主要用于主題爬蟲(chóng)。
網(wǎng)絡(luò)爬蟲(chóng)的分析算法
爬蟲(chóng)節(jié)點(diǎn)爬取到的網(wǎng)頁(yè)數(shù)據(jù)會(huì)存放到資源庫(kù)中,資源庫(kù)對(duì)爬取到的數(shù)據(jù)進(jìn)行分析并建立索引,分析算法有以下幾種:
(1)基于用戶(hù)行為的分析算法:根據(jù)用戶(hù)對(duì)網(wǎng)頁(yè)的訪(fǎng)問(wèn)頻率、訪(fǎng)問(wèn)時(shí)長(zhǎng)、點(diǎn)擊率等對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分析。
(2)基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ǎ焊鶕?jù)網(wǎng)頁(yè)的外鏈、網(wǎng)頁(yè)的層次、網(wǎng)頁(yè)的等級(jí)等對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分析,計(jì)算出網(wǎng)頁(yè)的權(quán)重,對(duì)網(wǎng)頁(yè)進(jìn)行排名。
(3)基于網(wǎng)頁(yè)內(nèi)容的分析算法:根據(jù)網(wǎng)頁(yè)的外觀、網(wǎng)頁(yè)的文本等內(nèi)容特征對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分析。
-
網(wǎng)絡(luò)爬蟲(chóng)
+關(guān)注
關(guān)注
1文章
52瀏覽量
9139 -
爬蟲(chóng)
+關(guān)注
關(guān)注
0文章
87瀏覽量
8033
發(fā)布評(píng)論請(qǐng)先 登錄
京東關(guān)鍵詞搜索商品列表的Python爬蟲(chóng)實(shí)戰(zhàn)
# 深度解析:爬蟲(chóng)技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用
SM4算法實(shí)現(xiàn)分享(一)算法原理
SM4算法原理及分享1
國(guó)密系列算法簡(jiǎn)介及SM4算法原理介紹
加密算法的應(yīng)用
從 0 到 1:用 PHP 爬蟲(chóng)優(yōu)雅地拿下京東商品詳情
Nginx限流與防爬蟲(chóng)配置方案
DFT算法與FFT算法的優(yōu)劣分析
穩(wěn)定、高效、智能:蜂鳥(niǎo)IP如何為技術(shù)玩家提供可靠動(dòng)態(tài)IP服務(wù)?
改進(jìn)的BP網(wǎng)絡(luò)PID控制器在無(wú)刷直流電機(jī)中的應(yīng)用
AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話(huà)產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析
網(wǎng)絡(luò)爬蟲(chóng)的算法
評(píng)論