扒开她的黑森林人妻,国产亚洲欧美日韩在线不卡,Tom影院亚洲国产一区二区

一、目標

排行榜的地址：http://www.qu.la/paihangbang/

找到各類排行旁的的每一部小說的名字，和在該網(wǎng)站的鏈接。

二、觀察網(wǎng)頁的結(jié)構(gòu)

很容易就能發(fā)現(xiàn)，每一個分類都是包裹在：

之中，

這種條理清晰的網(wǎng)站，大大方便了爬蟲的編寫。

在當前頁面找到所有小說的連接，并保存在列表即可。

三、列表去重的小技巧：

就算是不同類別的小說，也是會重復出現(xiàn)在排行榜的。

這樣無形之間就會浪費很多資源，尤其是在面對爬大量網(wǎng)頁的時候。

這里只要一行代碼就能解決：

這里調(diào)用了一個list的構(gòu)造函數(shù)set：這樣就能保證列表里沒有重復的元素了。

四、代碼實現(xiàn)

模塊化，函數(shù)式編程是一個非常好的習慣，堅持把每一個獨立的功能都寫成函數(shù)，這樣會使代碼簡單又可復用。

1.網(wǎng)頁抓取頭：

2.獲取排行榜小說及其鏈接：

爬取每一類型小說排行榜，

按順序?qū)懭胛募?/p>

文件內(nèi)容為小說名字+小說鏈接

將內(nèi)容保存到列表

并且返回一個裝滿url鏈接的列表

3.獲取單本小說的所有章節(jié)鏈接:

獲取該小說每個章節(jié)的url地址，并創(chuàng)建小說文件

4.獲取單頁文章的內(nèi)容并保存到本地

這里有個小技巧：

從網(wǎng)上爬下來的文件很多時候都是帶著
之類的格式化標簽，

可以通過一個簡單的方法把它過濾掉：

html = get_html(url).replace('
', '\n')

這里單單過濾了一種標簽，并將其替換成‘\n’用于文章的換行，

6.主函數(shù)

7.輸出結(jié)果

5.缺點：

本次爬蟲寫的這么順利，更多的是因為爬的網(wǎng)站是沒有反爬蟲技術(shù)，以及文章分類清晰，結(jié)構(gòu)優(yōu)美。

但是，按照這篇文的思路去爬取小說，

大概計算了一下：

一篇文章需要：0.5s

一本小說（1000張左右）：8.5分鐘

全部排行榜（60本）：8.5小時！

那么，這種單線程的爬蟲，速度如何能提高呢？

自己寫個多線程模塊？

其實還有更好的方式：Scrapy框架

后面可將這里的代碼重構(gòu)一邊遍，

速度會幾十倍甚至幾百倍的提高了！

這其實也是多線程的威力！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4413

瀏覽量
67263
爬蟲

爬蟲

+關(guān)注

關(guān)注
0

文章
87

瀏覽量
8033

原文標題：爬蟲實踐---一次下完所有小說：排行榜小說批量下載

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

爬蟲實踐：批量下載所有排行榜小說

評論