【導(dǎo)語】2019亞洲杯決賽正如火如荼進(jìn)行中,國足的晉級之路可謂用“驚現(xiàn)”二字評論。繼1月16日,國足對戰(zhàn)韓國隊敗北后,一名Python學(xué)習(xí)者為了一窺網(wǎng)友們的評論,特意爬了懂球帝App的數(shù)據(jù)。
最新喜訊是在20日國足對戰(zhàn)泰國的比賽中,成功逆轉(zhuǎn)戰(zhàn)勝泰國晉級八強(qiáng),無不驚喜。讓我們來學(xué)習(xí)下本文相關(guān)技術(shù)要點。
正文:
如果你是個足球迷的話,估計或多或少都會看一下昨晚中國踢韓國的比賽,因為不管他們踢得怎樣,我們還是深愛著他們,那句話說得好,“國足虐我千百遍,我待國足如初戀”。更何況他們兩場都踢贏了,所以面對第三場實力有點強(qiáng)的韓國隊也是希望能贏的,畢竟我們也在十二強(qiáng)賽上贏過他們!
如果你不是個足球迷,但你也可以看看,可以學(xué)習(xí)下如何去抓APP的數(shù)據(jù)。好了,廢話不多說,開始抓??!
1. 抓包分析請求
手機(jī)抓包我們可以用 Fiddler 軟件來抓取,如果不懂怎樣抓的話,可以看看這篇文章《抓包軟件 Fiddler 了解一下?》(文章鏈接:https://mp.weixin.qq.com/s/G7xjvoh77pwcsP1KNotxjw)
配置好之后,開始抓包。
首先找到需要爬取的文章
懂球帝app截圖
文章鏈接為:https://m.dongqiudi.com/article_share/896482.html
在配置好抓包之后,點擊下方的評論,可以看到
評論截圖

抓包截圖
很容易就找到文章評論的請求,就是下面這個

可以看到請求的鏈接為:https://api.dongqiudi.com/v2/article/896482/comment?sort=down&version=177,
請求方法為GET,接下來就好辦了,我們再看看滑下去查看更多的評論的請求。


可以看到,向下翻頁多了兩個參數(shù),不過容易知道,next參數(shù)就是一個時間戳,而pn參數(shù)就是頁數(shù)吧,從0開始的。
但是怎樣判斷所有評論已經(jīng)爬完了呢?我們可以看看數(shù)據(jù)的詳情,下面將 json 數(shù)據(jù)格式化,在下圖可以看到在 data 里面有下一頁的數(shù)據(jù),那這就容易了,哈哈

分析了,接下來就是代碼部分了。
2. 代碼部分

這是主體部分,先從第一個評論鏈接中爬取評論以及找出下一頁的評論地址進(jìn)而繼續(xù)爬取。這里是把數(shù)據(jù)庫存進(jìn) mongodb 中。

主要的爬取邏輯,可以看出來是比較簡單的,因為沒有涉及到什么加密參數(shù)之類的,但是有一個問題,每一次進(jìn)行請求的時候,有時候是會返回帶有相同的評論的,所以我們也需要在數(shù)據(jù)庫簡單地進(jìn)行去重。
下面是入庫和去重的代碼部分

剩下的就沒有了。
3. 查看所得的數(shù)據(jù)
由于數(shù)據(jù)分析還不熟悉,所以暫時只制作詞云圖。

需要先將數(shù)據(jù)寫到文本上
詞云圖是:
可以看出,昨晚國足輸一場,也被很多人噴了,但是還是有很多人是一直支持的,永遠(yuǎn)都為國足加油,里面也說到了,中國和韓國是有一定差距的,而且還有點大,輸了也正常不過了,沒必要噴,再說我覺得昨晚的比賽已經(jīng)比第一場的比賽好很多(第二次沒看),還是有進(jìn)步的,我對國足未來淘汰賽也是充滿期望的,我相信能走得更遠(yuǎn)!
下一場踢泰國,20號,有人看嗎?
-
APP
+關(guān)注
關(guān)注
33文章
1591瀏覽量
75805 -
代碼
+關(guān)注
關(guān)注
30文章
4956瀏覽量
73492 -
python
+關(guān)注
關(guān)注
57文章
4866瀏覽量
89801
原文標(biāo)題:為了一窺國足輸韓國之后人們的評論,我爬了懂球帝App
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
CC2530 packet sniffer 為什么抓包抓不到,?
Packet Sniffer抓包遇到的問題
加密后抓包分析的問題?
無線學(xué)習(xí)型紅外遙控器(APP藍(lán)牙控制,有APP安裝文件)
wireshark抓包數(shù)據(jù)分析問題
AVR入門: 如何使用App Note去實現(xiàn)USART通訊?
用紙板制作抓娃娃機(jī)
Wireshark數(shù)據(jù)抓包網(wǎng)絡(luò)協(xié)議的分析
推薦六款可提高學(xué)習(xí)效率的APP
APP抓不到包?
如何抓取app數(shù)據(jù)包 網(wǎng)絡(luò)抓包原理及實現(xiàn)
學(xué)習(xí)下如何去抓APP的數(shù)據(jù)
評論