Photon是一個(gè)由s0md3v開源的情報(bào)搜集爬蟲,其主要功能有:
1.爬取鏈接(內(nèi)鏈、外鏈)。
2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密鑰(在前端代碼中不小心被釋放出來(lái)的)。
5.js文件和Endpoint(spring中比較重要的監(jiān)視器)
6.匹配自定義正則表達(dá)式的字符串。
7.子域名和DNS相關(guān)數(shù)據(jù)。
你可以用它來(lái)干很多事,比如爬圖片、找漏洞、找子域名、爬數(shù)據(jù)等等。而且提取出來(lái)的數(shù)據(jù)格式非常整潔:

不僅如此,它甚至支持json格式 ,僅需要在輸入命令的時(shí)候加上json參數(shù):
python photon.py -u "http://example.com" --export=json
為什么能用來(lái)做情報(bào)搜集呢?耐心往后看哦。
1.下載安裝
你可以上photon的github下載完整項(xiàng)目:
https://github.com/s0md3v/Photon
或者關(guān)注下方Python實(shí)用寶典公眾號(hào)在后臺(tái)回復(fù)photon獲得國(guó)內(nèi)網(wǎng)盤下載地址。下載后解壓到你想要使用的地方。如果你還沒(méi)有安裝Python,建議閱讀這篇文章:超詳細(xì)Python安裝指南,進(jìn)行Python的安裝。
安裝完P(guān)ython后,打開CMD(windows)/Terminal(macOS),下面簡(jiǎn)稱為終端,進(jìn)入你剛解壓的文件夾,然后輸入以下命令安裝Photon的依賴:
pip install -r requirements.txt
如圖所示:

2.簡(jiǎn)單使用
注意,使用的時(shí)候要在Photon文件夾下。比如我們隨便提取一個(gè)網(wǎng)站的URL試一下,在終端輸入以下命令:
python photon.py -u https://bk.tencent.com/
結(jié)果如下:

它會(huì)在當(dāng)前目錄下產(chǎn)生一個(gè)你測(cè)試的域名的文件夾,比如在我這里是 bk.tencent.com:

嘻嘻,讓我們看看里面有什么東西,有沒(méi)有程序員留下的小彩蛋,打開external.txt,這是該網(wǎng)站的外鏈的存放位置??梢钥吹剑@里不僅僅是只有網(wǎng)站頁(yè)面,連CDN文件地址都會(huì)放在這里,所以external可能是個(gè)藏寶庫(kù)哦。

還能一下找出該網(wǎng)站上鏈接的全部開源項(xiàng)目:

3.擴(kuò)展
這個(gè)項(xiàng)目的價(jià)值,不僅在于能夠快速拉取你想要得到的數(shù)據(jù),還在于能夠構(gòu)建一個(gè)牛逼轟轟的 情報(bào)系統(tǒng) (如果你技術(shù)夠強(qiáng)的話)。因?yàn)樗悄懿粩嘌由煜氯サ模热鐝耐怄湷霭l(fā),你能找到很多和這個(gè)網(wǎng)站相關(guān)的訊息:

相比于搜索引擎搜索的結(jié)果,實(shí)際上這些信息更符合情報(bào)的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通過(guò)這個(gè)Photon,你可以順藤摸瓜找到那些隱藏在互聯(lián)網(wǎng)世界的它們。
試想一下,如果你搜集了很多這樣的網(wǎng)站...然后用正則表達(dá)式搭建一個(gè)屬于你自己的搜索引擎,這樣的感覺是不是很棒?
-
監(jiān)視器
+關(guān)注
關(guān)注
1文章
802瀏覽量
34817 -
參數(shù)
+關(guān)注
關(guān)注
11文章
1868瀏覽量
33761 -
代碼
+關(guān)注
關(guān)注
30文章
4941瀏覽量
73151 -
python
+關(guān)注
關(guān)注
57文章
4858瀏覽量
89587 -
爬蟲
+關(guān)注
關(guān)注
0文章
87瀏覽量
7951
發(fā)布評(píng)論請(qǐng)先 登錄
Python數(shù)據(jù)爬蟲學(xué)習(xí)內(nèi)容
Python爬蟲與Web開發(fā)庫(kù)盤點(diǎn)
Python 爬蟲:8 個(gè)常用的爬蟲技巧總結(jié)!
0基礎(chǔ)入門Python爬蟲實(shí)戰(zhàn)課
Python爬蟲簡(jiǎn)介與軟件配置
python網(wǎng)絡(luò)爬蟲概述
Python 一個(gè)超快的公共情報(bào)搜集爬蟲——Photon
Python爬蟲8個(gè)常用的爬蟲技巧分析總結(jié)
python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例
Photon:一個(gè)超快的公共情報(bào)搜集爬蟲

Python 一個(gè)超快的公共情報(bào)搜集爬蟲
評(píng)論