chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python-爬蟲開發(fā)01

汽車電子技術(shù) ? 來源:程序猿知秋 ? 作者:程序猿知秋 ? 2023-02-16 15:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

爬蟲基本概念

爬蟲的定義

  • 網(wǎng)絡(luò)爬蟲(被稱為 網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人 ),就是 模擬客戶端發(fā)送網(wǎng)絡(luò)請(qǐng)求 ,接收請(qǐng)求響應(yīng),一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序
  • 一般來說,只要瀏覽器上能做的事情,爬蟲都可以做

**爬蟲的分類

**

  • 通用爬蟲 :通常指搜索引擎的爬蟲
  • 聚集爬蟲 :針對(duì)特定網(wǎng)站或某些特定網(wǎng)頁的爬蟲

ROBOTS協(xié)議

  • Robots協(xié)議: 也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的
  • 如果將網(wǎng)站視為酒店里的一個(gè)房間,robots.txt就是主人在房間門口懸掛的“請(qǐng)勿打擾”或“歡迎打掃”的提示牌。這個(gè)文件告訴來訪的搜索引擎哪些房間可以進(jìn)入和參觀,哪些房間因?yàn)榇娣刨F重物品,或可能涉及住戶及訪客的隱私而不對(duì)搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者

圖片

舉例:

  • 訪問淘寶網(wǎng)的robots文件: https://www.taobao.com/robots.txt

    圖片* 很顯然淘寶不允許百度的機(jī)器人訪問其網(wǎng)站下其所有的目錄

  • 如果允許所有的鏈接訪問應(yīng)該是:Allow:/

http和https的概念

  • http

    • 超文本傳輸協(xié)議
    • 默認(rèn)端口號(hào):80
  • https

    • HTTP+SSL(安全套接字層)
    • 默認(rèn)端口號(hào):443
  • **HTTPS比HTTP更安全,但是性能更低

    **

圖片

URL的形式

  • sheme://host[:port#]/path/.../[?query-string][#anchor]
    • scheme:協(xié)議(例如:http、https、ftp)
    • host:服務(wù)器ip地址/域名
    • port:服務(wù)器端口號(hào)
    • path:訪問資源的路徑
    • query-string:請(qǐng)求的參數(shù)
    • anchor:錨(跳轉(zhuǎn)到網(wǎng)頁的指定錨點(diǎn)位置)
    • 例:http://item.jd.com/100008959687.html#product-detail

Http常見請(qǐng)求頭

  • Host (主機(jī)和端口號(hào))
  • Connection(鏈接類型)
  • Upgrade-insecure-Requests(升級(jí)為https請(qǐng)求)
  • User-Agent(瀏覽器名稱)
  • Accept(傳輸文件類型)
  • Referer(頁面跳轉(zhuǎn)處)
  • Accept-Encoding(文件編解碼格式)
  • Cookie
  • x-requested-with:XMLHttpRequest(是Ajax異步請(qǐng)求)

圖片

Http常見響應(yīng)碼

  • 200:成功
  • 302:臨時(shí)性重定向到新的url
  • 404:請(qǐng)求的路徑找不到
  • 500:服務(wù)器內(nèi)部錯(cuò)誤

rquests模塊

requests的官網(wǎng)

  • https://docs.python-requests.org/zh_CN/latest/index.html

圖片

**示例:下載官網(wǎng)上的圖片

**

import requests


url="https://docs.python-requests.org/zh_CN/latest/_static/requests-sidebar.png"
response=requests.get(url)


# 響應(yīng)狀態(tài)碼為200,表示請(qǐng)求成功
if response.status_code==200:
    # 生成圖片
    with open("aa.png","wb") as f:
        f.write(response.content)

response.text 和 response.content 的區(qū)別

  • response.text
    • 類型:str
    • 解碼類型:根據(jù)http頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè),推測(cè)的文本編碼
    • 修改編碼的方法:response.encoding='gbk'
  • response.content
    • 類型:bytes
    • 解碼類型:沒有指定
    • 修改編碼的方法:response.content.decode('utf-8')

**requests請(qǐng)求帶header

**

  • 主要是模擬瀏覽器,欺騙服務(wù)器,獲取和瀏覽器一致的內(nèi)容
  • header的數(shù)據(jù)結(jié)構(gòu)是 字典

示例

import requests


respons=requests.get("http://www.baidu.com")
print(respons.request.headers)


# 設(shè)置header 模擬谷歌瀏覽器
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
}
respons2=requests.get("http://www.baidu.com",headers=headers)
print(respons2.request.headers)

圖片

獲取User-Agent的值

圖片

帶參數(shù)的requests請(qǐng)求

import requests


url="http://www.baidu.com/s?"
# 添加參數(shù)
params={
    "wd":"hello"
}


# 方式一
respons=requests.get(url,params=params)
# 方式二
respons2=requests.get("http://www.baidu.com/s?wd={}".format("hello"))


print(respons.status_code)
print(respons.request.url)
print(respons2.status_code)
print(respons2.request.url)

圖片

requests發(fā)送post請(qǐng)求

  • 語法
    • response=requests.post("http://www.baidu.com/",data=data,headers=headers)
    • data的數(shù)據(jù)結(jié)構(gòu)是 字典
  • 示例
import requests


url="https://www.jisilu.cn/data/cbnew/cb_list/?___jsl=LST___t=1617719326771"
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
}


params={
    "curr_iss_amt": 20
}


respons=requests.post(url,data=params,headers=headers)
print(respons.content.decode())

requests使用代理方式

  • 使用代理的原因
    • 讓服務(wù)器以為不是同一個(gè)客戶端請(qǐng)求
    • 防止我們的真實(shí)地址被泄露,防止被追究
  • 語法
    • requetst.get("http://www.baidu.com",proxies=proxies)
    • proxies的數(shù)據(jù)結(jié)構(gòu) 字典
    • proxies={ "http":"http://12.33.34.54:8374","https":"https://12.33.34.54:8374" }
  • 示例
import requests


url="http://www.baidu.com"
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
}


proxies={
    "http": "175.42.158.211:9999"
}
respons=requests.post(url,proxies=proxies)
print(respons.status_code)

**cookie和session的區(qū)別

**

  • cookie數(shù)據(jù)存放在客戶的瀏覽器上,session數(shù)據(jù)放在服務(wù)器上
  • cookie不是很安全,別人可以分析存放在本地的cookie并進(jìn)行cookie欺騙
  • session會(huì)在一定時(shí)間內(nèi)保存在服務(wù)器上。當(dāng)訪問增多會(huì)比較占用服務(wù)器性能
  • 單個(gè)cookie保存的數(shù)據(jù)不能超過4k,很多瀏覽器都限制一個(gè)站點(diǎn)最多保存20個(gè)cookie

爬蟲處理cookie和session

  • 帶上cookie、session的好處
    • 能夠請(qǐng)求到登錄之后的頁面
  • 帶上cookie、session的壞處
    • 一套cookie和session往往和一個(gè)用戶對(duì)應(yīng),請(qǐng)求太快,請(qǐng)求次數(shù)太多,容易被服務(wù)器識(shí)別為爬蟲
  • 如果不需要cookie的時(shí)候盡量不去使用cookie

**requests 處理cookies、session請(qǐng)求

**

  • reqeusts 提供了一個(gè)session類,來實(shí)現(xiàn)客戶端和服務(wù)端的會(huì)話保持
  • 使用方法
    • 實(shí)例化一個(gè)session對(duì)象
    • 讓session發(fā)送get或者post請(qǐng)求
  • 語法
    • session=requests.session()
    • response=session.get(url,headers)
  • 示例
import requests


headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
}


data={
    "email":"用戶名",
    "password":"密碼"
}


session=requests.session()
# session發(fā)送post請(qǐng)求,cookie保存在其中
session.post("http://www.renren.com/PLogin.do",data=data,headers=headers)
# 使用session請(qǐng)求登錄后才能訪問的頁面
r=session.get("http://www.renren.com/976564425",headers=headers)
print(r.content.decode())
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    55

    文章

    11239

    瀏覽量

    106009
  • 程序
    +關(guān)注

    關(guān)注

    117

    文章

    3825

    瀏覽量

    82671
  • 網(wǎng)絡(luò)爬蟲
    +關(guān)注

    關(guān)注

    1

    文章

    52

    瀏覽量

    8918
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Python數(shù)據(jù)爬蟲學(xué)習(xí)內(nèi)容

    ,利用爬蟲,我們可以解決部分?jǐn)?shù)據(jù)問題,那么,如何學(xué)習(xí)Python數(shù)據(jù)爬蟲能?1.學(xué)習(xí)Python基礎(chǔ)知識(shí)并實(shí)現(xiàn)基本的爬蟲過程一般獲取數(shù)據(jù)的過
    發(fā)表于 05-09 17:25

    Python爬蟲與Web開發(fā)庫盤點(diǎn)

    Python爬蟲和Web開發(fā)均是與網(wǎng)頁相關(guān)的知識(shí)技能,無論是自己搭建的網(wǎng)站還是爬蟲爬去別人的網(wǎng)站,都離不開相應(yīng)的Python庫,以下是常用的
    發(fā)表于 05-10 15:21

    0基礎(chǔ)入門Python爬蟲實(shí)戰(zhàn)課

    學(xué)習(xí)資料良莠不齊爬蟲是一門實(shí)踐性的技能,沒有實(shí)戰(zhàn)的課程都是騙人的!所以這節(jié)Python爬蟲實(shí)戰(zhàn)課,將幫到你!課程從0基礎(chǔ)入門開始,受眾人群廣泛:如畢業(yè)大學(xué)生、轉(zhuǎn)行人群、對(duì)Python
    發(fā)表于 07-25 09:28

    Python爬蟲簡(jiǎn)介與軟件配置

    Python爬蟲練習(xí)一、爬蟲簡(jiǎn)介1. 介紹2. 軟件配置二、爬取南陽理工OJ題目三、爬取學(xué)校信息通知四、總結(jié)五、參考一、爬蟲簡(jiǎn)介1. 介紹網(wǎng)絡(luò)爬蟲
    發(fā)表于 01-11 06:32

    python網(wǎng)絡(luò)爬蟲概述

    的數(shù)據(jù),從而識(shí)別出某用戶是否為水軍學(xué)習(xí)爬蟲前的技術(shù)準(zhǔn)備(1). Python基礎(chǔ)語言: 基礎(chǔ)語法、運(yùn)算符、數(shù)據(jù)類型、流程控制、函數(shù)、對(duì)象 模塊、文件操作、多線程、網(wǎng)絡(luò)編程 … 等(2). W3C標(biāo)準(zhǔn)
    發(fā)表于 03-21 16:51

    詳細(xì)用Python寫網(wǎng)絡(luò)爬蟲

    詳細(xì)用Python寫網(wǎng)絡(luò)爬蟲
    發(fā)表于 09-07 08:40 ?32次下載
    詳細(xì)用<b class='flag-5'>Python</b>寫網(wǎng)絡(luò)<b class='flag-5'>爬蟲</b>

    完全自學(xué)指南Python爬蟲BeautifulSoup詳解

    完全自學(xué)指南Python爬蟲BeautifulSoup詳解
    發(fā)表于 09-07 08:55 ?39次下載
    完全自學(xué)指南<b class='flag-5'>Python</b><b class='flag-5'>爬蟲</b>BeautifulSoup詳解

    WebSpider——多個(gè)python爬蟲項(xiàng)目下載

    此文檔包含多個(gè)python爬蟲項(xiàng)目
    發(fā)表于 03-26 09:29 ?3次下載

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發(fā)表于 08-28 15:32 ?30次下載

    python為什么叫爬蟲 python工資高還是java的高

      人工智能的現(xiàn)世,讓python學(xué)習(xí)成風(fēng),由于其發(fā)展前景好,薪資高,一時(shí)成為眾多語言的首選。Python是一門非常適合開發(fā)網(wǎng)絡(luò)爬蟲的編程語言,十分的簡(jiǎn)潔方便所以是網(wǎng)絡(luò)
    發(fā)表于 02-19 17:56 ?659次閱讀

    python爬蟲框架有哪些

    本視頻主要詳細(xì)介紹了python爬蟲框架有哪些,分別是Django、CherryPy、Web2py、TurboGears、Pylons、Grab、BeautifulSoup、Cola。
    的頭像 發(fā)表于 03-22 16:13 ?7026次閱讀

    Python爬蟲:使用哪種協(xié)議的代理IP最佳?

    網(wǎng)絡(luò)大數(shù)據(jù)要抓取信息,大多需要經(jīng)過python爬蟲工作,爬蟲能夠幫助我們將頁面的信息抓取下來。
    的頭像 發(fā)表于 06-28 16:25 ?2129次閱讀

    Python寫網(wǎng)絡(luò)爬蟲

    Python寫網(wǎng)絡(luò)爬蟲的方法說明。
    發(fā)表于 06-01 11:55 ?21次下載

    利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

    利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例2 實(shí)驗(yàn)環(huán)境python版本:3.3.5(2.7下報(bào)錯(cuò)
    發(fā)表于 02-24 11:05 ?14次下載

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法 在Python爬蟲過程
    的頭像 發(fā)表于 01-12 15:11 ?3090次閱讀