chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用表格做爬蟲

Wildesbeast ? 來源:今日頭條 ? 作者:Python之眼 ? 2020-02-03 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數(shù)據(jù)規(guī)整,不需要花太多時間進(jìn)行數(shù)據(jù)清洗,來看看是怎么實現(xiàn)的。

一、Microsoft Excel

首先教大家一個用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學(xué)~

(1)新建Excel,打開它,如下圖所示

(2)點擊“數(shù)據(jù)”——“自網(wǎng)站”

(3)在彈出的對話框中輸入目標(biāo)網(wǎng)址,這里以全國實時空氣質(zhì)量網(wǎng)站為例,點擊轉(zhuǎn)到,再導(dǎo)入

選擇導(dǎo)入位置,確定

(4)結(jié)果如下圖所示,怎么樣,是不是很贊?

(5)如果要實時更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進(jìn)行設(shè)置,輸入更新頻率即可

非誠勿擾:正在學(xué)習(xí)python的小伙伴或者打算學(xué)習(xí)的,可以私信小編“01”領(lǐng)取資料!

二、Google Sheet

使用Google Sheet爬取數(shù)據(jù)前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦可以科學(xué)上網(wǎng)。如果這三個條件具備了的話,下面我們就開始吧~

(1)打開Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/

(2)在首頁上點擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點擊“+”創(chuàng)建新的表格

新建的表格如下:

(3)打開要爬取的目標(biāo)網(wǎng)站,一個全國實時空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示

(4)回到Google sheet頁面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開始,對應(yīng)著網(wǎng)站中定義的哪一份表格或列表

對于我們要爬取的網(wǎng)站,我們在Google sheet的A1單元格中輸入函數(shù)

=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦

(5)將爬取好的表格存到本地

是不是感覺超級簡單?

當(dāng)然,沒有學(xué)習(xí)成本的技能缺陷也是很明顯的,就是在網(wǎng)頁的數(shù)據(jù)排列沒那么規(guī)則的時候,或者說多個頁面的數(shù)據(jù),以上的方法就失效了,這個時候Python就展現(xiàn)出它強大的威力了。

不過,話說回來,這么裝逼的技能,而且不需要學(xué)習(xí)成本,掌握了有什么不好呢,沒準(zhǔn)什么時候就能用上了。

最后多說一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺私信小編:“01”即可領(lǐng)取。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 瀏覽器
    +關(guān)注

    關(guān)注

    1

    文章

    1042

    瀏覽量

    36794
  • Excel
    +關(guān)注

    關(guān)注

    4

    文章

    230

    瀏覽量

    57345
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    85

    瀏覽量

    7812
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情

    PHP 語言 實現(xiàn)一個 可運行的京東商品爬蟲 ,不僅能抓取商品標(biāo)題、價格、圖片、評價數(shù),還能應(yīng)對常見的反爬策略。全文附完整代碼, 復(fù)制粘貼即可運行 。 一、為什么選擇 PHP 爬蟲? 雖然 Python 是
    的頭像 發(fā)表于 09-23 16:42 ?388次閱讀
    從 0 到 1:用 PHP <b class='flag-5'>爬蟲</b>優(yōu)雅地拿下京東商品詳情

    Nginx限流與防爬蟲配置方案

    在互聯(lián)網(wǎng)業(yè)務(wù)快速發(fā)展的今天,網(wǎng)站面臨著各種流量沖擊和惡意爬蟲的威脅。作為運維工程師,我們需要在保證正常用戶訪問的同時,有效防范惡意流量和爬蟲攻擊。本文將深入探討基于Nginx的限流與防爬蟲解決方案,從原理到實踐,為大家提供一套完
    的頭像 發(fā)表于 09-09 15:52 ?479次閱讀

    matlab appdesigner 表格組件賦值問題,求助

    如上圖所示,我在用matlab2021Ra APP模塊進(jìn)行編程的時候,想在表格中調(diào)入自己編寫的結(jié)構(gòu)數(shù)組,我從網(wǎng)上AI了一個程序語句,看著沒問題,但是就是給表格賦值不了,還請各位大神幫忙看一下這個是怎么回事,我是初學(xué)者,請各位幫忙看看
    發(fā)表于 07-12 11:45

    【HarmonyOS 5】鴻蒙應(yīng)用實現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能

    【HarmonyOS 5】鴻蒙應(yīng)用實現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能 ##鴻蒙開發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類應(yīng)用 (金融理財# 一、前言 圖(1-1
    的頭像 發(fā)表于 07-11 18:16 ?658次閱讀
    【HarmonyOS 5】鴻蒙應(yīng)用實現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者<b class='flag-5'>表格</b>的功能

    求大佬解答,怎么保存為帶表頭的電子表格

    求大佬解答,怎么保存為帶表頭的電子表格
    發(fā)表于 06-04 14:14

    爬蟲數(shù)據(jù)獲取實戰(zhàn)指南:從入門到高效采集

    爬蟲數(shù)據(jù)獲取實戰(zhàn)指南:從入門到高效采集 ? ? 在數(shù)字化浪潮中,數(shù)據(jù)已成為驅(qū)動商業(yè)增長的核心引擎。無論是市場趨勢洞察、競品動態(tài)追蹤,還是用戶行為分析,爬蟲技術(shù)都能助你快速捕獲目標(biāo)信息。然而,如何既
    的頭像 發(fā)表于 03-24 14:08 ?1015次閱讀

    PCB 過孔電流自動計算器表格(免積分下載)

    可以根據(jù)所需自行調(diào)整數(shù)據(jù)計算: 獲取表格資料可下載附件哦!?。?!
    發(fā)表于 03-13 11:20

    火語言如何循環(huán)讀取表格

    描述 從MySQL讀取數(shù)據(jù)(包含列名:id,name,count,create_date)輸出到表格類型變量dt,用For循環(huán)讀取表格每行數(shù)據(jù),通過dt.Rows[i]['id']取表格第i行列
    的頭像 發(fā)表于 02-07 15:11 ?427次閱讀
    火語言如何循環(huán)讀取<b class='flag-5'>表格</b>

    Spire.XLS for JavaScript——多功能JavaScript電子表格庫(二)

    創(chuàng)建圖表 圖表是一種以視覺方式分組和分析數(shù)據(jù)的出色工具。它為讀者提供數(shù)據(jù)集的結(jié)構(gòu),并以圖形方式顯示數(shù)據(jù),這樣大多數(shù)用戶都能更容易看到數(shù)據(jù)。 創(chuàng)建數(shù)據(jù)透視表 數(shù)據(jù)透視表是一種交互式表格,讓用戶以簡潔
    的頭像 發(fā)表于 01-21 09:47 ?825次閱讀
    Spire.XLS for JavaScript——多功能JavaScript電子<b class='flag-5'>表格</b>庫(二)

    企業(yè)AI模型托管怎么

    當(dāng)下,越來越多的企業(yè)選擇將AI模型托管給專業(yè)的第三方平臺,以實現(xiàn)高效、靈活和安全的模型運行。下面,AI部落小編為您介紹企業(yè)AI模型托管是怎么的。
    的頭像 發(fā)表于 01-15 10:10 ?617次閱讀

    Chart FX之DataGrid電子表格

    在Chart FX 中有一個名為 DataGrid 的電子表格,允許用戶以電子表格的方式查看圖表中包含的所有series 和points 。默認(rèn)情況下,DataGrid 是只讀的,但是開發(fā)人員可以
    的頭像 發(fā)表于 01-06 10:59 ?506次閱讀
    Chart FX之DataGrid電子<b class='flag-5'>表格</b>

    javascript:void(0) 是否影響SEO優(yōu)化

    使用 javascript:void(0) 確實可能對SEO優(yōu)化產(chǎn)生負(fù)面影響 。以下是關(guān)于 javascript:void(0) 對SEO影響的具體分析: 搜索引擎爬蟲的理解問題 搜索引擎爬蟲(如
    的頭像 發(fā)表于 12-31 16:08 ?866次閱讀

    IP地址數(shù)據(jù)信息和爬蟲攔截的關(guān)聯(lián)

    IP地址數(shù)據(jù)信息和爬蟲攔截的關(guān)聯(lián)主要涉及到兩方面的內(nèi)容,也就是數(shù)據(jù)信息和爬蟲。IP 地址數(shù)據(jù)信息的內(nèi)容豐富,包括所屬地域、所屬網(wǎng)絡(luò)運營商、訪問時間序列、訪問頻率等。 從IP地址信息中可以窺見
    的頭像 發(fā)表于 12-23 10:13 ?554次閱讀

    多維表格數(shù)據(jù)庫Teable的適用場景?

    Teable多維表格數(shù)據(jù)庫是一款功能強大的云端數(shù)據(jù)庫和協(xié)作工具,結(jié)合了電子表格的靈活性和數(shù)據(jù)庫的強大功能,適用企業(yè)內(nèi)部項目管理 數(shù)據(jù)收集與整理 內(nèi)容管理與創(chuàng)意協(xié)作 客戶關(guān)系管理 項目跟蹤與分析 IT與工程管理等
    的頭像 發(fā)表于 10-31 15:48 ?1258次閱讀

    傳統(tǒng)電子表格Excel和Teable多維表格數(shù)據(jù)庫的區(qū)別?

    傳統(tǒng)Excel是一款功能強大的電子表格軟件,它的數(shù)據(jù)處理 分析以及圖表制作等功能給工作帶來了很多便利,但也有自身的局限性,本文介紹的多維表格Teable數(shù)據(jù)庫將在傳統(tǒng)電子表格Excel的特性上,增強數(shù)據(jù)處理能力,提升工作效率.
    的頭像 發(fā)表于 10-23 16:44 ?1456次閱讀