資料介紹
無論是通用搜索還是垂直搜索,其關(guān)鍵的核心技術(shù)之一就是網(wǎng)絡(luò)爬蟲的設(shè)計(jì)。本文結(jié)合
HTMLParser 信息提取方法,對(duì)生活類垂直搜索引擎中網(wǎng)絡(luò)爬蟲進(jìn)行了詳細(xì)研究。通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的構(gòu)架,開發(fā)了收集種子頁面URL 的模擬搜索器,并基于HTMLParser 的信息提取方法,從種子頁面中提取出與生活類主題相關(guān)的目標(biāo)URL。經(jīng)實(shí)驗(yàn)測(cè)試證明該爬蟲的爬準(zhǔn)率達(dá)93.552% ,爬全率達(dá)96.720% ,表明該網(wǎng)絡(luò)爬蟲是有效的,達(dá)到中等規(guī)模的垂直搜索企業(yè)級(jí)應(yīng)用的要求。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;垂直搜索; HTMLParser
Abstract:Whether general search engine or vertical search engine, the design of web crawler is the core technology. In this article, a novel system of life-theme web crawler based on HTMLParser information extraction is thoroughly studied. In this system, a simulation searcher is designed for collecting the seed URL by analyzing tree structure of life-theme website, then, based on the discussion of HTMLParser information extraction, the target URL that relate to life-theme is extracted from the seed pages. Empirical studies show that the Pr ecision = 93.552% and the Re call = 96.720%, proving its effectiveness and achieving requirements for general enterprise-level application of vertical search engine.
Key words:web crawler; vertical search engine;HTMLParser
- 用Python寫網(wǎng)絡(luò)爬蟲 21次下載
- 一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法 2次下載
- 什么是網(wǎng)絡(luò)爬蟲使用Python寫網(wǎng)絡(luò)爬蟲的教程說明 3次下載
- 爬蟲是如何實(shí)現(xiàn)數(shù)據(jù)的獲取爬蟲程序如何實(shí)現(xiàn) 10次下載
- python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎 29次下載
- 散亂點(diǎn)云數(shù)據(jù)特征信息提取算法 0次下載
- 基于同態(tài)系統(tǒng)的高分辨率遙感圖像河流信息提取 2次下載
- 脈沖多普勒雷達(dá)識(shí)別中的信號(hào)調(diào)制信息提取 13次下載
- 短時(shí)傅立葉變換在陣列聲波信息提取中的應(yīng)用 9次下載
- GPS定位信息提取及應(yīng)用 67次下載
- 基于VB6.0的點(diǎn)陣字模信息提取方法
- 一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)
- 道路定位信息提取及四參數(shù)坐標(biāo)轉(zhuǎn)換方法
- 植被虛擬仿真中遙感地信息定量化提取
- Web元數(shù)據(jù)信息提取技術(shù)的研究
- 爬蟲的基本工作原理 用Scrapy實(shí)現(xiàn)一個(gè)簡(jiǎn)單的爬蟲 1681次閱讀
- 如何看待Python爬蟲的合法性? 666次閱讀
- 爬蟲的學(xué)習(xí)方法 876次閱讀
- Python-爬蟲開發(fā)01 617次閱讀
- 基于統(tǒng)一語義匹配的通用信息抽取框架USM 1145次閱讀
- 基于eBPF技術(shù)實(shí)現(xiàn)TLS加密的明文捕獲 2342次閱讀
- 爬蟲技術(shù)為什么變成了害蟲?爬蟲技術(shù)到底犯了什么錯(cuò)? 4275次閱讀
- 如何解決爬蟲被封的問題 5323次閱讀
- 如何快速入門Python爬蟲的? 2657次閱讀
- Python3網(wǎng)絡(luò)爬蟲入門實(shí)戰(zhàn)解析 5554次閱讀
- Python爬蟲速成指南讓你快速的學(xué)會(huì)寫一個(gè)最簡(jiǎn)單的爬蟲 7113次閱讀
- Python學(xué)習(xí)爬蟲掌握的庫資料大全和框架的選擇的分析 5224次閱讀
- 網(wǎng)絡(luò)爬蟲教程(1):音樂歌單編寫 1169次閱讀
- 初學(xué)者寫Python爬蟲的四大工具 5849次閱讀
- 多普勒流量測(cè)量概述-信號(hào)解調(diào)方法等 5112次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN158 GD32VW553 Wi-Fi開發(fā)指南
- 1.51MB | 2次下載 | 免費(fèi)
- 3AN148 GD32VW553射頻硬件開發(fā)指南
- 2.07MB | 1次下載 | 免費(fèi)
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費(fèi)
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費(fèi)
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費(fèi)
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費(fèi)
- 8AN-1308: 電流檢測(cè)放大器共模階躍響應(yīng)
- 545.42KB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 130次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 53314A函數(shù)發(fā)生器維修手冊(cè)
- 16.30 MB | 31次下載 | 免費(fèi)
- 6美的電磁爐維修手冊(cè)大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測(cè)試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 8感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論