Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Python爬蟲框架Scrapy入門 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-06-30 09:48:45
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

Python爬蟲框架Scrapy入門 PDF 下載  圖1

 

 

資料內(nèi)容:

 

一、爬蟲定義

網(wǎng)絡(luò)爬蟲(Web crawler),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本,它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動(dòng)采集所有其能夠訪問到的頁(yè)面,以獲取這些網(wǎng)站的內(nèi)容。l

從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲(chǔ)存三個(gè)部分。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過程中不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

 

二、所需知識(shí)

需要的知識(shí)有: linux系統(tǒng)+ Python語言 +Scrapy框架+XPath KXML路徑語言) +一些輔助工具(瀏覽器的開發(fā)者工具和XPathhelper插件)。

我們的爬蟲是使用Python語言的Scrapy爬蟲框架開發(fā),在linux上運(yùn)行,所以需要熟練掌握Python語言和Scrapy框架以及l(fā)inux操作系統(tǒng)的基本知識(shí)。

我們需要使用XPath從目標(biāo)HTML頁(yè)面中提取我們想要的東西,包括漢語文字段落和“下一頁(yè)”的鏈接等。