資料內(nèi)容:
一、爬蟲定義
網(wǎng)絡(luò)爬蟲(Web crawler),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本,它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動(dòng)采集所有其能夠訪問到的頁(yè)面,以獲取這些網(wǎng)站的內(nèi)容。l
從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲(chǔ)存三個(gè)部分。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過程中不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。
二、所需知識(shí)
需要的知識(shí)有: linux系統(tǒng)+ Python語言 +Scrapy框架+XPath KXML路徑語言) +一些輔助工具(瀏覽器的開發(fā)者工具和XPathhelper插件)。
我們的爬蟲是使用Python語言的Scrapy爬蟲框架開發(fā),在linux上運(yùn)行,所以需要熟練掌握Python語言和Scrapy框架以及l(fā)inux操作系統(tǒng)的基本知識(shí)。
我們需要使用XPath從目標(biāo)HTML頁(yè)面中提取我們想要的東西,包括漢語文字段落和“下一頁(yè)”的鏈接等。