該小節(jié)會從定義和用途上介紹一下搜索引擎爬蟲.搜索引擎爬蟲在整體用途中算少數(shù).它主要是看robot.txt來獲取頁面的信息.然后盡可能快的,深的挖掘出互聯(lián)網(wǎng)中的所有鏈接.按照前面所說,該類爬蟲分為批量型,增量型和垂直型三類.
批量型
此類爬蟲有比較明確的抓取范圍和目標(biāo),當(dāng)爬蟲達(dá)到這個設(shè)定的目標(biāo)后,即停止抓取過程.其流程圖如下:
但該類爬蟲存在特定問題,就是當(dāng)已經(jīng)爬取的網(wǎng)站發(fā)生變化時,無法感知到其變化,導(dǎo)致資源失效。適用于那些那些很久不更新頁面.對于那些更新頻繁的,我們需要用到增量型.
增量型
.此類爬蟲會根據(jù)自身的算法來實(shí)現(xiàn)周期性訪問已經(jīng)爬取過的網(wǎng)站,如果該網(wǎng)站有了變化,那么就會將變化記錄下來,保證資源不失效,如果網(wǎng)站一切照舊,那么就不會去改變.流程圖一般是這樣的:
一般商業(yè)搜索引擎的爬蟲都是此類,為批量型的改進(jìn)型。適用于絕大部分情況,是搜索引擎中使用最廣泛的,承擔(dān)著收錄互聯(lián)網(wǎng)中各種地址的重任.但該類爬蟲往往注重于廣度,即最大可能的抓取盡量多的鏈接,很容易出現(xiàn)深度不足的問題.而這問題,就靠垂直型爬蟲來補(bǔ)充.
此爬蟲與增量型爬蟲互相補(bǔ)充,共同為搜索引擎服務(wù).搜索引擎爬蟲是一個非常高深的領(lǐng)域,里面基本都是大規(guī)模商用型爬蟲,個人開發(fā)的很少,如果你讀了這篇想進(jìn)入搜索引擎爬蟲的世界的話,那只有請你自己多加努力了。