上面已經(jīng)介紹了搜索引擎收錄頁(yè)面的流程及原理。然而,在互聯(lián)網(wǎng)數(shù)以億計(jì)的頁(yè)面中,搜索
引擎怎樣才能從中抓取到更多相對(duì)重要的頁(yè)面呢?這就涉及搜索引擎的頁(yè)面收錄方式。
頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略,目的是為了能在互聯(lián)網(wǎng)中篩選出更多
相對(duì)重要的信息。頁(yè)面收錄方式的制定取決于搜索引擎對(duì)網(wǎng)站結(jié)構(gòu)的理解。如果使用相同的抓取
策略,搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源,則會(huì)在該網(wǎng)站上停留
更長(zhǎng)的時(shí)間,收錄的頁(yè)面數(shù)自然也就更多。因此,加深對(duì)搜索引擎頁(yè)面收錄方式的認(rèn)識(shí),有利于
為網(wǎng)站建立友好的結(jié)構(gòu),提高頁(yè)面被收錄的數(shù)量。
常見(jiàn)的搜索引擎收錄頁(yè)面的方式主要有廣度優(yōu)先、深度優(yōu)先及用戶提交三種,接下來(lái)將詳細(xì)
介紹這三種頁(yè)面收錄方式及各自的優(yōu)缺點(diǎn)。
●廣度優(yōu)先
如果把整個(gè)網(wǎng)站看作是一棵樹(shù),首頁(yè)就是根,每個(gè)頁(yè)面就是葉子。廣度優(yōu)先是一種橫向的頁(yè)
面抓取方式,先從樹(shù)的較淺層開(kāi)始抓取頁(yè)面,直至抓取完同一層次上的所有頁(yè)面后才進(jìn)入下一層。
因此,在對(duì)網(wǎng)站進(jìn)行優(yōu)化的時(shí)候,我們應(yīng)該把網(wǎng)站中相對(duì)重要的信息展示在層次較淺的頁(yè)面上(例
如,在首頁(yè)上推薦一些熱門(mén)產(chǎn)品或者內(nèi)容)。反過(guò)來(lái),通過(guò)廣度優(yōu)先的抓取方式,搜索引擎就可
以優(yōu)先抓取到網(wǎng)站制作中相對(duì)重要的頁(yè)面。
我們來(lái)看一下廣度優(yōu)先的抓取流程。首先,搜索引擎從網(wǎng)站的首頁(yè)出發(fā),抓取首頁(yè)上所有鏈
接指向的頁(yè)面,形成頁(yè)面集合(A),并解析出集合(A)中所有頁(yè)面的鏈接;再跟蹤這些鏈接抓
取下一層的頁(yè)面,形成頁(yè)面集合(B)。就這樣遞歸地從淺層頁(yè)面中解析出鏈接,從而抓取深層頁(yè)
面,直至滿足了某個(gè)設(shè)定的條件后才停止抓取進(jìn)程,如圖2-3所示。
圖2-3廣度優(yōu)先抓取流程
●深度優(yōu)先
與廣度優(yōu)先的抓取方式恰恰相反,深度優(yōu)先是一種縱向的頁(yè)面抓取方式,首先跟蹤的是淺層
頁(yè)面中的某一個(gè)鏈接從而逐步抓取深層次頁(yè)面,直至抓取完最深層次的頁(yè)面后才返回淺層頁(yè)面,
再跟蹤其另一鏈接繼續(xù)向深層頁(yè)面抓取。使用深度優(yōu)先的抓取方式,搜索引擎可以抓取到網(wǎng)站中
較為隱蔽、冷門(mén)的頁(yè)面,這樣才能滿足更多用戶的需求。
我們來(lái)看一下深度優(yōu)先的抓取流程。首先,搜索引擎會(huì)抓取網(wǎng)站的首頁(yè),并提取首頁(yè)中的鏈
接;再沿著其中的一個(gè)鏈接抓取到頁(yè)面1-1,同時(shí)提取其中的鏈接;接著,沿著頁(yè)面1_1中的一個(gè)
鏈接A—1抓取到頁(yè)面2-1,同時(shí)提取其中的鏈接;再沿著頁(yè)面2-1中的一個(gè)鏈接B-l繼續(xù)抓取更深一
層的頁(yè)面。這樣遞歸地執(zhí)行,直至抓取到網(wǎng)站最深層的頁(yè)面或者滿足了某個(gè)設(shè)定的條件才轉(zhuǎn)回到
首頁(yè)繼續(xù)抓取,如圖2-4所示。
圖2 4深度優(yōu)先抓取流程
●用戶提交
為了抓取到更多的網(wǎng)頁(yè),搜索引擎還允許站管理員主動(dòng)提交頁(yè)面。網(wǎng)站管理員只需把剛站
中頁(yè)面URL按照指定的格式制作成文件,提交給搜索引擎,搜索引擎就可以通過(guò)該文件對(duì)網(wǎng)站
中的頁(yè)面進(jìn)行抓取及更新。
這種由網(wǎng)站管理員主動(dòng)提交頁(yè)面的方式大大提高了搜索引擎抓取頁(yè)面的效率及質(zhì)量;而對(duì)于
網(wǎng)站本身來(lái)說(shuō),也大大提高了網(wǎng)站頁(yè)面被收錄的數(shù)量(目Google及Yahoo!都支持這種頁(yè)面抓取
方式)。
為了提高抓取頁(yè)面的效率及質(zhì)量,搜索引擎會(huì)結(jié)合多種方式去抓取頁(yè)面。例如,先使用廣度
優(yōu)先的方式,把抓取范圍鋪得盡可能寬,獲取到盡可能多的重要頁(yè)面;再使用深度優(yōu)先的方式,
抓取更多隱蔽的頁(yè)面;最后,結(jié)合用戶提交的信息,抓取那些被遺漏的頁(yè)面。
本文由上海專業(yè)網(wǎng)站建設(shè)公司藝覺(jué)網(wǎng)絡(luò)(m.11y57l.cn www.mywebseo.net)