帶你了解什么是百度蜘蛛
1、搜索引擎抓取程序:蜘蛛
搜索引擎為了可以自動(dòng)抓取互聯(lián)網(wǎng)上面數(shù)以萬計(jì)的網(wǎng)頁(yè),必須有一個(gè)全自動(dòng)的頁(yè)面抓取程序。而這個(gè)程序我們一般稱之為“蜘蛛”(也可以叫做“機(jī)器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般稱為百度蜘蛛。
谷歌的抓取程序,一般稱為谷歌機(jī)器人。
360的抓取程序,一般稱為360蜘蛛。
其實(shí),不管叫做蜘蛛,還是機(jī)器人,你只要知道這個(gè)指的是搜索引擎的抓取程序,就可以了。蜘蛛的任務(wù)很簡(jiǎn)單,就是順著鏈接不斷的抓取互聯(lián)網(wǎng)上,自己還沒有收錄過的網(wǎng)頁(yè)和鏈接,然后將抓取到的網(wǎng)頁(yè)信息和鏈接信息存儲(chǔ)到自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中。而這些抓取到的網(wǎng)頁(yè),將有機(jī)會(huì)出現(xiàn)在最終的搜索結(jié)果中。
2、怎么讓蜘蛛來抓取我們的網(wǎng)站
通過上面對(duì)蜘蛛的解釋,我們能夠知道:要想自己的頁(yè)面最終出現(xiàn)在搜索結(jié)果中,首先得讓蜘蛛抓取到我們的網(wǎng)站。通過下面三種方法可以讓蜘蛛來抓取我們的網(wǎng)站
外部鏈接:我們可以在一些已經(jīng)被搜索引擎收錄的網(wǎng)站上面發(fā)布自己網(wǎng)站的鏈接,以此吸引蜘蛛,或者交換友情鏈接也是一個(gè)常用的方法。
提交鏈接:百度為站長(zhǎng)們提供了鏈接提交的工具,通過這個(gè)工具,我們只需要通過這個(gè)工具提交給百度,那么百度就會(huì)派出蜘蛛來抓取我們網(wǎng)頁(yè)了。
蜘蛛自己來抓取:如果你希望蜘蛛能夠定期主動(dòng)來自己的網(wǎng)站抓取網(wǎng)頁(yè),那么你就必須提供優(yōu)質(zhì)的網(wǎng)站內(nèi)容。只有蜘蛛發(fā)現(xiàn)你的網(wǎng)站的內(nèi)容質(zhì)量很好,那么蜘蛛就會(huì)特別關(guān)照你的網(wǎng)站,定時(shí)會(huì)來你的網(wǎng)站看看是不是新的內(nèi)容產(chǎn)生。如何才能夠確保自己的網(wǎng)站能夠提供優(yōu)勢(shì)的內(nèi)容,這個(gè)話題我們?cè)谥蟮恼鹿?jié)再做闡述。
3、怎么知道蜘蛛來過我們網(wǎng)站
通過下面2個(gè)方式可以知道蜘蛛是否來過我們的網(wǎng)站。
。1)百度抓取頻次工具
該工具網(wǎng)址為:
。2)服務(wù)器IIS日志
如果你的服務(wù)器開啟了IIS日志功能,那么也可以通過IIS日志文件看到蜘蛛來過的痕跡。通過IIS日志我們可以發(fā)現(xiàn)百度蜘蛛抓取我們那些頁(yè)面。
4、影響蜘蛛抓取的因素
好了,我們知道了網(wǎng)站想要有排名,第一步就是必須能夠被蜘蛛抓取到。那么那些因素有可能造成蜘蛛無法正常抓取我們網(wǎng)頁(yè)呢,我們應(yīng)該注意下面幾個(gè)要點(diǎn):
。1)網(wǎng)址不能過長(zhǎng):百度建議網(wǎng)址的長(zhǎng)度不要超過256個(gè)字節(jié)(一個(gè)英文字母(不分大小寫))占一個(gè)字節(jié)的空間,一個(gè)中文漢字占兩個(gè)字節(jié)的空間)。
。2)網(wǎng)址中不要包含中文:百度對(duì)于中文網(wǎng)址的抓取效果都是比較差的,所以在網(wǎng)址內(nèi)千萬不要帶有中文。
。3)服務(wù)器問題:如果你的服務(wù)器質(zhì)量太差,總是打不開,那么也會(huì)影響蜘蛛的抓取效果。
。4)Robots.txt屏蔽:有的SEO人員由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路徑或者頁(yè)面。這也會(huì)影響到百度對(duì)于我們網(wǎng)站的抓取效果。
。5)避免出現(xiàn)蜘蛛難以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html這種URL蜘蛛無法理解會(huì)放棄抓取。
。6)注意動(dòng)態(tài)參數(shù)不要太多太復(fù)雜,目前百度對(duì)動(dòng)態(tài)URL已經(jīng)有了很好的處理,但是參數(shù)過多且復(fù)雜的url有可能被蜘蛛認(rèn)為不重要而拋棄。這點(diǎn)尤為重要,一定注意。