在網(wǎng)站seo優(yōu)化的過程中常常需要通過一個名為robots.txt的文件與搜索引擎蜘蛛對話。通常來講,搜索引擎蜘蛛爬行到某一個網(wǎng)站就會首先讀取該文件,并按照文件中的規(guī)則執(zhí)行接下來的行為。
當(dāng)一個網(wǎng)站中有一些網(wǎng)站不需要被搜索引擎收錄時,往往就會通過robots.txt來限制搜索引擎蜘蛛對這個網(wǎng)頁的抓取。比如說,當(dāng)網(wǎng)站出現(xiàn)?replytocom重復(fù)收錄,或者某些不需要被收錄并分享權(quán)重的頁面等等。從這個方面來講,robots.txt約束了搜索引擎的行為。
而實際情況是,網(wǎng)站在robots.txt禁止了蜘蛛對某個類型url網(wǎng)頁的收錄,但在用搜索引擎高級命令site查詢收錄情況是發(fā)現(xiàn),搜索引擎并沒有遵從robots.txt中的規(guī)則。大部分時候,搜索引擎確實能按照網(wǎng)站robots.txt中所寫的規(guī)則對這些網(wǎng)頁不進(jìn)行收錄。但搜索引擎視robots.txt中的規(guī)則為無物的情況也是確實存在的。
當(dāng)然,也有可能存在網(wǎng)站robots.txt寫法出現(xiàn)錯誤的可能,但此文建立在正確撰寫robots.txt的前提下。
有一個很官方的說法是這樣的:網(wǎng)站robots.txt中對某個網(wǎng)頁屏蔽了蜘蛛的收錄,但搜索引擎還是會對該網(wǎng)頁進(jìn)行抓取,只不過在相關(guān)搜索結(jié)果中不會展現(xiàn)這些網(wǎng)頁內(nèi)容。
這句話咋一看有些令人費解,但據(jù)筆者的看法,還是很有可能的。
首先,搜索引擎的發(fā)展根本是向搜索用戶展現(xiàn)用戶所需要的、健康的、優(yōu)質(zhì)的內(nèi)容。在收錄并返回相關(guān)搜索結(jié)果之前,搜索引擎必然要對這些網(wǎng)站進(jìn)行相應(yīng)的了解,然后在權(quán)衡是否將其收錄并給予如何的排名。
打個比方,如果要做一個非法的網(wǎng)站,先假設(shè)網(wǎng)站內(nèi)容沒有被監(jiān)管部門查到,也不考慮以下這個方法的好壞與否。當(dāng)然,如果直接采用相關(guān)的關(guān)鍵詞做網(wǎng)站seo優(yōu)化,在得到更高曝光率的同時也大大增加了被查封的可能性。更何況這些非法內(nèi)容也不一定不會被搜索引擎屏蔽。
這時,通過大量的健康的內(nèi)容做網(wǎng)站的seo排名。通過健康的關(guān)鍵詞使網(wǎng)站獲得大量流量,然后在這些健康的內(nèi)容上帶上非法信息的鏈接入口。當(dāng)然,這樣的鏈接必然要使用網(wǎng)站的robots.txt對搜索引擎蜘蛛進(jìn)行屏蔽,同時將所有的非法內(nèi)容頁面也同樣的禁止收錄。
難道這樣就能既通過搜索引擎謀利,又避開了搜索引擎的監(jiān)管嗎?其實不然,上文中說到搜索引擎為了良好的用戶體驗,必然會對已收錄或者將要收錄的網(wǎng)站進(jìn)行全面的了解(不管現(xiàn)在搜索引擎做的是否完善)。
那好,既然搜索引擎要了解網(wǎng)站,又怎么能對robots.txt中屏蔽的頁面視而不見呢?明著對著搜索引擎裝純潔,背地里暗暗的搞一些非法勾當(dāng)。我想,這種情況搜索引擎不會不考慮到。所以了,即使你的網(wǎng)站robots.txt中明確的對某些頁面禁止蜘蛛的爬行,但搜索引擎總還是要“檢查”一下的。不然又怎么全面的了解網(wǎng)站的優(yōu)劣呢?
好吧,要查看網(wǎng)頁的情況當(dāng)然先要抓取進(jìn)入搜索引擎的服務(wù)器,再進(jìn)行判斷了。既然搜索引擎對網(wǎng)站robots.txt中屏蔽的頁面還是進(jìn)行了抓取并查看,那么,又要如何體現(xiàn)robots.txt的作用呢?
那只有將這些頁面進(jìn)行隱藏,至少不能在普通搜索結(jié)果中展現(xiàn)出來。不然,網(wǎng)站robots.txt豈不只成擺設(shè)?
所以,當(dāng)發(fā)現(xiàn)搜索引擎依舊對網(wǎng)站robots.txt屏蔽的網(wǎng)頁進(jìn)行收錄時不用過于緊張。搜索引擎只是想要充分的了解網(wǎng)站情況。但必須要確保robots.txt規(guī)則正確書寫。一般情況,搜索引擎都會對禁止抓取的網(wǎng)頁進(jìn)行刪除,或者說是“隱藏”的。
由于網(wǎng)站robots.txt屏蔽網(wǎng)頁依舊收錄的情況存在著較大的不確定因素,所以很遺憾筆者無法進(jìn)行實際的實驗對該情況進(jìn)行檢測。同時筆者自認(rèn)為只是剛剛開始學(xué)習(xí)seo的菜鳥,所以筆者的觀點并不一定正確無誤。筆者衷心希望各位seo優(yōu)化前輩、達(dá)人能給予指點和交流,謝謝。
除非特殊注明,本博客文章均為于申原創(chuàng),版權(quán)歸于申blog©所有。
原文鏈接地址:http://www.yushenblog.com/talk/509.html,轉(zhuǎn)載請務(wù)必注明出處,謝謝。