您當(dāng)前位置：首頁 > web前端 > 網(wǎng)絡(luò)優(yōu)化 > 如何驗證谷歌 Googlebot(抓取機器人)

如何驗證谷歌 Googlebot(抓取機器人)

來源：程序員人生發(fā)布時間：2014-05-19 12:34:17 閱讀次數(shù)：2265次

　　近我聽到一些聰明人士要求搜索引擎提供一種方法來驗證一個抓取機器人是正宗的。畢竟，任何垃圾制造者都可以用Googlebot來命名他們的抓取機器人，并聲稱自己是Google的。那么，你應(yīng)該信任哪些抓取機器人，又應(yīng)該阻截哪些?

　　我們聽到最普遍的要求是把Googlebot的IP地址列表公布給大家。這個做法的問題是，如果/當(dāng)我們的抓取工具的IP地址范圍改變時，并非每個人都知道去檢查。事實上，爬行組幾年前搬遷過Googlebot的IP地址，他們遇到的一個真正的麻煩是提醒一些把Googlebot的IP范圍寫在他們的程序里的網(wǎng)管們。所以爬行組的成員們提供了另一種方法來驗證Googlebot。這里是爬行組成員們提供的一個答案(經(jīng)他們同意在此引述) ：

　　請告訴網(wǎng)站管理員們，最好的方法看來是使用域名解析服務(wù)器(DNS)來核實每個案例。我推薦的驗證技術(shù)是做反向DNS查找，核實該名字是在googlebot.com域名內(nèi)，然后使用該googlebot.com名做一個相應(yīng)的正向DNS->IP的查找; 例如：

　　(譯者注：以下是Linux命令及執(zhí)行結(jié)果)

　　> host 66.249.66.1

　　1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

　　(1.66.249.66.in-addr.arpa域名指針crawl-66-249-66-1.googlebot.com)

　　> host crawl-66-249-66-1.googlebot.com

　　crawl-66-249-66-1.googlebot.com has address 66.249.66.1

　　(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)

　　我認(rèn)為只做反向DNS查找是不夠的，因為一個垃圾制造者可以建立反向的DNS來指向crawl-a-b-c-d.googlebot.com。

　　這個答案也是我們內(nèi)部的技術(shù)幫助中心提供給我的，所以我認(rèn)為這是一個驗證Googlebot的官方方法。為了從“官方的”Googlebot IP范圍內(nèi)抓取，抓取機器人要尊重robots.txt和我們內(nèi)部的主機負(fù)荷慣例，從而使Google不過分爬行您的網(wǎng)站。

　　(感謝N.和J.為此文提供的幫助，他們介紹了爬行方面涉及的東西) 。

　　來自：谷歌網(wǎng)站管理員中文博客

生活不易，碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機掃描二維碼進(jìn)行捐贈
程序員人生

------分隔線----------------------------

上一篇 如何在 WordPress 中顯示最新 Google+ 內(nèi)容

下一篇 優(yōu)化網(wǎng)頁速度：SEOs和Web開發(fā)者可執(zhí)行的技巧

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關(guān)注

欄目熱點

日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

如何驗證谷歌 Googlebot(抓取機器人)