近我聽到一些聰明 人士要求搜索引擎提供一種方法來驗證一個抓取機器人是正宗的。畢竟,任何垃圾制造者都可以用Googlebot來命名他們的抓取機器人,并聲稱自己是Google的。那么,你應(yīng)該信任哪些抓取機器人,又應(yīng)該阻截哪些?
我們聽到最普遍的要求是把Googlebot的IP地址列表公布給大家。這個做法的問題是,如果/當(dāng)我們的抓取工具的IP地址范圍改變時,并非每個人都知 道去檢查。事實上,爬行組幾年前搬遷過Googlebot的IP地址,他們遇到的一個真正的麻煩是提醒一些把Googlebot的IP范圍寫在他們的程序 里的網(wǎng)管們。所以爬行組的成員們提供了另一種方法來驗證Googlebot。這里是爬行組成員們提供的一個答案(經(jīng)他們同意在此引述) :
請告訴網(wǎng)站管理員們,最好的方法看來是使用域名解析服務(wù)器(DNS)來核實每個案例。我推薦的驗證技術(shù)是做反向DNS查找,核實該名字是在googlebot.com域名內(nèi),然后使用該googlebot.com名做一個相應(yīng)的正向DNS->IP的查找; 例如:
(譯者注:以下是Linux命令及執(zhí)行結(jié)果)
> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指針crawl-66-249-66-1.googlebot.com)
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)
我認(rèn)為只做反向DNS查找是不夠的,因為一個垃圾制造者可以建立反向的DNS來指向crawl-a-b-c-d.googlebot.com。
這個答案也是我們內(nèi)部的技術(shù)幫助中心提供給我的,所以我認(rèn)為這是一個驗證Googlebot的官方方法。為了從“官方的”Googlebot IP范圍內(nèi)抓取,抓取機器人要尊重robots.txt和我們內(nèi)部的主機負(fù)荷慣例,從而使Google不過分爬行您的網(wǎng)站。
(感謝N.和J.為此文提供的幫助,他們介紹了爬行方面涉及的東西) 。
來自:谷歌網(wǎng)站管理員中文博客