網(wǎng)站分析收集數(shù)據(jù)的方式其實(shí)有五、六種之多,我們最常見的有三種,分別是:服務(wù)器日志(Server Log)、頁面標(biāo)記(Page Tag)和客戶端監(jiān)測(cè)軟件收集(Client End/Desktop)。我的CWA博客(http://www.chinawebanalytics.cn)中主要講解的都是頁面標(biāo)記法,今天則跟大 家講解一下服務(wù)器日志方法的原理及優(yōu)缺點(diǎn)。
一. 服務(wù)器日志是什么
真正意義上的網(wǎng)站分析是從服務(wù)器日志開始的,而且直到今天,分析服務(wù)器(也稱為server log file,或簡稱log file)日志仍然是網(wǎng)站分析的重要方法。
這里的服務(wù)器指的是網(wǎng)站服務(wù)器(Web Server),而服務(wù)器日志跟飛機(jī)的黑匣子一樣,是用來記錄網(wǎng)站服務(wù)器的運(yùn)行信息的,或者簡單說,是用來記錄服務(wù)器中的什么頁面在什么時(shí)候被誰訪問了。 例如,如果你訪問一次我的網(wǎng)站:http://www.chinawebanalytics.cn, 那么一般情況下,網(wǎng)站服務(wù)器的日志就會(huì)記錄在某時(shí)某刻來自某個(gè)IP的訪問者索引了網(wǎng)頁“/index.php”。當(dāng)然,網(wǎng)站服務(wù)器日志還會(huì)記錄其他許多內(nèi) 容,這些內(nèi)容能夠幫助我們分析網(wǎng)站的流量和訪問者在網(wǎng)站上的行為。
下面這個(gè)圖說明了網(wǎng)站日志是如何產(chǎn)生的。當(dāng)用戶訪問一個(gè)網(wǎng)站的時(shí)候,事實(shí)上是訪問這個(gè)網(wǎng)站的某一個(gè)具體的頁面,我們假設(shè)這個(gè)頁面叫Page 1。這時(shí),我們的這個(gè)訪問行為會(huì)請(qǐng)求服務(wù)器中Page 1的實(shí)際的文件,隨之把這個(gè)文件下載到瀏覽器上。由于請(qǐng)求和下載行為都會(huì)引起服務(wù)器的響應(yīng)和相應(yīng)的行動(dòng),因此就有必要記錄下服務(wù)器的這些行動(dòng)。
你會(huì)問,為什么需要記錄服務(wù)器的行動(dòng)呢?原因很簡單,因?yàn)槲覀儾幌胱屵@個(gè)服務(wù)器變成“哈爾9000”(哈爾9000是庫布里克《2001太空奧德 賽》里面有了自我意識(shí)的電腦,它直接威脅到了電影中的宇航員)啊!這當(dāng)然只是開玩笑,不過目的并無差別,就是能夠通過服務(wù)器日志,對(duì)服務(wù)器的運(yùn)行歷史進(jìn)行 記錄,這樣當(dāng)有任何異常情況發(fā)生的時(shí)候,我們都能夠通過日志探尋問題發(fā)生的原因——跟記錄飛機(jī)運(yùn)行狀態(tài)的黑匣子的作用十分類似。
原理看起來并不復(fù)雜,不過log file實(shí)際上并不簡單。為了讓log file具有可讀性,log file并不可以按照各個(gè)網(wǎng)站所有者的喜好隨意記錄的,而是有自己的規(guī)范。W3C組織定義了server log file的通用格式(如果你有興趣,可以在這里看看這些格式都是如何定義的:http://www.w3.org/Daemon/User/Config/Logging.html#common_logfile_format), 而其他一些組織或者個(gè)人又根據(jù)自己的需要額外擴(kuò)展了這個(gè)格式,使log file能夠比較全面地記錄網(wǎng)站服務(wù)器進(jìn)行的各種活動(dòng)。
一條標(biāo)準(zhǔn)的web server log記錄通常包含如下信息: