最近由于《信息檢索》第2個project,需要爬取微博數據,然后再處理。師兄給了代碼,讓漸漸爬,但是在ubuntu下,少了很多python軟件包。需要安裝。
1.首先運行時,說少了python,BeautifulSoup包,用來解析html文件奇異,這么重要的包怎樣能缺少呢,百度ubuntu python BeautifulSoup后,看博客后找到方法:
先安裝easy_install工具:
再用easy_install安裝:
easy_install BeautifulSoup
若是還沒有安裝easy_install,在ubuntu下,會自動提示按怎樣的命令去安裝。
2.繼續運行,說是缺少rsa包,想到是師兄在pdf文檔里提到用pip安裝1些通過pip按張rsa。運行:
pip install -r requirements.txt #不行,需要在root權限,換 sudo pip install -r requirements.txt
安裝成功,履行源代碼,可行。
3.另外的話,缺少display的話,用來展現驗證碼的。通過以下命令安裝:
sudo apt-get install imagemagick
若是不能安裝display的話,注釋掉weibo/crawler/toolkit/accountlib.py第178行變量proc和第182行proc.kill()
#proc = subprocess.Popen(['display', filename]) #第178行 self.loginpostdata['pcid'] = pcid self.loginpostdata['door'] = raw_input(u'請輸入驗證碼:') os.remove(filename) #proc.kill() #第182行
但與之相對的,在運行時,需要在文件夾里打開抓取的驗證碼圖片,在終端手動輸入驗證碼。
有1點挺疑惑的是,隊友直接沒有安裝display,直接使用
python main.py display連驗證碼都沒有輸入,直接能夠進入爬取部份,而且能夠爬取出數據,嚇尿。
4.有的時候在抓取文件,但是沒有下載,坑爹,沒想到這問題,還沒解析代碼就那末運行著,還以為已在抓取呢。在自己的筆記本centos6.5下抓取的時候甚是麻煩而且沒成功。換了實驗室里ubuntu14.04.1LTS版本,改好了1下參數終究在怕去數據了,下1步要分析數據,進行后續任務了。
5.爬取微博的時候,速度可能有些慢,平均下來爬18頁/min,要看網速了。不過可以改crawler/config.py參數,
把用戶數據降將為1年,但是相應的,在后續分析用戶數據時,少了的話,固然也是有1定的影響了。而已爬取的部份不會再爬取。
轉載請認證:http://blog.csdn.net/u010454729/article/details/40656087