您當前位置：首頁 > 互聯網 > Ubuntu下python的BeautifulSoup和rsa安裝方法---信息檢索project2部分：微博爬取所需python包

Ubuntu下python的BeautifulSoup和rsa安裝方法---信息檢索project2部分：微博爬取所需python包

來源：程序員人生發布時間：2014-11-15 01:30:33 閱讀次數：4032次

最近由于《信息檢索》第2個project，需要爬取微博數據，然后再處理。師兄給了代碼，讓漸漸爬，但是在ubuntu下，少了很多python軟件包。需要安裝。

1.首先運行時，說少了python，BeautifulSoup包，用來解析html文件奇異，這么重要的包怎樣能缺少呢，百度ubuntu python BeautifulSoup后，看博客后找到方法：

先安裝easy_install工具：

再用easy_install安裝：

easy_install BeautifulSoup

若是還沒有安裝easy_install,在ubuntu下，會自動提示按怎樣的命令去安裝。

2.繼續運行，說是缺少rsa包，想到是師兄在pdf文檔里提到用pip安裝1些通過pip按張rsa。運行:

pip install -r requirements.txt #不行，需要在root權限，換 sudo pip install -r requirements.txt

安裝成功，履行源代碼，可行。

3.另外的話，缺少display的話，用來展現驗證碼的。通過以下命令安裝：

sudo apt-get install imagemagick

若是不能安裝display的話，注釋掉weibo/crawler/toolkit/accountlib.py第178行變量proc和第182行proc.kill()

#proc = subprocess.Popen(['display', filename]) #第178行 self.loginpostdata['pcid'] = pcid self.loginpostdata['door'] = raw_input(u'請輸入驗證碼：') os.remove(filename) #proc.kill() #第182行

但與之相對的，在運行時，需要在文件夾里打開抓取的驗證碼圖片，在終端手動輸入驗證碼。

有1點挺疑惑的是，隊友直接沒有安裝display，直接使用

python main.py display

連驗證碼都沒有輸入，直接能夠進入爬取部份，而且能夠爬取出數據，嚇尿。

4.有的時候在抓取文件，但是沒有下載，坑爹，沒想到這問題，還沒解析代碼就那末運行著，還以為已在抓取呢。在自己的筆記本centos6.5下抓取的時候甚是麻煩而且沒成功。換了實驗室里ubuntu14.04.1LTS版本，改好了1下參數終究在怕去數據了，下1步要分析數據，進行后續任務了。

5.爬取微博的時候，速度可能有些慢，平均下來爬18頁/min,要看網速了。不過可以改crawler/config.py參數，

begin_time="2012⑴1⑴ 00:00:00" end_time="2014⑴1⑴ 00:00:00"

把用戶數據降將為1年，但是相應的，在后續分析用戶數據時，少了的話，固然也是有1定的影響了。而已爬取的部份不會再爬取。

轉載請認證：http://blog.csdn.net/u010454729/article/details/40656087

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 DEDE使用AJAX無刷新提交Form表單，PHP返回結果

下一篇 iOS定制修改navigation的back按鈕

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

Ubuntu下python的BeautifulSoup和rsa安裝方法---信息檢索project2部分：微博爬取所需python包