日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國(guó)內(nèi)最全I(xiàn)T社區(qū)平臺(tái) 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁(yè) > php開源 > php教程 > Python第一個(gè)程序小爬蟲

Python第一個(gè)程序小爬蟲

來源:程序員人生   發(fā)布時(shí)間:2015-06-16 08:41:31 閱讀次數(shù):2494次

最近想上手Python。快速入門1門語(yǔ)言的方法就是寫個(gè)小Demo。Python Demo必須是爬蟲了。第1個(gè)小爬蟲程序有些簡(jiǎn)陋,高手勿噴。

關(guān)于爬蟲主要分為3個(gè)部份:根據(jù)隊(duì)列中的URL爬取界面、獲得內(nèi)容、保存結(jié)果。

程序是以百度網(wǎng)站大全為種子URL,抓取頁(yè)面中URL順次放入隊(duì)列中,爬蟲從URL隊(duì)列順次獲得新URL繼續(xù)向外爬取。

# -*- coding: utf⑻ -*- import urllib2 import re import thread import time class HTML_Spider: def __init__(self): self.url = [] #根據(jù)隊(duì)列中的URL爬取界面 def GetPage(self,url): try: myResponce = urllib2.urlopen(url) myPage = myResponce.read() myUrl = re.findall('href="(.*?)"',myPage,re.S) self.url.extend(myUrl); except: print u'當(dāng)前URL不合法' myPage = ' ' return myPage #以HTML的情勢(shì)保存界面 def SavePage(self,page): if page != ' ': #以時(shí)間戳的情勢(shì)為文件命名 f = open(time.strftime(str(time.time()),time.localtime(time.time()))+'.html','w+')#解決pagenama問題,最好采取保存時(shí)間命名 f.write(page) f.close() #保持URL隊(duì)列 def StartSpider(self): i = 1 while 1: if i == 1: url = u'http://site.baidu.com/' else: url = self.url[i] i += 1 print url page = self.GetPage(url) self.SavePage(page) #程序main函數(shù) print u'開始爬取頁(yè)面:' raw_input(" ") mySpider = HTML_Spider() mySpider.StartSpider()
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對(duì)您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 久久久www成人免费精品 | 欧美精品第一页 | 国产午夜精品久久久 | 国产伦精品一区二区 | 久久性生活免费视频 | 久久色av| 综合av网 | 欧洲成人午夜免费大片 | 免费国产一区二区 | 亚洲国产日韩精品 | 成人av激情 | 国产黄色在线播放 | 欧美日韩国产中文字幕 | 一区二区三区久久 | 久久xxxx| 亚洲一级在线观看 | 717影视三级理论电影在线 | 91麻豆精品一区二区三区 | 在线播放国产一区二区三区 | 污视频网站在线免费观看 | 在线不卡一区 | 久久久久久久成人 | 欧美成人三区 | 中文国产一区 | 日韩三级久久 | 欧美日韩在线不卡 | 国产成人精品亚洲777人妖 | 国产日韩欧美一区 | 一区在线观看视频 | 亚洲精品视频免费 | av三级网站| 亚洲欧美在线播放 | 男人操女人视频网站 | 中文字幕一区二区三区乱码图片 | 久久女人 | 欧美激情视频一区二区三区 | 国产青青视频 | 亚洲2020天天堂在线观看 | 日韩成人精品视频 | 国产精品久久久久久久久 | 爱爱的免费视频 |