日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內(nèi)最全I(xiàn)T社區(qū)平臺 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > php開源 > 綜合技術(shù) > 一個簡單的Python寫的XML爬蟲

一個簡單的Python寫的XML爬蟲

來源:程序員人生   發(fā)布時間:2013-11-06 16:22:29 閱讀次數(shù):2999次

原理很簡單,讀XML結(jié)構(gòu),返回值,判斷,根據(jù)返回的值得到下一個XML的地址,判斷
PY的class和PHP差不多,思路是一樣的

#-*- encoding: utf-8 -*-
import codecs
import sys
import threading
from urllib import urlencode
from urllib2 import urlopen
from xml.dom.minidom import parseString
class Serach:
def __init__(self, key=None):
self.key = key
def SendPy(self, key):
try:
contentpy = urlopen("http://xxxx.com/ac_box?ac=" + self.key).read()
except:
print ("down load py!")
try:
xmldoc = parseString(contentpy)
except:
print ("ill formed xml file")
root = xmldoc.documentElement
''分析XML的結(jié)構(gòu),得到數(shù)組
keyList = root.getElementsByTagName('SuggestWord')
return keyList
def SendKey(self, keyword):
keyword = keyword.encode('gbk')
tupleList = []
try:
''讀XML地址,轉(zhuǎn)碼
content = urlopen("http://xxxx.com/btinfo?keyword=" + keyword + "&num=1").read()
content = unicode(content, "cp936").encode("utf-8")
except:
print ("down load key!")
''替換
content = content.replace('''<?xml version="1.0" encoding="gbk"?>''', '''<?xml version="1.0" encoding="utf-8"?>''')
try:
xmldoc = parseString(content)
except:
print ("ill formed xml file")
try:
query = xmldoc.getElementsByTagName('Query')[0]
tupleList = query.getAttribute('ErrorCode')
except:
tupleList = 104
return tupleList
def run(self):
ls = self.SendPy(self.key)
count = len(self.key)
cur = self.conn.cursor()
str = ''
for doc in ls:
tuple = doc.firstChild.data
text = self.SendKey(tuple)
if text == '0':
test = self.MySQLKey(tuple)

if test != '2':
str = str + tuple + '|' + test + ','
if count > 3:
sitetag = self.MySQLPy(self.key)
if sitetag != ():
for x in sitetag:
tsql = "xxxx"
cur.execute(tsql)
#print(cur.fetchall())
for s in cur.fetchall():
if (s[0]=='rmvb') or (s[0]=='rm'):
r = '0'
else:
r = '1'
str = str + x[0] + '|' + r + ','
str = str[:-1]
else:
str = str[:-1]
#轉(zhuǎn)成數(shù)組后過濾重復(fù)字段
strtag = list(set(str.split(',')))
sText = ','.join(strtag)
file_object = codecs.open(self.savePath + self.key + '.txt', 'w', 'utf-8')
file_object.write(sText)
file_object.close()
if __name__ == "__main__":
if len(sys.argv) > 1:
s = Serach(sys.argv[1]);
s.run()
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
為碼而活
積分:4237
15粉絲
7關(guān)注
欄目熱點
關(guān)閉
程序員人生
主站蜘蛛池模板: 国产黄a三级三级看三级 | 日本美女久久 | 亚洲色图第一区 | 欧美日韩在线观看一区 | 中文第一区| 日韩精品一区二区三区中文在线 | 免费观看av网站 | 国产在线不卡视频 | 91久久精品国产 | 黄色片av| 欧美xxxx黑人又粗又长精品 | 午夜精品福利一区二区三区蜜桃 | 欧美亚洲一区二区在线观看 | 欧美日在线| 在线免费激情视频 | 国产亚洲精品久久久 | 国产成人免费在线 | 国产伦精品一区二区三区精品视频 | 热99精品| 中文字幕一区二区三区在线视频 | 久久免费视频观看 | 五月色综合 | 久久亚洲成人 | 国产精品v亚洲精品v日韩精品 | 国产精品一区二区三区久久 | 欧美视频一区 | 欧美日韩国产高清视频 | 日韩欧美一区二区三区 | 免费在线国产 | 亚洲欧美久久 | av大片免费看 | 亚洲综合国产一区二区三区 | 蜜桃永久免费 | 精品视频亚洲 | 国产经典一区二区三区 | 狠狠影院 | 日本久久久久 | 成人精品一区二区三区校园激情 | 天堂аⅴ在线最新版在线 | 亚洲国产aⅴ成人精品无吗 天天草比 | 国产精品久久久久久久电影 |