1 Star 0 Fork 1

kylinpoet/Python_spider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
smzdm.py 1.38 KB
一键复制 编辑 原始数据 按行查看 历史
我的代码会飞 提交于 2016-01-20 21:04 . Python_spider demo
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import re
import gzip,StringIO
import sys,chardet
from HttpClient import HttpClient
class Smzdm(HttpClient):
def __init__(self):
self.__pageIndex = 1
self.__Url = "http://faxian.smzdm.com/9kuai9/p"
#正则得到每页商品信息
def __getAllGoods(self,pageIndex):
realurl = self.__Url + str(pageIndex)
pageCode = self.Get(realurl)
#htmlCharsetGuess = chardet.detect(pageCode)
#htmlCharsetEncoding = htmlCharsetGuess["encoding"]
#htmlCode_decode = pageCode.decode(htmlCharsetEncoding)
type = sys.getfilesystemencoding()
#print pageCode.decode("UTF-8").encode('mbcs')
#htmlCode_encode = htmlCode_decode.encode(type)
#print htmlCode_encode
pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
'<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))
for item in items:
print item[0],item[1],item[2],item[3]
def start(self):
print("正在读取前五页白菜价包邮,请稍等...")
for i in range(1,6):
print i
self.__getAllGoods(i)
pc = Smzdm()
pc.start()
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/kylinpoet/Python_spider.git
[email protected]:kylinpoet/Python_spider.git
kylinpoet
Python_spider
Python_spider
master

搜索帮助