代码拉取完成,页面将自动刷新
同步操作将从 耿直的小爬虫/Python爬虫 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import urllib.request as r
import urllib.parse as p
import http.cookiejar as c
url='http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LxogS'
postdata=p.urlencode({
#username password自己加上 没有在这个网站上注册的话 就先去注册一个
'username':' ',
'password':' '
}).encode('utf-8')
req=r.Request(url,postdata)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
cjar=c.CookieJar()
opener=r.build_opener(r.HTTPCookieProcessor(cjar))
r.install_opener(opener)
file=opener.open(req)
data=file.read()
with open('1.html','wb')as p:
print('data是什么类型的:',type(data))
p.write(data)
print('1.html爬取完毕')
url2='http://bbs.chinaunix.net/'
data2=r.urlopen(url2).read()
with open('2.html','wb')as b:
b.write(data2)
print('2.html爬取完毕')
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。