代码拉取完成,页面将自动刷新
同步操作将从 耿直的小爬虫/Python爬虫 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import requests
from pyquery import PyQuery as pq
import re
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
}
#Url='https://www.qu.la/book/161/131487.html'
#进入小说文章中爬取内容
def content(Url):
sponse=requests.get(Url,headers=headers).text
doc=pq(sponse)
text=doc('#content').text()
return text
#抓取URL
def Grab_the_URL():
print('像https://www.qu.la/book/41946/这个 book后面41946就是书名号')
inputurl=input('请输入书名号:')
io = 1
url='https://www.qu.la/book/%s/'%inputurl
sponse=requests.get(url,headers=headers).text
doc=pq(sponse)
URL=doc('#list a').items()
for i in URL:
#print(i.attr('href'))
RE=re.compile('(/book/.*?.html)',re.S).findall(i.attr('href'))
for r in RE:
#小说内容的URL
text='https://www.qu.la/'+r
The_request_again=requests.get(url=text,headers=headers).text
doc = pq(The_request_again)
The_novel_title = doc('.bookname').items()
for u in The_novel_title:
Stitle=u.find('h1').text()
c=content(text)
#print(c)
with open('F:/小说/第%s章.txt'%io,'w',encoding="utf-8")as p:
p.write(c)
print('当前已爬取%s章节了 请您耐心等待'%io)
io+=1
Grab_the_URL()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。