代码拉取完成,页面将自动刷新
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# 爬取无反爬虫技术网站 -->爱斗图网
import os
# 发送就收requests请求
import requests
from lxml import html, etree
# 爬取有意思的表情包,心有多大,硬盘有多大,表情包就有多大
class Spider(object):
def start_request(self):
#循环抓取网页,相当于网站翻页
for i in range(1,2676):
#1.获取网站整体数据
print("======正在抓取%s页======"% i)
response = requests.get("http://www.adoutu.com/picture/list/"+str(i))
html = etree.HTML(response.content.decode())
self.xpath_data(html)
def xpath_data(self,html):
#2.抽取想要的数据
src_list = html.xpath('//div[@class="row text-center picture-list"]/a/img/@src')
#在div中找到类选择器“video-play”,进入value下的src,可获得视频链接
tit_list = html.xpath('//div[@class="row text-center picture-list"]/a/img/@title')
#同理找到视频名称
for src,tit in zip(src_list,tit_list):
#3.视频文件名,视频下载
url = src
file_name="表情包\\" + tit +".gif";
print("抓取成功:"+file_name)
content = requests.get(url).content
#4.存储数据
with open(file_name,"wb") as f:
f.write(content)
spider = Spider()
spider.start_request()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。