2 Star 3 Fork 2

rqr/爬小说数据

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

爬小说数据

以17k小说网为例

介绍

用python爬取网页小说的相关数据

环境配置

需要的环境有:requests,numpy,pandas,matplotlib

数据容器

分别用书本类型,字数,作者,更新的时间,更新状态五个属性来爬取相关数据

确定数据容器

获取数据

通过开发者工具,发现网页源码中的规律,每个n=1~8都代表这不同的属性, 以书名和字数为例,分别为td3和td5

数据分析

检查网页源码检查器里获取Xpath进行数据分析。 输入图片说明

数据清洗

输入图片说明 在数据分析的过程中发现“连载”属性的Xpath值存在大量空格,需要清理。 输入图片说明 将“连载”中Xpath的空格删掉之后,把每个表拼接在一起。

数据处理

输入图片说明 用numpy将转化成数组,zip将表头和数据拼接在一起,pd.DataFrame()的字典创建方式将数据创建为一个二维表 输入图片说明

数据可视化

输入图片说明 用matplotlib进行数据的可视化

成果展示

输入图片说明

输入图片说明

空文件

简介

用python爬取网页小说的相关数据 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/renqiran/crawling-novel-data.git
git@gitee.com:renqiran/crawling-novel-data.git
renqiran
crawling-novel-data
爬小说数据
master

搜索帮助