爬小说数据

以17k小说网为例

介绍

用python爬取网页小说的相关数据

环境配置

需要的环境有：requests,numpy,pandas,matplotlib

数据容器

分别用书本类型，字数，作者，更新的时间，更新状态五个属性来爬取相关数据

确定数据容器

获取数据

$M3(UW4EV8@U{GMW)L85A0_U.png$ 通过开发者工具，发现网页源码中的规律，每个n=1~8都代表这不同的属性，以书名和字数为例，分别为td3和td5

数据分析

检查网页源码检查器里获取Xpath进行数据分析。输入图片说明

数据清洗

输入图片说明在数据分析的过程中发现“连载”属性的Xpath值存在大量空格，需要清理。将“连载”中Xpath的空格删掉之后，把每个表拼接在一起。

数据处理

${UDZ@RX%)JYYY_]6M{`@H{9.png$ 用numpy将转化成数组，zip将表头和数据拼接在一起,pd.DataFrame()的字典创建方式将数据创建为一个二维表输入图片说明

数据可视化

输入图片说明用matplotlib进行数据的可视化

成果展示

输入图片说明

rqr/爬小说数据

爬小说数据

介绍

环境配置

数据容器

获取数据

数据分析

数据清洗

数据处理

数据可视化

成果展示

简介

发行版

贡献者

近期动态

rqr/爬小说数据 .gitee-modal { width: 500px !important; }

爬小说数据

介绍

环境配置

数据容器

获取数据

数据分析

数据清洗

数据处理

数据可视化

成果展示

简介

发行版

贡献者

近期动态

搜索帮助

rqr/爬小说数据