代码拉取完成,页面将自动刷新
用python爬取网页小说的相关数据
需要的环境有:requests,numpy,pandas,matplotlib
分别用书本类型,字数,作者,更新的时间,更新状态五个属性来爬取相关数据
通过开发者工具,发现网页源码中的规律,每个n=1~8都代表这不同的属性,
以书名和字数为例,分别为td3和td5
检查网页源码检查器里获取Xpath进行数据分析。
在数据分析的过程中发现“连载”属性的Xpath值存在大量空格,需要清理。
将“连载”中Xpath的空格删掉之后,把每个表拼接在一起。
用numpy将转化成数组,zip将表头和数据拼接在一起,pd.DataFrame()的字典创建方式将数据创建为一个二维表
用matplotlib进行数据的可视化
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。