基于 Selenium 和 PhantomJS 的爬虫 介绍 Selenium 是一个 Web 自动化测试工具,最初是为网站自动化测试而开发的。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的页面,甚至页面截屏,或者判断网站上某些动作是否发生。它支持主流的浏览器,包括 PhantomJS 这个无界面的浏览器。 将 Selenium + PhantomJS 联合使用相当于在代码里面模拟了浏览器,我们可以使用这个组合去抓取一些 JavaScript 渲染的页面,也可以用代码模拟人的一些操作,比如点击按钮,拖动,填写表单等等。 本挑战需要大家基于 Selenium + PhantomJS 爬取实验楼 “用 Python 做 2048 游戏” 课程下的所有评论, 课程地址: https://www.shiyanlou.com/courses/427 实现的爬虫脚本为 /home/shiyanlou/spider.py,执行过程如下: $ cd /home/shiyanlou $ python3 spider.py $ ls /home/shiyanlou/co
目标 需要保持运行状态,即运行 flask run 之后,再点击提交结果 需要保证 http://localhost:3000/ 页面可以访问并且返回预期的页面内容,页面内容需要包含文章标题列表及文章链接地址 需要保证文章内容可以通过 index 页面中的链接地址可以访问 系统不会对页面布局及样式进行测试,只会检测页面内容,但希望你能够按照前面实验学习的前端知识尽可能优化页面内容展示的样式 请将 /home/shiyanlou/news 中的代码提交到你的 Github 中,后续的挑战都会用到本次挑战实现的代码 为了后续使用方便,可以不用使用 virtualenv,如果用了,也不要向 Github 提交 virtualenv 创建的虚拟环境目录 来源: 实验楼 链接: https://www.shiyanlou.com/courses/1119 本课程内容,由作者授权实验楼发布,未经允许,禁止转载、下载及非法传播
为文章增加标签 介绍 上一个挑战中,我们实现了一个简单的资讯网站,资讯文章的内容及分类都存入 MySQL 数据库中。 本节挑战将为每一个文章增加0到多个标签(Tag),标签与文章是多对多的关系,增加的标签存入 MongoDB。 首先使用 git clone 克隆你在 Github 上一个挑战的代码到 /home/shiyanlou/news 目录。 下面的 Python 代码仍然需要全部写入到 /home/shiyanlou/news/app.py 文件中。 如果需要安装额外的包,只需要 sudo pip3 install 包名 即可,不需要使用 virtualenv。此处需要安装的包有: $ sudo pip3 install mysqlclient $ sudo pip3 install Flask_SQLAlchemy 注意 MySQL 和 MongoDB 都需要有一些手动的初始化操作,比如创建数据库,启动服务等。 为上一节挑战中实现的文章类 class File(db.Model) 增加下面的两个方法和一个属性: # 向文章添加标签
最近一年贡献:0 次
最长连续贡献:0 日
最近连续贡献:0 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。