(⼀) 在 jupyter notebook 中,实现 KNN 算法和 Decision Trees 算法,要求有完整的注释 (⼆) ⼿手写数字识别 样本中包含1797个⼿手写数字灰度图像,每个图像⼤大⼩小为8*8,可使⽤用 numpy.load('filename.npy') 进 ⾏行行载⼊入 使⽤用留留出法拆分训练集与测试集,留留出10%作为测试集。训练KNN模型,搜索最佳的超参数k和n的取值,提 升识别准确度
最近更新: 6年多前(⼀)、 安装numpy和pandas,并整理笔记 (⼆)、 使⽤pandas分别从Text、CSV、Excel、Html、MySQL、MongoDB中加载数据 (三)、 复习矩阵相关操作,并完成下题
最近更新: 6年多前问题描述 一、 实现监控中⼼心基础功能 1. 设计数据库表结构 主机表 主要字段:标签 ip cpu 内存 硬盘 ⽤用户表 主要字段:⽤用户名、密码 2. 实现登录功能 3. 登录成功后,可以添加主机 4. 点击一条主机,可以查看到主机当前CPU、内存等资源占⽤用情况 5. 点击编辑功能,可以修改主机信息,如ip、签标等 6. 项⽬目界⾯面参考见附件 二、 使⽤用Docker搭建分布式爬⾍ 解题提示 1. 数据库设计和Web开发相关知识,参考Web开发模块 2. 主机信息获取,可使⽤用 psutil模块 3. CPU使⽤用率图表可使⽤用百度图表 批改标准 一、实现监控中⼼心基础功能 1. 数据库设计 5分 2. 界⾯面制作 5分 3. Web开发 10分 4. ⾃自动登录远程主机 30分 5. 获取远程主机CPU、内存、硬盘等信息 30分 二、使⽤用Docker搭建分布式爬⾍ 1. 实现功能 20分
最近更新: 6年多前问题描述 1. 准备linux 服务器,阿里云、腾讯云、虚拟机或其他方式。操作系统必须是ubuntu 版 本是16.04 2. 熟练掌握linux 命令,练习3-5遍 3. 练习过程整理笔记(运行重要步骤和结果要截图),要求用word粘贴 4. 会部署django 项目,把之前django做的商城项目部署到服务器,可以成功访问,要有截图,要求word文档 5. 了解负载均衡,rabbitmq
最近更新: 6年多前问题描述 • 完成一个完整的《豆瓣图书网信息爬取项目》,具体要求详见第23节。 • 使用Python编程语言编写一个网络爬虫项目,将豆瓣读书网站上的所有图书信息爬取下来,并存储到MySQL数据库中。 • 爬取信息字段要求: [ID号、书名、作者、出版社、原作名、译者、出版年、页数、定价、装帧、丛书、ISBN、评分、评论人数] 解题提示 可参考上周Scrapy分布式爬取案例。 (作业就是涛哥课上说的爬虫项目,把项目做完就行,爬取结果也要上传(包含数据库和数据)) 批改标准 1) 项目代码(80分) 2) 数据库信息(15分) 3) 其他项:(5分)(文件结构清晰,代码整洁,要求适量的注释) 资料下载
最近更新: 6年多前问题描述 本周课程主要讲解网络爬虫的进阶实战。具体有:Selenium动态渲染信息爬取,MongoDB和Redis数据库的使用、代理服务的使用,以及Scrapy-Redis分布式爬虫: 1).使用Scrapy框架和Selenium配合爬取京东网站商品列表信息(>=50页): 网址:https://list.jd.com/list.html?cat=670,671,672 爬取字段信息由自己定制,这里不做要求。 2 ). 使用scrapy-redis分布式爬取CSDN学院平台中所有课程信息 如:https://edu.csdn.net/courses/k 爬取所有课程详情url地址 然后再通过队列url中对应的每个课程详情信息,使用分布式爬取。 如:https://edu.csdn.net/course/detail/5466 要求内容:课程标题,课时、讲师、适合人群、学习人数、价格、课程大纲。 解题提示 第一道题请参考Scrapy+selenium课堂案例。 第二道题参考Scrapy+Redis爬虫实战案例。
最近更新: 6年多前问题描述 本周课程主要讲解Scrapy框架的使用。具体有:Scrapy爬虫框架以及内部每个组件的使用(Selector选择器、Spider爬虫类、Downloader和Spider中间件、ItemPipeline管道类等): 1).使用Scrapy爬虫框架爬取新浪网的分类导航信息: 网址:http://news.sina.com.cn/guide/ 2 ). 使用scrapy模拟完成人人网登陆的登陆操作: 如URL地址:http://www.renren.com/ 3). 爬取当当图书网站中所有关于python关键字的图片信息。 参考URL:http://search.dangdang.com/?key=python&act=input 要求:将图书图片下载存储指定的目录中,而图书信息写入到数据库中。 解题提示 第一道题请参考Selector选择器中实战案例。 第二道题参考爬虫基础的人人网登陆,使用scrapy的POST带参数请求 第三道题请参考ItemPipeline中的实战案例。 批改标准 a) Scrapy新浪网的分类导航信息爬取(20分) b
最近更新: 6年多前问题描述 本周课程主要讲解Python网络爬虫的基础内容。具体有:网页信息解析库的使用(Xpath,BeautifulSoup,PyQuery),Fiddler抓包工具和浏览器的伪装介绍、Ajax的信息爬取和验证码的识别: 1). 分页爬取豆瓣网图书Top250信息,并分别使用三种网页信息解析库(Xpath,BeautifulSoup,PyQuery),并将信息写入文件中: 网址:https://book.douban.com/top250?start=0 2 ). 访问京东商城网址,选择多个商品放入购物车后查看自己的购物车,显示效果如下 。请使用Python爬取京东商城网址购物车中的所有商品信息: 如URL地址:https://cart.jd.com/cart.action 3). 访问百度图片网站,在搜索框中输入“街拍”并点击搜索按钮,具体效果如下,请使用python程序爬取搜索的图片,并存储到指定目录下。 具体参考URL地址:http://image.baidu.com 解题提示 1、第一道题请参考《豆瓣电影Top250信息爬取》实战。 2、采用浏览器伪装技
最近更新: 6年多前问题描述 本周课程主要讲解Python网络爬虫的基础内容。具体有:Python中的正则表达式,网络爬虫基础,以及urllib、urllib3和requests库的使用。本周闯关作业具体如下(可下载资料包查看更详尽的内容): 1).分别使用userlib和requests爬取有道翻译的信息,要求输如英文后获取对应的中文翻译信息: 2 ). 分页爬取58同城的租房信息,信息内容要求有:【标题、图片、户型、价格】,并且获取指定页的所有租房信息:如URL地址:http://bj.58.com/dashanzi/chuzu/pn1/?ClickID=1 3). 爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息(10页信息全部爬取),字段要求【序号、图片、电影名称、主演、时间、评分】,并将信息写入文件中: 具体参考URL地址:http://maoyan.com/board/4 解题提示 1、有道翻译信息的爬取可参考本周百度翻译信息爬取案例。 2、58同城的租房信息获取,首先先确定URL地址,编写爬虫程序,要使用正则表达式解析爬取的信息。 3、爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息
最近更新: 6年多前