实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:
扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
x-crawl 是一个灵活的 Node.js AI 辅助爬虫库。使爬虫工作变得更加高效、智能和便捷。
小说漫画下载工具:腾讯漫画 大角虫漫画 有妖气 知音漫客 咪咕 SF漫画 哦漫画 看漫画 漫画柜 漫画160 汗汗酷漫 動漫伊甸園 网易漫画 快看漫画 微博动漫 733动漫网 大古漫画网 漫画DB 動漫狂 卡推漫画 动漫之家 动漫屋 土豪漫画 古风漫画网 36漫画网 亲亲漫画网 360漫画 乙女漫画 comico webtoons 咚漫 OVERLAP MAGCOMI ComicWalker ヤングエースUP モアイ pixivコミック サイコミ;アルファポリス カクヨム ハーメルン 小説家になろう 卡提諾論壇 起点中文网 八一中文网 顶点小说 落霞小说网 努努书坊 笔趣阁→epub. Download online novels, comics. 小說漫畫下載
基于.NET的音乐搜索与播放软件(编程语言:C#,爬取4个平台:酷我/网易云/酷狗/QQ)
基本思路:
1、模拟搜索:通过关键字,获取歌曲列表
2、获取歌曲关键信息(歌曲ID之类的唯一标识)
3、使用指定方法(某个url),根据歌曲ID获取歌曲播放地址
4、将歌曲下载到本地,实现下载或播放
限制:vip音乐大多没法爬取(酷我除外),而且为试听品质
代码内容相对较少,代码编写规范,个人认为是很好的入门project
webmagicx一款基于webmagic的可配置化的爬虫框架
一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。
牛咖-neocrawler
nodejs 的爬虫系统。
特点:
支持web界面方式的摘取规则配置(css selector & regex);
包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;
用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;
nodejs none-block 异步环境下的抓取性能比较高;
中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;
支持多种抓取实例并存,定制摘取引擎和存储方式。