1 Star 0 Fork 13

湖畔/webpasser

forked from hxt168/webpasser 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MIT

webpasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。

  1. 包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。
  2. 提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。
  3. 提供抓取各阶段的触发器、拦截器,方便扩展。
  4. 支持多线程,失败重试,代理等

项目结构

  • webpasser.common 包含项目的一些工具类
  • webpasser.core 项目核心包,包含爬虫任务整个流程模块、页面解析引擎、配置规则引擎、定时器等,可以直接引用此包进行爬虫任务抓取。
  • webpasser.project 用于项目自定义业务扩展,如解析后数据持久化类,触发器实现类等。
  • webpasser.web 爬虫管理控制台,包含爬虫监控、添加任务、配置定时任务、单个网页抓取测试的界面。

使用:

将根目录中已编译好的webpasser.war放到tomcat容器部署启动,访问项目页面;或将代码以maven形式导入eclipse,编译启动。当然,也可以直接只依赖webpasser.core包完成爬虫任务。

控制台方式添加一个爬虫任务:

  1. 查看目标网站的页面特征,在xml中配置所需抓取内容。
  2. 在控制台添加一个抓取任务,将xml配置提交。
  3. 对单个网页测试或整个任务执行测试。
  4. 在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
  5. 设置定时任务。

只依赖webpasser.core包方式完成一个爬虫任务:

  1. 用maven依赖webpasser.core包
	<dependency>
		<groupId>com.hxt.webpasser</groupId>
		<artifactId>webpasser.core</artifactId>
		<version>0.0.1-SNAPSHOT</version>
	</dependency>
  1. 查看目标网站的页面特征,在xml中配置所需抓取内容。
  2. 写启动代码:
	SpiderTask spiderTask=new SpiderTask("testTask","catch/testtask.xml");
	
	spiderTask.start();
The MIT License (MIT) Copyright (c) 2016 hxt168 Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

简介

webpasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。 展开 收起
MIT
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/sblig/webpasser.git
git@gitee.com:sblig/webpasser.git
sblig
webpasser
webpasser
master

搜索帮助