牛咖-neocrawler
nodejs 的爬虫系统。
特点:
支持web界面方式的摘取规则配置(css selector & regex);
包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;
用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;
nodejs none-block 异步环境下的抓取性能比较高;
中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;
支持多种抓取实例并存,定制摘取引擎和存储方式。