风铃虫是一款轻量级的高效爬虫工具,配置简单,方便二次开发,能抓取js渲染的网页,可以抓取任何数据,支持保存网页快照,智能防封杀,天然适合分布式。
最近更新: 3年多前DataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。
最近更新: 3年多前https://github.com/go-bindata/go-bindata
最近更新: 3年多前云图文档搜索,一款文档内全文搜索工具,上传pdf,word,excel,ppt等文件,通过tika解析文本内容。使用elasticsearch索引文档内容,调用elasticsearch的api实现文档的全文搜索。使用LibreOffice将文档转换成pdf实现在线预览功能。同时包含个人文档统计,管理等功能,每个人上传的文档都是以个人账户为基本单位相互隔离的,是隐私安全可靠的。
最近更新: 接近4年前Springboot2.1.1+elasticsearch6.5.3搭建的企业级搜索平台,支持PB级数据(elasticsearch分布式部署),目前已经支持中文分词,检索关键词高亮操作,如果帮到您,麻烦点下Star,谢谢。
最近更新: 接近4年前Springboot2.1+Solr7.5搭建的企业级搜索平台,项目目前支持文档内容和数据库检索,已经集成分词技术。支持文档内容检索类型包含:pdf、doc、docx、ppt、pptx、txt、log等 数据库已支持MySQL增量自动建立索引,如果帮到您,麻烦点下Star,谢谢。
最近更新: 接近4年前