通过scrapy框架对豆瓣前250的电影信息进行爬取,包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用
通过scrapy框架对豆瓣前250的电影信息进行爬取,包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用
豆瓣电影top250爬取,并用neo4j构建知识图谱
基于Neo4j的《水浒传》人物关系可视化及问答系统,该项目可以作为毕业设计,主要用涉及领域包括知识图谱、自然语言处理等知识。运用到的技术架构包括中文自然语言处理技术LTP模型、Python Flask框架、Neo4j图数据库。raw_data是人工合成的数据,spider中的数据是爬取的人物图片数据和人物基本信息数据。
该仓库包含各种学习机器学习的项目
最近一年贡献:14 次
最长连续贡献:3 日
最近连续贡献:1 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。