通过scrapy框架对豆瓣前250的电影信息进行爬取,包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用
基于Neo4j的《水浒传》人物关系可视化及问答系统,该项目可以作为毕业设计,主要用涉及领域包括知识图谱、自然语言处理等知识。运用到的技术架构包括中文自然语言处理技术LTP模型、Python Flask框架、Neo4j图数据库。raw_data是人工合成的数据,spider中的数据是爬取的人物图片数据和人物基本信息数据。