YunGitHub

@chenyanlong

YunGitHub 暂无简介

Python
Java
Scala
YunGitHub的个人主页
/
关注的仓库(7)

    Watch YunGitHub/flink-recommandSystem-demo

    商品实时推荐系统

    最近更新: 2年前

    Watch YunGitHub/senti_analysis

    利用Python实现酒店评论的情感分析 情感极性分析,即情感分类,对带有主观情感色彩的文本进行分析、归纳。情感极性分析主要有两种分类方法:基于情感知识的方法和基于机器学习的方法。基于情感知识的方法通过一些已有的情感词典计算文本的情感极性(正向或负向),其方法是统计文本中出现的正、负向情感词数目或情感词的情感值来判断文本情感类别;基于机器学习的方法利用机器学习算法训练已标注情感类别的训练数据集训练分类模型,再通过分类模型预测文本所属情感分类。本文采用机器学习方法实现对酒店评论数据的情感分类,利用Python语言实现情感分类模型的构建和预测,不包含理论部分,旨在通过实践一步步了解、实现中文情感极性分析。

    最近更新: 3年多前

    Watch YunGitHub/Ast

    构建Python程序AST,计算相似度 文件夹及文件说明 data 文件夹内存放所计算出的连续commit和连续release之间的余弦相似度以及编辑距离。 pic 文件夹内存放由data文件夹内存储的结果所画的图标 flask-sqlalchemy 和 responder是本次两个测试对象,他们的访问地址: flask-sqlalchemy: https://github.com/mitsuhiko/flask-sqlalchemy.git responder: https://github.com/kennethreitz/responder.git build.py 用来读取python文件,然后返回每个文件对应的AST,入口函数为get_asts(file_list) commits.txt 和 release_commits.txt 分别存储了所测试项目的所有commit和release版本号 main.py 为本次项目的主体,负责计算所有连续的commit和release之间AST的相似度,结果保存到文件中 plot.py 主要用来根据生成的结果绘制图表

    最近更新: 4年多前

    Watch YunGitHub/GraphSim

    基于simrank算法计算代码的相似度

    最近更新: 4年多前

    Watch YunGitHub/PlagiarismDetection4C

    程序代码相似度检测方法研究及应用 项目申报的基本思路与目的 根据程序语言的特性,实现一个程序代码相似度检测的软件系统,可以计算对同一个程序设计题目,每个学生提交的代码与其它学生的代码相似度,达到阀值以上即判定为抄袭。使用该系统,可以有效地防止学生抄袭他人的代码,减轻教师人工判定的劳动强度。 程序的相似度检测与一般文本的相似度检测不同的是:文本主要检测在一段文字范围内文本的重复数目,而学生所书写的代码都较为简单,编程语言的关键字和系统函数名、系统提供的类库中的类名占相当大的比例,而这些不应当做为相似度检测的依据,而应当从程序本身的特征入手。 程序的源代码可以视为视为一种连续的标记串(Token String)。通过比较标记串获取相似程度的信息。对学生提交的电子档程序,两两之间进行雷同检测,最终给出相似度计算结果,再根据给定的阈值判定雷同程序是否为抄袭。 项目的科学性、先进性及独特之处 针对程序源代码的特殊性,本项目主要从以下角度入手: 分析一般的学生代码抄袭手法,找出最合适的样本,做为将来分析和检验的依据。 提取程序源代码的结构特征,将程序按照关键字序列、自定义变量序列、自定义函

    最近更新: 4年多前

    Watch YunGitHub/antiplag

    作业查重软件,它实现了程序代码、文档文本、图片之间的相似度检查。a code-similarity, text-similarity and image-similarity computation software for the codes, documents and images of assignment.

    最近更新: 4年多前

    Watch YunGitHub/PubLearnNotes

    大数据指南

    最近更新: 暂未更新

搜索帮助