代码拉取完成,页面将自动刷新
# 1、分析热评最多的ID都有那些特征
'''
hist: 直方图
'''
import matplotlib.pyplot as plt
import pandas as pd
#中文乱码
plt.rcParams["font.sans-serif"] = ["SimHei"]
df = pd.read_csv('hot_Comments_Clear.csv')
# 按用户id分组
df2 = df.groupby('userid').count().sort_values(by = 'content',ascending = False)
print(df2.head(10))
# 热评最多的Id 是 1313672474
df3 = df[df['userid']==2084635322]
print(df3)
'''
bins: 条形数
density: bool 密度显示
'''
df4 = df3['likecount']
plt.hist(df4, bins = 200, density = True )
plt.xlim((0,60000))
plt.title('2084635322用户的点赞分布')
plt.savefig('start_2084635322.png',dpi = 100)
plt.show()
'''
看评论的长度分布
len(df3['content']) --- out: 133
显示的是这个series的长度
'''
print(len(df3['content']))
df4 = df3['content'].map(len) # map函数进行求取每一单元格个长度
plt.hist(df4,bins = 20, density = True)
plt.title('2084635322用户的评论长度分布')
plt.savefig('len_2084635322.png', dpi = 100)
plt.show()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。