汉语词频统计

作者: taon | 来源:发表于2020-07-13 18:00 被阅读0次

汉语词频统计
自然语言处理——7.3 汉语自动分词概要
用Py做文本分析3：制作词云图
词频统计
词频统计
辽经干python 元组和字典（2）
统计词频并按词频排序
开启自学人生
python统计词频
python统计词频

该案例以党的十九大报告为例，统计报告中各个词语出现的频率。总体步骤为读入文本，分词，词频统计。通过观察词语频率最高的几个词，我们就可以大致了解这份报告的主要内容。

汉语中常见的停用词：我们，这里，但是，的，然而之类的词语，对于文章表达的主旨没有太大的影响。

十九大报告链接：

链接：https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg 提取码：ne3l

#打开文件并读取文本内容
f = open('D:\\py_dataset\\十九大报告.txt','r',encoding = 'utf-8')
txt = f.read()

#切分词语，使用jieba分词器
import jieba
words = jieba.lcut(txt)

#查看总的词语数量
print(len(words))
#17961

#查看单独词语的数量
print(len(set(words)))
#3349

#词频统计，统计长度大于1的词，因为长度为一的词基本上都是停用词
counts = {}
for word in words:
 if len(word) > 1:
 counts[word] = counts.get(word,0)+1 #使用了字典的get方法

#将counts转化为列表格式
counts = list(counts.items())

#对词频进行排序
counts.sort(key = lambda x:x[1],reverse = True)

#打印频率最高的前10个词
for i in range(10):
 print(counts[i][0],counts[i][1])
# 发展 212
# 中国 169
# 人民 157
# 建设 148
# 社会主义 147
# 坚持 131
# 全面 90
# 国家 90
# 实现 83
# 制度 83    </pre>

由上面的统计结果可以看出，“发展”、“人民”、“社会主义”、“制度”等词语出现的频率最高，基本上我们就了解了十九大报告主要是在论述社会主义制度建设。