美文网首页
汉语词频统计

汉语词频统计

作者: taon | 来源:发表于2020-07-13 18:00 被阅读0次

该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。

汉语中常见的停用词:我们,这里,但是,的,然而之类的词语,对于文章表达的主旨没有太大的影响。

十九大报告链接:

链接:https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg 提取码:ne3l

#打开文件并读取文本内容
f = open('D:\\py_dataset\\十九大报告.txt','r',encoding = 'utf-8')
txt = f.read()
​
#切分词语,使用jieba分词器
import jieba
words = jieba.lcut(txt)
​
#查看总的词语数量
print(len(words))
#17961
​
#查看单独词语的数量
print(len(set(words)))
#3349
​
#词频统计,统计长度大于1的词,因为长度为一的词基本上都是停用词
counts = {}
for word in words:
 if len(word) > 1:
 counts[word] = counts.get(word,0)+1 #使用了字典的get方法

#将counts转化为列表格式
counts = list(counts.items())
​
#对词频进行排序
counts.sort(key = lambda x:x[1],reverse = True)
​
#打印频率最高的前10个词
for i in range(10):
 print(counts[i][0],counts[i][1])
# 发展 212
# 中国 169
# 人民 157
# 建设 148
# 社会主义 147
# 坚持 131
# 全面 90
# 国家 90
# 实现 83
# 制度 83    </pre>

由上面的统计结果可以看出,“发展”、“人民”、“社会主义”、“制度”等词语出现的频率最高,基本上我们就了解了十九大报告主要是在论述社会主义制度建设。

相关文章

  • 汉语词频统计

    该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高...

  • 自然语言处理——7.3 汉语自动分词概要

    汉语自动分词的重要性 自动分词是汉语句子分析的基础 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)...

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

  • python统计词频

    一、使用re库进行识别 1、代码 2、参考 python--10行代码搞定词频统计python:统计历年英语四六级...

网友评论

      本文标题:汉语词频统计

      本文链接:https://www.haomeiwen.com/subject/clrzcktx.html