美文网首页编程学习
python统计词频

python统计词频

作者: linghugoogle | 来源:发表于2018-04-21 09:49 被阅读163次

一、使用re库进行识别

1、代码

import re,collections  
def get_words(file):  
    with open (file) as f:  
        words_box=[]  
        for line in f:                           
            if re.match(r'[a-zA-Z0-9]*',line):#避免中文影响  
                words_box.extend(line.strip().split())                 
    return collections.Counter(words_box)  
print(get_nums('emma.txt')+get_nums('伊索寓言.txt'))  

2、参考

python--10行代码搞定词频统计
python:统计历年英语四六级试卷单词词频

二、使用Wordcloud点云库

1、代码

#Wordcloud默认不支持中文
# _*_ coding:utf-8 _*_
from wordcloud import WordCloud
import matplotlib.pyplot as plt

f = open('txt/AliceEN.txt',encoding='UTF-8').read()
wordcloud = WordCloud(background_color="white",width=1000, height=860, margin=2).generate(f)
wordcloud.to_file('test.png')

plt.imshow(wordcloud)
plt.axis("off")
plt.show()
#Wordcloud自定义字体以支持中文,同时引入jieba中文分词
# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import jieba

# 读入背景图片
backgroud_Image = plt.imread("love.jpg")
# 读取要生成词云的文件
text_from_file_with_apath = open("teng.txt",encoding='UTF-8').read()
# 通过jieba分词进行分词并通过空格分隔
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud(
    background_color='white',    # 设置背景颜色
    mask=backgroud_Image,        # 设置背景图片
    max_words=3000,              # 设置最大现实的字数
    stopwords=STOPWORDS,         # 设置停用词
    font_path='simfang.ttf',# 设置字体格式,如不设置显示不了中文
    max_font_size=40,            # 设置字体最大值
    random_state=300,            # 设置有多少种随机生成状态,即有多少种配色方案
    scale=5,
    width=16000,
    height=8000
    ).generate(wl_space_split)

# 根据图片生成词云颜色
image_colors = ImageColorGenerator(backgroud_Image)
my_wordcloud.recolor(color_func=image_colors)
# 以下代码显示图片
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

2、参考

Python词云 wordcloud 十五分钟入门与进阶

相关文章

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

  • python统计词频

    一、使用re库进行识别 1、代码 2、参考 python--10行代码搞定词频统计python:统计历年英语四六级...

  • python 词频统计

    """Count words.""" def count_words(s, n): """Return the...

  • Python | 词频统计

    最近工作蛮忙的,就简单练习一下python基础吧。 本周的练习是词频统计,主要使用了以下几个函数: text.sp...

  • Python词频统计

    场景: 现在要统计一个文本中的词频,然后按照频率的降序进行排列

  • Python词频统计

    1.合并数据文件 2.词频统计

  • python词频统计实例

    项目概述 通过两个Python文件实现一个简单的词频统计。 本工程共有4个文件: file01:要统计的词频文件。...

  • Python 进行词频统计

    1. 利用字典map实现 2.利用collections模块中的Counter对象 3. 算法:...

  • Python实现词频统计

    《百年孤独》词频统计 学习更多?欢迎关注本人公众号:Python无忧

  • 教你用Python进行中文词频统计

    Python是用于数据挖掘的利器 用Python可以用来做很多很好玩的东西,下面就来用Python来进行词频统计 ...

网友评论

    本文标题:python统计词频

    本文链接:https://www.haomeiwen.com/subject/pwwtlftx.html