今天测试python库,词云(wordcloud) 。因为以前看到新闻里面的统计词语的图形,觉得对于掌握核心观点来说颇有意义。在以后遇到大量的文章,又不能一一研读时可以使用wordcloud来做个词云图,快速掌握核心思想 。
题外话,今天笔者更新文章达到32万字了,算是一点点小成绩了。那么在这么漫长的码字中,其实笔者自己都不知道关注的点是怎么样的,那么就可以wordcloud来完成32万字分析,生成词云图,了解一下自己。这个得等到笔者空闲后来做个词云图(简书可以打包下载文章,到那时是html文件),也做个自我总结!
1、安装worldcloud库失败的问题
在windows下使用pip install wordcloud安装wordcloud会提示错误:“ERROR: Failed building wheel for wordcloud” ,笔者以为是源的问题,更换到清华源后 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordcloud 情况依旧。搜索一番才知道只能使用源程序.whl文件安装 。
笔者在Python Extension Packages for Windows - Christoph Gohlke (uci.edu) 上面下载对应的whl文件后使用源程序安装成功。后来想起以前笔者在windows下安装mysql库时也遇到这个问题,也是使用源程序安装才成功。

2、命令行wordcloud_cli
查看pypi网站关于worldcloud的说明,可以在命令行直接指定文本文件以及输出词云图片。在Linux环境中,可以直接使用pdftotext来指定pdf文件 。

笔者下载了2021工作报告后,使用 wordcloud_cli --text 2021工作报告.txt --imagefile wordcloud.png 来生成词云图,但是发现不支持中文,全部是显示方框 。查看wordcloud_cli 的使用方法中,需要指定字体格式,在上面的命令后面添加--fontfile msyh.ttc 后就可以了 。最终生成的词云图如下 :

3、脚本文件import wordcloud
在脚本中使用worldcloud那么就更加灵活了。笔者以前使用过jieba模块来分词-Anaconda实践与图像识别 ,那么在这里就可以结合jieba来更加精准的完成词语识别。

最终生成的词云图如下 ,比命令行wordcloud_cli 更加清晰好看 。

结合matplotlib 可以生成不同形状更加意象的词云图,这个在wordcloud的官网上有很多示例,这里就不再阐述了。在实际运用中,文件大多是都是微软的word文件,那么就需要python-docx模块处理word文档。
网友评论