- 词频(Term Frequency,TF)
- 逆文档频率(Inverse Document Frequency,IDF)
作用:用于判断一个文档的分类。
直觉:给定一个文档,如何人工判断它的主题:顺序浏览,查看某个单词的出现次数。但是有的单词,不仅在这个文档出现次数多,而且在其他文章出现次数也多,这时这个单词对于这个文档就不是那么重要。比如:‘the’,‘a’,‘an’等。所以把词频和逆文档频率计算出来,就可以大概说明这个文章的主题是什么!
第一步,计算词频:
文档
中单词
的个数。
第二步,计算逆文档频率:
其中,分子是语料库的文档总数,分母是包含该词的文档数加1。求对数是对结果进行放大。
第三步,计算TF-IDF:
可以看出,TF-IDF值,与该词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
网友评论