TF-IDF

作者: shijiatongxue | 来源:发表于2019-03-12 13:23 被阅读0次
  • 词频(Term Frequency,TF)
  • 逆文档频率(Inverse Document Frequency,IDF)

作用:用于判断一个文档的分类。
直觉:给定一个文档,如何人工判断它的主题:顺序浏览,查看某个单词的出现次数。但是有的单词,不仅在这个文档出现次数多,而且在其他文章出现次数也多,这时这个单词对于这个文档就不是那么重要。比如:‘the’,‘a’,‘an’等。所以把词频和逆文档频率计算出来,就可以大概说明这个文章的主题是什么!


第一步,计算词频:
TF=Count(word_i,Document_j)文档j中单词i的个数。

第二步,计算逆文档频率:
IDF=log\frac{Count(Document)}{Document_j+1}
其中,分子是语料库的文档总数,分母是包含该词的文档数加1。求对数是对结果进行放大。

第三步,计算TF-IDF:
TF-IDF=TF \cdot IDF
可以看出,TF-IDF值,与该词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。


参考文献:
阮一峰
TF-IDF与余弦相似性的应用(一):自动提取关键词

相关文章

网友评论

      本文标题:TF-IDF

      本文链接:https://www.haomeiwen.com/subject/pdmgpqtx.html