1 聚类和相似度-文档检索
2 检索感兴趣的文档
文件检索

挑战

3 用于测量相似度的单词计数表示

测量相似度


单词计数的问题-文档长度

解决方法=归一化

4 应用TF-IDF对于重要单词进行优先级排序
4.1 单词计数的问题 - 生僻词

文档频度

关键词

5 TF-IDFf文档表示

6 检索相似的文档
最近邻域搜索

1- 最邻近

k - 最邻近

7 文档聚类
根据主题对文档分组

如果一些标签已知会怎样

多元分类问题

8 聚类介绍
聚类

什么定义了集群

9 k-均值

初始化



10 其他例子
图像搜索

根据病况来分组病人

癫痫犯者是多种多样的

Amazon 中的商品

组织网页搜索结果

发现相邻的邻居


11 聚类和相似度总结


网友评论