美文网首页
问题汇总(4):聚类

问题汇总(4):聚类

作者: 大王叫我来巡老和山 | 来源:发表于2019-03-25 16:44 被阅读0次

聚类说实话除了K-means,其他的我都不太懂,,,不懂也得写啊!!!


目录:
机器学习常见面试问题汇总
问题汇总(1):逻辑回归
问题汇总(2):支持向量机
问题汇总(3):树模型
问题汇总(4):聚类
问题汇总(5):神经网络
问题汇总(6):EM算法
问题汇总(7):朴素贝叶斯


聚类算法有哪些?

聚类算法概览

  • 基于分层
  • 基于划分
  • 基于密度
  • 基于模型
  • 基于网格

K-Means

伪代码:

选取k个初始质心(作为初始cluster);
repeat:
    对每个样本点,计算得到距其最近的质心,将其类别标为该质心所对应的cluster;
    重新计算k个cluser对应的质心;
until 质心不再发生变化

K-Means的主要优点有:
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k。

K-Means的主要缺点有:
1)K值的选取不好把握,以及最开始质心的位置选取与结果关系也很大。
2)对于不是凸的数据集比较难收敛。
3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
4) 采用迭代方法,得到的结果只是局部最优
5) k-means把任何点都归到了某一个类,对噪音和异常点比较的敏感。

如何确定K值的选取

kmeans的k值选取方法

  1. 手肘法(不断增大k,然后关注误差平方和这个指标,选择拐点处作为最优k值)


    手肘法
  2. 轮廓系数法(求轮廓系数,平均轮廓系数越大,聚类效果越好,平均轮廓系数最大的k便是最佳聚类数。)


    轮廓系数法

DBSCAN

DBSCAN密度聚类

是相对抗噪音的,并且能处理任意形状和大小的簇。但是如果簇的密度变化很大,就会出现一些问题。


Kmeans 和 DBSCAN对比:

优缺点对比

相关文章

  • 问题汇总(4):聚类

    聚类说实话除了K-means,其他的我都不太懂,,,不懂也得写啊!!! 目录:机器学习常见面试问题汇总问题汇总(1...

  • ROC-AUC 曲线以及PRC曲线

    目录:机器学习常见面试问题汇总问题汇总(1):逻辑回归问题汇总(2):支持向量机问题汇总(3):树模型问题汇总(4...

  • elasticsearch aggregation

    简介 聚合可以看作是对查询结果的汇总。aggregation的强大在于它能嵌套并实现多级汇总。通常分为四类聚类:m...

  • 4 聚类 - 高斯混合聚类

    背景 协方差与相关系数协方差描述两变量变化的相似度,相关系数除去了变量变化幅度的影响 高斯混合模型多个高斯分布混合...

  • 聚类算法总结

    1、K 均值聚类 2、凝聚聚类 3、DBSCAN 算法 4、聚类算法的评估

  • 集成聚类回顾

    目录 一、介绍 二、集成聚类的问题 数据聚类和传统的方法 集成聚类的基础1)问题的公式2)集成生成策略3)集成的聚...

  • 常用的聚类方法

    1.K-means 适用于样本聚类 2.分层聚类 适用于变量聚类 3.两步聚类 适用于分类变量和连续变量聚类 4....

  • 空间聚类算法简述

    空间数据聚类算法主要包括四大类:(1)给予划分的聚类;(2)基于层次的聚类;(3)基于密度的聚类;(4)基于网格的...

  • 聚类问题建模

    一、什么是聚类? 1、聚类的定义 将所有观测值通过相似度评价方法分成不同的类。 2、应用场景 给商品做分组,为用户...

  • JavaCV FrameGrabber问题汇总

    JavaCV FrameGrabber问题汇总 @Date 2018.09.27 FrameGrabber类 Ja...

网友评论

      本文标题:问题汇总(4):聚类

      本文链接:https://www.haomeiwen.com/subject/jejbvqtx.html