1、K-MEANS算法

1 初始选择K个类别中心。
2 将每个样本标记为距离类别中心最近的那个类别。
3 将每个类别中心更新为隶属该类别所有点的中心。
4 重复2,3两步若干次直至终止条件（迭代步数，簇中心变化率，MSE等等）
难点：
  1.K值难确定
  2.复杂度与样本呈线性关系
  3.很难发现任意形状的簇

2、DBSCAN算法

核心对象：对于一个对象它的sigma领域内至少有m个对象，那我们就称之为核心对象
邻域的距离阈值：设定的半径r
直接密度可达：若某点p在点q的 r 邻域内，且q是核心点则p-q直接密度可达
密度可达：若有一个点的序列q0、q1、…qk，对任意qi-qi-1是直接密度可达的 ，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。
密度相连：若从某核心点p出发，点q和点k都是密度可达的 ,则称点q和点k是密度相连的。
边界点:属于某一个类的非核心点,不能发展下线了
直接密度可达：若某点p在点q的 r 邻域内，且q是核心点则p-q直接密度可达。
噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的
工作流程：
  指定半径
  密度阀值
优势：
  不需要指定簇个数
  擅长找到离群点（检测任务）
  可以发现任意形状的簇 
  两个参数就够了
劣势：
  高维数据有些困难（可以做降维）
  Sklearn中效率很慢（数据削减策略）
  参数难以选择（参数对结果的影响非常大）

Example

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib.colors
from sklearn.cluster import KMeans
# 数据准备
N=1000
centers=4
data,y=ds.make_blobs(N,centers=centers,random_state=0)
# 原始数据分布
cm = matplotlib.colors.ListedColormap(list('rgbm'))
plt.scatter(data[:,0],data[:,1],c=y,cmap=cm)
plt.title(u'原始数据分布')
plt.grid()
plt.show()
# KMeams分类
km=KMeans(n_clusters=4,init='k-means++')
y_result=km.fit_predict(data)
plt.scatter(data[:,0],data[:,1],c=y_result,cmap=cm)
plt.title(u'K-Means聚类')
plt.grid()
plt.show()