美文网首页
数据挖掘

数据挖掘

作者: 小纠结在简书 | 来源:发表于2019-02-20 11:13 被阅读0次

数据挖掘

数据挖掘,英文名称为Data mining,简称DM。

数据挖掘,它是数据库知识发现中的一个步骤。

数据挖掘,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

使用

分析方法

  • 分类
  • 估计
  • 预测
  • 相关性分组或关联规则
  • 聚类
  • 复杂数据类型挖掘(Text、Web、图形图像、视频、音频)

方法简介

分类
首先在数据中选出已经分好类的训练集,在该训练集运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例如:

  • 信用卡申请者,分类为低、中、高风险

注意:类的个数是确定的,预先定义好的

估计
估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值 的输出;分类的类别是确定数目的,估值的量是不确定的。

例如:

  • 根据购买模式,估计一个家庭的孩子个数
  • 根据购买模式,估计一个家庭的收入

预测
通常,预测是通过分类或估值起作用的,通过分类或估值得出模型,该模型用于对未知变量的预言。

相关性分组或关联规则
决定哪些事情将一起发生。

例如:

  • 超市中客户在购买A的同时,经常会购买B,即A =>B(关联规则)
  • 客户在购买A后,隔一段时间,会购买B(序列分析)

聚类
聚类是对记录分组,所相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

例如:

  • 一些特定症状的聚集可能预示了一个特定的疾病
  • 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群

描述和可视化
是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)统称。

相关文章

网友评论

      本文标题:数据挖掘

      本文链接:https://www.haomeiwen.com/subject/adozbftx.html