美文网首页
数据挖掘算法之关联规则挖掘

数据挖掘算法之关联规则挖掘

作者: 呼啦啦葱 | 来源:发表于2017-09-22 21:27 被阅读0次

关联规则挖掘的概念

在事务,关系数据库中的项集和对象中发现频繁模式,关联规则,相关性或者因果结构。

频繁模式:频繁出现的项集

通俗一点讲就是从一堆经常发生在一起的事情中,找出他们之间的关联性。

举个啤酒和尿布的例子,商场统计发现啤酒和尿布频繁出现在同一张订单中,我们就可以挖掘出啤酒和尿布之间的关联关系。比如买啤酒的人很大概率会买尿布,或者买尿布的人很大的概率会买啤酒。

频繁项集的相关概念

项集

包含0个或多个项的集合,比如{牛奶,面包,尿布}

k-项集:集合中项数目为k的项集,{牛奶,面包,尿布}这就是一个三项集

支持度计数

比如现在有一些事务集合

编号                   事务

1                      面包,牛奶

2                      面包,尿布,黄油,鸡蛋

3                      牛奶,尿布,黄油,可乐

4                      面包,牛奶,尿布,黄油

5                      面包,牛奶,尿布,可乐

{牛奶,黄油}的支持度计数就是2,因为{牛奶,黄油}在编号3,4的事务中出现,计数次数就是2

所以支持度计数就是包含特定项集({牛奶,黄油})的事务个数

支持度

支持度与总事务数的比值,比如{牛奶,黄油}的支持度就是2/5

频繁项集

也就是要判断某个项集是否频繁,这里引出了最小支持度阈值的概念,就是设定一个支持度的值,大于这个值的项集就是频繁项集

关联规则的相关概念

关联规则

关联规则是形如 X->Y的表达式, 其中 X 和 Y 是不相交的项集

比如{牛奶,尿布}-> {黄油}

关联规则的强度

X->Y的支持度:确定项集的频繁程度,也就是{X,Y}的支持度,即X,Y一起出现的概率P(XY),这里使用频率代替概率

X->Y的置信度:确定在X发生的条件下Y一定会发生的概率,举个栗子:牛奶->黄油,就是买了牛奶还会买黄油的概率P(Y|X)=P(XY)/P(X)=2/4=50%,这个概率和 黄油->牛奶的概率是不同的,也就是 X->Y不满足交换律

关联挖掘规则的一般步骤

1.先从给出的事务集合中找出频繁项集

只有频繁的项集才能产生强的关联规则

2.从频繁项集中挖掘出项与项之间的规则

只有从频繁项集中挖出来的规则才是强规则,因为频繁项集中的项集出现的频率高,挖掘出规则的置信度就会高。

相关文章

  • 推荐系统第四周-基于频繁模式的推荐系统

    数据挖掘:关联规则挖掘 关联规则挖掘:Apriori算法 提高Apriori的效率 基于散列的算法基于FP tre...

  • 数据挖掘算法之关联规则挖掘

    关联规则挖掘的概念 在事务,关系数据库中的项集和对象中发现频繁模式,关联规则,相关性或者因果结构。 频繁模式:频繁...

  • 数据挖掘知识

    关联 关联:是指一个事件和另一个事件之间的依赖关系,关联规则挖掘就是发掘数据库中的关联关系基本的关联规则挖掘算法:...

  • [转]Spark购物篮分析:关联规则挖掘

    1、浅谈数据挖掘中的关联规则挖掘 2、Hadoop/MapReduce购物篮分析:关联规则挖掘 3、Spark购物...

  • 关联规则挖掘算法的介绍

    学号:17020110019 姓名:高少魁 【嵌牛导读】关联规则挖掘算法是数据挖掘中的一种常用算法,用于发现隐藏...

  • Apriori算法

    Apriori算法 1.定义:一种用于关联规则挖掘的代表性算法 2.一些基本的概念: 2.1 数据挖掘可以视为数据...

  • Apripri关联算法

    一、关联规则挖掘定义大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:频繁...

  • R语言与关联规则挖掘—购物篮分析

    名词: 挖掘数据集:购物篮数据 挖掘目标:关联规则 关联规则:啤酒=>尿布(支持度0.02,置信度0.6) 支持度...

  • 数据挖掘-关联规则挖掘

    概念 基本概念 k-项集与MinS 关联规则、支持度、频繁 k- 项集 支持度:T中同时包含X和Y的事务在R中所占...

  • 简述数据挖掘之关联规则算法

    首先通过一个实际场景来给大家简单介绍一下关联规则算法: 客户在餐厅点菜时,面对菜单中大量的菜品信息,往往无法迅速找...

网友评论

      本文标题:数据挖掘算法之关联规则挖掘

      本文链接:https://www.haomeiwen.com/subject/cbfqextx.html