关联规则算法 Apriori
表明 ,
当蕴含式
A->B
满足最小支持度阈值 min_support
和最小置信度阈值 min_confidence
时,则 A->B
属于强关联规则,规则中包含用户感兴趣的知识。
但真的是这样吗?让我们先看个例子。
假设某家商场只卖两种商品: CD
机和 Mp3
两种音乐播放器,每天的交易量有 10000
单,其中 6000
单中包含 CD
机, 7000
单中包含 Mp3
, 3000
单中既包含 CD
又包含 Mp3
。 min_support=0.2, min_confidence=0.4
则规则 CD->Mp3
的支持度和置信度分别为
support=6000/10000=0.6> min_support
Confidence=3000/6000=0.5> min_confidence
因此
CD->Mp3
属于强关联规则,按照 Apriori
算法的思路可以推导出购买 CD
机的顾客通常愿意再购买 Mp3
。
但实际上真的是这样吗?我们尝试做这样一个假设,如果该商店中如果不卖 CD
机的话,那么 mp3
的交易量会不会下降,如果下降说明 CD
机的销售会促进 mp3
的交易量;如果持平,则认为 Mp3
的销售和 CD
机的销售是两个独立事件,互不影响;如果上升,则认为 CD
机的的销售阻碍 Mp3
的交易量。
在概率论中,假如两个事件 A
和 B
相互独立,那么 A
和 B
同时发生的概率应该等于 A
事件发生的概率乘以 B
事件发生的概率,即 P(AB)=P(A)P(B)
,A
事件和B
事件的存在互不影响。
如果
P(AB)>P(A)P(B),
说明 A
和 B
同时发生的概率大于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)>P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会大于 A
单独发生时的概率,这就是所谓的 A
事件的发生会促进 B
事件的发生 。
如果
P(AB)<P(A)P(B),
说明 A
和 B
同时发生的概率小于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)<P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会小于 A
单独发生时的概率,这就是所谓的 A
事件的发生会阻碍 B
事件的发生 。
回到刚才的例子,我们可以发现
P(CD&Mp3)=3000/10000=0.3,P(CD)P(Mp3)=(6000/10000)*(7000/10000)=0.42,
即 P(CD&Mp3)< P(CD)P(Mp3)
,CD
机的交易其实会阻碍 Mp3
的交易量。
所以说,只凭支持度和置信度去衡量规则之间的关联关系是具有欺骗性的。因此,在前面两种度量标准的前提下还引入了第三种度量概念,称为提升度,
用来体现规则 A->B
中 A
和 B
的相关性:
Lift(A,B)=P(AB)/P(A)P(B)
如果
Lift(A,B)<1,
则 A
的出现和 B
的出现是负相关的,即相互阻碍;如果 Lift(A,B)>1,
则 A
和 B
是正相关,意味着一个的出现蕴含另一个的出现;如果 Lift(A,B)=1
,说明 A
和 B
是相互独立。
当然,还有其他一些度量概念可以用于衡量相关性,比如 X2
,全置信度和余弦度量,有兴趣的同学可以进一步了解下。
分享到:
相关推荐
针对模糊属性事务数据库提取模糊关联规则的问题,采用...利用模糊关联规则格挖掘关联规则,与采用Apriori算法计算频繁项目集获取规则相比较,容易获得用户感兴趣的关联规则,同时减少冗余规则的生成,使挖掘算法得到优化.
针对数字图书馆资源增加致使用户难以获取感兴趣图书资源的问题,提出了一种基于标签和关联规则挖掘的图书组合推荐系统模型。该模型整合了基于内容推荐和协同过滤推荐的优点,利用标签系统对图书内容进行语义分析,...
本文将关联规则应用于股票K线趋势的挖掘模式。 普通投资者感兴趣的模式被定义为T-RG(三红卫兵)。 在采矿过程中,我们以A股市场的K线为对象。 通过分析,投资者可以选择合适的买卖点。 在T-RG的帮助下,投资者可以...
用户进入网站主页查找资源一般是按不同类别栏目进入,再从细分栏目下寻找到目 标资源,但用户感兴趣的资源可能是跨类别,用户自行寻找则相对困难,此时需要 网站提供推荐功能,推荐用户可能感兴趣的页面,便于用户...
针对模糊属性事务数据库提取模糊关联规则的问题,...利用模糊关联规则格挖掘关联规则,与采用Apriori算法计算频繁项目集获取规则相比较,容易获得用户感兴趣的关联规则,同时减少冗余规则的生成,使挖掘算法得到优化.
(2)归还部分:本部分可以通过对还书时间的分析,得到读者对所借书的态度(例如:如果这本书刚刚借了就归还,大多数情况说明,这个人对这本书不是非常的感兴趣。)(3)续借部分:本部分可以记录下续借的书,基本...
关联规则挖掘是数据挖掘的重要领域之一,目前多数监督学习算法对满足最小支持度和...实验结果表明,改进算法不仅可以挖掘出满足给定条件的分类关联规则,同时还可以保留稀有但用户感兴趣且可能蕴涵巨大利润的规则项。
针对此问题,提出了基于滑动窗口的关联规则增量式更新算法(SWIUA),利用滑动窗口进行数据更新,挖掘出用户感兴趣的关联规则。该算法只需要扫描原始数据集和更新的数据各一遍,降低了I/O时间;并采用优化策略对候选...
该算法可以针对用户感兴趣的时间-地点背景进行关联规则挖掘。相比传统挖掘方法,该方法通过从低层次到高层次概念的序列映射,可以分析出不同粒度层次的相关信息,有利于决策者做出更准确的决策分析,制定更优的策略...
关联规则和决策树是感兴趣的挖掘算法,可用于查找和探索数据集中属性之间的关系。 在本文中,关联规则和决策树算法应用于肿瘤数据集,以获得分析结果以支持医疗决策。 结果可用于肿瘤的早期检测,而不是为临床医生...
针对数据仓库中的多维数据模型及OLAP技术,给出了一套行之有效的基于OLAP的元规则指导的多维关联规则挖掘方案,最终挖掘出用户真正感兴趣的概念层次合理的多维关联规则。实验结果表明该方案是有效的。
基于支持度-置信度框架理论的关联规则挖掘方法找到的强规则必须同时满足最小支持度阈值和最小置信度阈值,但有时人们感兴趣的规则往往是低支持度高置信度的[8]。例如,超市中两物品A和B,它们的销售量虽然很低,但...
7.1 基本概念 关联分析(association analysis)用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则(association rule)或频繁项集的形式表示。关于关联规则的几个概念: 项集:项目的...
数据挖掘(DataMining)就是从大型数据库或数据仓库中发现人们感兴趣的知识,这些知识是隐含的,事先未知的潜在有价值的知识及信息。大型数据库中关联规则的发现是近期数据库中知识发现(KDD)的一个很重要的问题,由于决策...
关联规则的下钻操作沿袭了OLAP中的下钻的概念,它是通过对已经挖掘得到的用户感兴趣的规则进行再分析,挖掘出用户感兴趣的子关联规则。该文提出了关联规则下钻及相关的概念,并在该概念的基础上给出了下钻的算法及...
还在四处寻找有关于从大数据库中挖掘关联规则吗?整理发布的这一款从大数据库中挖掘关联规则定...该文档为从大数据库中挖掘关联规则,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
利用大数据双层关联规则数据挖掘技术获取用户感兴趣的网络数据,利用推荐结果确定用户对推荐内容的兴趣程度。实验对比结果表明,用此分析方法的分析效果可高达98%,对大规模社交网络用户的个性化推荐具有良好的可...
个性化搜索是指同样的关键字对不同的人返回其感兴趣的搜索结果。...通过若干挖掘算法,将Web原始日志信息进行用户识别,会话分组后,提取单一用户多次会话中的搜索关键字关联规则,为实现个性化搜索引擎提供参考。
该模型应用关联规则对新用户进行页面推荐,应用聚类算法对老用户进行页面推荐;并结合点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数来度量用户兴趣度的方法,可为用户准确地推荐其感兴趣的页面。测试...