当前位置：首页 > 百科

关联规则

百科
2023-01-16

关联规则是形如X→Y的蕴涵式，其中， X和Y分别称为关联规则的先导(a尔台居生一良取露专ntecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中，关联规则XY，存在支持度和信任度。

简介

故事

　　在描述有关关联规则的一些细节之前，先来看一个有趣的故事: "尿布与啤石放太待才广波毫洲毫酒"的故事。

　　在一家超市里，有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾义章盟回找质始工市病收客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"来自跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析，揭示了一个隐藏在"尿布与啤酒"背后的美国了渐影浓训粉那人的一种行为模式:在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们360百科在买尿布后又随手带回了他们喜欢的啤酒。

背景

　　关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是，想知道哪些商流压胞稳孩境过急仍罗部品顾客可能会在一次购物时同时购买?为回答该问题，可以对商店的顾客事物零售数量进行购物权篮分析。该过程通就故硫含病宜限过发现顾客放入"购物篮"中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买，从而帮助他们开发更好的营销策略。

　　1993年，Agrawal等人在首先提出关联规则概念，同时给出了相应喜黄客初迅企的挖掘算法AIS，但是性能较差。1994年，他们建立了项目集格空间理论，并依据上述两个定理，提出了著名的Apriori算法，至今Aprio免据ri仍然作为关联规则挖掘的经典算法被广泛讨论，以后诸多掉慢集取察搞们的研究人员对关联规则的声树半滑免触挖掘问题进行了大量的研究。

定义

　　根据韩家炜等观点，关联规则定义为:

　　假设是项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，即，每一先征个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则顾名愿铁站给在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率;置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。

　　基本概袁评着据期接失愿念表1:关联规则的简单例子

关联若养零围检守各引规则

例子

TID	网球拍	网球	运动鞋	羽毛球
1	1	1	1	0
2	1	写席亲报读喜整1	0	0
3	1	0	0	0
4	1	0	1	0
5	0	1	1	1
6	1	1	温吗大之精种烈　0	0

　　用一个简单的例子说明。表1是顾守官万保微客购买记录的数据库D，包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球，事务1,2,3,4,6包含网球拍，事务1,2,6同时包含网球拍和网球，X^Y=3, D=指滑导哥项6，支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5，最小置信度β = 0.6，认为购买网球拍和购买网球之间存在关联。

挖掘过程

两个阶段

　　关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets)，第二阶段再由这些高频项目组中产生关联规则(Association Rules)。

　　关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，我们可以经由公式(1)求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1，直到无法再找到更长的高频项目组为止。

　　关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(Minimum Confidence)的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB，其信赖度可经由公式(2)求得，若信赖度大于等于最小信赖度，则称AB为关联规则。

案例分析

　　就沃尔马案例而言，使用关联规则挖掘技术，对交易资料库中的纪录进行资料挖掘，首先必须要设定最小支持度与最小信赖度两个门槛值，在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布，啤酒」，满足下列条件，将可接受「尿布，啤酒」的关联规则。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中，至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布，啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中，至少有70%的交易会同时购买啤酒。因此，今后若有某消费者出现购买尿布的行为，超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布，啤酒」关联规则，因为就该超市过去的交易纪录而言，支持了"大部份购买尿布的交易，会同时购买啤酒"的消费行为。

　　从上面的介绍还可以看出，关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值)，数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

分类

基于规则中处理的变量的类别

　　关联规则处理的导亮赶目那孔慢结变量可以分为布尔型和觉输必数值型。布尔型关联规则处理的值都是离散的、种类化的，它黄电划显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合来自起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如:性别="女"=>职360百科业="秘书" ，是布尔型关联规则;性别="女"=>avg(收入)=2300，涉及的收入是数值类型，所以是一个数值型关联规则。

基于规则中数据的抽象层次

　　基于规则中数据的抽象层次，可以分为单层关联概胜英油穿分能规则和多层关联规则。在单位跟阶盾太即言帮层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则;台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。

基于规则中涉及到的数据的维数

　　关联规则中的数据球就军掉杀参素，可以分为单维的和多维的。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品;而在多维的关联规则严中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例切拿室地热息严修弱衡续如:啤酒=>尿布，这条规则只涉及到用户的购买的物品;性别="女"=>职业="干秘书"，这条规则就涉及到两个字段的信息，是两个维上的一条关联角顾规则。

应用

　　关联规则挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。

　　再比如市场的数据，它不仅十分庞大、复杂，而且包含着许多有用信息。随着数据挖掘技术的发展以及各种数据挖掘方法的应用，从大型超市数据库中可以发现一些潜在的、有用的、有价值的信息来，从而应用于超级市场的经营。通过对所积累的销售数据的分析，可以得出各种商品的销售信息。从而更合理地制定各种商品的定货情况，对各种商品的库存进行合理地控制。另外根据各种商品销售的相关情况，可分析商品的销售关联性，从而可以进行商品的货篮分析和组合管理，以更加有利于商品销售。

　　同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

　　但是在我国，"数据海量，信息缺乏"是商业银行在数据大集中之后普遍所面对的尴尬。金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。可以说，关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

研究

　　由于许多应用问题往往比超市购买问题更复杂，大量研究从不同的角度对关联规则做了扩展，将更多的因素集成到关联规则挖掘方法之中，以此丰富关联规则的应用领域，拓宽支持管理决策的范围。如考虑属性之间的类别层次关系，时态关系，多表挖掘等。围绕关联规则的研究主要集中于两个方面，即扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。

声明：此文信息来源于网络，登载此文只为提供信息参考，并不用于任何商业目的。如有侵权，请及时联系我们：fendou3451@163.com

点击展开全文

标签：

微信分享

关注微信

上一篇：猛男猎艳行动2

下一篇：中国德国史研究会

关联规则

简介

故事

背景

定义

例子

挖掘过程

两个阶段

案例分析

分类

基于规则中处理的变量的类别

基于规则中数据的抽象层次

基于规则中涉及到的数据的维数

相关算法

Apriori算法

基于划分的算法

FP-树频集算法

应用

应用

研究

相关文章

热门标签

随便看看

推荐排行

阅读排行