关联规则是数据挖掘中的一种重要技术,用于发现大型数据集中项集之间的有趣关系。这些规则通常表示为X → Y的形式,其中X和Y是两个不相交的项集,即它们没有共同元素,并且X ∩ Y = ∅。关联规则反映了事物之间的相互依存性和关联性,可以用来进行预测。
支持度(Support):表示项集X和Y在所有事务中同时出现的频率。支持度越高,表示X和Y同时出现的可能性越大。
置信度(Confidence):衡量包含X的事务中出现Y的条件概率。置信度越高,表示如果顾客购买了X,则他们购买Y的可能性越大。
提升度(Lift):衡量X对Y出现概率的影响。提升度大于1表示X的出现确实增加了Y出现的概率。
关联规则挖掘通常包括两个步骤:
找出频繁项集:
首先从数据集中找出所有频繁出现的项集,即那些支持度超过预设阈值的项集。
生成关联规则:
然后从这些频繁项集中生成关联规则,并计算它们的置信度。只有置信度超过预设阈值的规则才会被输出。
关联规则在许多领域都有应用,如零售市场中的购物篮分析,帮助零售商理解顾客的购买行为,优化商品摆放和营销策略。