商务智能大总结2 关联分析

商务智能大总结2 关联分析

文章目录

支持度(Support)

交易包含项集X的概率
用户兴趣的度量

在这里插入图片描述

假设交易数据库是D,|D|表示交易数据库中的交易条数
count(X)表示项集X在交易中出现的频次
例:

在这里插入图片描述

Z={A} ,
Y={A,B}=AB
support(Z) = 3/5×100%=60%
support(Y) = 1/5×100%=20%

频繁项集(frequent itemset)

若support(X) >=minsup(最小支持度) ,则X称为频繁项集(frequent itemset),也可以说X是频繁的.
设minsup = 50%
项集Z为频繁项集,项集Y则不是

闭合频繁项集
一个频繁项集 X 被称为闭合频繁项集(closed frequent itemset)当且仅当不存在任一个项集Y满足X⊂Y 且support(Y)=support(X)。频繁项集X被称为是闭合的。
例:
假设最小支持度为60%
X={A}; Y={AD}
项集X是频繁的,但不是闭合的,因为support(Y)=support(X),
且X⊂Y

关联规则

给定两个项集X和Y,关联规则是形如X→Y的蕴含式
-X⊆I称为规则的前件,Y⊆I称为规则的后件,X∩Y=∅
规则X→Y的支持度(support)

在这里插入图片描述


规则X→Y的置信度(confidence)

在这里插入图片描述


例:
关联规则:X → Y
support( X → Y ) =support(X ∪ Y)=|TXY| / |D|
E.g:

在这里插入图片描述


X={A} Y={C}
support(A → C )=support(AC)=0.2
X={A,D}=AD Y=C
support(AD→C )=support(ADC)=0.2

Confidence(X → Y )=|TXY| / |TX|=sup(X ∪ Y) / sup(X)

Confidence(X → Y )=|TXY| / |TX|=sup(XY) / sup(X)= support(AC)/support(A)=1/3

A→C (20%(支持度), 33%(置信度))

关联规则的挖掘
给定如下阈值
minimum support : minsup
minimum confidence : minconf
发现所有形如X→Y 的关联规则,满足
Support(X→Y )≥ minsup
Confidence(X→Y) ≥ minconf
强关联规则

逐层发现算法Apriori

主要步骤
1.k=1
2.统计每个k项候选集的支持度,找出频繁的k项集:Lk
3.利用频繁的k项集生成k+1项候选集(Candidate itemset ):Ck+1
4.k=k+1; 转至步骤2

例:minsup = 2/4

在这里插入图片描述

生成关联规则

在这里插入图片描述


为每个频繁项集l, 生成非空子集s; 若满足:

在这里插入图片描述


则输出规则:(l-s) →s
e.g: l=ABCD, s = D , (l-s)= ABC
confidence(ABC →D)=support(ABCD)/support(ABC)

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

相关性度量

度量:Lift(增益,提升度)

在这里插入图片描述


>1: positively correlated
=1: independent
<1: negatively correlated

例:

在这里插入图片描述


在这里插入图片描述


Lift:
Conf (BE→ C)=2/3
Sup( C )=3/4
Lift(BE→ C)=(2/3) / (3/4) = 8/9
Confidence(BC→ E)=1
Lift (BC→ E)=1/(3/4)=1.33

在这里插入图片描述

度量:cosine
对于关联规则X→Y
它适用于变量不对称的情况,即项集的同时出现相比于同时不出现更重要的情况

在这里插入图片描述


在这里插入图片描述

相关分析

在这里插入图片描述


在这里插入图片描述

例题

1.数据库有5个事务。min_sup=60%, min_conf=80%
1)用apriori算法找到频繁项集
2)列举与下面元规则匹配的强关联规则并给出支持度与可信度,其中X是代表顾客的变量, itemi是代表产品的变量。

在这里插入图片描述


在这里插入图片描述


1)

在这里插入图片描述


2)

在这里插入图片描述


2.

在这里插入图片描述


(1)
support = 2000/5000 = 40%,confidence = 2000/3000 = 66.7%。是强关联规则。
(2)

在这里插入图片描述