本文章系本人结合讲义及网上学习资料整理,难免存在个别问题。仅供各位同学和爱好者参考和讨论。发现问题请各位码友留言勘误。谢谢!
1. 下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )
AA.关联分析;
B B.分类和预测;
CC.聚类分析;
DD.演变分析
2、设X={1,2,3}是频繁项集,则可由X产生多少个关联规则( )
AA. 4;
BB. 5;
CC. 6;
DD. 7;
3、关联规则的支持度公式为( )
AA.support(A=>B)=P(A∩B);
BB.support(A=>B)=P(B|A);
CC.support(A=>B)=P(A∪B);
D D.support(A=>B)=P(A|B);
4、规则∅→A和A→∅的置信度是( )
AA. 50%;
BB. 75%;
CC. 90%;
DD. 100%;
5. 购买HDTV和购买健身器的情况如下表所示,设最小支持度阈值为0.3,最小置信度阈值为0.6,则{买HDTV }→{买健身器}的支持度为( )
AA. 0.45;
BB. 0.55;
CC. 0.33;
DD. 0.27;
解析:├ support(A⇒B)=P(A∪B) 99➗300=33
6、上一题所给的数据中,{买HDTV }→{买健身器}的置信度为( )
AA. 0.65;
BB. 0.55;
CC. 0.49;
DD. 0.33;
解析:├ confidence(A⇒B)=P(B|A) P(B|A)=P(AB)÷P(A)=0.33÷0.6
7、考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。选出根据Apriori 算法利用上述频繁3-项集生成的候选4-项集( )
AA. {1,2,3,4};
BB. {1,2,3,5};
CC. {1,2,4,5};
DD. {2,3,4,5};
8、一个数据库有5 个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中选出频繁2-项集( )
AA. {M,K};
BB. {O,K};
CC. {K,E};
DD. {M,O};
9、Aprior算法包括连接和剪枝两个基本步骤。 正确
如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}} 正确
11、同时满足()和()的规则称之为强关联规则。
A最小支持度阈值
B最大置信度阈值
C最大支持度阈值
D最小置信度阈值
12、在挖掘闭模式算法中,直接搜索闭频繁项集,并对结果进行剪枝是最常用的方法,其中剪枝的策略不包括项合并和子项集剪枝。错误
13、频繁出现在数据集中的模式称为:()
A频繁模式
B静态模式
C加载模式
D繁重模式
14、大型数据库中的关联规则挖掘包含找出所有频繁项集和由频繁项集产生强关联规则两个过程。正确
15、某个食品连锁店每周的事务记录如下表所示,每个事务表示在一项收款机业务中卖出的商品项集,假定min_sup=40%,min_conf=40%,使用Apriori算法生成的强关联规则有()和()两项。
A{面包}->{花生酱}
B{啤酒}->{面包}
C{花生酱}->{面包}
D{果冻}->{牛奶}
16、计算关联规则{牛奶}=>{咖啡}的支持度和置信度:()()(答案保留小数点后两位)
A0.45; 0.36
B0.80; 0.40
C0.40; 0.80
D0.36; 0.45
17、从上题的数据中计算牛奶与咖啡之间的提升度和杠杆度:()()(答案保留小数点后一位)
A1.5; 0.6
B1.3; 0.1
C0.6; 1.5
D0.1; 1.3
18、一个数据库有5个事务,如下表所示。设min_sup=60%,min_conf = 80%。
用Apriori算法找出所有3频繁项集:()
A{O,K,E}
B{M,A,K}
C{M,U,C}
D{O,N,E}
19、计算{面包(A)=>啤酒(E)}的支持度:()(保留小数点后一位)
A0.1
B0.2
C0.3
D0.4
20、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。 错误
21、具有较高的支持度的项集具有较高的置信度。错误
22、如果两个项集的提升度的值小于1,则说明两个项集正相关 。错误
23、极大频繁项集的直接超集都不是频繁的。正确
24、Apriori算法是一种典型的关联规则挖掘算法。正确
25、设最小支持度阈值为30%,最小置信度阈值为70%,如果一个项集的支持度为50%,则该项集是频繁项集。正确
26、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )
AA.关联规则发现;
BB.聚类;
CC.分类;
DD.自然语言处理;
25、置信度(confidence)是衡量哪种兴趣度度量的指标( )
AA. 简洁性;
BB. 确定性;
CC. 实用性;
DD. 新颖性;
26、下列指标中,能够度量一个规则的强度,同时衡量两个集合之间的独立性的是( )
A. 提升度;
BB. 杠杆度;
CC. IS度量;
DD. 确信度;
27、令C1 ,C2和C3分别是规则{p}→{q},{p}→{q,r},{p,r}→{q}的置信度。如果假定C1, C2和C3有不同的值,置信度最低的规则是( )
AA. C1;
BB. C2;
CC. C3;
DD. C2和C3;
解析: p-》q r 是q-》的真子集
28、如果X∈Y,且Y中至少有一项不在X中,那么Y是X的( )
AA. 频繁项集;
BB. 真超项集;
CC. 闭频繁项集;
DD. 极大频繁项集;
29、下列关于Apriori算法的分析中,错误的是( )
AA. Apriori算法基于支持度的剪枝技术,用来控制候选项集的指数增长;
BB. Apriori算法包括候选集生成和向下封闭检测两个阶段;
CC. Apriori算法会扫描数据库2次;
DD. Apriori算法使用逐层搜索的迭代方法;
30、. 下列不属于Apriori算法的缺点的是( )
AA. Apriori算法分为两个阶段挖掘频繁项集;
BB. Apriori算法产生候选项目集时没有排除无用的候选项集;
CC. Apriori算法在每一步产生候选项目集时循环产生的组合过多;
DD. 在扫描大型数据库时,Apriori算法会大大增加计算机系统I/O开销;
31、下表是一个购物篮,假定支持度阈值为40%,其中哪几个是频繁闭项集( )
AA. abc;
BB. ad;
CC. cd;
DD. de;
32、以下关于非频繁模式说法,正确的是( )
AA. 其支持度小于阈值;
BB. 都是不让人感兴趣的;
CC. 其支持度大于阈值;
DD. 对异常数据项敏感;
33、下列关于FP-growth算法优缺点的表述中,正确的有( )
AA. 相比于Apriori算法,FP-growth算法运行速度要快一个数量级;
BB. FP-growth算法在建立FP-tree时占用空间较小;
CC. FP-growth算法无须多次扫描数据库,节省了运行时间;
DD. FP-growth算法处理产生的条件树时会占用很多资源;
34、关联规则的置信度公式为confidence(A=>B)=____P(B|A)
35、.如果一个项集的直接超集都不具有和它相同的支持度计数,则称其为:___ 闭项集
36、不包含任何考察项集的事务被称作零事务
37、关联规则挖掘任务主要分为_频繁项集的产生_和_关联规则的产生_两个子任务. ;
38、.FP-growth算法的基本思想是用FP-growth __递归增长__ 形成频繁集。
39、事物t={牛奶,面包,啤酒}是__3__ 项集
40、FP-growth算法在一次运行中扫描__2__ 次数据库
41、计算{面包(A)=>啤酒(E)}的支持度:___0.2_ (保留小数点后一位)
解析:P(面包啤酒)=0.2
42、从上题的数据中计算规则{面包(A)}=>{甜酱(B)}的置信度:__0.25__ (答案保留小数点后两位)
解析:P(面包甜酱)➗P(面包)=0.2➗0.8
43、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。错误44、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。正确
44、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有非空子集也是频繁的。正确
45、两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。正确
46、可信度是对关联规则的准确度的衡量。正确
47、关联规则是形如X=>Y的蕴含式,X和Y满足:X和Y是I的真子集,并且X和Y的交集为空集。正确
相关文章
发表评论