目成辅筋砍箍贩鞘猛热绍佛鞠
1 Introduction Test 1
1、 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A:关联规则发现
B:聚类
C:分类
D:自然语言处理
答案: 关联规则发现
2、 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A:分类
B:聚类
C:关联分析
D:异常检测
答案: 聚类
3、 判断以下行为是否属于数据挖掘任务:根据顾客的职业将顾客进行分组
A:正确
B:错误
答案: 错误
4、 判断以下行为是否属于数据挖掘任务:根据顾客的购物记录预测顾客感兴趣的商品
A:正确
B:错误
答案: 正确
5、 判断以下行为是否属于数据挖掘任务:监测患者的心率是否异常
A:正确
B:错误
答案: 正确
6、 判断以下行为是否属于数据挖掘任务:提取声波的频率
A:正确
B:错误
答案: 错误
7、 判断以下行为是否属于数据挖掘任务:预测掷骰子的结果
A:正确
B:错误
答案: 错误
8、 数据挖掘是从大量数据中挖掘重要、隐含的、以前未知、______的模式或知识。
答案: 潜在有用
9、 从数据仓库的角度可以将数据挖掘过程划分为数据清理、数据集成、数据选择与变换、数据挖掘及_等阶段。
答案: 知识评估
10、 数据挖掘任务主要包括描述性和______任务
答案: 预测性
2 Data Test 2
1、 age 值(以递增序)为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。使用 z-score 规范化将 age 值 35 变换到[0.0,1.0]区间,变换后的值为()
A:0.4
B:0.1
C:0.9
D:0.3
答案: 0.4
2、 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()
A:一年级
B:二年级
C:三年级
D:四年级
答案: 一年级
3、 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()
A:0.821
B:1.224
C:1.458
D:0.716
答案: 0.716
4、 属性Hair_color = {auburn, black, blond, brown, grey, red, white},该属性属于()类型
A:标称
B:二分
C:序数
D:数值
答案: 标称
5、 下面不属于数据集特征的是()
A:连续性
B:维度
C:稀疏性
D:分辨率
答案: 连续性
6、 一个数据集的分布的五数概括由最小值、第一个四分位数、_、第三个四分位数、和最大值构成。
答案: 中位数
7、 定用于分析的数据包含属性age。age 值(以递增序)为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。则数据的第一个四分位数的值为__,第三个四分位数的值为35
答案: 20
8、 考虑值集{12 24 33 24 55 68 26},其四分位数极差是:___
答案: 31
9、 数据集的属性可以划分为____和连续型两种。
答案: 离散型
10、 两个向量d1 = (1,1,2,1,1,1,0,0,0) d2 = (1,1,1,0,1,1,1,1,1)的余弦相似度为()
答案: [0.8,0.83]
3 Data Preprocessing Test 3
1、 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()
A:第一个
B:第二个
C:第三个
D:第四个
答案: 第二个
2、 以下哪种方法不是常用的数据约减方法()
A:抽样
B:回归
C:聚类
D:关联规则挖掘
答案: 关联规则挖掘
3、 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()
A:18.3
B:22.6
C:26.8
D:27.9
答案: 18.3
4、 主成分分析法是一种有参的数据约减方法
A:正确
B:错误
答案: 正确
5、 离散属性总是具有有限个值。
A:正确
B:错误
答案: 错误
6、 特征提取技术并不依赖于特定的领域。
A:正确
B:错误
答案: 错误
7、 可以通过创造新的属性并加入到现有属性集中实现更有效的挖掘
A:正确
B:错误
答案: 正确
8、 通过离散化操作可以将连续属性转化为序数属性
A:正确
B:错误
答案: 正确
9、 通过数据集成可以维护数据源整体上的数据一致性
A:正确
B:错误
答案: 正确
10、 可以将异常视为缺失值,利用缺失值处理的方法处理也可以用前后俩个观测值的平均值修正该异常值
A:正确
B:错误
答案: 正确
4 Association Rule Mining Test 4
1、 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5
答案: 1,2,4,5
2、 设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A:4
B:5
C:6
D:7
答案: 6
3、 下面购物篮能够提取的3-项集的最大数量是多少()ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干
A:1
B:2
C:3
D:4
答案: 3
4、 Apriori算法的计算复杂度受()影响。
A:支持度阀值
B:项数(维度)
C:事务数
D:事务平均宽度
答案: 支持度阀值;
项数(维度);
事务数;
事务平均宽度
5、 非频繁模式()
A:其支持度小于阈值
B:都是不让人感兴趣的
C:包含负模式和负相关模式
D:对异常数据项敏感
答案: 其支持度小于阈值;
对异常数据项敏感
6、 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是()ID购买项1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐
A:啤酒、尿布
B:啤酒、面包
C:面包、尿布
D:啤酒、牛奶
答案: 啤酒、面包;
啤酒、牛奶
7、 下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。TID项1abc2abcd3bce4acde5de
A:abc
B:ad
C:cd
D:de
答案: abc;
de
8、 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
A:正确
B:错误
答案: 错误
9、 具有较高的支持度的项集具有较高的置信度。
A:正确
B:错误
答案: 错误
10、 如果一个项集是频繁的,那包含它的所有项集也是频繁的。
A:正确
B:错误
答案: 错误
上方为免费预览版答案,如需购买完整答案,请点击下方红字
点关注,不迷路,微信扫一扫下方二维码
关注我们的公众号:阿布查查 随时查看答案,网课轻松过
为了方便下次阅读,建议在浏览器添加书签收藏本网页
电脑浏览器添加/查看书签方法
1.按键盘的ctrl键+D键,收藏本页面
2.下次如何查看收藏的网页?
点击浏览器右上角-【工具】或者【收藏夹】查看收藏的网页
手机浏览器添加/查看书签方法
一、百度APP添加/查看书签方法
1.点击底部五角星收藏本网页
2.下次如何查看收藏的网页?
点击右上角【┇】-再点击【收藏中心】查看
二、其他手机浏览器添加/查看书签方法
1.点击【设置】-【添加书签】收藏本网页
2.下次如何查看收藏的网页?
点击【设置】-【书签/历史】查看收藏的网页
扦艰洞骨霜柯粕橙伯物工什槐