大数据分析 在线考试 答题题目
1、 (重点)下述方法中,属于组合方法的是
2、 (重点)下面可用于特征筛选的方法为
3、 (重点)为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合
4、 (重点)统计图中,可以方便地同时观察到四分位数分布情况的图是
5、 (重点)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
6、 (重点)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
7、 (重点)下述可用于度量数据的中心趋势的是
8、 (重点)下述不属于平滑噪声数据的方法是
9、 (重点)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?
10、 (重点)下述算法中不属于决策树算法的是
11、 以下哪个算法是分类算法
12、 (重点)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
13、 (重点)( C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
14、 (重点)关于K-means与K-近邻算法描述,不正确的是
15、 (重点)关于K均值和DBSCAN的比较,以下说法不正确的是
16、 (重点)在数据预处理阶段,常需对数值特征进行归一化或标准化,这种处理方式理论上不会对下列哪个模型产生较大影响
17、 (重点)( C )将两个簇的距离定义为不同簇的所有点对的平均逐对距离,它是一种凝聚层次聚类技术。
18、 (重点)在 n 维空间中(n > 1),下列哪种方法最适合用来检测异常值
19、 (重点)点击率预测是一个正负样本不平衡问题(例如 99% 的没有点击,只有 1% 点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是 99%,则下列说法正确的是
20、 (重点)在大型数据集上训练决策树,为了花费更少的时间来训练这个模型,下列哪种做法是正确的
21、 (重点)如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率呢?
22、 (重点)下面有关分类算法的准确率,召回率,F1 值的描述,错误的是
23、 (重点)一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级人数的中位数是
24、 (重点)通过聚集多个分类器的预测来提高分类准确率的技术称为
25、 (重点)评估分类器性能时,关于ROC曲线和面积AUC的说法,正确的是

微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序