1
您的位置: 线上活动  >  在线答题  >  答题题库

大数据分析

2022-08-01 23:18:02.226.0.4451

大数据分析 在线考试 答题题目
1、 (重点)下述方法中,属于组合方法的是
  • A、Naïve Bayes
  • B、Decision Tree
  • C、RandomForest
  • D、SVM


  • 2、 (重点)下面可用于特征筛选的方法为
  • A、PCA
  • B、PPT
  • C、决策树
  • D、XGBoost


  • 3、 (重点)为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合
  • A、散点图
  • B、柱形图
  • C、直方图
  • D、以上都不对


  • 4、 (重点)统计图中,可以方便地同时观察到四分位数分布情况的图是
  • A、盒图
  • B、条形图
  • C、饼图
  • D、散点图


  • 5、 (重点)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
  • A、关联规则发现
  • B、聚类
  • C、分类
  • D、自然语言处理


  • 6、 (重点)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
  • A、频繁模式挖掘
  • B、分类和预测
  • C、数据预处理
  • D、数据流挖掘


  • 7、 (重点)下述可用于度量数据的中心趋势的是
  • A、极差
  • B、众数
  • C、方差
  • D、盒图


  • 8、 (重点)下述不属于平滑噪声数据的方法是
  • A、分箱
  • B、回归
  • C、聚类
  • D、忽略数据


  • 9、 (重点)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?
  • A、第一个
  • B、第二个
  • C、第三个
  • D、第四个


  • 10、 (重点)下述算法中不属于决策树算法的是
  • A、C4.5
  • B、ID3
  • C、CART
  • D、B+Tree


  • 11、 以下哪个算法是分类算法
  • A、DBSCAN
  • B、C4.5
  • C、K-Mean
  • D、EM


  • 12、 (重点)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
  • A、层次聚类
  • B、划分聚类
  • C、非互斥聚类
  • D、模糊聚类


  • 13、 (重点)( C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
  • A、边界点
  • B、质心
  • C、离群点
  • D、核心点


  • 14、 (重点)关于K-means与K-近邻算法描述,不正确的是
  • A、二者都是分类算法
  • B、K-近邻属于有监督学习
  • C、二者的K的含义不同.
  • D、两种算法都需要计算样本间距离.


  • 15、 (重点)关于K均值和DBSCAN的比较,以下说法不正确的是
  • A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
  • B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
  • C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
  • D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。


  • 16、 (重点)在数据预处理阶段,常需对数值特征进行归一化或标准化,这种处理方式理论上不会对下列哪个模型产生较大影响
  • A、K-means
  • B、K-NN
  • C、决策树
  • D、层次聚类


  • 17、 (重点)( C )将两个簇的距离定义为不同簇的所有点对的平均逐对距离,它是一种凝聚层次聚类技术。
  • A、MIN(单链)
  • B、MAX(全链)
  • C、组平均
  • D、Ward方法


  • 18、 (重点)在 n 维空间中(n > 1),下列哪种方法最适合用来检测异常值
  • A、正态概率图
  • B、箱形图
  • C、马氏距离
  • D、散点图


  • 19、 (重点)点击率预测是一个正负样本不平衡问题(例如 99% 的没有点击,只有 1% 点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是 99%,则下列说法正确的是
  • A、模型正确率很高,不需要优化模型了
  • B、模型正确率并不高,应该建立更好的模型
  • C、无法对模型做出好坏评价
  • D、以上说法都不对


  • 20、 (重点)在大型数据集上训练决策树,为了花费更少的时间来训练这个模型,下列哪种做法是正确的
  • A、增加树的深度
  • B、增加学习率
  • C、减小树的深度
  • D、减少树的数量


  • 21、 (重点)如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率呢?
  • A、是的,因为这个模型泛化能力已经很好了,可以应用于任何数据
  • B、不行,因为还有一些模型不确定的东西,例如噪声


  • 22、 (重点)下面有关分类算法的准确率,召回率,F1 值的描述,错误的是
  • A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
  • B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
  • C、正确率、召回率和 F 值取值都在 0 和 1 之间,数值越接近 0,查准率或查全率就越高
  • D、为了解决准确率和召回率冲突问题,引入了F1分数


  • 23、 (重点)一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级人数的中位数是
  • A、145
  • B、150
  • C、155
  • D、160


  • 24、 (重点)通过聚集多个分类器的预测来提高分类准确率的技术称为
  • A、组合(ensemble)
  • B、聚集(aggregate)
  • C、合并(combination)
  • D、投票(voting)


  • 25、 (重点)评估分类器性能时,关于ROC曲线和面积AUC的说法,正确的是
  • A、ROC与AUC是彼此无关的两种评估方式
  • B、ROC越小越好
  • C、AUC越大越好
  • D、随机方法的AUC=0


  • 微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序