1
您的位置: 线上活动  >  在线答题  >  答题题库

大数据

2024-06-03 11:18:09.226.0.46103

大数据 在线考试 答题题目
1、(填空题) 收集、处理数据并获取数据中隐含的信息的过程被称为 。


  • 2、 下列情况不能用于处理欠拟合的方法是
  • A、增加模型复杂度
  • B、增大正则化系数
  • C、增加新的特征
  • D、对特征进行变换,使用组合特征或高位特征


  • 3、 下列说法错误的是
  • A、一个系统越有序,信息熵就越低
  • B、中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵
  • C、信息增益=信息熵-条件熵
  • D、一个系统越混乱,随机变量的不确定性就越大,信息熵就越高


  • 4、 关于CART算法,下列说法错误的是
  • A、CART算法既可以处理分类问题,也可以处理回归问题
  • B、可以处理样本不平衡问题
  • C、CART算法采用信息增益率的大小来度量特征的各个划分点
  • D、CART分类树采用基尼系数的大小来度量特


  • 5、 某超市研究销售记录数据后发现,买啤酒的人大概率也会购买尿布,这种属于数据挖掘中的
  • A、关联规则
  • B、聚类
  • C、分类
  • D、自然语言处理


  • 6、 有关数据挖掘预处理的说法,不正确的是
  • A、预处理是数据挖掘的一个不可缺少的环节
  • B、数值规约可以使用聚类分析
  • C、预处理涉及缺失值分析、异常值分析等很多工作
  • D、预处理的过程可能本身就是一个数据挖掘的过程


  • 7、 假设属性income的最大值、最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为
  • A、0.821
  • B、0.224
  • C、0.458
  • D、0.716


  • 8、 当不知道数据所带标签时,为促使带同类标签的数据与带其他标签的数据分离,可以使用的技术是
  • A、分类
  • B、聚类
  • C、关联分析
  • D、协同过滤


  • 9、 下列选项不属于大数据的特点的是
  • A、海量化的数据
  • B、都是有价值的数据
  • C、数据类型的多样化
  • D、价值密度相对较低


  • 10、 下列属于半结构化数据形式的是
  • A、SQL
  • B、XML
  • C、表格
  • D、图片


  • 11、 下列关于大数据思维的描述错误的是
  • A、因果思维
  • B、总体思维
  • C、相关思维
  • D、容错思维


  • 12、 Python爬虫程序中最常用的HTTP请求库是
  • A、Requests
  • B、Re
  • C、Lxml
  • D、Numpy


  • 13、 数据清洗一般遵循的原则是
  • A、每份数据连入时对这份数据清洗,清洗干净后再做数据合并、联结
  • B、数据量大的数据连入时,先合并、联结数据再清洗
  • C、在大规模数据计算前,先执行数据清洗
  • D、数据清洗结果有问题时,从数据源头开始检查数据质量问题


  • 14、(填空题) 大数据诞生的技术基础是;


  • 15、 下列算法不需要数据归一化的是
  • A、KNN
  • B、SVM
  • C、K-Means
  • D、决策树


  • 16、(填空题) ECharts是 的缩写,是百度公司旗下的一款开源可视化图表工具。


  • 17、(填空题) 使用词云进行文本分析的第三方库是 、matplotlib和scipy。


  • 18、(填空题) 机器学习风险预警模型主要包括 、SVM风险预警模型、随机森林风险预警模型。


  • 19、(填空题) 以结构化、语义化的知识库来描述客观世界中的概念、属性及其相互关系的方法称为 ;


  • 20、(填空题) 大数据平台整体业务框架是由 、业务分析层、基础数据层搭建而成;


  • 21、(填空题) 一个好的数据分析平台的角色有 、模型精细分析、管理场景可视化、业务数据共享等。


  • 22、(填空题) 大数据平台整体业务框架是由 、业务分析层、综合分析层搭建而成。


  • 23、(填空题) 实现分类和预测的常用算法有回归分析-决策树、人工神经网络、 和支持向量机。


  • 24、(填空题) 数据抽样的标准包括:可靠性、有效性、


  • 25、(填空题) python中包含的4中内建的数据结构是字典、元组、 集合


  • 26、(填空题) 数据的不一致主要是数据的矛盾性和


  • 27、(填空题) 处理缺失值常用的三种方法是删除记录、数据插补和


  • 28、 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值。此种任务是
  • A、根据内容检索
  • B、建模描述
  • C、预测建模
  • D、寻找模式和规则


  • 29、 Python中如果用户要自己定义函数,需要使用的关键字是
  • A、from
  • B、def或lambda
  • C、import
  • D、return


  • 30、 以下代码的输出结果是def Foo(x): if(x==1): return 1 else: return x+Foo(x-1)printf(F00(4))
  • A、10
  • B、24
  • C、7
  • D、1


  • 31、 以下关于分类问题的说法,错误的是
  • A、分类问题输入属性必须是离散的
  • B、分类属于监督学习
  • C、回归问题在一定条件下可被转化为多分类问题
  • D、多分类问题可以被拆分为多个二分类问题


  • 32、 关于第第三方库,下列说法不正确的是
  • A、下载源代码自行安装
  • B、用pip命令安装
  • C、在编译好的文件包进行安装
  • D、单独导入库名不可以使用库中的所有子模块


  • 33、 提供了数组支持以及相应的高效的处理函数的是
  • A、SciPy
  • B、Keras
  • C、Numpy
  • D、StatsModels


  • 34、 下列有关数据质量的说法中,正确的是
  • A、只错误的数据也可能产生有用的结果
  • B、数据预处理的重要目的是提高数据挖掘结果的质量
  • C、因为分析的数据量很大,有些噪声即使不去除也对数据挖掘没多大影响
  • D、数据质量不需要对业务理解


  • 35、 假设有三类数据,用OVR(One V Rest)方法进行分类的次数是
  • A、3次
  • B、4次
  • C、1次
  • D、2次


  • 36、 下列情况不属于二分类问题的是
  • A、根据一个人的身高和体重判断他(她)的性别
  • B、根据肿瘤的体积、患者的年龄来判断良性或恶性
  • C、身高1.85m,体重100kg的男人穿什么尺码的T恤
  • D、根据用户的年龄、职业、存款数量来判断信用卡是否会违约


  • 37、 以下不属于集中趋势统计量的是
  • A、均值
  • B、中位数
  • C、四分位数
  • D、众数


  • 38、 置信度度量的指标特征是
  • A、简洁性
  • B、可靠性
  • C、实用性
  • D、新颖性


  • 39、 以下不属于聚类算法类型的是
  • A、划分方法
  • B、层次方法
  • C、基于密度的方法
  • D、决策树归纳算法


  • 40、 以下关于回归分析的说法,正确的是
  • A、非线性回归问题一般要转化为线性回归
  • B、回归分析不需要样本训练
  • C、可以预测非数据性属性的类别
  • D、回归分析是一个变量与其他变量之间的线性关系的统计方法


  • 41、 以下不属于属性规约常用的处理技术的是
  • A、合并属性
  • B、决策树归纳
  • C、主成分分析
  • D、特征加权


  • 42、 衡量取样数据的质量的标准不包括
  • A、资料完整无缺
  • B、各类指标项齐全
  • C、数据准确无误
  • D、数据一致


  • 43、 全面预算管理的一个难点是
  • A、滚动预算
  • B、超越预算
  • C、核算管理
  • D、单独预算


  • 44、 在HDFS文件操作中,上传文件的命令是
  • A、get
  • B、put
  • C、input
  • D、up


  • 45、 hadoop2.0与hadoop1.0的区别是
  • A、增加YARN
  • B、增加HDFS2
  • C、增加MapReduce2
  • D、增加容错机制


  • 46、 在HBase组件中,负责日志记录的是
  • A、WAL
  • B、MemStore
  • C、Hregion
  • D、Hfile


  • 47、 大数据平台架构设计的思想是
  • A、统一结构化设
  • B、分层模块化设计
  • C、高集合化设计
  • D、全分布设计


  • 48、 在进行数据抽样时候的标准,不包括的是
  • A、可靠性
  • B、有效性
  • C、一致性
  • D、相关性


  • 49、 下列代码的运行结果是 def InputInt(a): a=15 b=2InputInt(a)print(b)
  • A、15
  • B、2
  • C、15.2
  • D、b


  • 50、 对于数据挖掘中的原始数据,不需要考虑的问题包括
  • A、错误值
  • B、重复
  • C、不完整
  • D、数据产生的人


  • 51、 对于不服从正态分布的变量、分类或等级变量之间的关联性常采用
  • A、Spearmann相关系数
  • B、判定系数
  • C、Pearson相关相关系数
  • D、Gamma系数


  • 52、 在进行数据探索时能够一次查看数据的基本情况的方法是
  • A、subplot()
  • B、describe()
  • C、cumsum()
  • D、add_subplot()


  • 53、 由于研究目的和对比基础不同,在进行相对数比较时采用的方法不包括
  • A、结构相对数
  • B、比例相对数
  • C、过程相对数
  • D、强度相对数


  • 54、 以下不属于数据处理中经常使用的缺失值填充的方法是
  • A、忽略元组
  • B、属性均值填充缺失值
  • C、最近邻填充缺失值
  • D、回归填充缺失值


  • 微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序