1
您的位置: 线上活动  >  在线答题  >  答题题库

自己

2025-05-22 15:15:34.226.0.64090

自己 在线考试 答题题目
1、 16. (单选题)提交Spark程序时,通常需要设置一些配置项,关于配置项,下列说法错误的是( )
  • A、A. name:设置运行环境
  • B、B. jars:添加依赖包
  • C、C. driver-memory:设置Driver程序使用的内存大小
  • D、D. executor-memory:设置Executor使用的内存大小


  • 2、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。
  • A、A. selectExpr()
  • B、B. rename()
  • C、C. withColumnRenamed()
  • D、D. alias()


  • 3、(判断题) 15. (判断题)Spark SQL与Hive不兼容
  • A、正确
  • B、错误


  • 4、 3. (单选题)下列选项中( )算法不属于有监督学习算法。
  • A、A. K-Means
  • B、B. 线性回归
  • C、C. 支持向量机
  • D、D. 朴素贝叶斯


  • 5、 15. (单选题)以下程序的输出结果是( )。 val alphabet = List("A","B","C") val nums = List(1,2) print(alphabet.zip(nums))
  • A、A. List((A,1),(B, 2),(C,null))
  • B、B. List((A,1),(B,2),(C))
  • C、C. ((A,1),(B,2))
  • D、D. List((A,1),(B,2))


  • 6、 4.在Spark中,如果需要对实时数据进行流式计算,那么使用的子框架是( )
  • A、A. Spark MLib
  • B、B. Spark SQL
  • C、C. Spark Streaming
  • D、D. Spark GraphX


  • 7、(判断题) 26. (判断题)RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作
  • A、正确
  • B、错误


  • 8、(填空题) 22. (填空题)方法可以通过一个函数重新计算列表中的所有元素,并且返回一个包含相同数目元素的新列表。


  • 9、(填空题) 13. (填空题)Spark SQL作为分布式SQL查询引擎,让用户可以通过 、DataFrames API和Datasets API3种方式实现对结构化数据的处理。


  • 10、(判断题) 14. (判断题)Spark诞生于洛桑联邦理工学院(EPEL)的编程方法实验室
  • A、正确
  • B、错误


  • 11、 3. (单选题)以下方法中,从外部存储系统中创建RDD使用的方法是( )
  • A、A. makeRDD()
  • B、B. parallelize()
  • C、C. textFile()
  • D、D. testFile()


  • 12、(判断题) 19. (判断题)DataFrame可以从很多数据源中创建,例如结构化文件、外部数据库、Hive表等数据源。
  • A、正确
  • B、错误


  • 13、(判断题) 20. (判断题)Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。
  • A、正确
  • B、错误


  • 14、(判断题) 34. (判断题)Scala中,使用关键字var或val声明变量时,后面紧跟的变量名称可以和Scala中的保留字重名,而且变量名不可以以字母或下划线开头,且变量名是不区分大小写的。
  • A、正确
  • B、错误


  • 15、 3. (单选题)以下关于Scala的变量定义、赋值的代码,运行后一定会报错的是( )
  • A、A. val a=5
  • B、B. val a:String="Math"
  • C、C. var b:Int=3;b=6
  • D、D. val b="Hello world!";b="Word"


  • 16、 1. (单选题)下列说法正确的是哪一项?( )
  • A、A. Spark SQL的前身是Hive
  • B、B. DataFrame其实就是RDD
  • C、C. HiveContext继承了SqlContext
  • D、D. HiveContext只支持SQL语法解析器


  • 17、 1. 以下关于Scala解释器(REPL)交互的基本方式说法错误的是( )
  • A、A. R表示读取(Read)
  • B、B. E表示执行(Evaluate)
  • C、C. P表示解析(Parse)
  • D、D. L表示循环(Loop)


  • 18、(填空题) 21. (填空题)方法用于合并具有相同键的值,作用对象是键值对,并且只对键的值进行处理。


  • 19、 5. (单选题)以元组pair为例,以下关于元组说法错误的是( )
  • A、A. 元组可以包含不同类型的元素
  • B、B. 元组是不可变得
  • C、C. 访问元组第一个元素得方式为parir._1
  • D、D. 元组最多有2个元素


  • 20、 1. (单选题)机器学习可以分为( )。
  • A、A. 有监督学习、无监督学习和半监督学习
  • B、B. 有监督学习、无监督学习和强化学习
  • C、C. 有监督学习和强化学习
  • D、D. 无监督学习和强化学习


  • 21、(填空题) 26. (填空题)在Scala中,获取元组中的值是通过 来获取的


  • 22、(判断题) 17. (判断题)集群上的任务是由执行器来调度的
  • A、正确
  • B、错误


  • 23、 1. (单选题)以下不属于Spark架构中的组件的是( )
  • A、A. Driver
  • B、B. SparkContext
  • C、C. ClusterManager
  • D、D. ResourceManager


  • 24、(填空题) 24. (填空题)使用____方法可以实现数据过滤


  • 25、 6. (单选题)下列选项中,哪个是Scala编译后文件的扩展名( )
  • A、A. .class
  • B、B. .bash
  • C、C. .pyc
  • D、D. .sc


  • 26、(填空题) 28. (填空题)在Scala中,使用___关键字来定义的类被称为样例类。


  • 27、(判断题) 21. (判断题)Spark SQL与Hive相互不兼容。
  • A、正确
  • B、错误


  • 28、(填空题) 25. (填空题)方法可对集合中的元素进行分组操作,返回的结果是一个映射。


  • 29、 9. (单选题)下列选项中,哪个不是Spark生态系统中的组件?
  • A、A. Spark Streaming
  • B、B. Spark Mlib
  • C、C. Spark Graphx
  • D、D. Spark R


  • 30、(填空题) 23. (填空题)方法和map()方法类似,但是该方法没有返回值,只用于对参数的结果进行输出。


  • 31、(判断题) 22. (判断题)Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。
  • A、正确
  • B、错误


  • 32、(判断题) 33. (判断题)在Scala中,集合有三大类分别是List、Set以及Map。
  • A、正确
  • B、错误


  • 33、(填空题) 10. (填空题)在Spark MLlib库中,经常用于将对象分到高度相似的类中的一种无监督学习算法的是


  • 34、 17. (单选题)映射的示例代码如下,运行后res的正确结果是(    )。 val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English") val res = for((k,v)<- data; if(k>1))yield v
  • A、A. List("Math")
  • B、B. List("Math”,"English")
  • C、C. Map(2->"Math",3->"English")
  • D、D. List(1,2)


  • 35、(判断题) 16. (判断题)Spark Master HA主从切换过程不会影响集群已有的作业运行
  • A、正确
  • B、错误


  • 36、 20. (单选题)下列方法中,用于计算数组长度的是()。
  • A、A. count()
  • B、B. take()
  • C、C. tail()
  • D、D. length()


  • 37、 8. (单选题)ALS是MLlib的一个实现推荐算法的包,需要输入的数据类型是( )。
  • A、A. Vector
  • B、B. LabeledPoint
  • C、C. DStream
  • D、D. Rating


  • 38、 7. (单选题)以下选项中,关于Spark SQL优点描述正确的是( )。 ①将SQL查询与Spark程序无缝混合,可以使用Java、Scala、Python、R等语言的API操作 ②兼容Hive ③统一的数据访问 ④标准的数据连接
  • A、A. ①
  • B、B. ①②
  • C、C. ①②③
  • D、D. ①②③④


  • 39、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。
  • A、A. bin/spark-submit --master yarn-client
  • B、B. bin/spark-submit --class local
  • C、C. bin/spark-submit --class yarn-client
  • D、D. bin/spark-submit --name yarn


  • 40、(填空题) 24. (填空题)RDD的操作主要分为____和____


  • 41、 6. 下列选项中,可以支持Scala和Python编程的交互式解释器是()。
  • A、A. HBase-Shell
  • B、B. Spark-Shell
  • C、C. Hadoop-Shell
  • D、D. Hive-Shell


  • 42、 11. (单选题)在Scala语言中,关于列表的定义,不正确的是( )
  • A、A. val list:List[Int] = List(1,2,3)
  • B、B. val list=List[Int](1,2,3)
  • C、C. val list=List[String]('a','b','c')
  • D、D. val list=List[String]()


  • 43、(填空题) 23. (填空题)spark-submit常用配置项中 --name Name主要用于


  • 44、(判断题) 30. (判断题)在Scala中,使用关键字bar声明的变量,值是不可变的。
  • A、正确
  • B、错误


  • 45、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是( )
  • A、A. 11 12 13 21 22 23 31 32 33
  • B、B. 11 13 21 23 31 33
  • C、C. 12 13 21 23 31 32
  • D、D. 11 12 21 22 31 32


  • 46、(判断题) 18. (判断题)Spark SQL不仅能够查询MySQL数据库中的数据,还可以向表中插入新的数据
  • A、正确
  • B、错误


  • 47、(填空题) 12. (填空题)推荐算法有两个主要的类别:一种是_____ ,另一种是____


  • 48、(判断题) 29. (判断题)Scala语言是一种面向过程编程的语言。
  • A、正确
  • B、错误


  • 49、 12. (单选题)Spark中的SparkContext是( )。
  • A、A. 主节点
  • B、B. 从节点
  • C、C. 执行器
  • D、D. 上下文


  • 50、(判断题) 17. (判断题)Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame,通过对DataFrame进行一系列的操作后,不可以将数据重新写入到关系数据库中。
  • A、正确
  • B、错误


  • 51、(填空题) 11. (填空题)协同过滤推荐算法有两种形式,分别是_____和_____


  • 52、(判断题) 15. (判断题)部署Spark高可用集群不需要用到Zookeeper服务
  • A、正确
  • B、错误


  • 53、 3. Spark支持的运行模式不包括( )
  • A、A. Standalone模式
  • B、B. Mesos模式
  • C、C. YARN模式
  • D、D. Local模式


  • 54、 7. (单选题)下列方法中,哪个方法可以正确计算数组arr的长度( )
  • A、A. count()
  • B、B. take()
  • C、C. tail()
  • D、D. length()


  • 55、 2. (单选题)下列属于关联规则算法是( )。
  • A、A. 决策树
  • B、B. K-Means
  • C、C. FP
  • D、D. 朴素贝叶斯


  • 56、 1. (单选题)下面哪个端口不是Spark自带服务的端口
  • A、A. 8080
  • B、B. 4040
  • C、C. 8090
  • D、D. 18080


  • 57、(填空题) 22. (填空题)方法用于对具有相同键的值进行分组,可以对同一组的数据进行计数、求和等操作。


  • 58、(填空题) 13. (填空题)spark-shell下清屏的快捷方式为


  • 59、(填空题) 10. (填空题)停止Spark集群的命令为


  • 60、(判断题) 25. (判断题)RDD是一个可变、不可分区、里面的元素不可并行计算的集合
  • A、正确
  • B、错误


  • 61、 4. (单选题)下列选项中( )算法属于分类算法。
  • A、A. FCM
  • B、B. 决策树
  • C、C. K-Means
  • D、D. FP


  • 62、 7. (单选题)关于RDD集合操作方法,以下选项中描述错误的是
  • A、A. intersection()方法:求出两个RDD的共同元素
  • B、B. union()方法:合并两个RDD的所有元素
  • C、C. subtract()方法:将原RDD里和参数RDD里不相同的元素去掉
  • D、D. cartesian()方法:求两个RDD的笛卡儿积


  • 微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序