62-在线答题-在线出题考试深圳市新微云科技官网

62 在线考试答题题目

1、（填空题） 13. (填空题)Spark SQL作为分布式SQL查询引擎，让用户可以通过、DataFrames API和Datasets API3种方式实现对结构化数据的处理。

2、 15. (单选题)以下程序的输出结果是( )。 val alphabet = List("A","B","C") val nums = List(1,2) print(alphabet.zip(nums))

A、A. List((A,1),(B, 2),(C,null))

B、B. List((A,1),(B,2),(C))

C、C. ((A,1),(B,2))

D、D. List((A,1),(B,2))

3、 7. (单选题)关于RDD集合操作方法，以下选项中描述错误的是

A、A. intersection()方法：求出两个RDD的共同元素

B、B. union()方法：合并两个RDD的所有元素

C、C. subtract()方法：将原RDD里和参数RDD里不相同的元素去掉

D、D. cartesian()方法：求两个RDD的笛卡儿积

4、（判断题） 19. (判断题)DataFrame可以从很多数据源中创建，例如结构化文件、外部数据库、Hive表等数据源。

A、正确

B、错误

5、（填空题） 11. (填空题)进入spark-shell操作界面的命令为

6、（判断题） 31. (判断题)在Scala中定义变长数组时，需要导入可变数组包。

A、正确

B、错误

7、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。

A、A. bin/spark-submit --master yarn-client

B、B. bin/spark-submit --class local

C、C. bin/spark-submit --class yarn-client

D、D. bin/spark-submit --name yarn

8、 8. (单选题)关于键值对RDD的连接操作，以下选项中描述正确的是

A、A. join()方法：对两个RDD进行全外连接

B、B. rightOuterJoin()方法：对两个RDD进行左外连接

C、C. leftOuterJoin()方法：对两个RDD进行右外连接

D、D. fullOuterJoin()方法：对两个RDD进行全外连接

9、 5. (单选题)DataFrame的show()方法默认输出( )条数据。

A、A. 10

B、B. 15

C、C. 20

D、D. 30

10、 13. (单选题)使用“val rdd: RDD[String]= sc.makeRDD(List("Hello Scala","Hello Spark"))”创建了一个RDD,以下选项中，不能使该RDD实现单词计数的是( )。

A、A.rdd.flatMap(_.split("")).map((,1)).reduceByKey(+_)

B、B. rdd.flatMapC.split("")).map(x=>(x,1)).reduceByKey((x,y)=>x+y)

C、C.rdd.flatMap(.split("")).map((,1)).aggregateByKey(0)(+_)

D、D. rdd.flatMap(_.split("").map(x=>(x,1)).groupByKey().mapValues(iter =>iter.size)

11、（判断题） 14. (判断题)Spark诞生于洛桑联邦理工学院（EPEL）的编程方法实验室

A、正确

B、错误

12、（填空题） 9. (填空题)启动Spark集群的命令为

13、（填空题） 14. (填空题)在DataFrame的操作中，_____用于对记录进行分组。

14、 5. 关于SparkRDD,下列说法不正确的是（）

A、A. SparkRDD是一个抽象的弹性分布式数据集

B、B. RDD的行动操作指的是将原始数据集加载为RDD或将一个RDD转换为另一个RDD的操作

C、C. 窄依赖指的是子RDD的一个分区只依赖于某个父RDD中的一个分区

D、D. 宽依赖指的是子RDD的每一个分区都依赖于某个父RDD中一个以上的分区

15、 2. 以下关于Scala的特性说法错误的是（）

A、A. Scala是一种纯粹的面向过程的程序设计语言

B、B. Scala支持函数时编程，可定义匿名函数、高阶函数，允许函数嵌套，并支持柯里化

C、C. Scala以静态的方式进行抽象

D、D. Scala提供了许多独特的语言机制，具有良好的可扩展性

16、（填空题） 19. (填空题)方法用于获取RDD的前N个元素，返回数据为数组

17、 1. 以下关于Scala解释器（REPL）交互的基本方式说法错误的是（）

A、A. R表示读取（Read）

B、B. E表示执行（Evaluate）

C、C. P表示解析（Parse）

D、D. L表示循环（Loop）

18、 13. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是（）

A、A. 单例对象不可以定义方法，而类可以

B、B. 单例对象不可以带参数，而类可以

C、C. 单例对象不可以定义私有属性，而类可以

D、D. 单例对象不可以继承，而类可以

19、 6. (单选题)下列选项中，哪个是Scala编译后文件的扩展名（）

A、A. .class

B、B. .bash

C、C. .pyc

D、D. .sc

20、（判断题） 29. (判断题)Scala语言是一种面向过程编程的语言。

A、正确

B、错误

21、（判断题） 17. (判断题)Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame，通过对DataFrame进行一系列的操作后，不可以将数据重新写入到关系数据库中。

A、正确

B、错误

22、（判断题） 36. (判断题)Scala有两种类型的变量，一种是使用关键字var声明的常量，值是不可变的；另一种是使用关键字val声明的变量，值是可变的。

A、正确

B、错误

23、 7. (单选题)下列选项中，( )不属于数据标准化或归一化方法。

A、A. Normalizer()

B、B. StandardScaler()

C、C. MinMaxScaler()

D、D. WithMean()

24、 17. (单选题)映射的示例代码如下，运行后res的正确结果是( )。 val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English") val res = for((k,v)<- data; if(k>1))yield v

A、A. List("Math")

B、B. List("Math”,"English")

C、C. Map(2->"Math",3->"English")

D、D. List(1,2)

25、（填空题） 22. (填空题)方法用于对具有相同键的值进行分组，可以对同一组的数据进行计数、求和等操作。

26、（判断题） 15. (判断题)部署Spark高可用集群不需要用到Zookeeper服务

A、正确

B、错误

27、 8. Spark于2009年诞生于（）。

A、A. 美国加州大学伯克利分校的AMP实验室

B、B. 加利福尼亚大学伯克利分校

C、C. 宾夕法尼亚大学

D、D. 普林斯顿大学

28、（判断题） 15. (判断题)Spark SQL与Hive不兼容

A、正确

B、错误

29、（判断题） 21. (判断题)Spark SQL与Hive相互不兼容。

A、正确

B、错误

30、 3. Spark支持的运行模式不包括（）

A、A. Standalone模式

B、B. Mesos模式

C、C. YARN模式

D、D. Local模式

31、 3. (单选题)以下关于Scala的变量定义、赋值的代码，运行后一定会报错的是（）

A、A. val a=5

B、B. val a:String="Math"

C、C. var b:Int=3;b=6

D、D. val b="Hello world!";b="Word"

32、 9. (单选题)下列选项中，哪个不是Spark生态系统中的组件？

A、A. Spark Streaming

B、B. Spark Mlib

C、C. Spark Graphx

D、D. Spark R

33、（填空题） 24. (填空题)使用____方法可以实现数据过滤

34、（填空题） 23. (填空题)方法和map()方法类似，但是该方法没有返回值，只用于对参数的结果进行输出。

35、 16. (单选题)提交Spark程序时，通常需要设置一些配置项，关于配置项，下列说法错误的是（）

A、A. name:设置运行环境

B、B. jars:添加依赖包

C、C. driver-memory:设置Driver程序使用的内存大小

D、D. executor-memory:设置Executor使用的内存大小

36、（填空题） 13. (填空题)spark-shell下清屏的快捷方式为

37、 9. (单选题)对于RDD(a,1),(a,2),(a,3)),使用“reduceByKey(_+_)”进行合并，得到的结果是（）

A、A. (a,3)

B、B. (a,6)

C、C. (3a,6)

D、D. (3a,1,2,3)

38、 1. (单选题)以下不属于Spark架构中的组件的是( )

A、A. Driver

B、B. SparkContext

C、C. ClusterManager

D、D. ResourceManager

39、 4. (单选题)以下是转换操作的方法是（）

A、A. reduce()

B、B. saveAsTextFile()

C、C. filter()

D、D. foreach()

40、 3. (单选题)以下方法中，从外部存储系统中创建RDD使用的方法是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

41、（判断题） 25. (判断题)RDD是一个可变、不可分区、里面的元素不可并行计算的集合

A、正确

B、错误

42、 6. (单选题)获取DataFrame中所有数据，并返回一个数组对象，使用的方法是( )。

A、A. describe()

B、B. collect()

C、C. collectAsList()

D、D. 以上三种都是

43、 21. (单选题)Scala中，用于创建单例对象的关键字是（）。

A、A. new

B、B. object

C、C. super

D、D. def

44、（填空题） 26. (填空题)在Scala中，获取元组中的值是通过来获取的

45、 6. 下列选项中，可以支持Scala和Python编程的交互式解释器是（）。

A、A. HBase-Shell

B、B. Spark-Shell

C、C. Hadoop-Shell

D、D. Hive-Shell

46、（填空题） 22. (填空题)方法可以通过一个函数重新计算列表中的所有元素，并且返回一个包含相同数目元素的新列表。

47、（填空题） 23. (填空题)spark-submit常用配置项中 --name Name主要用于

48、 3. (单选题)关于Spark SQL的说法，以下选项错误的是( )。

A、A. Spark SQL不可以从外部数据库中创建DataFrame

B、B. Spark SQL支持HiveQL语法，允许访问现有的Hive仓库

C、C. Spark SQL的DataFrame可以理解为一个分布式的Row对象的数据集合

D、D. Spark SQL支持Parquet文件的读写，且保留Schema

49、（填空题） 11. (填空题)协同过滤推荐算法有两种形式，分别是_____和_____

50、 2. (单选题)下列属于关联规则算法是( )。

A、A. 决策树

B、B. K-Means

C、C. FP

D、D. 朴素贝叶斯

51、（填空题） 12. (填空题)Spark SQL是Spark用来的一个模块

52、 20. (单选题)下列方法中，用于计算数组长度的是（）。

A、A. count()

B、B. take()

C、C. tail()

D、D. length()

53、 8. (单选题)ALS是MLlib的一个实现推荐算法的包，需要输入的数据类型是( )。

A、A. Vector

B、B. LabeledPoint

C、C. DStream

D、D. Rating

54、 1. (单选题)机器学习可以分为( )。

A、A. 有监督学习、无监督学习和半监督学习

B、B. 有监督学习、无监督学习和强化学习

C、C. 有监督学习和强化学习

D、D. 无监督学习和强化学习

55、 12. (单选题)Spark中的SparkContext是( )。

A、A. 主节点

B、B. 从节点

C、C. 执行器

D、D. 上下文

56、（填空题） 12. (填空题)在spark-shell下进入粘贴模式的命令为

57、 6. (单选题)关于Spark MLlib的mllib.stat.Statistics类中的方法，描述错误的是( )。

A、A. mean:求均值

B、B. variance:求方差

C、C. normL1:求正态分布

D、D. Statistics.corr(rdd,method):求相关系数

58、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是（）

A、A. 11 12 13 21 22 23 31 32 33

B、B. 11 13 21 23 31 33

C、C. 12 13 21 23 31 32

D、D. 11 12 21 22 31 32

59、（判断题） 16. (判断题)Spark Master HA主从切换过程不会影响集群已有的作业运行

A、正确

B、错误

60、（判断题） 35. (判断题)Scala中声明变量时，可以不给出变量的类型，因为在初始化的时候，Scala的类型推断机制能够根据变量初始化的值自动推算出来。

A、正确

B、错误

61、（判断题） 16. (判断题)在Spark SQL中，若想要使用SQL风格操作，则需要提前将DataFrame注册成一张临时表

A、正确

B、错误

62、（填空题） 25. (填空题)方法可对集合中的元素进行分组操作，返回的结果是一个映射。

微信扫一扫在线答题在线出卷随机出题小程序闯关答题软件出题答题小程序

62

62 在线考试 答题题目

62 在线考试答题题目