小曹选择题-在线答题-在线出题考试深圳市新微云科技官网

小曹选择题在线考试答题题目

1、 9. (单选题)关于mllib.feature中创建特征向量的方法，下列说法错误的是( )。

A、A. TF-IDF算法可以将一整个文档转化成向量

B、B. TF指的是词频，IDF指的是逆文档频率

C、C. Word2Vec可以将每一个单词用K维稠密向量来表示

D、D. 使用HashingTF转化数据为特征向量时，要求转换的数据是不可迭代的。

2、（填空题） 26. (填空题)在Scala中，获取元组中的值是通过来获取的

3、 5. (单选题)以下是行动操作的方法是（）

A、A. collect()

B、B. map()

C、C. union()

D、D. distinct()

4、 1. (单选题)下面哪个端口不是Spark自带服务的端口

A、A. 8080

B、B. 4040

C、C. 8090

D、D. 18080

5、 10. (单选题)在Spark中，调用RDD的（）方法，可以将RDD转换为DataFrame对象。

A、A. show()

B、B. map()

C、C. toDF()

D、D. printSchema()

6、 4. (单选题)以下关于数组a的定义，最终数组a的数据与其他选项不一致的是

A、A. val a=Array[Int](0,0)

B、B. val a=Array(0,0)

C、C. val a=new Array[Int](2)

D、D. val a=Array[Int](1,1)

7、 3. Spark支持的运行模式不包括（）

A、A. Standalone模式

B、B. Mesos模式

C、C. YARN模式

D、D. Local模式

8、（判断题） 33. (判断题)在Scala中，集合有三大类分别是List、Set以及Map。

A、正确

B、错误

9、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。

A、A. selectExpr()

B、B. rename()

C、C. withColumnRenamed()

D、D. alias()

10、（判断题） 31. (判断题)在Scala中定义变长数组时，需要导入可变数组包。

A、正确

B、错误

11、 5. (单选题)DataFrame的show()方法默认输出( )条数据。

A、A. 10

B、B. 15

C、C. 20

D、D. 30

12、（判断题） 30. (判断题)在Scala中，使用关键字bar声明的变量，值是不可变的。

A、正确

B、错误

13、（填空题） 11. (填空题)进入spark-shell操作界面的命令为

14、 1. 以下关于Scala解释器（REPL）交互的基本方式说法错误的是（）

A、A. R表示读取（Read）

B、B. E表示执行（Evaluate）

C、C. P表示解析（Parse）

D、D. L表示循环（Loop）

15、（判断题） 14. (判断题)Spark诞生于洛桑联邦理工学院（EPEL）的编程方法实验室

A、正确

B、错误

16、 1. (单选题)以下不属于Spark架构中的组件的是( )

A、A. Driver

B、B. SparkContext

C、C. ClusterManager

D、D. ResourceManager

17、 3. (单选题)下列选项中( )算法不属于有监督学习算法。

A、A. K-Means

B、B. 线性回归

C、C. 支持向量机

D、D. 朴素贝叶斯

18、 3. (单选题)关于Spark SQL的说法，以下选项错误的是( )。

A、A. Spark SQL不可以从外部数据库中创建DataFrame

B、B. Spark SQL支持HiveQL语法，允许访问现有的Hive仓库

C、C. Spark SQL的DataFrame可以理解为一个分布式的Row对象的数据集合

D、D. Spark SQL支持Parquet文件的读写，且保留Schema

19、 3. (单选题)以下方法中，从外部存储系统中创建RDD使用的方法是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

20、 18. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是( )。

A、A. 单例对象不可以定义方法，而类可以

B、B. 单例对象不可以带参数，而类可以

C、C. 单例对象不可以定义私有属性，而类可以

D、D. 单例对象不可以继承，而类可以

21、 10. (单选题)对于RDD1((a,1),(b, 2),(c,3))和RDD2((b,4),(b,5),(a,6)),使用“RDD1.join (RDD2)”,得到的结果是( )。

A、A. (a,(1,6))、(b,(2,4))、(b,(2,5))

B、B. (a,(6,1))、(b,(4,2))、(b,(5,2))

C、C. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,(3,null))

D、D. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,3)

22、 3. (单选题)以下关于Scala的变量定义、赋值的代码，运行后一定会报错的是（）

A、A. val a=5

B、B. val a:String="Math"

C、C. var b:Int=3;b=6

D、D. val b="Hello world!";b="Word"

23、 17. (单选题)映射的示例代码如下，运行后res的正确结果是( )。 val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English") val res = for((k,v)<- data; if(k>1))yield v

A、A. List("Math")

B、B. List("Math”,"English")

C、C. Map(2->"Math",3->"English")

D、D. List(1,2)

24、 7. (单选题)关于RDD集合操作方法，以下选项中描述错误的是

A、A. intersection()方法：求出两个RDD的共同元素

B、B. union()方法：合并两个RDD的所有元素

C、C. subtract()方法：将原RDD里和参数RDD里不相同的元素去掉

D、D. cartesian()方法：求两个RDD的笛卡儿积

25、 9. (单选题)下列选项中，哪个不是Spark生态系统中的组件？

A、A. Spark Streaming

B、B. Spark Mlib

C、C. Spark Graphx

D、D. Spark R

26、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。

A、A. bin/spark-submit --master yarn-client

B、B. bin/spark-submit --class local

C、C. bin/spark-submit --class yarn-client

D、D. bin/spark-submit --name yarn

27、（填空题） 19. (填空题)方法用于获取RDD的前N个元素，返回数据为数组

28、（判断题） 18. (判断题)Hadoop的MapReduce进行计算时，每次产生的中间结果都是存储在内存中；而Spark在计算时产生的中间结果存储在本地磁盘中。

A、正确

B、错误

29、（填空题） 9. (填空题)启动Spark集群的命令为

30、（填空题） 22. (填空题)方法用于对具有相同键的值进行分组，可以对同一组的数据进行计数、求和等操作。

31、 19. (单选题) 定义类Counter,并通过new关键字实例化出counter对象，代码如下，以下选项的操作正确的是( )。 class Counter(name:String)( val a = 1 var b ="counter” } val counter = new Counter("computer")

A、A. counter:name="cpu”

B、B. counter.a =2

C、C. counter.b="counter2"

D、D. counter.a = counter.b

32、 6. 下列选项中，可以支持Scala和Python编程的交互式解释器是（）。

A、A. HBase-Shell

B、B. Spark-Shell

C、C. Hadoop-Shell

D、D. Hive-Shell

33、 2. Spark是Hadoop生态下（）组件的替代方案

A、A. Hadoop

B、B. YARN

C、C. HDFS

D、D. MapReduce

34、 2. 以下关于Scala的特性说法错误的是（）

A、A. Scala是一种纯粹的面向过程的程序设计语言

B、B. Scala支持函数时编程，可定义匿名函数、高阶函数，允许函数嵌套，并支持柯里化

C、C. Scala以静态的方式进行抽象

D、D. Scala提供了许多独特的语言机制，具有良好的可扩展性

35、 12. (单选题)Spark中的SparkContext是( )。

A、A. 主节点

B、B. 从节点

C、C. 执行器

D、D. 上下文

36、（填空题） 12. (填空题)Spark SQL是Spark用来的一个模块

37、 4. (单选题)DataFrame可以将数据保存成持久化的表，使用的方法是( )。

A、A. save()

B、B. saveAsTextFile()

C、C. saveAsFile()

D、D. saveAsTable()

38、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是（）

A、A. 11 12 13 21 22 23 31 32 33

B、B. 11 13 21 23 31 33

C、C. 12 13 21 23 31 32

D、D. 11 12 21 22 31 32

39、 7. (单选题)以下选项中，关于Spark SQL优点描述正确的是( )。 ①将SQL查询与Spark程序无缝混合，可以使用Java、Scala、Python、R等语言的API操作 ②兼容Hive ③统一的数据访问 ④标准的数据连接

A、A. ①

B、B. ①②

C、C. ①②③

D、D. ①②③④

40、（填空题） 22. (填空题)方法可以通过一个函数重新计算列表中的所有元素，并且返回一个包含相同数目元素的新列表。

41、（填空题） 14. (填空题)在DataFrame的操作中，_____用于对记录进行分组。

42、（判断题） 15. (判断题)部署Spark高可用集群不需要用到Zookeeper服务

A、正确

B、错误

43、（填空题） 23. (填空题)spark-submit常用配置项中 --name Name主要用于

44、 5. (单选题)下列选项中不属于MLlib中常用的数据类型的是( )。

A、A. Vector

B、B. LabeledPoint

C、C. RDD

D、D. Rating

45、（填空题） 12. (填空题)在spark-shell下进入粘贴模式的命令为

46、 11. (单选题)saveAsTextFile()方法用于将( )以文本文件的格式存储到文件系统中。

A、A. 列表

B、B. 数组

C、C. Seq

D、D. RDD

47、（判断题） 17. (判断题)Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame，通过对DataFrame进行一系列的操作后，不可以将数据重新写入到关系数据库中。

A、正确

B、错误

48、（填空题） 10. (填空题)停止Spark集群的命令为

49、（判断题） 15. (判断题)Spark SQL与Hive不兼容

A、正确

B、错误

50、（判断题） 22. (判断题)Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。

A、正确

B、错误

51、 13. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是（）

A、A. 单例对象不可以定义方法，而类可以

B、B. 单例对象不可以带参数，而类可以

C、C. 单例对象不可以定义私有属性，而类可以

D、D. 单例对象不可以继承，而类可以

52、（填空题） 11. (填空题)是一个用于处理结构化数据的框架，可被视为一个分布式的SQL查询引擎，提供了一个抽象的可编程数据模型DataFrame

53、 8. Spark于2009年诞生于（）。

A、A. 美国加州大学伯克利分校的AMP实验室

B、B. 加利福尼亚大学伯克利分校

C、C. 宾夕法尼亚大学

D、D. 普林斯顿大学

54、（填空题） 20. (填空题)使用 ___方法可以合并多个RDD

55、 13. (单选题)使用“val rdd: RDD[String]= sc.makeRDD(List("Hello Scala","Hello Spark"))”创建了一个RDD,以下选项中，不能使该RDD实现单词计数的是( )。

A、A.rdd.flatMap(_.split("")).map((,1)).reduceByKey(+_)

B、B. rdd.flatMapC.split("")).map(x=>(x,1)).reduceByKey((x,y)=>x+y)

C、C.rdd.flatMap(.split("")).map((,1)).aggregateByKey(0)(+_)

D、D. rdd.flatMap(_.split("").map(x=>(x,1)).groupByKey().mapValues(iter =>iter.size)

56、 14. (单选题)定义类Counter,并通过new关键字实例化出counter对象，代码如下，以下选项的操作正确的是( )。 class Counter(name:String){val a = 1var b ="counter" } val counter = new Counter("computer")

A、A. counter.name="cpu"

B、B. counter.a=2

C、C. counter.b="counter2"

D、D. counter.a=counter.b

57、（判断题） 35. (判断题)Scala中声明变量时，可以不给出变量的类型，因为在初始化的时候，Scala的类型推断机制能够根据变量初始化的值自动推算出来。

A、正确

B、错误

58、（填空题） 13. (填空题)Spark SQL作为分布式SQL查询引擎，让用户可以通过、DataFrames API和Datasets API3种方式实现对结构化数据的处理。

59、（判断题） 34. (判断题)Scala中，使用关键字var或val声明变量时，后面紧跟的变量名称可以和Scala中的保留字重名，而且变量名不可以以字母或下划线开头，且变量名是不区分大小写的。

A、正确

B、错误

60、（填空题） 21. (填空题)方法用于合并具有相同键的值，作用对象是键值对，并且只对键的值进行处理。

61、 9. (单选题)关于Spark SQL的DataFrame基础操作，以下选项中说法错误的是( )。

A、A. where()/filter()方法：对所给定的条件进行定位/筛选

B、B. orderBy()方法：根据DataFrame的某个字段进行排序，默认是降序排序

C、C. groupBy()方法：根据某个字段进行分组，之后可以使用count()、max()等方法对分组信息进行计算

D、D. join()方法：对两个DataFrame进行合并，可以设置合并的关键字和连接方式

62、 6. (单选题)关于sortBy(方法的三个可输入参数，以下选项中描述错误的是（）

A、A. 第一个可输入参数是一个函数f:(T)=>K,左边是被排序对象中的每一个元素，右边返回的值是元素中要进行排序的值

B、B. 第二个可输入参数决定RDD里的元素是升序排列还是降序排列，默认是降序排列

C、C. 第三个可输入参数是numPartitions,该参数决定排序后的RDD的分区个数

D、D. 第一个参数是必须输入的

63、（判断题） 17. (判断题)集群上的任务是由执行器来调度的

A、正确

B、错误

64、（判断题） 18. (判断题)Spark SQL不仅能够查询MySQL数据库中的数据，还可以向表中插入新的数据

A、正确

B、错误

65、（判断题） 19. (判断题)DataFrame可以从很多数据源中创建，例如结构化文件、外部数据库、Hive表等数据源。

A、正确

B、错误

微信扫一扫在线答题在线出卷随机出题小程序闯关答题软件出题答题小程序

小曹 选择题

小曹 选择题 在线考试 答题题目

小曹选择题

小曹选择题在线考试答题题目