小曹选择题-在线答题-在线出题考试深圳市新微云科技官网

小曹选择题在线考试答题题目

1、（判断题） 34. (判断题)Scala中，使用关键字var或val声明变量时，后面紧跟的变量名称可以和Scala中的保留字重名，而且变量名不可以以字母或下划线开头，且变量名是不区分大小写的。

A、正确

B、错误

2、（判断题） 16. (判断题)在Spark SQL中，若想要使用SQL风格操作，则需要提前将DataFrame注册成一张临时表

A、正确

B、错误

3、（判断题） 14. (判断题)Spark诞生于洛桑联邦理工学院（EPEL）的编程方法实验室

A、正确

B、错误

4、 9. (单选题)下列选项中，哪个不是Spark生态系统中的组件？

A、A. Spark Streaming

B、B. Spark Mlib

C、C. Spark Graphx

D、D. Spark R

5、 6. (单选题)关于Spark MLlib的mllib.stat.Statistics类中的方法，描述错误的是( )。

A、A. mean:求均值

B、B. variance:求方差

C、C. normL1:求正态分布

D、D. Statistics.corr(rdd,method):求相关系数

6、（填空题） 10. (填空题)停止Spark集群的命令为

7、 1. (单选题)下面哪个端口不是Spark自带服务的端口

A、A. 8080

B、B. 4040

C、C. 8090

D、D. 18080

8、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。

A、A. selectExpr()

B、B. rename()

C、C. withColumnRenamed()

D、D. alias()

9、 9. (单选题)关于mllib.feature中创建特征向量的方法，下列说法错误的是( )。

A、A. TF-IDF算法可以将一整个文档转化成向量

B、B. TF指的是词频，IDF指的是逆文档频率

C、C. Word2Vec可以将每一个单词用K维稠密向量来表示

D、D. 使用HashingTF转化数据为特征向量时，要求转换的数据是不可迭代的。

10、（判断题） 33. (判断题)在Scala中，集合有三大类分别是List、Set以及Map。

A、正确

B、错误

11、（判断题） 21. (判断题)Spark SQL与Hive相互不兼容。

A、正确

B、错误

12、（填空题） 23. (填空题)方法和map()方法类似，但是该方法没有返回值，只用于对参数的结果进行输出。

13、 2. (单选题)现有一个DataFrame数据命名为data,而在Spark SQL的DataFrame API中有众多方法可以对其数据进行查看。查看data数据的前10条数，以下写法错误是( )。

A、A. data.show(10)

B、B. data.head(10)

C、C. data.limit(10).show()

D、D. data.collect(10)

14、 15. (单选题)以下选项中不是spark-submit的指定参数的是( )

A、A. --jars

B、B. --url

C、C. --deploy-mode

D、D. --executor-memory

15、 5. (单选题)以元组pair为例，以下关于元组说法错误的是（）

A、A. 元组可以包含不同类型的元素

B、B. 元组是不可变得

C、C. 访问元组第一个元素得方式为parir._1

D、D. 元组最多有2个元素

16、（填空题） 25. (填空题)方法可对集合中的元素进行分组操作，返回的结果是一个映射。

17、（判断题） 30. (判断题)在Scala中，使用关键字bar声明的变量，值是不可变的。

A、正确

B、错误

18、（填空题） 23. (填空题)spark-submit常用配置项中 --name Name主要用于

19、 13. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是（）

A、A. 单例对象不可以定义方法，而类可以

B、B. 单例对象不可以带参数，而类可以

C、C. 单例对象不可以定义私有属性，而类可以

D、D. 单例对象不可以继承，而类可以

20、 4. (单选题)以下是转换操作的方法是（）

A、A. reduce()

B、B. saveAsTextFile()

C、C. filter()

D、D. foreach()

21、（判断题） 31. (判断题)在Scala中定义变长数组时，需要导入可变数组包。

A、正确

B、错误

22、（填空题） 13. (填空题)spark-shell下清屏的快捷方式为

23、 7. (单选题)下列方法中，哪个方法可以正确计算数组arr的长度（）

A、A. count()

B、B. take()

C、C. tail()

D、D. length()

24、 8. Spark于2009年诞生于（）。

A、A. 美国加州大学伯克利分校的AMP实验室

B、B. 加利福尼亚大学伯克利分校

C、C. 宾夕法尼亚大学

D、D. 普林斯顿大学

25、（填空题） 27. (填空题)在Scala中，模式匹配是由关键字和组成的

26、 13. (单选题)使用“val rdd: RDD[String]= sc.makeRDD(List("Hello Scala","Hello Spark"))”创建了一个RDD,以下选项中，不能使该RDD实现单词计数的是( )。

A、A.rdd.flatMap(_.split("")).map((,1)).reduceByKey(+_)

B、B. rdd.flatMapC.split("")).map(x=>(x,1)).reduceByKey((x,y)=>x+y)

C、C.rdd.flatMap(.split("")).map((,1)).aggregateByKey(0)(+_)

D、D. rdd.flatMap(_.split("").map(x=>(x,1)).groupByKey().mapValues(iter =>iter.size)

27、 19. (单选题) 定义类Counter,并通过new关键字实例化出counter对象，代码如下，以下选项的操作正确的是( )。 class Counter(name:String)( val a = 1 var b ="counter” } val counter = new Counter("computer")

A、A. counter:name="cpu”

B、B. counter.a =2

C、C. counter.b="counter2"

D、D. counter.a = counter.b

28、 6. 下列选项中，可以支持Scala和Python编程的交互式解释器是（）。

A、A. HBase-Shell

B、B. Spark-Shell

C、C. Hadoop-Shell

D、D. Hive-Shell

29、 3. Spark支持的运行模式不包括（）

A、A. Standalone模式

B、B. Mesos模式

C、C. YARN模式

D、D. Local模式

30、 14. (单选题)定义类Counter,并通过new关键字实例化出counter对象，代码如下，以下选项的操作正确的是( )。 class Counter(name:String){val a = 1var b ="counter" } val counter = new Counter("computer")

A、A. counter.name="cpu"

B、B. counter.a=2

C、C. counter.b="counter2"

D、D. counter.a=counter.b

31、（填空题） 24. (填空题)使用____方法可以实现数据过滤

32、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是（）

A、A. 11 12 13 21 22 23 31 32 33

B、B. 11 13 21 23 31 33

C、C. 12 13 21 23 31 32

D、D. 11 12 21 22 31 32

33、（判断题） 36. (判断题)Scala有两种类型的变量，一种是使用关键字var声明的常量，值是不可变的；另一种是使用关键字val声明的变量，值是可变的。

A、正确

B、错误

34、（判断题） 13. (判断题)标注点是一种带有标签的本地向量，通常用于无监督学习算法中

A、正确

B、错误

35、 4. (单选题)以下关于数组a的定义，最终数组a的数据与其他选项不一致的是

A、A. val a=Array[Int](0,0)

B、B. val a=Array(0,0)

C、C. val a=new Array[Int](2)

D、D. val a=Array[Int](1,1)

36、（判断题） 26. (判断题)RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作

A、正确

B、错误

37、 3. (单选题)以下方法中，从外部存储系统中创建RDD使用的方法是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

38、 4.在Spark中，如果需要对实时数据进行流式计算，那么使用的子框架是（）

A、A. Spark MLib

B、B. Spark SQL

C、C. Spark Streaming

D、D. Spark GraphX

39、 1. (单选题)下列说法正确的是哪一项？（）

A、A. Spark SQL的前身是Hive

B、B. DataFrame其实就是RDD

C、C. HiveContext继承了SqlContext

D、D. HiveContext只支持SQL语法解析器

40、 5. (单选题)DataFrame的show()方法默认输出( )条数据。

A、A. 10

B、B. 15

C、C. 20

D、D. 30

41、（判断题） 22. (判断题)Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。

A、正确

B、错误

42、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。

A、A. bin/spark-submit --master yarn-client

B、B. bin/spark-submit --class local

C、C. bin/spark-submit --class yarn-client

D、D. bin/spark-submit --name yarn

43、 1. (单选题)机器学习可以分为( )。

A、A. 有监督学习、无监督学习和半监督学习

B、B. 有监督学习、无监督学习和强化学习

C、C. 有监督学习和强化学习

D、D. 无监督学习和强化学习

44、 2. 以下关于Scala的特性说法错误的是（）

A、A. Scala是一种纯粹的面向过程的程序设计语言

B、B. Scala支持函数时编程，可定义匿名函数、高阶函数，允许函数嵌套，并支持柯里化

C、C. Scala以静态的方式进行抽象

D、D. Scala提供了许多独特的语言机制，具有良好的可扩展性

45、（填空题） 12. (填空题)在spark-shell下进入粘贴模式的命令为

46、（填空题） 22. (填空题)方法用于对具有相同键的值进行分组，可以对同一组的数据进行计数、求和等操作。

47、（填空题） 13. (填空题)Spark SQL作为分布式SQL查询引擎，让用户可以通过、DataFrames API和Datasets API3种方式实现对结构化数据的处理。

48、 10. (单选题)对于RDD1((a,1),(b, 2),(c,3))和RDD2((b,4),(b,5),(a,6)),使用“RDD1.join (RDD2)”,得到的结果是( )。

A、A. (a,(1,6))、(b,(2,4))、(b,(2,5))

B、B. (a,(6,1))、(b,(4,2))、(b,(5,2))

C、C. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,(3,null))

D、D. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,3)

49、 11. (单选题)在Scala语言中，关于列表的定义，不正确的是（）

A、A. val list:List[Int] = List(1,2,3)

B、B. val list=List[Int](1,2,3)

C、C. val list=List[String]('a','b','c')

D、D. val list=List[String]()

50、（判断题） 19. (判断题)DataFrame可以从很多数据源中创建，例如结构化文件、外部数据库、Hive表等数据源。

A、正确

B、错误

51、（判断题） 18. (判断题)Spark SQL不仅能够查询MySQL数据库中的数据，还可以向表中插入新的数据

A、正确

B、错误

52、 3. (单选题)以下关于Scala的变量定义、赋值的代码，运行后一定会报错的是（）

A、A. val a=5

B、B. val a:String="Math"

C、C. var b:Int=3;b=6

D、D. val b="Hello world!";b="Word"

53、 2. (单选题)下列方法中，不可用于创建RDD的方法的是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

54、 9. (单选题)对于RDD(a,1),(a,2),(a,3)),使用“reduceByKey(_+_)”进行合并，得到的结果是（）

A、A. (a,3)

B、B. (a,6)

C、C. (3a,6)

D、D. (3a,1,2,3)

55、（填空题） 11. (填空题)是一个用于处理结构化数据的框架，可被视为一个分布式的SQL查询引擎，提供了一个抽象的可编程数据模型DataFrame

56、（填空题） 14. (填空题)在DataFrame的操作中，_____用于对记录进行分组。

57、（判断题） 17. (判断题)集群上的任务是由执行器来调度的

A、正确

B、错误

58、 12. (单选题)映射的示例代码如下，运行后res的正确结果是val data=Map(1->"Chinese"),2->"Math",3->"English" val res=for(k,v)<-data;if(k>1)) yield v

A、A. List("Math")

B、B. List("Math","English")

C、C. Map(2->"Math",3->"English")

D、D. List(1,2)

59、 7. (单选题)下列选项中，( )不属于数据标准化或归一化方法。

A、A. Normalizer()

B、B. StandardScaler()

C、C. MinMaxScaler()

D、D. WithMean()

60、（填空题） 10. (填空题)在Spark MLlib库中，经常用于将对象分到高度相似的类中的一种无监督学习算法的是

61、 8. (单选题)ALS是MLlib的一个实现推荐算法的包，需要输入的数据类型是( )。

A、A. Vector

B、B. LabeledPoint

C、C. DStream

D、D. Rating

62、 20. (单选题)下列方法中，用于计算数组长度的是（）。

A、A. count()

B、B. take()

C、C. tail()

D、D. length()

63、 16. (单选题)提交Spark程序时，通常需要设置一些配置项，关于配置项，下列说法错误的是（）

A、A. name:设置运行环境

B、B. jars:添加依赖包

C、C. driver-memory:设置Driver程序使用的内存大小

D、D. executor-memory:设置Executor使用的内存大小

64、（判断题） 25. (判断题)RDD是一个可变、不可分区、里面的元素不可并行计算的集合

A、正确

B、错误

65、（填空题） 12. (填空题)Spark SQL是Spark用来的一个模块

微信扫一扫在线答题在线出卷随机出题小程序闯关答题软件出题答题小程序

小曹选择题

小曹选择题 在线考试 答题题目

小曹选择题在线考试答题题目