自己-在线答题-在线出题考试深圳市新微云科技官网

自己在线考试答题题目

1、（判断题） 20. (判断题)Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。

A、正确

B、错误

2、（判断题） 15. (判断题)部署Spark高可用集群不需要用到Zookeeper服务

A、正确

B、错误

3、 3. (单选题)关于Spark SQL的说法，以下选项错误的是( )。

A、A. Spark SQL不可以从外部数据库中创建DataFrame

B、B. Spark SQL支持HiveQL语法，允许访问现有的Hive仓库

C、C. Spark SQL的DataFrame可以理解为一个分布式的Row对象的数据集合

D、D. Spark SQL支持Parquet文件的读写，且保留Schema

4、 20. (单选题)下列方法中，用于计算数组长度的是（）。

A、A. count()

B、B. take()

C、C. tail()

D、D. length()

5、（填空题） 18. (填空题)在RDD操作中，可使用___ 方法收集查询数据

6、 7. Spark与Hadoop在基于内存的运算中，说法正确的是（）。

A、A. Spark的运算效率是Hadoop的10倍

B、B. Spark的运算效率是Hadoop的100倍

C、C. Hadoop的运算效率是Spark的100倍

D、D. Hadoop的运算效率是Spark的10倍

7、（判断题） 33. (判断题)在Scala中，集合有三大类分别是List、Set以及Map。

A、正确

B、错误

8、 10. (单选题)在Spark中，调用RDD的（）方法，可以将RDD转换为DataFrame对象。

A、A. show()

B、B. map()

C、C. toDF()

D、D. printSchema()

9、（判断题） 26. (判断题)RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作

A、正确

B、错误

10、（判断题） 21. (判断题)Spark SQL与Hive相互不兼容。

A、正确

B、错误

11、 7. (单选题)以下选项中，关于Spark SQL优点描述正确的是( )。 ①将SQL查询与Spark程序无缝混合，可以使用Java、Scala、Python、R等语言的API操作 ②兼容Hive ③统一的数据访问 ④标准的数据连接

A、A. ①

B、B. ①②

C、C. ①②③

D、D. ①②③④

12、 21. (单选题)Scala中，用于创建单例对象的关键字是（）。

A、A. new

B、B. object

C、C. super

D、D. def

13、 15. (单选题)以下程序的输出结果是( )。 val alphabet = List("A","B","C") val nums = List(1,2) print(alphabet.zip(nums))

A、A. List((A,1),(B, 2),(C,null))

B、B. List((A,1),(B,2),(C))

C、C. ((A,1),(B,2))

D、D. List((A,1),(B,2))

14、（填空题） 24. (填空题)RDD的操作主要分为____和____

15、（判断题） 13. (判断题)标注点是一种带有标签的本地向量，通常用于无监督学习算法中

A、正确

B、错误

16、 5. (单选题)以下是行动操作的方法是（）

A、A. collect()

B、B. map()

C、C. union()

D、D. distinct()

17、 5. (单选题)下列选项中不属于MLlib中常用的数据类型的是( )。

A、A. Vector

B、B. LabeledPoint

C、C. RDD

D、D. Rating

18、（填空题） 10. (填空题)在Spark MLlib库中，经常用于将对象分到高度相似的类中的一种无监督学习算法的是

19、 7. (单选题)下列选项中，( )不属于数据标准化或归一化方法。

A、A. Normalizer()

B、B. StandardScaler()

C、C. MinMaxScaler()

D、D. WithMean()

20、（判断题） 32. (判断题)Scala语言和Java语言一样，都有静态方法或静态字段。

A、正确

B、错误

21、 5. 关于SparkRDD,下列说法不正确的是（）

A、A. SparkRDD是一个抽象的弹性分布式数据集

B、B. RDD的行动操作指的是将原始数据集加载为RDD或将一个RDD转换为另一个RDD的操作

C、C. 窄依赖指的是子RDD的一个分区只依赖于某个父RDD中的一个分区

D、D. 宽依赖指的是子RDD的每一个分区都依赖于某个父RDD中一个以上的分区

22、（填空题） 26. (填空题)在Scala中，获取元组中的值是通过来获取的

23、 4.在Spark中，如果需要对实时数据进行流式计算，那么使用的子框架是（）

A、A. Spark MLib

B、B. Spark SQL

C、C. Spark Streaming

D、D. Spark GraphX

24、（判断题） 22. (判断题)Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。

A、正确

B、错误

25、 8. (单选题)下列关于List的定义，哪个是错误的（）

A、A. val list=List(1,22,3)

B、B. val list=List("Hello","Scala")

C、C. val list:String=List("A","B")

D、D. val list=List[Int](1,2,3)

26、（填空题） 20. (填空题)使用 ___方法可以合并多个RDD

27、 4. (单选题)下列选项中( )算法属于分类算法。

A、A. FCM

B、B. 决策树

C、C. K-Means

D、D. FP

28、 2. (单选题)下列方法中，不可用于创建RDD的方法的是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

29、（判断题） 17. (判断题)集群上的任务是由执行器来调度的

A、正确

B、错误

30、 8. Spark于2009年诞生于（）。

A、A. 美国加州大学伯克利分校的AMP实验室

B、B. 加利福尼亚大学伯克利分校

C、C. 宾夕法尼亚大学

D、D. 普林斯顿大学

31、 1. (单选题)下面哪个端口不是Spark自带服务的端口

A、A. 8080

B、B. 4040

C、C. 8090

D、D. 18080

32、 2. (单选题)下列属于关联规则算法是( )。

A、A. 决策树

B、B. K-Means

C、C. FP

D、D. 朴素贝叶斯

33、 6. 下列选项中，可以支持Scala和Python编程的交互式解释器是（）。

A、A. HBase-Shell

B、B. Spark-Shell

C、C. Hadoop-Shell

D、D. Hive-Shell

34、 16. (单选题)以下选项符合Scala编程规范的是( )。 ①"spark".equals("spark") ②"spark".contains(spark) ③val a:String="spark"④val a=List{1,2,3,4}

A、A. ①④

B、B. ①③

C、C. ②③

D、D. ②④

35、 4. (单选题)DataFrame可以将数据保存成持久化的表，使用的方法是( )。

A、A. save()

B、B. saveAsTextFile()

C、C. saveAsFile()

D、D. saveAsTable()

36、 19. (单选题) 定义类Counter,并通过new关键字实例化出counter对象，代码如下，以下选项的操作正确的是( )。 class Counter(name:String)( val a = 1 var b ="counter” } val counter = new Counter("computer")

A、A. counter:name="cpu”

B、B. counter.a =2

C、C. counter.b="counter2"

D、D. counter.a = counter.b

37、（判断题） 18. (判断题)Spark SQL不仅能够查询MySQL数据库中的数据，还可以向表中插入新的数据

A、正确

B、错误

38、（填空题） 12. (填空题)推荐算法有两个主要的类别：一种是_____ ，另一种是____

39、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。

A、A. bin/spark-submit --master yarn-client

B、B. bin/spark-submit --class local

C、C. bin/spark-submit --class yarn-client

D、D. bin/spark-submit --name yarn

40、 1. 以下关于Scala解释器（REPL）交互的基本方式说法错误的是（）

A、A. R表示读取（Read）

B、B. E表示执行（Evaluate）

C、C. P表示解析（Parse）

D、D. L表示循环（Loop）

41、 17. (单选题)映射的示例代码如下，运行后res的正确结果是( )。 val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English") val res = for((k,v)<- data; if(k>1))yield v

A、A. List("Math")

B、B. List("Math”,"English")

C、C. Map(2->"Math",3->"English")

D、D. List(1,2)

42、 12. (单选题)Spark中的SparkContext是( )。

A、A. 主节点

B、B. 从节点

C、C. 执行器

D、D. 上下文

43、（判断题） 17. (判断题)Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame，通过对DataFrame进行一系列的操作后，不可以将数据重新写入到关系数据库中。

A、正确

B、错误

44、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。

A、A. selectExpr()

B、B. rename()

C、C. withColumnRenamed()

D、D. alias()

45、 16. (单选题)提交Spark程序时，通常需要设置一些配置项，关于配置项，下列说法错误的是（）

A、A. name:设置运行环境

B、B. jars:添加依赖包

C、C. driver-memory:设置Driver程序使用的内存大小

D、D. executor-memory:设置Executor使用的内存大小

46、 7. (单选题)下列方法中，哪个方法可以正确计算数组arr的长度（）

A、A. count()

B、B. take()

C、C. tail()

D、D. length()

47、（判断题） 29. (判断题)Scala语言是一种面向过程编程的语言。

A、正确

B、错误

48、 10. (单选题)对于RDD1((a,1),(b, 2),(c,3))和RDD2((b,4),(b,5),(a,6)),使用“RDD1.join (RDD2)”,得到的结果是( )。

A、A. (a,(1,6))、(b,(2,4))、(b,(2,5))

B、B. (a,(6,1))、(b,(4,2))、(b,(5,2))

C、C. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,(3,null))

D、D. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,3)

49、（填空题） 11. (填空题)是一个用于处理结构化数据的框架，可被视为一个分布式的SQL查询引擎，提供了一个抽象的可编程数据模型DataFrame

50、 12. (单选题)映射的示例代码如下，运行后res的正确结果是val data=Map(1->"Chinese"),2->"Math",3->"English" val res=for(k,v)<-data;if(k>1)) yield v

A、A. List("Math")

B、B. List("Math","English")

C、C. Map(2->"Math",3->"English")

D、D. List(1,2)

51、（填空题） 10. (填空题)停止Spark集群的命令为

52、 3. (单选题)下列选项中( )算法不属于有监督学习算法。

A、A. K-Means

B、B. 线性回归

C、C. 支持向量机

D、D. 朴素贝叶斯

53、 11. (单选题)在Scala语言中，关于列表的定义，不正确的是（）

A、A. val list:List[Int] = List(1,2,3)

B、B. val list=List[Int](1,2,3)

C、C. val list=List[String]('a','b','c')

D、D. val list=List[String]()

54、 9. (单选题)对于RDD(a,1),(a,2),(a,3)),使用“reduceByKey(_+_)”进行合并，得到的结果是（）

A、A. (a,3)

B、B. (a,6)

C、C. (3a,6)

D、D. (3a,1,2,3)

55、（判断题） 18. (判断题)Hadoop的MapReduce进行计算时，每次产生的中间结果都是存储在内存中；而Spark在计算时产生的中间结果存储在本地磁盘中。

A、正确

B、错误

56、 3. (单选题)以下关于Scala的变量定义、赋值的代码，运行后一定会报错的是（）

A、A. val a=5

B、B. val a:String="Math"

C、C. var b:Int=3;b=6

D、D. val b="Hello world!";b="Word"

57、 9. (单选题)关于mllib.feature中创建特征向量的方法，下列说法错误的是( )。

A、A. TF-IDF算法可以将一整个文档转化成向量

B、B. TF指的是词频，IDF指的是逆文档频率

C、C. Word2Vec可以将每一个单词用K维稠密向量来表示

D、D. 使用HashingTF转化数据为特征向量时，要求转换的数据是不可迭代的。

58、（填空题） 23. (填空题)spark-submit常用配置项中 --name Name主要用于

59、（填空题） 21. (填空题)方法用于合并具有相同键的值，作用对象是键值对，并且只对键的值进行处理。

60、 3. (单选题)以下方法中，从外部存储系统中创建RDD使用的方法是（）

A、A. makeRDD()

B、B. parallelize()

C、C. textFile()

D、D. testFile()

61、 2. (单选题)现有一个DataFrame数据命名为data,而在Spark SQL的DataFrame API中有众多方法可以对其数据进行查看。查看data数据的前10条数，以下写法错误是( )。

A、A. data.show(10)

B、B. data.head(10)

C、C. data.limit(10).show()

D、D. data.collect(10)

62、 8. (单选题)ALS是MLlib的一个实现推荐算法的包，需要输入的数据类型是( )。

A、A. Vector

B、B. LabeledPoint

C、C. DStream

D、D. Rating

微信扫一扫在线答题在线出卷随机出题小程序闯关答题软件出题答题小程序

自己

自己 在线考试 答题题目

自己在线考试答题题目