证书 在线考试 答题题目
1、 6. (单选题)获取DataFrame中所有数据,并返回一个数组对象,使用的方法是( )。
2、(填空题) 24. (填空题)使用____方法可以实现数据过滤
3、(判断题) 15. (判断题)Spark SQL与Hive不兼容
4、(填空题) 18. (填空题)在RDD操作中,可使用___ 方法收集查询数据
5、(填空题) 12. (填空题)在spark-shell下进入粘贴模式的命令为
6、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。
7、 1. (单选题)下列说法正确的是哪一项?( )
8、(判断题) 21. (判断题)Spark SQL与Hive相互不兼容。
9、 6. (单选题)关于sortBy(方法的三个可输入参数,以下选项中描述错误的是 ( )
10、(判断题) 29. (判断题)Scala语言是一种面向过程编程的语言。
11、 9. (单选题)下列选项中,哪个不是Spark生态系统中的组件?
12、 5. (单选题)DataFrame的show()方法默认输出( )条数据。
13、(填空题) 10. (填空题)在Spark MLlib库中,经常用于将对象分到高度相似的类中的一种无监督学习算法的是
14、 1. (单选题)机器学习可以分为( )。
15、 11. (单选题)在Scala语言中,关于列表的定义,不正确的是( )
16、 14. (单选题)定义类Counter,并通过new关键字实例化出counter对象,代码如下,以下选项的操作正确的是( )。 class Counter(name:String){val a = 1var b ="counter" } val counter = new Counter("computer")
17、(判断题) 32. (判断题)Scala语言和Java语言一样,都有静态方法或静态字段。
18、(判断题) 17. (判断题)集群上的任务是由执行器来调度的
19、 5. (单选题)以元组pair为例,以下关于元组说法错误的是( )
20、 4. (单选题)DataFrame可以将数据保存成持久化的表,使用的方法是( )。
21、 12. (单选题)映射的示例代码如下,运行后res的正确结果是val data=Map(1->"Chinese"),2->"Math",3->"English" val res=for(k,v)<-data;if(k>1)) yield v
22、 1. (单选题)以下不属于Spark架构中的组件的是( )
23、 5. (单选题)以下是行动操作的方法是()
24、 2. (单选题)现有一个DataFrame数据命名为data,而在Spark SQL的DataFrame API中有众多方法可以对其数据进行查看。查看data数据的前10条数,以下写法错误是( )。
25、 7. (单选题)下列选项中,( )不属于数据标准化或归一化方法。
26、 4. (单选题)以下是转换操作的方法是()
27、(填空题) 25. (填空题)方法可对集合中的元素进行分组操作,返回的结果是一个映射。
28、(判断题) 35. (判断题)Scala中声明变量时,可以不给出变量的类型,因为在初始化的时候,Scala的类型推断机制能够根据变量初始化的值自动推算出来。
29、 8. (单选题)ALS是MLlib的一个实现推荐算法的包,需要输入的数据类型是( )。
30、 6. (单选题)下列选项中,哪个是Scala编译后文件的扩展名( )
31、(填空题) 24. (填空题)RDD的操作主要分为____和____
32、(判断题) 14. (判断题)Spark诞生于洛桑联邦理工学院(EPEL)的编程方法实验室
33、(填空题) 10. (填空题)停止Spark集群的命令为
34、(填空题) 20. (填空题)使用 ___方法可以合并多个RDD
35、 4. (单选题)下列选项中( )算法属于分类算法。
36、(填空题) 13. (填空题)spark-shell下清屏的快捷方式为
37、(填空题) 28. (填空题)在Scala中,使用___关键字来定义的类被称为样例类。
38、 17. (单选题)映射的示例代码如下,运行后res的正确结果是( )。
val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English")
val res = for((k,v)<- data; if(k>1))yield v
39、 8. (单选题)下列关于List的定义,哪个是错误的( )
40、 11. (单选题)saveAsTextFile()方法用于将( )以文本文件的格式存储到文件系统中。
41、 13. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是( )
42、 8. Spark于2009年诞生于()。
43、 1. (单选题)下面哪个端口不是Spark自带服务的端口
44、 2. (单选题)下列方法中,不可用于创建RDD的方法的是( )
45、 8. (单选题)关于键值对RDD的连接操作,以下选项中描述正确的是
46、 12. (单选题)Spark中的SparkContext是( )。
47、(填空题) 12. (填空题)推荐算法有两个主要的类别:一种是_____ ,另一种是____
48、(判断题) 15. (判断题)部署Spark高可用集群不需要用到Zookeeper服务
49、 10. (单选题)对于RDD1((a,1),(b, 2),(c,3))和RDD2((b,4),(b,5),(a,6)),使用“RDD1.join (RDD2)”,得到的结果是( )。
50、 3. (单选题)以下关于Scala的变量定义、赋值的代码,运行后一定会报错的是( )
51、(填空题) 9. (填空题)启动Spark集群的命令为
52、(判断题) 13. (判断题)标注点是一种带有标签的本地向量,通常用于无监督学习算法中
53、 5. 关于SparkRDD,下列说法不正确的是( )
54、 4. (单选题)以下关于数组a的定义,最终数组a的数据与其他选项不一致的是
55、(判断题) 18. (判断题)Spark SQL不仅能够查询MySQL数据库中的数据,还可以向表中插入新的数据
56、 6. 下列选项中,可以支持Scala和Python编程的交互式解释器是()。
57、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是( )
58、(填空题) 19. (填空题)方法用于获取RDD的前N个元素,返回数据为数组
59、 20. (单选题)下列方法中,用于计算数组长度的是()。
60、(填空题) 13. (填空题)Spark SQL作为分布式SQL查询引擎,让用户可以通过 、DataFrames API和Datasets API3种方式实现对结构化数据的处理。
61、(判断题) 36. (判断题)Scala有两种类型的变量,一种是使用关键字var声明的常量,值是不可变的;另一种是使用关键字val声明的变量,值是可变的。
62、(填空题) 21. (填空题)方法用于合并具有相同键的值,作用对象是键值对,并且只对键的值进行处理。
微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序