1
您的位置: 线上活动  >  在线答题  >  答题题库

选择

2025-06-30 00:03:12.226.0.66462

选择 在线考试 答题题目
1、 2. Spark是Hadoop生态下( )组件的替代方案
  • A、A. Hadoop
  • B、B. YARN
  • C、C. HDFS
  • D、D. MapReduce


  • 2、 1. 以下关于Scala解释器(REPL)交互的基本方式说法错误的是( )
  • A、A. R表示读取(Read)
  • B、B. E表示执行(Evaluate)
  • C、C. P表示解析(Parse)
  • D、D. L表示循环(Loop)


  • 3、 5. (单选题)下列选项中不属于MLlib中常用的数据类型的是( )。
  • A、A. Vector
  • B、B. LabeledPoint
  • C、C. RDD
  • D、D. Rating


  • 4、 8. Spark于2009年诞生于()。
  • A、A. 美国加州大学伯克利分校的AMP实验室
  • B、B. 加利福尼亚大学伯克利分校
  • C、C. 宾夕法尼亚大学
  • D、D. 普林斯顿大学


  • 5、 3. Spark支持的运行模式不包括( )
  • A、A. Standalone模式
  • B、B. Mesos模式
  • C、C. YARN模式
  • D、D. Local模式


  • 6、 6. (单选题)关于sortBy(方法的三个可输入参数,以下选项中描述错误的是 ( )
  • A、A. 第一个可输入参数是一个函数f:(T)=>K,左边是被排序对象中的每一个元素,右边返回的值是元素中要进行排序的值
  • B、B. 第二个可输入参数决定RDD里的元素是升序排列还是降序排列,默认是降序排列
  • C、C. 第三个可输入参数是numPartitions,该参数决定排序后的RDD的分区个数
  • D、D. 第一个参数是必须输入的


  • 7、 4. (单选题)以下是转换操作的方法是()
  • A、A. reduce()
  • B、B. saveAsTextFile()
  • C、C. filter()
  • D、D. foreach()


  • 8、 12. (单选题)映射的示例代码如下,运行后res的正确结果是val data=Map(1->"Chinese"),2->"Math",3->"English" val res=for(k,v)<-data;if(k>1)) yield v
  • A、A. List("Math")
  • B、B. List("Math","English")
  • C、C. Map(2->"Math",3->"English")
  • D、D. List(1,2)


  • 9、 12. (单选题)Spark中的SparkContext是( )。
  • A、A. 主节点
  • B、B. 从节点
  • C、C. 执行器
  • D、D. 上下文


  • 10、 6. (单选题)关于Spark MLlib的mllib.stat.Statistics类中的方法,描述错误的是( )。
  • A、A. mean:求均值
  • B、B. variance:求方差
  • C、C. normL1:求正态分布
  • D、D. Statistics.corr(rdd,method):求相关系数


  • 11、 14. (单选题)以下选项中使用spark-submit指定在YARN框架上运行程序的是( )。
  • A、A. bin/spark-submit --master yarn-client
  • B、B. bin/spark-submit --class local
  • C、C. bin/spark-submit --class yarn-client
  • D、D. bin/spark-submit --name yarn


  • 12、 3. (单选题)关于Spark SQL的说法,以下选项错误的是( )。
  • A、A. Spark SQL不可以从外部数据库中创建DataFrame
  • B、B. Spark SQL支持HiveQL语法,允许访问现有的Hive仓库
  • C、C. Spark SQL的DataFrame可以理解为一个分布式的Row对象的数据集合
  • D、D. Spark SQL支持Parquet文件的读写,且保留Schema


  • 13、 11. (单选题)在Scala语言中,关于列表的定义,不正确的是( )
  • A、A. val list:List[Int] = List(1,2,3)
  • B、B. val list=List[Int](1,2,3)
  • C、C. val list=List[String]('a','b','c')
  • D、D. val list=List[String]()


  • 14、 7. (单选题)以下选项中,关于Spark SQL优点描述正确的是( )。 ①将SQL查询与Spark程序无缝混合,可以使用Java、Scala、Python、R等语言的API操作 ②兼容Hive ③统一的数据访问 ④标准的数据连接
  • A、A. ①
  • B、B. ①②
  • C、C. ①②③
  • D、D. ①②③④


  • 15、 21. (单选题)Scala中,用于创建单例对象的关键字是()。
  • A、A. new
  • B、B. object
  • C、C. super
  • D、D. def


  • 16、 3. (单选题)下列选项中( )算法不属于有监督学习算法。
  • A、A. K-Means
  • B、B. 线性回归
  • C、C. 支持向量机
  • D、D. 朴素贝叶斯


  • 17、 8. (单选题)以下选项中不能对DataFrame列名进行重命名的方法是( )。
  • A、A. selectExpr()
  • B、B. rename()
  • C、C. withColumnRenamed()
  • D、D. alias()


  • 18、 13. (单选题)使用“val rdd: RDD[String]= sc.makeRDD(List("Hello Scala","Hello Spark"))”创建了一个RDD,以下选项中,不能使该RDD实现单词计数的是( )。
  • A、A.rdd.flatMap(_.split("")).map((,1)).reduceByKey(+_)
  • B、B. rdd.flatMapC.split("")).map(x=>(x,1)).reduceByKey((x,y)=>x+y)
  • C、C.rdd.flatMap(.split("")).map((,1)).aggregateByKey(0)(+_)
  • D、D. rdd.flatMap(_.split("").map(x=>(x,1)).groupByKey().mapValues(iter =>iter.size)


  • 19、 6. (单选题)下列选项中,哪个是Scala编译后文件的扩展名( )
  • A、A. .class
  • B、B. .bash
  • C、C. .pyc
  • D、D. .sc


  • 20、 15. (单选题)以下程序的输出结果是( )。 val alphabet = List("A","B","C") val nums = List(1,2) print(alphabet.zip(nums))
  • A、A. List((A,1),(B, 2),(C,null))
  • B、B. List((A,1),(B,2),(C))
  • C、C. ((A,1),(B,2))
  • D、D. List((A,1),(B,2))


  • 21、 10. (单选题)表达式for(i<-1 to 3;for(j<-1 to 3;if i!=j))print((10*i+j))+"",输出结果正确的是( )
  • A、A. 11 12 13 21 22 23 31 32 33
  • B、B. 11 13 21 23 31 33
  • C、C. 12 13 21 23 31 32
  • D、D. 11 12 21 22 31 32


  • 22、 1. (单选题)下面哪个端口不是Spark自带服务的端口
  • A、A. 8080
  • B、B. 4040
  • C、C. 8090
  • D、D. 18080


  • 23、 1. (单选题)以下不属于Spark架构中的组件的是( )
  • A、A. Driver
  • B、B. SparkContext
  • C、C. ClusterManager
  • D、D. ResourceManager


  • 24、 3. (单选题)以下方法中,从外部存储系统中创建RDD使用的方法是( )
  • A、A. makeRDD()
  • B、B. parallelize()
  • C、C. textFile()
  • D、D. testFile()


  • 25、 4.在Spark中,如果需要对实时数据进行流式计算,那么使用的子框架是( )
  • A、A. Spark MLib
  • B、B. Spark SQL
  • C、C. Spark Streaming
  • D、D. Spark GraphX


  • 26、 5. (单选题)以元组pair为例,以下关于元组说法错误的是( )
  • A、A. 元组可以包含不同类型的元素
  • B、B. 元组是不可变得
  • C、C. 访问元组第一个元素得方式为parir._1
  • D、D. 元组最多有2个元素


  • 27、 19. (单选题) 定义类Counter,并通过new关键字实例化出counter对象,代码如下,以下选项的操作正确的是(    )。 class Counter(name:String)( val a = 1 var b ="counter” } val counter = new Counter("computer")
  • A、A. counter:name="cpu”
  • B、B. counter.a =2
  • C、C. counter.b="counter2"
  • D、D. counter.a = counter.b


  • 28、 18. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是(    )。
  • A、A. 单例对象不可以定义方法,而类可以
  • B、B. 单例对象不可以带参数,而类可以
  • C、C. 单例对象不可以定义私有属性,而类可以
  • D、D. 单例对象不可以继承,而类可以


  • 29、 4. (单选题)下列选项中( )算法属于分类算法。
  • A、A. FCM
  • B、B. 决策树
  • C、C. K-Means
  • D、D. FP


  • 30、 6. 下列选项中,可以支持Scala和Python编程的交互式解释器是()。
  • A、A. HBase-Shell
  • B、B. Spark-Shell
  • C、C. Hadoop-Shell
  • D、D. Hive-Shell


  • 31、 10. (单选题)对于RDD1((a,1),(b, 2),(c,3))和RDD2((b,4),(b,5),(a,6)),使用“RDD1.join (RDD2)”,得到的结果是( )。
  • A、A. (a,(1,6))、(b,(2,4))、(b,(2,5))
  • B、B. (a,(6,1))、(b,(4,2))、(b,(5,2))
  • C、C. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,(3,null))
  • D、D. (a,(1,6))、(b,(2,4))、(b,(2,5))、(c,3)


  • 32、 1. (单选题)下列说法正确的是哪一项?( )
  • A、A. Spark SQL的前身是Hive
  • B、B. DataFrame其实就是RDD
  • C、C. HiveContext继承了SqlContext
  • D、D. HiveContext只支持SQL语法解析器


  • 33、 7. Spark与Hadoop在基于内存的运算中,说法正确的是()。
  • A、A. Spark的运算效率是Hadoop的10倍
  • B、B. Spark的运算效率是Hadoop的100倍
  • C、C. Hadoop的运算效率是Spark的100倍
  • D、D. Hadoop的运算效率是Spark的10倍


  • 34、 11. (单选题)saveAsTextFile()方法用于将( )以文本文件的格式存储到文件系统中。
  • A、A. 列表
  • B、B. 数组
  • C、C. Seq
  • D、D. RDD


  • 35、 8. (单选题)ALS是MLlib的一个实现推荐算法的包,需要输入的数据类型是( )。
  • A、A. Vector
  • B、B. LabeledPoint
  • C、C. DStream
  • D、D. Rating


  • 36、 4. (单选题)以下关于数组a的定义,最终数组a的数据与其他选项不一致的是
  • A、A. val a=Array[Int](0,0)
  • B、B. val a=Array(0,0)
  • C、C. val a=new Array[Int](2)
  • D、D. val a=Array[Int](1,1)


  • 37、 5. (单选题)以下是行动操作的方法是()
  • A、A. collect()
  • B、B. map()
  • C、C. union()
  • D、D. distinct()


  • 38、 5. 关于SparkRDD,下列说法不正确的是( )
  • A、A. SparkRDD是一个抽象的弹性分布式数据集
  • B、B. RDD的行动操作指的是将原始数据集加载为RDD或将一个RDD转换为另一个RDD的操作
  • C、C. 窄依赖指的是子RDD的一个分区只依赖于某个父RDD中的一个分区
  • D、D. 宽依赖指的是子RDD的每一个分区都依赖于某个父RDD中一个以上的分区


  • 39、 17. (单选题)映射的示例代码如下,运行后res的正确结果是(    )。 val data = Map(1 ->"Chinese",2 ->"Math",3 ->"English") val res = for((k,v)<- data; if(k>1))yield v
  • A、A. List("Math")
  • B、B. List("Math”,"English")
  • C、C. Map(2->"Math",3->"English")
  • D、D. List(1,2)


  • 40、 9. (单选题)对于RDD(a,1),(a,2),(a,3)),使用“reduceByKey(_+_)”进行合并,得到的结果 是( )
  • A、A. (a,3)
  • B、B. (a,6)
  • C、C. (3a,6)
  • D、D. (3a,1,2,3)


  • 41、 7. (单选题)下列方法中,哪个方法可以正确计算数组arr的长度( )
  • A、A. count()
  • B、B. take()
  • C、C. tail()
  • D、D. length()


  • 42、 7. (单选题)下列选项中,( )不属于数据标准化或归一化方法。
  • A、A. Normalizer()
  • B、B. StandardScaler()
  • C、C. MinMaxScaler()
  • D、D. WithMean()


  • 43、 9. (单选题)关于mllib.feature中创建特征向量的方法,下列说法错误的是( )。
  • A、A. TF-IDF算法可以将一整个文档转化成向量
  • B、B. TF指的是词频,IDF指的是逆文档频率
  • C、C. Word2Vec可以将每一个单词用K维稠密向量来表示
  • D、D. 使用HashingTF转化数据为特征向量时,要求转换的数据是不可迭代的。


  • 44、 6. (单选题)获取DataFrame中所有数据,并返回一个数组对象,使用的方法是( )。
  • A、A. describe()
  • B、B. collect()
  • C、C. collectAsList()
  • D、D. 以上三种都是


  • 45、 5. (单选题)DataFrame的show()方法默认输出( )条数据。
  • A、A. 10
  • B、B. 15
  • C、C. 20
  • D、D. 30


  • 46、 20. (单选题)下列方法中,用于计算数组长度的是()。
  • A、A. count()
  • B、B. take()
  • C、C. tail()
  • D、D. length()


  • 47、 3. (单选题)以下关于Scala的变量定义、赋值的代码,运行后一定会报错的是( )
  • A、A. val a=5
  • B、B. val a:String="Math"
  • C、C. var b:Int=3;b=6
  • D、D. val b="Hello world!";b="Word"


  • 48、 2. (单选题)现有一个DataFrame数据命名为data,而在Spark SQL的DataFrame API中有众多方法可以对其数据进行查看。查看data数据的前10条数,以下写法错误是( )。
  • A、A. data.show(10)
  • B、B. data.head(10)
  • C、C. data.limit(10).show()
  • D、D. data.collect(10)


  • 49、 8. (单选题)关于键值对RDD的连接操作,以下选项中描述正确的是
  • A、A. join()方法:对两个RDD进行全外连接
  • B、B. rightOuterJoin()方法:对两个RDD进行左外连接
  • C、C. leftOuterJoin()方法:对两个RDD进行右外连接
  • D、D. fullOuterJoin()方法:对两个RDD进行全外连接


  • 50、 16. (单选题)以下选项符合Scala编程规范的是( )。 ①"spark".equals("spark") ②"spark".contains(spark) ③val a:String="spark"④val a=List{1,2,3,4}
  • A、A. ①④
  • B、B. ①③
  • C、C. ②③
  • D、D. ②④


  • 51、 9. (单选题)关于Spark SQL的DataFrame基础操作,以下选项中说法错误的是( )。
  • A、A. where()/filter()方法:对所给定的条件进行定位/筛选
  • B、B. orderBy()方法:根据DataFrame的某个字段进行排序,默认是降序排序
  • C、C. groupBy()方法:根据某个字段进行分组,之后可以使用count()、max()等方法对分组信息进行计算
  • D、D. join()方法:对两个DataFrame进行合并,可以设置合并的关键字和连接方式


  • 52、 16. (单选题)提交Spark程序时,通常需要设置一些配置项,关于配置项,下列说法错误的是( )
  • A、A. name:设置运行环境
  • B、B. jars:添加依赖包
  • C、C. driver-memory:设置Driver程序使用的内存大小
  • D、D. executor-memory:设置Executor使用的内存大小


  • 53、 9. (单选题)下列选项中,哪个不是Spark生态系统中的组件?
  • A、A. Spark Streaming
  • B、B. Spark Mlib
  • C、C. Spark Graphx
  • D、D. Spark R


  • 54、 10. (单选题)在Spark中,调用RDD的()方法,可以将RDD转换为DataFrame对象。
  • A、A. show()
  • B、B. map()
  • C、C. toDF()
  • D、D. printSchema()


  • 55、 4. (单选题)DataFrame可以将数据保存成持久化的表,使用的方法是( )。
  • A、A. save()
  • B、B. saveAsTextFile()
  • C、C. saveAsFile()
  • D、D. saveAsTable()


  • 56、 15. (单选题)以下选项中不是spark-submit的指定参数的是( )
  • A、A. --jars
  • B、B. --url
  • C、C. --deploy-mode
  • D、D. --executor-memory


  • 57、 13. (单选题)以下关于Scala的类和单例对象之间的差别描述正确的是( )
  • A、A. 单例对象不可以定义方法,而类可以
  • B、B. 单例对象不可以带参数,而类可以
  • C、C. 单例对象不可以定义私有属性,而类可以
  • D、D. 单例对象不可以继承,而类可以


  • 58、 2. (单选题)下列方法中,不可用于创建RDD的方法的是( )
  • A、A. makeRDD()
  • B、B. parallelize()
  • C、C. textFile()
  • D、D. testFile()


  • 59、 1. (单选题)机器学习可以分为( )。
  • A、A. 有监督学习、无监督学习和半监督学习
  • B、B. 有监督学习、无监督学习和强化学习
  • C、C. 有监督学习和强化学习
  • D、D. 无监督学习和强化学习


  • 60、 8. (单选题)下列关于List的定义,哪个是错误的( )
  • A、A. val list=List(1,22,3)
  • B、B. val list=List("Hello","Scala")
  • C、C. val list:String=List("A","B")
  • D、D. val list=List[Int](1,2,3)


  • 61、 2. 以下关于Scala的特性说法错误的是( )
  • A、A. Scala是一种纯粹的面向过程的程序设计语言
  • B、B. Scala支持函数时编程,可定义匿名函数、高阶函数,允许函数嵌套,并支持柯里化
  • C、C. Scala以静态的方式进行抽象
  • D、D. Scala提供了许多独特的语言机制,具有良好的可扩展性


  • 62、 14. (单选题)定义类Counter,并通过new关键字实例化出counter对象,代码如下,以下选项的操作正确的是( )。 class Counter(name:String){val a = 1var b ="counter" } val counter = new Counter("computer")
  • A、A. counter.name="cpu"
  • B、B. counter.a=2
  • C、C. counter.b="counter2"
  • D、D. counter.a=counter.b


  • 63、 2. (单选题)下列属于关联规则算法是( )。
  • A、A. 决策树
  • B、B. K-Means
  • C、C. FP
  • D、D. 朴素贝叶斯


  • 64、 7. (单选题)关于RDD集合操作方法,以下选项中描述错误的是
  • A、A. intersection()方法:求出两个RDD的共同元素
  • B、B. union()方法:合并两个RDD的所有元素
  • C、C. subtract()方法:将原RDD里和参数RDD里不相同的元素去掉
  • D、D. cartesian()方法:求两个RDD的笛卡儿积


  • 微信扫一扫 在线答题 在线出卷 随机出题小程序 闯关答题软件 出题答题小程序
    • 上一场考卷: 1
    • 下一场考卷: 填空