模块1:不定项选题 (100分,每题5分)
1. 关于数据及软件架构的CAP理论不包括下面哪些( D )
A. 可用性
B. 一致性
C. 分区容忍性
D. 分布性
2 下列关于spark中的RDD描述正确的有 ( ABCD )
A. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B. Resilient:表示弹性的,弹性表示
C. Destributed:分布式,可以并行在集群计算
D. Dataset:就是一个集合,用于存放数据的
3. 下列哪些是面向对象技术的特征( ABC )
A. 封装
B. 继承
C. 多态
D.分布性
4. 下列描述正确的是( ABD )
A. 进程(Process)是程序的一次执行过程
B. 线程(Thread) 是比进程更小的执行单位
C. 线程不可共享相同的内存单元
D.在同一个应用程序中可以有多个线程同时执行
5. 下面哪些是spark比Mapreduce计算快的原因( ABC )
A. 基于内存的计算
B. 基于DAG的调度框架
C. 基于Lineage的容错机制
D. 基于分布式计算的框架
6. 下面哪个操作是窄依赖?( B )
A. join
B. filter
C. group
D. sort
7.下面哪个操作肯定是宽依赖 ( C )
A. map
B. flatMap
C. reduceByKey
D. sample
8. 最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,支持在日志系统中定制各类数据发送方,用于收集数据的工具是( A )
A. Flume
B. Zookeeper
C. Storm
D. Sparkstreaming
9.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具有 ( B )
A. Flume
B. Zookeeper
C. Storm
D. Sparkstreaming
10. 作为分布式消息队列,既有非常优秀的吞吐量,又有较高的可靠性和扩展性,同时接受Spark Streaming的请求,将流量日志按序发送给Spark Streaming集群是 ( C )
A. Flume
B. Zookeeper
C. Kafka
D. Sparkstreaming
11. Hadoop框架的缺陷有( ABC )
A. MR编程框架的限制
B. 过多的磁盘操作,缺乏对分布式内存的支持
C. 无法高效低支持迭代式计算
D.海量的数据存储
12. Hadoop组件的核心功能包括( AD )
A、分布式数据存储
B、分析
C、挖掘
D、分布式计算
13. DataFrame 和 RDD 最大的区别 ( B )
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持
14. spark中默认的存储级别 ( A )
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER
15. Spark组成部件包括( BC )
A. Resource Manager
B. Executor
C. Driver
D. RDD
16. Spark RDD的依赖机制包括( AD )
A. 宽依赖
B. 深度依赖
C. 广度依赖
D. 窄依赖
17. RDD有哪些缺陷? AD
A.不支持细粒度的写和更新操作(如网络爬虫)
B.基于内存的计算
C.拥有schema信息
D.不支持增量迭代计算
18. Spark应用的计算逻辑会被解析成DAG,这个解析操作由以下哪个功能模块完成( CD )
A. Client
B. ApplicationMaster
C. Executor
D. Driver
19. spark的部署模式有? ABCD
A.本地模式
B.standalone 模式
C.spark on yarn 模式
D.mesos模式
20. 下面不是Spark 的四大组件的有( BD )
A. Spark Streaming
B. pyspark 为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark
C. Graphx
D. Spark R SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark

