目录

  • 1 课程资料
    • 1.1 课程标准
    • 1.2 教学日历
    • 1.3 教案
  • 2 大数据时代
    • 2.1 大数据概述
    • 2.2 大数据的4V特征和关键技术
    • 2.3 大数据与云计算、物联网的关系
    • 2.4 直播录屏
    • 2.5 章节测试
  • 3 大数据处理架构Hadoop
    • 3.1 平台搭建(VM+UbuntuKylin16.04+Hadoop伪分布式+Hbase伪分布式)
    • 3.2 Hadoop简介
    • 3.3 Hadoop的版本
    • 3.4 Hadoop项目结构
    • 3.5 Hadoop安装与配置
    • 3.6 Hadoop伪分布式集群搭建
    • 3.7 章节测试
  • 4 分布式文件系统HDFS简介
    • 4.1 分布式文件系统HDFS简介
      • 4.1.1 HDFS的基本操作实验
    • 4.2 HDFS的基本概念
    • 4.3 HDFS的体系结构
    • 4.4 HDFS的存储策略
    • 4.5 HDFS的数据读写过程
      • 4.5.1 第一关:HDFS Java API编程 ——文件读写
    • 4.6 第2关:HDFS-JAVA接口之上传文件
    • 4.7 章节测试
  • 5 分布式数据HBASE
    • 5.1 HBASE简介
    • 5.2 HBASE数据模型
    • 5.3 HBASE的实现原理
    • 5.4 HBASE运行机制
    • 5.5 HBASE的应用方案。
    • 5.6 章节测试
    • 5.7 Hbase数据库的安装
  • 6 MapReduce概述
    • 6.1 分布式并行编程方式
    • 6.2 MapReduce模型
    • 6.3 MapReduce体系结构
    • 6.4 MapReduce的工作流程
    • 6.5 shuffle操作的过程原理
    • 6.6 章节测试
  • 7 Spark简介
    • 7.1 ​ Spark简介
    • 7.2 Spark与Hadoop的对比
    • 7.3 Spark运行架构基本概念和架构设计
    • 7.4 Spark运行基本流程
    • 7.5 RDD设计与运行原理
    • 7.6 Spark应用实例
    • 7.7 章节测试
  • 8 流计算
    • 8.1 流计算概念及框架
    • 8.2 流计算处理流程及应用
    • 8.3 章节测试
  • 9 大数据的应用
    • 9.1 大数据的应用领域
    • 9.2 大数据助力精准防疫
    • 9.3 章节测试
  • 10 拓展阅读
    • 10.1 区块链
    • 10.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
    • 10.3 大数据技术工具
      • 10.3.1 交通大数据案例
  • 11 主题讨论
    • 11.1 主题讨论
章节测试


模块1:不定项选题  (100分,每题5分)

1. 关于数据及软件架构的CAP理论不包括下面哪些( D   )

A. 可用性

B. 一致性

C. 分区容忍性

D. 分布性


2 下列关于spark中的RDD描述正确的有 ( ABCD   )

A. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象

B. Resilient:表示弹性的,弹性表示

C. Destributed:分布式,可以并行在集群计算

D. Dataset:就是一个集合,用于存放数据的


3. 下列哪些是面向对象技术的特征(  ABC  )

A. 封装

B. 继承

C. 多态

D.分布性


4. 下列描述正确的是(  ABD  )

A. 进程(Process)是程序的一次执行过程

B. 线程(Thread) 是比进程更小的执行单位

C. 线程不可共享相同的内存单元

D.在同一个应用程序中可以有多个线程同时执行


5. 下面哪些是spark比Mapreduce计算快的原因(   ABC    )

A. 基于内存的计算

B. 基于DAG的调度框架

C. 基于Lineage的容错机制

D. 基于分布式计算的框架



6. 下面哪个操作是窄依赖?(  B  )

A. join   

B. filter 

C. group  

D. sort  


7.下面哪个操作肯定是宽依赖 (  C )

A. map 

B. flatMap 

C. reduceByKey 

D. sample


8. 最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,支持在日志系统中定制各类数据发送方,用于收集数据的工具是(  A  )

A. Flume

B. Zookeeper

C. Storm

D. Sparkstreaming


9.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具有 (  B  )

A. Flume

B. Zookeeper

C. Storm

D. Sparkstreaming


10. 作为分布式消息队列,既有非常优秀的吞吐量,又有较高的可靠性和扩展性,同时接受Spark Streaming的请求,将流量日志按序发送给Spark Streaming集群是 ( C   )

A. Flume

B. Zookeeper

C. Kafka

D. Sparkstreaming


11. Hadoop框架的缺陷有(  ABC  )

A. MR编程框架的限制

B. 过多的磁盘操作,缺乏对分布式内存的支持

C. 无法高效低支持迭代式计算

D.海量的数据存储


12. Hadoop组件的核心功能包括(   AD    )

A、分布式数据存储      

B、分析     

C、挖掘   

D、分布式计算 


13. DataFrame 和 RDD 最大的区别 (  B )

A.科学统计支持

B.多了 schema 

C.存储方式不一样 

D.外部数据源支持


14. spark中默认的存储级别 ( A )

A. MEMORY_ONLY 

B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK 

D. MEMORY_AND_DISK_SER


15. Spark组成部件包括(  BC     )

A. Resource Manager

B. Executor

C. Driver

D. RDD


16. Spark RDD的依赖机制包括(  AD  )

A. 宽依赖

B.   深度依赖

C. 广度依赖

D. 窄依赖


17. RDD有哪些缺陷?  AD


A.不支持细粒度的写和更新操作(如网络爬虫)

B.基于内存的计算

C.拥有schema信息

D.不支持增量迭代计算


18. Spark应用的计算逻辑会被解析成DAG,这个解析操作由以下哪个功能模块完成(  CD  )

A. Client

B. ApplicationMaster

C. Executor

D. Driver

 

19. spark的部署模式有?  ABCD


A.本地模式

B.standalone 模式

C.spark on yarn 模式

D.mesos模式


20. 下面不是Spark 的四大组件的有( BD   )

A. Spark Streaming 

B. pyspark     为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark

C. Graphx 

D. Spark R SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark