课程门户-章节详情

大数据分析与处理

黄运波

1 课程资料
- 1.1 课程标准
- 1.2 教学日历
- 1.3 教案
2 大数据时代
- 2.1 大数据概述
- 2.2 大数据的4V特征和关键技术
- 2.3 大数据与云计算、物联网的关系
- 2.4 直播录屏
- 2.5 章节测试
3 大数据处理架构Hadoop
- 3.1 平台搭建(VM+UbuntuKylin16.04+Hadoop伪分布式+Hbase伪分布式)
- 3.2 Hadoop简介
- 3.3 Hadoop的版本
- 3.4 Hadoop项目结构
- 3.5 Hadoop安装与配置
- 3.6 Hadoop伪分布式集群搭建
- 3.7 章节测试
4 分布式文件系统HDFS简介
- 4.1 分布式文件系统HDFS简介
  - 4.1.1 HDFS的基本操作实验
- 4.2 HDFS的基本概念
- 4.3 HDFS的体系结构
- 4.4 HDFS的存储策略
- 4.5 HDFS的数据读写过程
  - 4.5.1 第一关：HDFS Java API编程 ——文件读写
- 4.6 第2关：HDFS-JAVA接口之上传文件
- 4.7 章节测试
5 分布式数据HBASE
- 5.1 HBASE简介
- 5.2 HBASE数据模型
- 5.3 HBASE的实现原理
- 5.4 HBASE运行机制
- 5.5 HBASE的应用方案。
- 5.6 章节测试
- 5.7 Hbase数据库的安装
6 MapReduce概述
- 6.1 分布式并行编程方式
- 6.2 MapReduce模型
- 6.3 MapReduce体系结构
- 6.4 MapReduce的工作流程
- 6.5 shuffle操作的过程原理
- 6.6 章节测试
7 Spark简介
- 7.1 Spark简介
- 7.2 Spark与Hadoop的对比
- 7.3 Spark运行架构基本概念和架构设计
- 7.4 Spark运行基本流程
- 7.5 RDD设计与运行原理
- 7.6 Spark应用实例
- 7.7 章节测试
8 流计算
- 8.1 流计算概念及框架
- 8.2 流计算处理流程及应用
- 8.3 章节测试
9 大数据的应用
- 9.1 大数据的应用领域
- 9.2 大数据助力精准防疫
- 9.3 章节测试
10 拓展阅读
- 10.1 区块链
- 10.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
- 10.3 大数据技术工具
  - 10.3.1 交通大数据案例
11 主题讨论
- 11.1 主题讨论

章节测试

模块1：不定项选题（100分，每题5分）

1. 关于数据及软件架构的CAP理论不包括下面哪些（ D ）

A. 可用性

B. 一致性

C. 分区容忍性

D. 分布性

2 下列关于spark中的RDD描述正确的有（ ABCD ）

A. RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是spark中最基本的数据抽象

B. Resilient：表示弹性的，弹性表示

C. Destributed：分布式，可以并行在集群计算

D. Dataset：就是一个集合，用于存放数据的

3. 下列哪些是面向对象技术的特征（ ABC ）

A．封装

B．继承

C．多态

D．分布性

4. 下列描述正确的是（ ABD ）

A．进程(Process)是程序的一次执行过程

B．线程(Thread) 是比进程更小的执行单位

C．线程不可共享相同的内存单元

D．在同一个应用程序中可以有多个线程同时执行

5. 下面哪些是spark比Mapreduce计算快的原因（ ABC ）

A. 基于内存的计算

B. 基于DAG的调度框架

C. 基于Lineage的容错机制

D. 基于分布式计算的框架

6. 下面哪个操作是窄依赖？（ B ）

A. join

B. filter

C. group

D. sort

7.下面哪个操作肯定是宽依赖 ( C )

A. map

B. flatMap

C. reduceByKey

D. sample

8. 最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，支持在日志系统中定制各类数据发送方，用于收集数据的工具是（ A ）

A. Flume

B. Zookeeper

C. Storm

D. Sparkstreaming

9.一个分布式应用程序协调服务，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等的工具有（ B ）

A. Flume

B. Zookeeper

C. Storm

D. Sparkstreaming

10. 作为分布式消息队列，既有非常优秀的吞吐量，又有较高的可靠性和扩展性，同时接受Spark Streaming的请求，将流量日志按序发送给Spark Streaming集群是（ C ）

A. Flume

B. Zookeeper

C. Kafka

D. Sparkstreaming

11. Hadoop框架的缺陷有（ ABC ）

A． MR编程框架的限制

B．过多的磁盘操作,缺乏对分布式内存的支持

C．无法高效低支持迭代式计算

D．海量的数据存储

12. Hadoop组件的核心功能包括（ AD ）

A、分布式数据存储

B、分析

C、挖掘

D、分布式计算

13. DataFrame 和 RDD 最大的区别 ( B )

A.科学统计支持

B.多了 schema

C.存储方式不一样

D.外部数据源支持

14. spark中默认的存储级别 ( A )

A. MEMORY_ONLY

B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK

D. MEMORY_AND_DISK_SER

15. Spark组成部件包括（ BC ）

A. Resource Manager

B. Executor

C. Driver

D. RDD

16. Spark RDD的依赖机制包括（ AD ）

A. 宽依赖

B. 深度依赖

C. 广度依赖

D. 窄依赖

17. RDD有哪些缺陷？ AD

A.不支持细粒度的写和更新操作（如网络爬虫）

B.基于内存的计算

C.拥有schema信息

D.不支持增量迭代计算

18. Spark应用的计算逻辑会被解析成DAG，这个解析操作由以下哪个功能模块完成（ CD ）

A. Client

B. ApplicationMaster

C. Executor

D. Driver

19. spark的部署模式有？ ABCD

A.本地模式

B.standalone 模式

C.spark on yarn 模式

D.mesos模式

20. 下面不是Spark 的四大组件的有（ BD ）

A. Spark Streaming

B. pyspark 为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark

C. Graphx

D. Spark R SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark

图片预览