目录

  • 1 大数据处理架构Hadoop
    • 1.1 分布式计算与并行计算概述
    • 1.2 Hadoop概述
    • 1.3 Hadoop生态系统
    • 1.4 Hadoop的安装
  • 2 分布式文件系统HDFS
    • 2.1 分布式文件系统概念
    • 2.2 HDFS简介
    • 2.3 HDFS体系结构
    • 2.4 HDFS存储原理
    • 2.5 HDFS的数据读写过程
    • 2.6 相关shell命令
  • 3 分布式数据库HBase
    • 3.1 HBase概念与传统数据库区别
    • 3.2 HBase访问接口
    • 3.3 HBase数据模型
    • 3.4 HBase实现原理
    • 3.5 HBase运行机制
  • 4 MapReduce
    • 4.1 MapReduce概述
    • 4.2 MapReduce的工作流程
    • 4.3 Shuffle原理
    • 4.4 词频统计分析
    • 4.5 相关Shell命令
  • 5 Hadoop架构再讨论
    • 5.1 Hadoop的优化与发展
    • 5.2 HDFS2.0的新特性
    • 5.3 新一代资源管理调度框架YARN
    • 5.4 YARN的工作流程和原理
  • 6 资料扫描上传
    • 6.1 课堂笔记01
    • 6.2 课堂笔记02
    • 6.3 课堂笔记03
    • 6.4 课堂笔记04
    • 6.5 课堂笔记05
    • 6.6 课堂笔记06
    • 6.7 课堂笔记07
    • 6.8 课堂笔记08
    • 6.9 作业(1次)
    • 6.10 实验报告一
    • 6.11 实验报告二
    • 6.12 实验报告三
    • 6.13 月考
    • 6.14 预测试题
分布式计算与并行计算概述

分布式计算

分布式计算主要研究如何把一个需要巨大的计算能力才能解决的问题分解成许多小的部分,然后把这些部分再分配给各个计算节点处理,最后把这些计算结果综合起来得到最终的结果。


并行计算

并行计算是相对于串行计算而言的,指用多个处理器并发的执行计算。


分布式计算与并行计算区别:

1. 并行计算借助并行算法和并行编程语言能够实现进程级并行和线程级并行;分布式计算只是将大任务分成小任务到各计算机上分别计算执行

2. 粒度方面,并行计算的处理器间交互频繁,具有细粒度的特征,注重短的执行时间;分布式计算中处理器间交互不频繁,交互特征是粗粒度,注重长的正常运行时间