目录

  • 1 大数据处理架构Hadoop
    • 1.1 分布式计算与并行计算概述
    • 1.2 Hadoop概述
    • 1.3 Hadoop生态系统
    • 1.4 Hadoop的安装
  • 2 分布式文件系统HDFS
    • 2.1 分布式文件系统概念
    • 2.2 HDFS简介
    • 2.3 HDFS体系结构
    • 2.4 HDFS存储原理
    • 2.5 HDFS的数据读写过程
    • 2.6 相关shell命令
  • 3 分布式数据库HBase
    • 3.1 HBase概念与传统数据库区别
    • 3.2 HBase访问接口
    • 3.3 HBase数据模型
    • 3.4 HBase实现原理
    • 3.5 HBase运行机制
  • 4 MapReduce
    • 4.1 MapReduce概述
    • 4.2 MapReduce的工作流程
    • 4.3 Shuffle原理
    • 4.4 词频统计分析
    • 4.5 相关Shell命令
  • 5 Hadoop架构再讨论
    • 5.1 Hadoop的优化与发展
    • 5.2 HDFS2.0的新特性
    • 5.3 新一代资源管理调度框架YARN
    • 5.4 YARN的工作流程和原理
  • 6 资料扫描上传
    • 6.1 课堂笔记01
    • 6.2 课堂笔记02
    • 6.3 课堂笔记03
    • 6.4 课堂笔记04
    • 6.5 课堂笔记05
    • 6.6 课堂笔记06
    • 6.7 课堂笔记07
    • 6.8 课堂笔记08
    • 6.9 作业(1次)
    • 6.10 实验报告一
    • 6.11 实验报告二
    • 6.12 实验报告三
    • 6.13 月考
    • 6.14 预测试题
分布式文件系统概念

分布式文件系统概述

       分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。DFS为分布在网络上任意位置的资源提供一个逻辑上的树形文件系统结构,从而使用户访问分布在网络上的共享文件更加简便。单独的 DFS共享文件夹的作用是相对于通过网络上的其他共享文件夹的访问点 。