目录

  • 1 课程资料
    • 1.1 课程标准
    • 1.2 教学日历
    • 1.3 教案
  • 2 大数据时代
    • 2.1 大数据概述
    • 2.2 大数据的4V特征和关键技术
    • 2.3 大数据与云计算、物联网的关系
    • 2.4 直播录屏
    • 2.5 章节测试
  • 3 大数据处理架构Hadoop
    • 3.1 平台搭建(VM+UbuntuKylin16.04+Hadoop伪分布式+Hbase伪分布式)
    • 3.2 Hadoop简介
    • 3.3 Hadoop的版本
    • 3.4 Hadoop项目结构
    • 3.5 Hadoop安装与配置
    • 3.6 Hadoop伪分布式集群搭建
    • 3.7 章节测试
  • 4 分布式文件系统HDFS简介
    • 4.1 分布式文件系统HDFS简介
      • 4.1.1 HDFS的基本操作实验
    • 4.2 HDFS的基本概念
    • 4.3 HDFS的体系结构
    • 4.4 HDFS的存储策略
    • 4.5 HDFS的数据读写过程
      • 4.5.1 第一关:HDFS Java API编程 ——文件读写
    • 4.6 第2关:HDFS-JAVA接口之上传文件
    • 4.7 章节测试
  • 5 分布式数据HBASE
    • 5.1 HBASE简介
    • 5.2 HBASE数据模型
    • 5.3 HBASE的实现原理
    • 5.4 HBASE运行机制
    • 5.5 HBASE的应用方案。
    • 5.6 章节测试
    • 5.7 Hbase数据库的安装
  • 6 MapReduce概述
    • 6.1 分布式并行编程方式
    • 6.2 MapReduce模型
    • 6.3 MapReduce体系结构
    • 6.4 MapReduce的工作流程
    • 6.5 shuffle操作的过程原理
    • 6.6 章节测试
  • 7 Spark简介
    • 7.1 ​ Spark简介
    • 7.2 Spark与Hadoop的对比
    • 7.3 Spark运行架构基本概念和架构设计
    • 7.4 Spark运行基本流程
    • 7.5 RDD设计与运行原理
    • 7.6 Spark应用实例
    • 7.7 章节测试
  • 8 流计算
    • 8.1 流计算概念及框架
    • 8.2 流计算处理流程及应用
    • 8.3 章节测试
  • 9 大数据的应用
    • 9.1 大数据的应用领域
    • 9.2 大数据助力精准防疫
    • 9.3 章节测试
  • 10 拓展阅读
    • 10.1 区块链
    • 10.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
    • 10.3 大数据技术工具
      • 10.3.1 交通大数据案例
  • 11 主题讨论
    • 11.1 主题讨论
大数据概述



1.1 大数据时代 



1.1.1 第三次信息化浪潮

1.1.2信息科技为大数据时代提供技术支撑

1.11.1大数据时代及影响         

人类是数据的创造者和使用者,自结绳记事起,它就已慢慢产生。随着计算机和互联网的广泛应用,人类产生、创造的数据量呈爆炸式增长。中国,已成为全球数据总量最大,数据类型最丰富的国家之一。大数据 是在我们当下的这个互联网时代所诞生的产儿,它的出现让一切都有迹可循,有源可溯。我们每天都在产生数据,创造大数据和使用大数据,只是你仍然浑然不知我们一直都生活在这个大数据时代里。



请大家想象一下未来生活中的一个场景:在2025年的某一个周末:7:00,你被手机闹钟叫醒。因为昨晚你是带着一款小型可穿戴设备睡觉的。

这个小设备连接手机中一款大数据APP,他可以实时记录睡觉时翻身次数,心跳及血压状况。根据这些采集来的数据,这款APP会给出一个建议:出门之前多喝点橙汁类饮品补充维生素。你可能缺乏维生素C了哦!上午九点,今天你要带朋友到购物公园逛逛,你打开某互联网公司的大数据产品“XX预测”,这款APP会自动预计步行街人数,道路交通情况,

同时根据以往用户定位信息,提出出行建议。12:00,逛了一圈,你和朋友都累了,想找个地方吃饭。这时你打开大数据软件,寻找附近的餐馆,用手机就可以提前通过视频查看餐馆环境及人数,同时遮盖用户信息,不必担心个人信息泄露。14:00,吃过午饭,你想去附近的公园玩玩,在十六潭公园与潜山森林公园间犹豫,你又打开“XX预测”,分析对比公园游览及人数信息,根据结果,你选择十六潭公园


16:00,你正在公园里休息,收到催缴电话费短信。你很好奇自己过去三年每个月的消费记录。但过去运营商只能让你查到六个月以内的消费信息。但在大数据时代,过去几年电话通讯信息均可查到 

18:00,你回到了家,你的可穿戴设备告诉你当天室内、室外所处时间,你一天雾霾吸入量

22:00,晚上睡觉的时候,你家的孩子哭闹起来。将孩子哭声录入大数据软件中,软件分析孩子哭泣理由,饥饿,身体不舒服,还是只是想向你

撒娇……《纽约时报》 2012年2月专栏 发文说

“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。

哈佛大学社会学教授  加里•金曾经说过

“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” 

亚马逊前任首席科学家Andreas Weigend 也说:“数据是新的石油。”

大数据中包含的数据量巨大,它很抽象,因可从中挖掘出有价值的信息而受到重视。因此《华尔街日报》将大数据时代、智能化生产、无线网络革命称为引领未来繁荣发展的重大技术变革。

那么,到底多大的数据量可以称为大数据呢?下面我们看一下这些数据:这张图显示了全球网民平均每月使用流量(MB),可以看到到2014年已经达到10G

到2013年,一天之内全球流量累计达到1EB即10亿GB),而在2001年这需要1年的时间。

随着一系列标志性事件的发生和建立,人们越发感觉到大数据时代的力量。甚至有人认为:当今“大社会”,三分技术,七分数据,得数据者得天下。因此2013年被许多国外媒体和专家称为“大数据元年”。2013年一天之内所产生的信息量可以刻满1.88亿张DVD光盘。这样的数据增长量不可不谓之为惊人。标志着人类已经进入到了大数据时代。

那么究竟是什么因素促成了大数据时代的到来呢?第一个原因就是数据产生方式的变革。看看我们每天时刻不离的手机、平板、智能手表、个人电脑。这些都是大数据产生的直接载体。

通过这些智能终端设备,我们进行着社交、娱乐、电子商务操作,电子地图的全面应用,都触发着数据的不间断产生.

我们将数据产生方式的变革分为三个阶段:1、运营式系统阶段;2、用户原创内容阶段;3、感知式系统阶段。

第一阶段:运营式系统阶段

数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动产生并记录在数据库中,数据的产生方式是被动的。我们在超市购物,在数据库系统中生成购物信息。这个就是被动产生数据,也是运营式系统阶段的一个实例

第二阶段:用户原创内容阶段,在这个阶段数据产生方式是主动的。

数据爆发产生于Web 2.0时代,而Web 2.0的最重要标志就是用户原创内容。智能手机等移动设备加速了

内容产生。我们每个人都成为了源数据的缔造者,全球网民每天利用智能手机等终端设备发布了大量原创内容。

第三阶段是感知式系统阶段,在这个阶段,物联网登上了历史舞台。

10年前我们还在大谈物联网,今天已实现了人机交互,你可以远程跟你的汽车,电视甚至你的冰箱对话。我们的穿戴设备,我们的生活用品,都在联网,每分每秒都在产生数据,数据量大到你无法想像,现阶段的摩尔定律是:每18个月产生的数据之前全人类的总和。万物互联的时代,我们对物品可以定义为在线上的和在线下的。智能的电子设备都可以成为连接到互联网中,产生大量数据。

物联网的底层---感知层,比如RFID、无处不在的摄像头和传感器24小时不间断产生数据。