目录

  • 1 第1次课-大数据概述
    • 1.1 1 课程概述
    • 1.2 2 大数据处理流程
    • 1.3 3 大数据采集技术概论
    • 1.4 4 数据预处理技术概论
    • 1.5 5 教材与课件
  • 2 第2次课-数据采集技术基础
    • 2.1 1 传统数据采集技术概述
    • 2.2 2 数据采集系统架构
    • 2.3 3 数据采集系统软件
    • 2.4 4 数据采集关键技术
    • 2.5 5 教材与课件
  • 3 第3次课-大数据采集基础
    • 3.1 1 数据的发展
    • 3.2 2 大数据来源
    • 3.3 3 大数据采集的挑战和困难
    • 3.4 4 系统日志文件采集
    • 3.5 5 ETL工具采集
    • 3.6 6 互联网数据采集
  • 4 第4次课-大数据采集架构(Flume)
    • 4.1 1 概述
    • 4.2 2 Flume数据采集架构
    • 4.3 3 Flume Source简介
    • 4.4 4 Flume Channel简介
    • 4.5 5 Flume Sink简介
  • 5 第5次课-大数据采集架构(Kafka)
    • 5.1 Scribe架构
    • 5.2 Kafka架构
    • 5.3 Kafka中的生产者和主题
    • 5.4 Kafka中的消费者
    • 5.5 push and pull机制
    • 5.6 Zookeeper简介
    • 5.7 一些示例
  • 6 第6次课-大数据采集架构(Logstash)
    • 6.1 1 ELK概述
    • 6.2 2 Logstash的input
    • 6.3 3 Logstash的filter
    • 6.4 4 Logstash的output
    • 6.5 5 ElasticSearch、Kibana及ELK应用
  • 7 第7次课-大数据迁移技术
    • 7.1 1 大数据迁移技术概述
    • 7.2 2 基于主机的迁移方式
    • 7.3 3 基于存储的迁移方式
    • 7.4 4 基于数据库的迁移
    • 7.5 5 服务器虚拟化迁移
    • 7.6 6 迁移工具Apache Sqoop介绍
    • 7.7 7 迁移工具Kettle介绍
  • 8 第8次课-互联网数据抓取与处理技术1
    • 8.1 项目1
  • 9 第9次课-互联网数据抓取与处理技术2
    • 9.1 项目2
  • 10 第10次课-互联网数据抓取与处理技术3
    • 10.1 项目3
  • 11 第11次课-数据预处理技术-1
    • 11.1 1 数据对象及描述概述
    • 11.2 2 数据对象的属性类型
    • 11.3 3 数据中心趋势度量
    • 11.4 4 数据分散程度度量
    • 11.5 5 示例-中心度量和分散度量办法的应用
    • 11.6 6 数据邻近性的度量
  • 12 第12次课-数据预处理技术-2
    • 12.1 1 数据预处理概述
    • 12.2 2 卡方检验
    • 12.3 3 协方差与皮尔逊相关系数
    • 12.4 4 小波变换简介
    • 12.5 5 PCA方法简介
    • 12.6 6 其他数据归约办法介绍
    • 12.7 7 数据规范化
4 小波变换简介