目录

  • 1 第一章:绪论
    • 1.1 课程简介
    • 1.2 数据与信息
    • 1.3 数据的价值
    • 1.4 数据采集的概念和任务
    • 1.5 数据的规范化
  • 2 第二章:大数据实验平台搭建
    • 2.1 Python的安装
    • 2.2 MySQL的安装
    • 2.3 使用Python访问MySQL数据库
    • 2.4 Hadoop的安装与配置
  • 3 网络数据采集
    • 3.1 网络爬虫概述
    • 3.2 Python网络编程基础知识
    • 3.3 BeautifulSoup模块
  • 4 分布式消息系统
    • 4.1 Kafka在大数据生态中的使用
    • 4.2 配置Kafka
    • 4.3 使用Kafka实现消息分发
  • 5 日志采集系统
    • 5.1 Flume的在大数据中的应用
    • 5.2 Flume的安装和使用
    • 5.3 采集日志文件到HDFS
  • 6 数据仓库中的数据集成
    • 6.1 数据仓库的概念
    • 6.2 ETL&CDC
  • 7 ETL工具
    • 7.1 Kattle的基本功能
    • 7.2 Kattle与Excel
    • 7.3 Kattle与MySql
    • 7.4 正则表达式
  • 8 实验部分
    • 8.1 实验一 网络爬虫实践
      • 8.1.1 实验指导书
      • 8.1.2 实验目的
      • 8.1.3 参考代码
      • 8.1.4 视频资源
      • 8.1.5 考核标准
    • 8.2 实验二 互联网信息提取实践
      • 8.2.1 实验指导书
      • 8.2.2 实验目的
      • 8.2.3 参考代码
      • 8.2.4 视频资源
      • 8.2.5 考核标准
Hadoop的安装与配置