信息采集技术

梁家淳

目录

  • 1 数据采集的基本概念及采集工具
    • 1.1 课程导学
      • 1.1.1 《数据采集与处理》网络课程导学
      • 1.1.2 《数据采集与处理》学生网络课程学习指引
    • 1.2 初识数据
    • 1.3 数据来源及采集基础
    • 1.4 采集方法及采集工具
    • 1.5 数据采集器介绍及安装
  • 2 数据采集应用
    • 2.1 采集器基本应用
      • 2.1.1 简易采集模式
      • 2.1.2 单页采集
      • 2.1.3 详情页采集
    • 2.2 采集器高级应用
      • 2.2.1 循环采集
      • 2.2.2 分页采集
      • 2.2.3 登录采集
      • 2.2.4 ajax
      • 2.2.5 xpath
      • 2.2.6 xpath
  • 3 数据采集综合应用
    • 3.1 综合网站数据采集
  • 4 数据处理基本概念
    • 4.1 数据处理的基本概念
      • 4.1.1 数据处理概念1
      • 4.1.2 数据处理概念2
      • 4.1.3 数据处理概念3
    • 4.2 ETL常用工具的安装及
  • 5 数据处理
    • 5.1 数据抽取
      • 5.1.1 文本数据抽取
      • 5.1.2 文本数据抽取
      • 5.1.3 web文件数据抽取
      • 5.1.4 数据库数据抽取1
      • 5.1.5 数据库数据抽取2
    • 5.2 数据清洗
      • 5.2.1 字符串清洗
      • 5.2.2 字段清洗
      • 5.2.3 参照表清洗
      • 5.2.4 数据转换
  • 6 作业设计
    • 6.1 作业设计
      • 6.1.1 作业设计
      • 6.1.2 变量
    • 6.2 综合练习
    • 6.3 期末复习
ETL常用工具的安装及

特别说明:

kettle是ETL工具中的一种,在大数据数据处理中可以不通过编程技术,就可以对数据库数据和其它各种文件数据进行大批量数据的清洗。kettle也是一个免费开源软件,可以直接解压安装。但要求系统中已经安装了jdk软件。大家在安装的时候可以对照视频或ppt进行安装。如果已经安装了Mysql5数据库,可以将jar文件存入lib文件夹内,参看kettle安装配置.docx文件

课程内容:

  1. ETL的基本概念

  2. kettle的安装

课程目标:

  1. 掌握ETL的概念

  2. 掌握kettle的安装


一、安装文件下载




数据库安装文件见目录 :    1.8数据采集器介绍及安装

 


二、授课视频

1.ETL基本概念

2.kettle的安装


三、授课文档