大数据与人工智能概论

廖宁,慕江林

目录

  • 1 第1章 绪论
    • 1.1 大数据与人工智能概述
    • 1.2 大数据与人工智能典型应用
  • 2 第2章 数据工程
    • 2.1 数据工程概述
      • 2.1.1 【工具应用】使用Tableau Prep处理数据(案例1)
      • 2.1.2 【工具应用】使用Tableau DeskTop分析数据(案例1)
      • 2.1.3 【拓展学习】Tableau 在零售分析中的高级应用
    • 2.2 数据的获取
    • 2.3 数据的存储
      • 2.3.1 单机系统存储
      • 2.3.2 服务器存储
      • 2.3.3 分布式
    • 2.4 数据预处理
    • 2.5 数据分析与可视化
    • 2.6 过程性考核(项目)
  • 3 第3章 大数据框架
    • 3.1 分布式系统与Hadoop大数据平台
    • 3.2 分布式计算引擎
  • 4 第4章 机器学习
    • 4.1 机器学习概述
    • 4.2 回归算法
    • 4.3 分类算法
    • 4.4 聚类算法
  • 5 第5章 深度学习
  • 6 第6章 大数据与人工智能伦理
数据的获取

在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,数据采集才是大数据产业的基石。有调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。


大数据的主要来源:

1)商业数据

2)互联网数据

3)传感器数据


数据采集与大数据采集区别

传统数据采集

1. 来源单一,数据量相对于大数据较小

2. 结构单一

3. 使用关系型数据库保存

大数据的数据采集

1. 来源广泛,数据量巨大

2. 数据类型丰富,包括结构化,半结构化,非结构化

3. 需要分布式数据库


大数据采集新的方法

系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络数据采集方法

网络数据采集是指通过网络爬虫、网站公开API等方式从网站上获取数据信息。

该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。

它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。


在编码能力不足的时候,我们可以借助八爪鱼这样的自动数据采集工具进行网络数据采集。