目录

  • 1 初识大数据
    • 1.1 数字经济的由来与发展
    • 1.2 大数据内涵与特征
    • 1.3 大数据处理流程
  • 2 解密旅游大数据
    • 2.1 旅游大数据定义及特点
    • 2.2 常见的旅游大数据分析平台
    • 2.3 旅游大数据分析的应用场景
    • 2.4 旅游大数据分析的案例
  • 3 旅游大数据采集
    • 3.1 数据采集的概念
    • 3.2 旅游大数据的数据源
    • 3.3 数据搜索示例
    • 3.4 数据爬取工具功能与优势
  • 4 旅游大数据预处理
    • 4.1 旅游大数据概述
    • 4.2 数据清洗的流程与方法
    • 4.3 数据清洗的实例
  • 5 旅游大数据可视化
    • 5.1 游客画像分析
    • 5.2 旅游监测大屏制作
    • 5.3 旅游线路绘制
  • 6 旅游大数据隐私与安全
    • 6.1 大数据时代下的信息安全
    • 6.2 大数据的隐私问题
  • 7 模拟实战
    • 7.1 理论
数据采集的概念
  • 1 教学内容
  • 2 拓展阅读

数据采集


一、数据采集的概念

讲到数据,首先就要考虑数据的来源及其获取的方式。通常把搜集和获取各种数据的过程称为数据采集。

采集是人类活动的重要组成部分,代表采摘和收集的意思。人们的采集行为最早是获得生理性需要的满足,如从田地中采集成熟的农作物。随着时代的变迁,人类的采集行为逐步发生变化,人们开始利用采集这种本领,渗透到生活的每3个领域,由获得物品扩展到对信息的采集。

数据采集是为了满足统计、分析和挖掘的需要,本质上是为了数据应用。如果没有任何数据上的应用需求,是无法做好数据采集工作的。


二、大数据采集和传统数据采集的区别

传统数据采集:

传统数据采集的对象基本都是企业内部信息系统的结构化数据,数据都存储在关系型数据库中。

大数据采集:

大数据采集的对象除了企业内部的数据(包括结构化与非结构化数据),还对企业外部相关的数据(如行业整体发展趋势、竞争对手产品销售情况等)进行采集,数据通常会存在于存储设备上面的文件、互联网公开的网页中。

结构化数据可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据也称为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。

非结构化数据本质上是结构化数据之外的一切数据,它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。