数据采集的概念
-
1 教学内容
-
2 拓展阅读
上一节
下一节
数据采集
一、数据采集的概念
讲到数据,首先就要考虑数据的来源及其获取的方式。通常把搜集和获取各种数据的过程称为数据采集。
采集是人类活动的重要组成部分,代表采摘和收集的意思。人们的采集行为最早是获得生理性需要的满足,如从田地中采集成熟的农作物。随着时代的变迁,人类的采集行为逐步发生变化,人们开始利用采集这种本领,渗透到生活的每3个领域,由获得物品扩展到对信息的采集。
数据采集是为了满足统计、分析和挖掘的需要,本质上是为了数据应用。如果没有任何数据上的应用需求,是无法做好数据采集工作的。
二、大数据采集和传统数据采集的区别
传统数据采集:
传统数据采集的对象基本都是企业内部信息系统的结构化数据,数据都存储在关系型数据库中。
大数据采集:
大数据采集的对象除了企业内部的数据(包括结构化与非结构化数据),还对企业外部相关的数据(如行业整体发展趋势、竞争对手产品销售情况等)进行采集,数据通常会存在于存储设备上面的文件、互联网公开的网页中。
结构化数据可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据也称为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。
非结构化数据本质上是结构化数据之外的一切数据,它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。


