数据(data),是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。
数据分析的基础是数据分类,不同类型的数据有不同的处理方式。数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
一、统计计量数据:
四类计量数据特征及举例
测定层次 | 特 征 | 运算功能 | 举 例 |
定类测定 | 分类 | 频数和频率 | 产业分类 |
定序测定 | 分类、排序 | 计数、排序 | 企业等级 |
定距测定 | 分类、排序、有基本测量单位 | 计数、排序、加减 | 产品质量 差异 |
定比测定 | 分类、排序、有基本测量单位、有绝对零点 | 计数、排序、加减、乘除 | 商品销售额 |
二.计算机角度数据类型
数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。
计算机中,以位(0 或 1)表示数据。数据的最小的寻址单位称为字节(通常是八位)。机器码指令处理的单位,称作字长。大部分对字长的指令解译,主要以二进制为主,如一个 32位的字长,可以表示从0至2的32次方减1的无符号整数值,或者表示从负的2的32次方至2的32次方减1的有符号整数值。存在着特殊的算术指令,对字长中的位使用不同的解释,以此作为浮点数。
三、根据数据连续程度的分类
根据数据的连续性可以将数据分为连续性的数据和离散型的数据。
连续型的数据,如:身高,体重,化验值等等,这些数据的特点可以有小数点,大多表现为数值型;
离散型的数据,如:性别(男、女),药物反应(阴性、阳性),血型( O、A、B、AB),职业(教师、公司职员、公务员、律师、医生)等,大多用文字表示。

