目录

  • 1 课程介绍
    • 1.1 欢迎词
    • 1.2 课程说明
    • 1.3 课程设计
      • 1.3.1 学习目标
      • 1.3.2 学习内容
      • 1.3.3 学习活动
    • 1.4 教师团队
    • 1.5 先修知识及必备技能
      • 1.5.1 平台使用指南
      • 1.5.2 先修知识
      • 1.5.3 必备技能
  • 2 第一章 商务智能概述
    • 2.1 1.1 商务智能的概念
    • 2.2 1.2 商务智能的核心技术和框架
    • 2.3 1.3 商务智能的组成要素
    • 2.4 1.4 商务智能的分析流程
  • 3 第二章 数据仓库
    • 3.1 2.1 数据仓库的概念
    • 3.2 2.2 数据仓库系统开发概述
    • 3.3 2.3 多维数据模型
    • 3.4 2.4 OLAP
  • 4 可视化 混合式作业
    • 4.1 可视化操作
  • 5 第三章 数据准备
    • 5.1 3.1 讨论:数据准备好了么?
    • 5.2 3.2 数据准备
    • 5.3 3.3 数据类型及处理方式
    • 5.4 3.4 数据准备主要步骤
  • 6 第四章 相关分析
    • 6.1 4.1 相关分析 基本概念
    • 6.2 4.2 相关关系理论和实践
    • 6.3 新建课程目录
  • 7 第五章 聚类分析
    • 7.1 5.1 聚类分析i概念和内容
    • 7.2 5.2 K-means 聚类算法
  • 8 第六章 回归分析
    • 8.1 6.1 回归分析
    • 8.2 6.2 一元线性回归
      • 8.2.1 6.3 回归分析中的梯度问题
    • 8.3 6.4 逻辑回归
  • 9 第七章 分类分析
    • 9.1 7.1 分类分析的原理
    • 9.2 7.2 贝叶斯分类基本原理
    • 9.3 7.3 决策树分类基本原理
    • 9.4 7.4 神经网络分类基本原理
  • 10 第八章 关联分析
    • 10.1 8.1 关联分析原理
    • 10.2 8.2 关联分析的基本算法
  • 11 第九章 文本挖掘
    • 11.1 9.1 文本挖掘的基本原理
    • 11.2 9.2 文本挖掘流程与技术
    • 11.3 9.3 中文分词方法
  • 12 第十章 大数据分析
    • 12.1 10.1 大数据与云计算 基本概念
    • 12.2 10.2 Hadoop 基本概念
    • 12.3 10.3 Spark 基本概念
  • 13 第十一章 社会网络
    • 13.1 11.1 社会网络与博弈论
    • 13.2 11.2 社会网络的基本问题
    • 13.3 11.3 社会网络的基本原则
  • 14 实验内容
    • 14.1 数据挖掘 实验一 决策树
    • 14.2 数据挖掘 实验二  K-MEANS 聚类
    • 14.3 数据挖掘 实验三 神经网络
    • 14.4 数据挖掘 实验四  关联规则
    • 14.5 rapidminer 操作视频示例
  • 15 第十六单元
    • 15.1 答辩及大作业提交
3.3 数据类型及处理方式

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。

数据分析的基础是数据分类,不同类型的数据有不同的处理方式。数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。


一、统计计量数据:

四类计量数据特征及举例

测定层次

特  征

运算功能

举  例

定类测定 

分类

频数和频率

产业分类

定序测定 

分类、排序

计数、排序

企业等级

定距测定 

分类、排序、有基本测量单位 

计数、排序、加减

产品质量

差异

定比测定 

分类、排序、有基本测量单位、有绝对零点

计数、排序、加减、乘除

商品销售额

二.计算机角度数据类型

数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。

计算机中,以位(0 或 1)表示数据。数据的最小的寻址单位称为字节(通常是八位)。机器码指令处理的单位,称作字长。大部分对字长的指令解译,主要以二进制为主,如一个 32位的字长,可以表示从0至2的32次方减1的无符号整数值,或者表示从负的2的32次方至2的32次方减1的有符号整数值。存在着特殊的算术指令,对字长中的位使用不同的解释,以此作为浮点数。

三、根据数据连续程度的分类

  根据数据的连续性可以将数据分为连续性的数据和离散型的数据。

连续型的数据,如:身高,体重,化验值等等,这些数据的特点可以有小数点,大多表现为数值型;

离散型的数据,如:性别(男、女),药物反应(阴性、阳性),血型( O、A、B、AB),职业(教师、公司职员、公务员、律师、医生)等,大多用文字表示。