大数据与人工智能概论

廖宁,慕江林

目录

  • 1 第1章 绪论
    • 1.1 大数据与人工智能概述
    • 1.2 大数据与人工智能典型应用
  • 2 第2章 数据工程
    • 2.1 数据工程概述
      • 2.1.1 【工具应用】使用Tableau Prep处理数据(案例1)
      • 2.1.2 【工具应用】使用Tableau DeskTop分析数据(案例1)
      • 2.1.3 【拓展学习】Tableau 在零售分析中的高级应用
    • 2.2 数据的获取
    • 2.3 数据的存储
      • 2.3.1 单机系统存储
      • 2.3.2 服务器存储
      • 2.3.3 分布式
    • 2.4 数据预处理
    • 2.5 数据分析与可视化
    • 2.6 过程性考核(项目)
  • 3 第3章 大数据框架
    • 3.1 分布式系统与Hadoop大数据平台
    • 3.2 分布式计算引擎
  • 4 第4章 机器学习
    • 4.1 机器学习概述
    • 4.2 回归算法
    • 4.3 分类算法
    • 4.4 聚类算法
  • 5 第5章 深度学习
  • 6 第6章 大数据与人工智能伦理
分类算法

一、什么是分类?

分类是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法属于一种有监督的学习。

分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分。

二、常用的分类算法

  1. 决策树


  2. Logistic回归


  3. 支持向量机


三、分类算法的评价指标

所有事情都需要评估好坏,尤其是量化的评估指标。

  • 高考成绩用来评估学生的学习能力

  • 杠铃的重量用来评估肌肉的力量

  • 跑分用来评估手机的综合性能


  • 分类算法的主要评价指标如下:


【案例】训练集数据如下所示:


模型预测数据如下:


构建出的混淆矩阵如下所示:


其中,TP分别表示机器判断对不对,机器判断是不是


  • TP - True Positive:实际为男性,且判断为男性(正确)

  • FN - False Negative:实际为男性,但判断为女性(错误)

  • TN - True Negative:实际为女性,且判断为女性(正确)

  • FP - False Positive:实际为女性,但判断为男性(错误)

1.准确率


2.精确率(差准率)

3.召回率(敏感度)


4、F1

精确率(Precision)和召回率(Recall)“两难全”,为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数。