大数据与人工智能概论

廖宁,陈怡然,柏森

目录

  • 1 第1章 绪论
    • 1.1 大数据与人工智能概述
    • 1.2 大数据与人工智能典型应用
  • 2 第2章 数据工程
    • 2.1 数据工程概述
      • 2.1.1 【工具应用】使用Tableau Prep处理数据(案例1)
      • 2.1.2 【工具应用】使用Tableau DeskTop分析数据(案例1)
      • 2.1.3 【拓展学习】Tableau 在零售分析中的高级应用
    • 2.2 数据的获取
    • 2.3 数据的存储
      • 2.3.1 单机系统存储
      • 2.3.2 服务器存储
      • 2.3.3 分布式
    • 2.4 数据预处理
    • 2.5 数据分析与可视化
    • 2.6 过程性考核(项目)
  • 3 第3章 大数据框架
    • 3.1 分布式系统与Hadoop大数据平台
    • 3.2 分布式计算引擎
  • 4 第4章 机器学习
    • 4.1 机器学习概述
    • 4.2 回归算法
    • 4.3 分类算法
    • 4.4 聚类算法
  • 5 第5章 深度学习
  • 6 第6章 大数据与人工智能伦理
大数据与人工智能概述

一、人类文明的发展史

140亿年前,宇宙诞生

46亿年前,地球诞生

38亿年前,简单生命体出现

400万年至100万年前,南方古猿出现

200万年至20万年前,直立人出现

......

【思考】人类为什么进化如此迅速?

动物遗传性继承包括吃喝哭喊等,而非遗传性继承则是知识和传统(文化)。

发现知识、传递知识、学习知识是人类文明进程中亘古不变的主题

二、人工智能的三次浪潮

随着AlphaGo和Master横扫棋坛,人工智能再次进入公众的视野。但追根溯源,人工智能并不是新鲜事物,早在1956年的达特茅斯会议被公认为是人工智能的起源。

而50年后当年的会议者们重聚,看着照片中白发苍苍的人工智能开拓者与奠基者,不禁感慨万千。

20世纪50年代到60年代 第一次热潮:理论的革新


这是电子计算机刚刚诞生的时代,当时的计算机更多的被视为运算速度特别快的数学计算工具,图灵在思想上走到了所有研究者的最前沿,琢磨计算机是否能像人一样思考,即开始在理论高度思考“人工智能”的存在。

1950年10月,艾伦 图灵发表了一篇名为《计算机械和智能》的论文,提出了著名的图灵测试,影响深远,直到今天仍被计算机科学家乃至普罗大众所重视。以图灵测试为标志,数学证明系统,知识推理系统,专家系统等里程碑式的技术和应用在研究者中掀起了第一次热潮。

在当时,人们对人工智能普遍持过分乐观的态度,人们认为看到了几年内计算机通过图灵测试的希望曙光。然而受到计算机性能和算法理论的局限,接踵而来的失败似乎渐渐消灭了人们的热情,人工智能的热度迅速消退。

20世纪80年代到90年代初 第二次热潮:思维的转变


在第二次AI热潮中,语音识别是最具代表性的突破性进展之一,而这个突破依赖的是思维的转变。

过去的语音识别更多的是专家系统,即根据的是语言学的知识,总结出语音和英文音素,再把每个字打开成音节与音素,让计算机用人类学习语言的方式来学习语言。在研发过程中,计算机工程师与科学家围绕着语言学家进行工作。

而新的方法是基于数据的统计建模,抛弃了模仿人类思维方式总结思维规则的老路,研发过程中没有或极少语言学家的参与,更多的是计算机科学家与数学家的合作。

这其中的转变看似容易,其实面临着人类既有观念和经验的极大阻力。

最终,专家系统寿终正寝,基于数据统计模型的思想开始广泛传播。

事实证明,计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。——李开复


90年代中至今 第三次热潮:技术的融合


今天的人工智能研究中,深度学习无人不谈,无人不识。从知名的AlphaGo,到不那么知名但在2014年ImageNet竞赛中第一次超越人眼的图像识别算法,都是深度学习的产物。从根本上说,深度学习是一种用数学模型对真实世界中的特定问题进行建模,以解决该领域内相似问题的过程。但不为人所知的是,深度学习的历史几乎和人工智能一样长,只是一直默默无闻,直到它等到了时代的机遇。

首先,计算机的计算性能和处理能力大幅提高。符合摩尔定律而指数级增长的计算机性能最终跨过了门槛。

其次,互联网的蓬勃发展为搜索引擎等公司带来了高质量的大数据。并且正是因计算机性能的提高人们得以储存和利用这些数据。

可以说在第三次热潮中,深度学习+大规模计算+大数据=人工智能


看到这里,似乎三次热潮只是如同下图所示:在一次又一次的震荡中往复。

然而事实或许并非如此,可能我们已经走到了从量变到质变的风口。

这条曲线概括了绝大多数高新技术的发展历程。

我们很可能正处于第四个阶段。第三次热潮仍未结束。


第三次热潮有何不同?

对比:

前两次 : 学术研究主导 市场宣传层面 学术界在劝说和游说政府和投资人投钱 更多的是提出问题

第三次 : 商业需求主导 商业模式层面 投资人主动向热点领域的学术和创业项目投钱 更多的是解决问题


如今的人工智能可以说真正和产业相结合,走进了人们的日常生活当中。

搜索引擎的背后是以深度学习为基础的算法;

美图秀秀的背后是机器视觉和AI艺术的结合;

网络地图的背后是AI对大数据的挖掘和处理;

……

今天的人工智能,是有用的人工智能。 ——李开复《人工智能》