课程门户-章节详情

陈建

1 课程介绍
- 1.1 欢迎词
- 1.2 课程说明
- 1.3 课程设计
  - 1.3.1 学习目标
  - 1.3.2 学习内容
  - 1.3.3 学习活动
- 1.4 教师团队
- 1.5 先修知识及必备技能
  - 1.5.1 平台使用指南
  - 1.5.2 先修知识
  - 1.5.3 必备技能
2 第一章商务智能概述
- 2.1 1.1 商务智能的概念
- 2.2 1.2 商务智能的核心技术和框架
- 2.3 1.3 商务智能的组成要素
- 2.4 1.4 商务智能的分析流程
3 第二章数据仓库
- 3.1 2.1 数据仓库的概念
- 3.2 2.2 数据仓库系统开发概述
- 3.3 2.3 多维数据模型
- 3.4 2.4 OLAP
4 可视化混合式作业
- 4.1 可视化操作
5 第三章数据准备
- 5.1 3.1 讨论：数据准备好了么？
- 5.2 3.2 数据准备
- 5.3 3.3 数据类型及处理方式
- 5.4 3.4 数据准备主要步骤
6 第四章相关分析
- 6.1 4.1 相关分析基本概念
- 6.2 4.2 相关关系理论和实践
- 6.3 新建课程目录
7 第五章聚类分析
- 7.1 5.1 聚类分析i概念和内容
- 7.2 5.2 K-means 聚类算法
8 第六章回归分析
- 8.1 6.1 回归分析
- 8.2 6.2 一元线性回归
  - 8.2.1 6.3 回归分析中的梯度问题
- 8.3 6.4 逻辑回归
9 第七章分类分析
- 9.1 7.1 分类分析的原理
- 9.2 7.2 贝叶斯分类基本原理
- 9.3 7.3 决策树分类基本原理
- 9.4 7.4 神经网络分类基本原理
10 第八章关联分析
- 10.1 8.1 关联分析原理
- 10.2 8.2 关联分析的基本算法
11 第九章文本挖掘
- 11.1 9.1 文本挖掘的基本原理
- 11.2 9.2 文本挖掘流程与技术
- 11.3 9.3 中文分词方法
12 第十章大数据分析
- 12.1 10.1 大数据与云计算基本概念
- 12.2 10.2 Hadoop 基本概念
- 12.3 10.3 Spark 基本概念
13 第十一章社会网络
- 13.1 11.1 社会网络与博弈论
- 13.2 11.2 社会网络的基本问题
- 13.3 11.3 社会网络的基本原则
14 实验内容
- 14.1 数据挖掘实验一决策树
- 14.2 数据挖掘实验二 K-MEANS 聚类
- 14.3 数据挖掘实验三神经网络
- 14.4 数据挖掘实验四关联规则
- 14.5 rapidminer 操作视频示例
15 第十六单元
- 15.1 答辩及大作业提交

10.3 Spark 基本概念

Spark是一个快速的企业级大规模数据处理引擎，可以运行在Hadoop的集群管理器中，并且可以与Hadoop进行相互操作。 Spark是由Scala语言编写的，是在JVM中运行。并且能够让应用程序在处理过程中能够可靠地在内存中分发数据，从根本上避免低效率的磁盘访问，并以内存速度进行计算。

通过Scala，Python等交互式语言，开发在Spark上运行的程序较为容易，并且需要的代码量比Java大幅减少。

Spark提供了一系列的库，包括用于交互式的Spark SQL 和DataFrame,用于机器学习的MLib、用于实时分析的Spark Streaming。

但是需要注意的是，与Hadoop提供了用于存储的HDFS和用于计算的MR。Spark不提供任何特定的存储介质。Spark就是一个计算引擎，可以把数据存储在内存里进行处理。

Spark具有从存储在HDFS或Hadoop API支持的其他存储系统（包括本地文件系统，亚马逊S3, Hive 等）中的任何文件创建分布式数据集的能力。

最重要的是，Spark不需要Hadoop来运行它。但是Spark可以运行基于Hadoop文件系统的数据。

Spark由4个架构组件：Spark SQL, Spark Streaming, SparkMLlib, Spark GraphX构成。

Spark组件是一个统一的技术架构，为使用者提供了一个在程序中整合了SQL,流和机器学习的强大功能。这种统一性的有点如下：

无需在系统之间对数据进行复制或ETL处理
把多种处理类型组合到一个程序中
代码复用
只需学习一套系统
只需维护一套系统

图片预览