个人介绍
Spark技术与应用

主讲教师:顾军林

教师团队:共4

  • 顾军林
  • 孙娟
  • 孟郊
  • 李阳
学校: 江苏电子信息职业学院
开课院系: 计算机与通信学院
专业大类: 软件技术
开课专业: 大数据技术
课程负责人: 顾军林
学分: 4
课时: 64
课程介绍
Spark技术与应用是为大数据技术类相关专业学生开设的课程。大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。但是Hadoop本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求。Spark的诞生弥补了MapReduce的缺陷。Spark继承了MapReduce分布式计算的优点,并改进了其明显的缺陷。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce,Spark的中间输出结果可以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用于数据挖掘与机器学习中需要迭代的算法。目前,Spark在企业中的运用越来越广泛,学习Spark分布式计算框架已然是进入大数据行业所必不可少的一步。
教师团队

顾军林

职称:副教授、高级工程师

单位:江苏电子信息职业学院

部门:计算机与通信学院

孙娟

职称:助教

单位:江苏电子信息职业学院

部门:计算机与通信学院

职位:教师

孟郊

职称:高级工程师

单位:南京南数数据运筹有限公司

部门:研发部

职位:工程师

李阳

职称:教师

参考教材

     

自编教材介绍:Spark软件不仅可以处理离线大数据,也可以处理实时大数据。不仅可以处理结构化数据,也可以处理半结构化,非结构化数据,甚至包括图数据。学习Spark的工程师只要有任何一门编程语言基础,就可以使用Java、Scala、Python和R语言中的任何一种快速入门。就算没有学过编程,也可以使用 SparkSQL 接口从SQL语言开始数据分析。本教材面向没有大数据开发经验的学员,书中重点放在SparkSQL 语言的语法和案例介绍上。通过全面的介绍SparkSQL语言如何建表、导入数据、数据查询分析、数据统计以及使用函数处理数值、字符串、时间日期等常用数据元素,让学员能够在单机上学习到企业里分布式集群环境中的大规模数据分析方法。SparkSQL将会是未来大数据分析的重要标准,未来普及程度会远远超过Spark 软件本身。

    

教学资源
课程章节 | 文件类型   | 修改时间 | 大小 | 备注
1.1.1 Spark课程介绍
视频
.mp4
2023-11-23 125.96MB
 
文档
.pptx
2023-11-23 353.75KB
1.1.2 Spark发展历史
视频
.mp4
2023-11-23 147.54MB
 
文档
.pptx
2023-11-23 392.92KB
1.1.3 Spark框架和Hadoop框架的比较
视频
.mp4
2023-11-23 295.58MB
 
文档
.pptx
2023-11-23 185.03KB
1.1.4 Spark框架特点
视频
.mp4
2023-11-23 134.77MB
 
文档
.pptx
2023-11-23 414.39KB
1.1.5 Spark框架介绍
视频
.mp4
2023-11-23 181.06MB
 
文档
.pptx
2023-11-23 210.20KB
1.1.6 Spark运行运行模式介绍
视频
.mp4
2023-11-23 124.79MB
 
文档
.pptx
2023-11-23 210.20KB
1.1.7 Spark的架构运行角色介绍
视频
.mp4
2023-11-23 119.22MB
 
文档
.pptx
2023-11-23 322.96KB
1.1.8 本章总结
视频
.mp4
2023-11-24 74.88MB
 
文档
.pptx
2023-11-24 159.68KB
1.2.1 Spark搭建环境要求
视频
.mp4
2023-11-23 111.88MB
 
文档
.pptx
2023-11-23 157.12KB
1.2.2 Spark Local模式原理介绍
视频
.mp4
2023-11-23 118.29MB
 
文档
.pptx
2023-11-23 150.96KB
1.2.3 Hadoop环境准备
视频
.mp4
2023-11-23 661.63MB
 
文档
.pptx
2023-11-23 138.67KB
1.2.4 Anaconda的安装
视频
.mp4
2023-11-23 144.55MB
 
文档
.docx
2023-11-23 614.61KB
1.2.5 Spark Local模式安装部署
视频
.mp4
2023-11-23 136.25MB
 
文档
.pptx
2023-11-23 437.39KB
1.2.6 本章总结
视频
.mp4
2023-11-23 13.78MB
 
文档
.pptx
2023-11-23 145.57KB
1.3.1 Spark StandAlone的运行原理
视频
.mp4
2023-11-23 205.13MB
 
文档
.pptx
2023-11-23 287.70KB
1.3.2 Spark StandAlone部署
视频
.mp4
2023-11-23 541.09MB
 
文档
.docx
2023-11-23 734.83KB
1.3.3 Spark StandAlone程序测试
视频
.mp4
2023-11-23 110.58MB
 
文档
.pptx
2023-11-23 256.07KB
1.3.4 本章总结
视频
.mp4
2023-11-23 10.27MB
 
文档
.pptx
2023-11-23 158.77KB
1.4.1 StandAlone HA模式的运行原理
视频
.mp4
2023-11-23 26.10MB
 
文档
.pptx
2023-11-23 224.46KB
1.4.2 StandAlone HA模式的部署和测试
视频
.mp4
2023-11-23 208.13MB
 
文档
.pptx
2023-11-23 445.63KB
1.4.3 本章总结
视频
.mp4
2023-11-23 13.49MB
 
文档
.pptx
2023-11-23 144.54KB
1.5.1 Spark On YARN的运行原理
视频
.mp4
2023-11-23 27.59MB
 
文档
.pptx
2023-11-23 234.06KB
1.5.2 Spark On YARN 部署和测试
视频
.mp4
2023-11-23 150.23MB
 
文档
.docx
2023-11-23 15.07KB
1.5.3 两种部署模式的区别
视频
.mp4
2023-11-23 22.96MB
 
文档
.pptx
2023-11-23 326.67KB
1.5.4 两种部署模式的演示和总结
视频
.mp4
2023-11-23 61.11MB
 
文档
.pptx
2023-11-23 193.31KB
1.5.5 两种模式任务提交流程
视频
.mp4
2023-11-23 30.14MB
 
文档
.pptx
2023-11-23 450.70KB
1.5.6 本章总结
视频
.mp4
2023-11-23 16.21MB
 
文档
.pptx
2023-11-23 145.76KB
1.6.1 框架和类库
视频
.mp4
2023-11-23 13.99MB
 
文档
.pptx
2023-11-23 158.90KB
1.6.2 PySpark类库介绍
视频
.mp4
2023-11-23 19.07MB
 
文档
.pptx
2023-11-23 144.12KB
1.6.3 PySpark安装
视频
.mp4
2023-11-23 85.48MB
 
文档
.pptx
2023-11-23 221.96KB
1.6.4 本章总结
视频
.mp4
2023-11-23 12.93MB
 
文档
.pptx
2023-11-23 145.26KB
1.7.1 本机配置Python环境
视频
.mp4
2023-11-23 60.61MB
 
文档
.pptx
2023-11-23 147.79KB
1.7.2 SparkContext对象以及WordCount演示
视频
.mp4
2023-11-23 133.38MB
 
文档
.pptx
2023-11-23 163.09KB
1.7.3 WordCount代码流程解析
视频
.mp4
2023-11-23 24.20MB
 
文档
.pptx
2023-11-23 359.37KB
1.7.4 提交WordCount到Linux集群运行
视频
.mp4
2023-11-23 97.53MB
 
文档
.pptx
2023-11-23 175.83KB
1.7.5 本章总结
视频
.mp4
2023-11-23 11.24MB
 
文档
.pptx
2023-11-23 144.75KB
1.8.1 Spark运行角色回顾
视频
.mp4
2023-11-23 22.64MB
 
文档
.pptx
2023-11-23 204.41KB
1.8.2 分布式代码执行分析
视频
.mp4
2023-11-23 20.56MB
 
文档
.pptx
2023-11-23 294.90KB
1.8.3 Python On Spark执行原理
视频
.mp4
2023-11-23 17.43MB
 
文档
.pptx
2023-11-23 227.96KB
1.8.4 本章总结
视频
.mp4
2023-11-23 15.92MB
 
文档
.pptx
2023-11-23 145.96KB
1.9 单元测试一
作业
.work
2023-11-24 --
2.1.1 什么是RDD
视频
.mp4
2023-11-23 21.67MB
 
文档
.pptx
2023-11-23 661.63KB
2.1.2 RDD五大特性-特性1
视频
.mp4
2023-11-23 12.88MB
 
文档
.pptx
2023-11-23 304.86KB
2.1.3 RDD五大特性-特性2
视频
.mp4
2023-11-23 27.13MB
 
文档
.pptx
2023-11-23 291.61KB
2.1.4 RDD五大特性-特性3
视频
.mp4
2023-11-23 15.15MB
 
文档
.pptx
2023-11-23 320.75KB
2.1.5 RDD五大特性-特性4
视频
.mp4
2023-11-23 12.54MB
 
文档
.pptx
2023-11-23 257.61KB
2.1.6 RDD五大特性-特性5
视频
.mp4
2023-11-23 14.95MB
 
文档
.pptx
2023-11-23 266.45KB
2.1.7 本章总结
视频
.mp4
2023-11-23 14.65MB
 
文档
.pptx
2023-11-23 268.98KB
2.2.1 RDD的创建方法1
视频
.mp4
2023-11-23 43.22MB
 
文档
.pptx
2023-11-23 323.45KB
2.2.2 RDD的创建方法2
视频
.mp4
2023-11-23 74.37MB
 
文档
.pptx
2023-11-23 305.63KB
2.2.3 RDD算子概念和分类
视频
.mp4
2023-11-23 17.60MB
 
文档
.pptx
2023-11-23 496.81KB
2.2.4 RDD算子-map
视频
.mp4
2023-11-23 73.32MB
 
文档
.pptx
2023-11-23 349.43KB
2.2.5 RDD算子-flatMap
视频
.mp4
2023-11-23 39.24MB
 
文档
.pptx
2023-11-23 295.40KB
2.2.6 RDD算子-reduceByKey
视频
.mp4
2023-11-23 32.82MB
 
文档
.pptx
2023-11-23 308.98KB
2.2.7 RDD算子-mapValues
视频
.mp4
2023-11-23 33.49MB
 
文档
.pptx
2023-11-23 280.85KB
2.2.8 RDD算子-groupBy
视频
.mp4
2023-11-23 40.23MB
 
文档
.pptx
2023-11-23 296.30KB
2.2.9 RDD算子-filter
视频
.mp4
2023-11-23 22.01MB
 
文档
.pptx
2023-11-23 304.38KB
2.2.10 RDD算子-distinct
视频
.mp4
2023-11-23 21.81MB
 
文档
.pptx
2023-11-23 275.59KB
2.2.11 RDD算子-union
视频
.mp4
2023-11-23 23.46MB
 
文档
.pptx
2023-11-23 302.50KB
2.2.12 RDD算子-join
视频
.mp4
2023-11-23 32.84MB
 
文档
.pptx
2023-11-23 280.42KB
2.2.13 RDD算子-glom
视频
.mp4
2023-11-23 40.96MB
 
文档
.pptx
2023-11-23 279.02KB
2.2.14 RDD算子-groupByKey
视频
.mp4
2023-11-23 27.91MB
 
文档
.pptx
2023-11-23 272.06KB
2.2.15 RDD算子-sortBy
视频
.mp4
2023-11-23 32.01MB
 
文档
.pptx
2023-11-23 264.64KB
2.2.16 RDD算子-sortByKey
视频
.mp4
2023-11-23 33.95MB
 
文档
.pptx
2023-11-23 353.18KB
2.2.17 RDD算子-案例
视频
.mp4
2023-11-23 65.91MB
 
文档
.pptx
2023-11-23 254.38KB
2.2.18 RDD算子-案例-提交到YARN集群执行
视频
.mp4
2023-11-23 102.81MB
 
文档
.pptx
2023-11-23 301.26KB
2.2.19 RDD算子-countByKey
视频
.mp4
2023-11-23 25.61MB
 
文档
.pptx
2023-11-23 265.88KB
2.2.20 RDD算子-reduce
视频
.mp4
2023-11-23 28.13MB
 
文档
.pptx
2023-11-23 282.71KB
2.2.21 RDD算子-fold
视频
.mp4
2023-11-23 25.02MB
 
文档
.pptx
2023-11-23 269.56KB
2.2.22 RDD算子-take-first-count-top
视频
.mp4
2023-11-23 29.92MB
 
文档
.pptx
2023-11-23 287.78KB
2.2.23 RDD算子-takeSample-takeOrdered
视频
.mp4
2023-11-23 33.19MB
 
文档
.pptx
2023-11-23 352.47KB
2.2.24 RDD算子-foreach
视频
.mp4
2023-11-23 29.99MB
 
文档
.pptx
2023-11-23 286.90KB
2.2.25 RDD算子-saveAsTextFile
视频
.mp4
2023-11-23 55.78MB
 
文档
.pptx
2023-11-23 268.39KB
2.2.26 RDD算子-mapPartitions
视频
.mp4
2023-11-23 40.72MB
 
文档
.pptx
2023-11-23 274.89KB
2.2.27 RDD算子-foreachPartition
视频
.mp4
2023-11-23 19.60MB
 
文档
.pptx
2023-11-23 284.15KB
2.2.28 RDD算子-partitionBy
视频
.mp4
2023-11-23 40.15MB
 
文档
.pptx
2023-11-23 270.27KB
2.2.29 RDD算子-repartition-coalesce
视频
.mp4
2023-11-23 38.83MB
 
文档
.pptx
2023-11-23 327.71KB
2.2.30 groupByKey和reduceByKey的区别
视频
.mp4
2023-11-23 17.65MB
 
文档
.pptx
2023-11-23 364.02KB
2.2.31 本章总结
视频
.mp4
2023-11-23 16.11MB
 
文档
.pptx
2023-11-23 276.30KB
2.3.1 RDD过程数据概念
视频
.mp4
2023-11-23 18.65MB
 
文档
.pptx
2023-11-23 337.07KB
2.3.2 RDD缓存介绍
视频
.mp4
2023-11-23 64.60MB
 
文档
.pptx
2023-11-23 416.36KB
2.3.3 RDD的CheckPoint
视频
.mp4
2023-11-23 39.74MB
 
文档
.pptx
2023-11-23 364.56KB
2.3.4 本章总结
视频
.mp4
2023-11-23 11.75MB
 
文档
.pptx
2023-11-23 256.68KB
2.4.1 案例需求-学生成绩数据分析系统
视频
.mp4
2023-11-24 23.24MB
 
文档
.pptx
2023-11-24 320.96KB
2.4.2 案例需求1开发
视频
.mp4
2023-11-23 56.00MB
 
文档
.pptx
2023-11-23 263.71KB
2.4.3 案例需求2开发
视频
.mp4
2023-11-23 61.80MB
 
文档
.pptx
2023-11-23 263.71KB
2.4.4 案例需求3开发
视频
.mp4
2023-11-23 42.59MB
 
文档
.pptx
2023-11-23 263.71KB
2.4.5 提交代码到YARN集群运行
视频
.mp4
2023-11-23 29.75MB
 
文档
.pptx
2023-11-23 263.71KB
2.4.6 本章总结
视频
.mp4
2023-11-23 9.42MB
 
文档
.pptx
2023-11-23 256.04KB
2.5.1 广播变量的使用
视频
.mp4
2023-11-24 46.45MB
 
文档
.pptx
2023-11-24 570.08KB
2.5.2 累加器的使用
视频
.mp4
2023-11-24 51.25MB
 
文档
.pptx
2023-11-24 471.74KB
2.5.3 广播变量累加器综合案例
视频
.mp4
2023-11-24 85.70MB
 
文档
.pptx
2023-11-24 380.85KB
2.5.4 本章总结
视频
.mp4
2023-11-23 9.28MB
 
文档
.pptx
2023-11-23 255.98KB
2.6.1 宽窄依赖和阶段划分
视频
.mp4
2023-11-24 19.10MB
 
文档
.pptx
2023-11-24 746.83KB
2.6.2 内存迭代计算及Spark并行度
视频
.mp4
2023-11-23 24.31MB
 
文档
.pptx
2023-11-23 567.25KB
2.6.3 Spark任务调度
视频
.mp4
2023-11-23 11.42MB
 
文档
.pptx
2023-11-23 372.84KB
2.6.4 本章总结
视频
.mp4
2023-11-23 10.68MB
 
文档
.pptx
2023-11-23 266.16KB
2.7 单元测试二
作业
.work
2023-11-24 --
3.1.1 SparkSQL介绍
视频
.mp4
2023-11-23 20.62MB
 
文档
.pptx
2023-11-23 714.98KB
3.2.1 SparkSQL和Hive的异同以及SparkSQL的数据抽象
视频
.mp4
2023-11-23 23.50MB
 
文档
.pptx
2023-11-23 256.75KB
3.2.2 SparkSession执行环境入口构建
视频
.mp4
2023-11-23 30.39MB
 
文档
.pptx
2023-11-23 213.07KB
3.2.3 本章总结
视频
.mp4
2023-11-23 10.70MB
 
文档
.pptx
2023-11-23 215.92KB
3.3.1 DataFrame对象的构成
视频
.mp4
2023-11-23 17.04MB
 
文档
.pptx
2023-11-23 349.48KB
3.3.2 DataFrame创建方法1
视频
.mp4
2023-11-23 49.40MB
 
文档
.pptx
2023-11-23 213.91KB
3.3.3 DataFrame创建方法2
视频
.mp4
2023-11-23 39.25MB
 
文档
.pptx
2023-11-23 210.66KB
3.3.4 DataFrame创建方法3
视频
.mp4
2023-11-23 33.48MB
 
文档
.pptx
2023-11-23 211.37KB
3.3.5 API读取text数据源构建DataFrame
视频
.mp4
2023-11-23 40.17MB
 
文档
.pptx
2023-11-23 209.81KB
3.3.6 API读取csv构建DataFrame
视频
.mp4
2023-11-23 25.51MB
 
文档
.pptx
2023-11-23 210.08KB
3.3.7 API读取json构建DataFrame
视频
.mp4
2023-11-23 23.85MB
 
文档
.pptx
2023-11-23 209.82KB
3.3.8 DSL风格入门API
视频
.mp4
2023-11-23 63.52MB
 
文档
.pptx
2023-11-23 512.58KB
3.3.9 SQL风格入门API
视频
.mp4
2023-11-23 27.78MB
 
文档
.pptx
2023-11-23 405.49KB
3.3.10 DataFrame数据输出
视频
.mp4
2023-11-23 52.16MB
 
文档
.pptx
2023-11-23 498.71KB
3.3.11 DataFrame使用JDBC协议读写数据库(MySQL)
视频
.mp4
2023-11-23 100.24MB
 
文档
.pptx
2023-11-23 671.09KB
3.3.12 本章总结
视频
.mp4
2023-11-23 19.46MB
 
文档
.pptx
2023-11-23 212.01KB
3.4.1 UDF创建演示
视频
.mp4
2023-11-24 71.37MB
 
文档
.pptx
2023-11-24 666.97KB
3.4.2 注册返回值是数组类型的UDF
视频
.mp4
2023-11-24 49.13MB
 
文档
.pptx
2023-11-24 451.71KB
3.4.3 窗口函数的演示
视频
.mp4
2023-11-24 54.60MB
 
文档
.pptx
2023-11-24 432.31KB
3.4.4 本章总结
视频
.mp4
2023-11-24 10.07MB
 
文档
.pptx
2023-11-24 211.96KB
3.5 第五章
视频
.mp4
2023-11-24 11.41MB
 
文档
.pptx
2023-11-24 294.20KB
3.6.1 Hive安装和配置使用
视频
.mp4
2023-11-24 115.05MB
 
文档
.doc
2023-11-24 145.16KB
3.6.2 SparkOnHive原理和配置及总结
视频
.mp4
2023-11-24 113.18MB
 
文档
.pptx
2023-11-24 242.60KB
3.7 第七章
视频
.mp4
2023-11-24 83.04MB
 
文档
.pptx
2023-11-24 534.78KB
3.8 单元测试三
作业
.work
2023-11-24 --
4.1 项目需求分析
文档
.docx
2023-11-24 656.29KB
4.2 代码开发
文档
.docx
2023-11-24 1.45MB
4.3 本章总结
文档
.pptx
2023-11-24 182.66KB
4.4 单元测试四
作业
.work
2023-11-24 --
5.1 AQE
视频
.mp4
2023-11-24 32.00MB
 
文档
.pptx
2023-11-24 676.89KB
5.2 动态分区裁剪
视频
.mp4
2023-11-24 15.21MB
 
文档
.pptx
2023-11-24 326.42KB
5.3 本章总结
视频
.mp4
2023-11-24 10.16MB
 
文档
.pptx
2023-11-24 183.26KB
5.4 单元测试五
作业
.work
2023-11-24 --
6.1 Spark流计算概述
视频
.mp4
2023-11-24 176.10MB
 
文档
.pptx
2023-11-24 374.28KB
6.2 Dstream操作
视频
.mp4
2023-11-24 77.34MB
 
文档
.pptx
2023-11-24 153.59KB
6.3 文件流操作
视频
.mp4
2023-11-24 38.68MB
 
文档
.pptx
2023-11-24 138.75KB
6.4 套接字流操作
视频
.mp4
2023-11-24 47.46MB
 
文档
.pptx
2023-11-24 138.78KB
6.5 Dstream有状态操作
视频
.mp4
2023-11-24 67.81MB
 
文档
.pptx
2023-11-24 139.26KB
6.6 本章总结
视频
.mp4
2023-11-24 9.21MB
 
文档
.pptx
2023-11-24 144.76KB
6.7 单元测试六
作业
.work
2023-11-24 --
7.1 Spark structured流计算概述
视频
.mp4
2023-11-24 18.25MB
 
文档
.pptx
2023-11-24 246.34KB
7.2 Structured Streaming程序的基本步骤
视频
.mp4
2023-11-24 61.71MB
 
文档
.pptx
2023-11-24 142.55KB
7.3 本章总结
视频
.mp4
2023-11-24 9.09MB
 
文档
.pptx
2023-11-24 146.66KB
7.4 单元测试七
作业
.work
2023-11-24 --
8.1 Spark MLlib简介
视频
.mp4
2023-11-24 19.74MB
 
文档
.pptx
2023-11-24 361.16KB
8.2 机器学习流水线
视频
.mp4
2023-11-24 24.58MB
 
文档
.pptx
2023-11-24 182.87KB
8.3 案例分析:逻辑回归
视频
.mp4
2023-11-24 113.88MB
 
文档
.pptx
2023-11-24 153.64KB
8.4 特征转换操作
视频
.mp4
2023-11-24 46.54MB
 
文档
.pptx
2023-11-24 145.77KB
8.5 案例分析:决策树分类器
视频
.mp4
2023-11-24 114.85MB
 
文档
.pptx
2023-11-24 165.17KB
8.6 单元测试八
作业
.work
2023-11-24 --
提示框
提示框
确定要报名此课程吗?
确定取消

京ICP备10040544号-2

京公网安备 11010802021885号