《数据分析A》课程基本信息
课程代码:B1111T350372
课程名称:数据分析A
学分:3.5
总学时:56(理论学时:32,实践学时:24)
课程类别:专业教育课程
课程性质:必修课
考核方式:考试
先修课程:高等代数与解析几何、数学分析、概率论与数理统计D、Python语言基础
适用专业:信息与计算科学
课程负责人:王苗苗
开课单位:理学院
《数据分析A》课程目标
课程目标1:能够掌握数据分析的标准流程、Python中常用数据分析库的基本用法以及常用数据分析方法的统计思想及基本步骤;
课程目标2:能够运用数据分析软件,进行算法设计与编程实现,解决实际应用中的数据分析问题,具备软件设计与开发能力;
课程目标3:能够对大数据领域的现象和问题进行独立思考和分析,提出相应的解决思路和方案,选用恰当的数据分析方法进行分析、推断和预测,具有逻辑思维能力和批判性思维精神;
课程目标4:能够运用数据分析的流程与方法,对获取的数据进行预处理,描述数据的统计特征,进行可视化呈现,建立模型进行分析和预测,并解释分析结果,具有信息获取与数据分析的能力;
课程目标5:能够准确表达自己的观点,具备良好的沟通表达能力,具备严谨求实的科学精神和精益求精的工匠精神,具备良好的职业素养和职业精神。
《数据分析A》课程教学内容
教学内容:本课程教学内容以“数据分析软件实现”和“数据分析方法”作为两条主线,主要包括Python编程基础与NumPy、Pandas、Matplotlib、SciPy、Statsmodels、Sklearn等常用的数据分析库,以及描述统计、推断统计、数据预处理、主成分分析、回归分析、分类、聚类分析等数据分析方法。
(1)理论教学内容及安排
| 序号 | 教学内容 | 教学要求 | 学时 | 教学方法 | 支撑课程目标 |
| 课内 | 课后 |
| 1 | 主要内容:数据分析概述 教学重点:数据分析的标准流程、常用的数据分析工具 教学难点:数据分析的标准流程 | 能够了解数据分析的定义、数据分析师的岗位要求;掌握数据分析的标准流程;了解数据分析的应用;了解常用的数据分析工具。 | 2 | 讲授、讨论 | 作业 | 课程目标1、5 |
| 2 | 主要内容:Python编程基础 教学重点:Python特点、Python编程环境的搭建、容器数据类型、函数、模块 教学难点:函数参数类型、模块 | 能够了解Python语言的发展历史及特点;能够完成Python编程环境的搭建;能够灵活使用列表、元组、字典、集合等容器数据类型;能够熟练使用程序控制结构;能够使用Python进行文件读写操作;能够定义并调用函数,掌握函数参数类型;能够理解Python中模块的概念,熟练导入模块、安装第三方模块。 | 2 | 讲授 | 作业 | 课程目标1、2 |
| 3 | 主要内容:常用的数据分析库 教学重点:NumPy核心数据结构、Pandas核心数据结构、Pandas文件读写操作、Matplotlib库pyplot基础语法 教学难点:Pandas核心数据结构 | 能够了解NumPy库的作用,熟练对其核心数据结构ndarray数组进行创建、变换、索引和切片、运算等操作;能够了解Pandas库的作用,熟练对其核心数据结构Series和DataFrame进行创建、索引和切片、增删改等操作,熟练使用Pandas进行文件读写操作;能够了解Matplotlib库的作用,掌握pyplot基础语法;能够了解SciPy库、Statsmodels库和Sklearn库的作用。 | 4 | 讲授、随堂测试 | 作业 | 课程目标1、2 |
| 4 | 主要内容:描述统计 教学重点:汇总统计量、图表 教学难点:峰度、偏态 | 能够掌握常用汇总统计量的概念及特点,通过汇总统计量描述数据的特征,发现数据的基本规律;能够理解数据可视化在数据分析中的作用,根据不同的数据呈现需求选择合适的图表。 | 2 | 讲授 | 作业 | 课程目标1、3、4 |
| 5 | 主要内容:推断统计 教学重点:t检验、卡方检验、相关系数、方差分析 教学难点:卡方检验、方差分析 | 能够理解假设检验的过程和逻辑,掌握基本的假设检验方法;能够使用卡方检验等方法对类别型变量进行相关性分析,使用散点图、相关系数等方法对数值型变量进行相关性分析;能够掌握方差分析的概念、类型和基本思想。 | 4 | 讲授、随堂测试 | 作业 | 课程目标1、3、4 |
| 6 | 主要内容:数据预处理 教学重点:数据清洗、数据集成、数据变换、数据规约 教学难点:数据变换 | 能够理解数据预处理在数据分析中的作用,掌握其主要任务;能够对原始数据中的缺失值、异常值、重复值等进行清洗;能够将多个数据源的数据集成为统一的数据集合;能够进行规范化、离散化、类别型特征编码、特征构造等数据变换操作;能够进行维度规约、数量规约操作。 | 4 | 讲授、随堂测试 | 作业 | 课程目标1、2、3、4 |
| 7 | 主要内容:主成分分析 教学重点:主成分分析的基本原理 教学难点:主成分分析的计算步骤 | 能够掌握主成分分析的基本原理;能够基于协方差矩阵或相关系数矩阵计算主成分,写出主成分表达式;能够了解主成分的性质。 | 2 | 讲授 | 作业 | 课程目标1、3、4 |
| 8 | 主要内容:回归分析 教学重点:回归分析的思想、一元线性回归模型及其参数估计方法 教学难点:一元线性回归模型的统计检验方法 | 能够掌握回归分析的思想和应用,以及与相关分析的区别;能够掌握常用回归模型及其参数估计方法和统计检验方法;能够掌握回归模型的评价方法。 | 4 | 讲授、讨论 | 作业 | 课程目标1、3、4、5 |
| 9 | 主要内容:分类 教学重点:分类的思想、常用分类算法的原理和步骤、分类模型的评价方法 教学难点:常用分类算法的原理和步骤 | 能够掌握分类的思想和应用,以及与回归分析的区别;能够理解和掌握常用分类算法的原理和步骤;能够掌握分类模型的评价方法。 | 4 | 讲授、讨论 | 大作业 | 课程目标1、3、4、5 |
| 10 | 主要内容:聚类分析 教学重点:监督学习和无监督学习的概念和区别、聚类的思想、常用聚类算法的原理和步骤、聚类模型的评价方法 教学难点:常用聚类算法的原理和步骤 | 能够掌握监督学习和无监督学习的概念和区别;能够掌握聚类的思想和应用,以及与分类的区别;能够理解和掌握常用聚类算法的原理和步骤;能够掌握聚类模型的评价方法。 | 4 | 讲授、讨论、随堂测试 | 大作业 | 课程目标1、3、4、5 |
(2)课内实验及安排
| 序号 | 实验项目 | 实验类型 | 实验要求 | 学时 | 支撑课程目标 |
| 1 | Python编程基础 | 验证性 | 能够完成Python编程环境的搭建;能够灵活使用列表、元组、字典、集合等容器数据类型;能够熟练使用程序控制结构;能够使用Python进行文件读写操作;能够定义并调用函数;能够熟练导入模块、安装第三方模块。 | 2 | 课程目标 1、2、5 |
| 2 | 常用的数据分析库 | 验证性 | 能够熟练对NumPy库核心数据结构ndarray数组进行创建、变换、索引和切片、运算等操作;能够熟练对Pandas库核心数据结构Series和DataFrame进行创建、索引和切片、增删改等操作,熟练使用Pandas进行文件读写操作;能够熟练使用Matplotlib库绘制折线图。 | 4 | 课程目标 1、2、5 |
| 3 | 描述统计 | 验证性 | 能够使用NumPy库和Pandas库计算数据的汇总统计量,描述数据的特征,发现数据的基本规律;能够使用Matplotlib库绘制饼图、散点图、柱状图等其他图表。 | 2 | 课程目标 1、2、3、4、5 |
| 4 | 推断统计 | 验证性 | 能够掌握SciPy库和Statsmodels库的基本用法;能够使用Python进行t检验、卡方检验,计算相关系数,进行方差分析。 | 4 | 课程目标 1、2、3、4、5 |
| 5 | 数据预处理 | 综合性 | 能够使用Python进行数据清洗、数据集成、数据变换、数据规约等操作。 | 2 | 课程目标 1、2、3、4、5 |
| 6 | 主成分分析 | 综合性 | 能够掌握Sklearn库的主要数据集和基本用法;能够使用Python实现主成分分析,完成对数据的降维。 | 2 | 课程目标 1、2、3、4、5 |
| 7 | 回归分析 | 综合性 | 能够使用Python实现相应回归模型,完成对实际案例的分析。 | 2 | 课程目标 1、2、3、4、5 |
| 8 | 分类 | 综合性 | 能够使用Python实现相应分类模型,完成对实际案例的分析。 | 2 | 课程目标 1、2、3、4、5 |
| 9 | 聚类分析 | 综合性 | 能够使用Python实现相应聚类模型,完成对实际案例的分析。 | 2 | 课程目标 1、2、3、4、5 |
| 10 | 综合实验 | 综合性 | 能够对本课程内容有完整的认识,完成所有内容的复习和巩固。 | 2 | 课程目标 1、2、3、4、5 |
《数据分析A》课程考核方式
考核方式:考试
计分方法:本课程的考核采用累加式的考核方式,总成绩为100分,过程性考核占40%,终结性考核成绩占60%。过程性考核由平时作业、随堂测试、讨论、大作业、课内实验等来确定;终结性考核由期末考试成绩来确定,考试形式为闭卷笔试。
《数据分析A》课程教材及教学参考书
教材:
张惠玲,王苗苗,杨陈东,《Python数据分析》,西安:西北工业大学出版社,2022年。
教学参考书:
[1] 常国珍,赵仁乾,张秋剑,《Python数据科学技术详解与商业实践》,北京:机械工业出版社,2018年。
[2] 张良均,王路,谭立云,等,《Python数据分析与挖掘实战》,北京:机械工业出版社,2016年。
[3] 梅长林,范金城,《数据分析方法》,北京:高等教育出版社,2013年。
[4] Wes McKinney著,徐敬一译,《利用Python进行数据分析(原书第2版)》,北京:机械工业出版社,2018年。
[5] 郑丹青,《Python数据分析基础教程》,北京:人民邮电出版社,2020年。
[6] 魏伟一,张国治,《Python数据挖掘与机器学习》,北京:清华大学出版社,2021年。
[7] 董付国,《Python数据分析与数据可视化》,北京:清华大学出版社,2023年。