目录

  • 1 绪论
    • 1.1 课程介绍
    • 1.2 从图像感知到自然语言处理
      • 1.2.1 猫、分类和神经网络
      • 1.2.2 影评、文本表示和逻辑回归
    • 1.3 从数据分析到数学基础
      • 1.3.1 数据分析与机器学习概览
      • 1.3.2 数据
      • 1.3.3 模型
      • 1.3.4 学习
      • 1.3.5 所需数学基础
  • 2 向量和矩阵基础
    • 2.1 向量与矩阵的基本概念:数据表示的观点
    • 2.2 向量和矩阵的运算
    • 2.3 向量空间与子空间
    • 2.4 线性无关性、生成集、坐标
    • 2.5 秩、仿射空间
    • 2.6 线性映射:线性模型的观点
    • 2.7 线性映射的矩阵表示
    • 2.8 线性变换
    • 2.9 仿射映射
    • 2.10 行列式
    • 2.11 迹和二次型
    • 2.12 特征值和特征向量
  • 3 度量与投影
    • 3.1 向量范数
    • 3.2 内积、距离、夹角与正交性
    • 3.3 数据科学中常用的相似性度量I
    • 3.4 矩阵的内积与范数
    • 3.5 范数在机器学习中的应用
    • 3.6 矩阵的四个基本子空间
    • 3.7 四个基本子空间的正交性
    • 3.8 正交投影:降维的几何视角
    • 3.9 正交基和Gram-Schmidt正交化
    • 3.10 特殊的正交变换矩阵——旋转
    • 3.11 反射矩阵
    • 3.12 信号处理中特殊的正交矩阵
  • 4 矩阵分解
    • 4.1 数学中常见的具有特殊结构的矩阵
    • 4.2 LU分解
    • 4.3 基于Gram-Schmidt正交化的QR分解
    • 4.4 基于Householder变换的QR分解
    • 4.5 基于Givens变换的QR分解
    • 4.6 对称矩阵的谱分解
    • 4.7 正半定矩阵与Cholesky分解
    • 4.8 奇异值分解
    • 4.9 基于奇异值分解的矩阵性质
    • 4.10 奇异值和数据降维
  • 5 矩阵计算问题
    • 5.1 线性方程组问题
    • 5.2 三角形线性方程组
    • 5.3 矩阵分解解线性方程组
    • 5.4 敏度分析与其他方法
    • 5.5 最小二乘问题
    • 5.6 最小二乘问题的求解方法
    • 5.7 最小二乘问题的变体
    • 5.8 最小二乘问题的解的敏感性
    • 5.9 特征值问题
    • 5.10 幂法和反幂法
    • 5.11 特征值计算的应用
  • 6 向量与矩阵微分
    • 6.1 向量函数和矩阵函数
    • 6.2 统计机器学习中非概率函数模型
    • 6.3 深度学习中的函数构造
    • 6.4 向量和矩阵函数的梯度
    • 6.5 向量和矩阵函数微分与迹微分法
    • 6.6 向量值和矩阵值函数的梯度
    • 6.7 链式法则与一些有用的梯度公式
    • 6.8 反向传播与自动微分
    • 6.9 高阶导数与泰勒展开
  • 7 概率基础
    • 7.1 概率论基本概念
    • 7.2 概率论公理
    • 7.3 贝叶斯公式
    • 7.4 随机变量
    • 7.5 累积分布函数
    • 7.6 一维离散型概率密度函数
    • 7.7 一维连续型概率密度函数
    • 7.8 多维随机变量及其分布函数
    • 7.9 分布的混合
    • 7.10 随机变量及其数字特征:数据度量的观点II
    • 7.11 大数定律与中心极限定律
  • 8 信息论基础
    • 8.1 自信息和互信息
    • 8.2 熵函数的性质
    • 8.3 联合熵和条件熵
    • 8.4 数据处理定理
    • 8.5 连续信源的微分熵
    • 8.6 连续信源的最大熵
    • 8.7 信息论在数据科学中的应用
  • 9 概率模型和参数估计
    • 9.1 极大似然估计
    • 9.2 最大后验估计
    • 9.3 估计的风险比较:模型评价观点II
    • 9.4 贝叶斯估计
    • 9.5 极小极大准则
    • 9.6 MLE、MAP和贝叶斯推断
    • 9.7 隐变量
    • 9.8 线性回归和逻辑回归
    • 9.9 有向图模型
    • 9.10 无向图模型
    • 9.11 嵌套交叉验证
    • 9.12 贝叶斯模型选择
    • 9.13 模型比较中的贝叶斯因子
  • 10 优化基础
    • 10.1 优化问题类型
    • 10.2 常见的优化问题
    • 10.3 凸集
    • 10.4 凸函数
    • 10.5 凸优化问题的基本概念
    • 10.6 凸优化的性质
    • 10.7 数据科学中典型的凸优化问题
  • 11 最优性条件和对偶理论
    • 11.1 拉格朗日对偶函数
    • 11.2 常见的对偶函数
    • 11.3 对偶问题和对偶约束
    • 11.4 对偶解释
    • 11.5 最优性条件
    • 11.6 支持向量机
  • 12 优化算法
    • 12.1 下降迭代算法
    • 12.2 零阶方法
    • 12.3 一阶方法
    • 12.4 二阶方法
    • 12.5 可行方向法
    • 12.6 制约函数法
    • 12.7 随机梯度下降
    • 12.8 动量梯度下降
    • 12.9 自适应学习
  • 13 期末考试
    • 13.1 课程评价
    • 13.2 期末测试
    • 13.3 期末考试
内积、距离、夹角与正交性