个人介绍
自然语言处理课程

主讲教师:王俊杰

学校: 南京医科大学
课程编号: gx03136364
学分: 4
课时: 72
课程介绍
本课程是一门关于自然语言处理的基本概念、理论方法与最新研究进展的课程, 重点介绍基于统计机器学习方法的自然语言处理技术。课程内容包括单词表征与 词嵌入、语言模型、自动分词、命名实体识别与词性标注、文本分类与情感分析、 机器翻译等。
教学方法

(1)课堂讲授

(2)分组实验

(3)团队设计

(4)自主学习


参考教材

斯坦福CS224N 自然语言处理课程 2020

北京大学自然语言处理课程 2019

CMU 神经网络与自然语言处理课程 2020

统计自然语言处理,宗成庆,清华大学出版社,2008

基于深度学习的自然语言处理,Yoav Goldberg著,车万翔译 2018

马里兰大学 CS470 自然语言处理课程 2019

普林斯顿大学 COS 598C 基于深度学习的自然语言处理课程 2020


课程大纲

第一章  自然语言处理概述

(一)教学目的

1. 掌握自然语言处理的基本任务

2. 自然语言处理的历史、特点

3. 初步了解自然语言处理的挑战

(二)授课时数   3学时

(三)教学内容

1.    主要内容

自然语言处理概述

2.    基本概念和知识点

自然语言处理的发展历史;自然语言处理的的两大问题;自然语言处理的机器模型;自然语言处理的基本任务

3.    问题与应用(能力要求)

了解自然语言处理的发展历史、方法及挑战。

(四)课堂讨论

(五)英文专业术语

(六)自学内容

Python基础知识

 

第二章  中文分词与自然语言建模

(一)教学目的

1. 掌握中文分词算法和自然语言建模方法。

2.了解自然语言模型的平滑方法

(二)授课时数   3学时

(三)教学内容

1. 主要内容

中文分词和自然语言建模

2. 基本概念和知识点

汉语切分的关键问题;最大匹配法分词;词袋模型;TF-IDF模型;N-gram模型

3. 问题与应用(能力要求)

掌握自然语言建模方法。

 

(四)课堂讨论

(五)英文专业术语

TF-IDF、N-gram

(六)自学内容

Jieba库的使用

第三章  机器学习与自然语言处理

(一)教学目的

1. 掌握几种基本传统机器学习方法

2. 掌握机器学习评估方法。

3. 掌握机器学习调参方法

(二)授课时数   3学时

(三)教学内容

1. 主要内容

机器学习在自然语言处理问题上的应用

2. 基本概念和知识点

机器学习基础原理;回归问题评价指标;分类问题评价指标;交叉验证;随机搜索调参;网格搜素调参

3. 问题与应用(能力要求)

掌握机器学习解决文本分类问题。

(四)课堂讨论

机器学习模型参数如何挑选?

(五)英文专业术语

模型(model)、学习算法(learning algorithm) 、数据集(data set):一组记录的集合、示例(instance) 、样本(sample) 、属性(attribute) 、特征(feature) 、属性值(attribute value)、属性空间(attribute space) 、样本空间/输入空间(samplespace)、特征向量(feature vector)、维数(dimensionality) 、预测(prediction):

标记(label)、样例(example) 、分类(classification) 、回归(regression)、

监督学习(supervised learning)、无监督学习(unsupervised learning) 、独立同分布(independent and identically distributed,简称i,i,d.)

(六)自学内容

Sklearn库使用

 章  词向量与文本分类

(一)教学目的 

1. 掌握分布式表示概念

2. 掌握word2vec的两种形式

(二)授课时数   3学时

(三)教学内容

 1. 主要内容

 静态词向量

2.基本概念和知识点

 分布式假设;分布式表示;word2vec;层次softmax;负例采样

3.问题与应用(能力要求)

掌握word2vec的使用。

(四)课堂讨论

Word2vec模型构建

(五)英文专业术语

嵌入(Embedding)

(六)自学内容

       Gensim库使用

 

第五章  文本卷积神经网络

(一)教学目的 

1.熟练卷积的基本概念

2.熟练掌握一维卷积在文本分类、问答问题中的应用

2.熟练掌握神经网络过拟合解决方法

(二)授课时数   3学时

(三)教学内容

1. 主要内容

卷积神经网络;文本卷积神经网络;过拟合

2. 基本概念和知识点

卷积运算;卷积神经网络;经典卷积神经网络架构;文本卷积神经网络;丢弃法;批归一化

3. 问题与应用

文本卷积神经网络在文本分类与问答系统中的应用

(四)课堂讨论

 卷积参数计算

(五)英文专业术语

激活函数(Activation Function)、平均池化(Average-Pooling)、反向传播(Backpropagation)批标准化(BNBatch Normalization)、分类交叉熵损失(Categorical Cross-Entropy Loss)、卷积神经网络(CNN/ConvNetConvolutional Neural Network)、深度残差网络(Deep Residual Network

(六)自学内容

Torchtext库的使用

 

第六章  循环神经网络

(一)教学目的

1.  熟练掌握循环神经网络、LSTM的运用

(二)授课时数   6学时

(三)教学内容

1. 主要内容

循环神经网络及其变种

2. 基本概念和知识点

回归模型;循环神经网络;LSTM;双向循环神经网络

3. 问题与应用

使用循环神经网络解决问答系统

(四)课堂讨论

 LSTM各个门限激活函数的选择

(五)英文专业术语

门控循环单元(Gated Recurrent Unit)、长短期记忆(Long Short-Term Memory)、循环神经网络(RNN:Recurrent Neural Network)、递归神经网络(Recursive Neural Network)、线性修正单元(Rectified Linear Unit)

(六)自学内容

Torchtext库的使用

 

第七章  seq2seq与条件生成

(一)教学目的

1. 掌握seq2seq模型

2. 掌握注意力机制

(二)授课时数   6学时

(三)教学内容

1. 主要内容

Seq2seq模型与条件生成

2. 基本概念和知识点

序列概率模型;seq2seq模型;束搜索;序列生成评价方法;注意力机制

3. 问题与应用(能力要求)

使用seq2seq完成中英文翻译系统

(四)课堂讨论

    Seq2seq模型架构

(五)英文专业术语

    序列到序列(Seq2Seq)、注意力(Attention)

(六)自学内容

TorchText库使用

第八章  自注意力机制与Transformer 模型

(一)教学目的

1. 熟练掌握自注意力机制

2. 掌握Transformer模型

3. 了解Transformer模型的变种

(二)授课时数   3学时

(三)教学内容

1. 主要内容

注意力机制与Transformer结构

2. 基本概念和知识点

注意力机制、自注意力机制、多头注意力机制、位置编码、残差连接、Transformer编码器与解码器

3. 问题与应用(能力要求)

使用Transformer完成机器翻译

(四)课堂讨论

    Transformer中注意力分类

(五)英文专业术语

    Transformer、多头注意力机制(multi-head attention)

(六)自学内容

    Torchtext中机器翻译数据集使用

第九章  动态向量与ELMO

(一)教学目的

1. 掌握动态向量

2. 掌握ELMO架构

3. 熟悉ELMO实现方式

(二)授课时数   3学时

(三)教学内容

1. 主要内容

动态向量与ELMO

2. 基本概念和知识点

动态向量的基本概念、双向语言模型、ELMO架构

3. 问题与应用(能力要求)

使用ELMO训练动态词向量

(四)课堂讨论

    动态向量的优点

(五)英文专业术语

    词嵌入语言模型(Embedding from Language Models, ELMO)

(六)自学内容

Transformers

第十章  BERT及其变种

(一)教学目的

  1.   掌握BERT结构

2.  熟悉BERT训练方式

3.  了解BERT变种

(二)授课时数   3学时

(三)教学内容

1. 主要内容

BERT结构与训练方式

2. 基本概念和知识点

BERT架构、BERT训练任务、微调概念、BERT优缺点以及改进方式

3. 问题与应用(能力要求)

使用BERT完成QA、NER等任务

 (四)课堂讨论

    如何训练BERT

(五)英文专业术语

    双向 Transformer 编码器(Bidirectional Encoder Representation from Transformers, BERT)、命 名 实 体 识 别 ( Named Entity Recognition,

NER)、机 器 阅 读 理 解 - 问 答 ( Machine Reading Comprehension Question Answering, MRC-QA)

(六)自学内容

Transformers


课程进度


自然语言处理课程进度

1

理论:自然语言处理概论 实验:复习python以及练习使用自然语言处理基本工具

2

理论:分词与自然语言模型 实验:练习中文分词和复习基本机器学习在NLP中的应用

3

理论: 机器学习与NLP 实验:练习常见机器学习在NLP中的应用

4

理论:词向量与文本分类 实验:练习基于词向量的文本分类

5

理论:针对文本的卷积神经网络 实验: 练习基本的卷积网络在NLP中的应用

 

6

理论: 深度学习与NLP 实验:练习深度学习在NLP中的简单应用

7

理论: seq2seq与条件生成 实验: 练习机器翻译系统

8

理论: 动态向量与ELMO技术 实验: 练习ELMO

9

理论:自注意力机制与Transformer 模型 实验: 练习transformer模型

10

理论: BERT以及变种 实验: 练习BERT

11

理论: GPT XLNET 实验: 练习GPT

12

理论:结构化输出预测 实验: 基于BERT的医学NER


教学资源
课程章节 | 文件类型   | 修改时间 | 大小 | 备注
1.1 绪论
文档
.pdf
2021-03-10 7.36MB
1.2 NLP基础实验
附件
.${file.extension}
2021-03-09 --
 
附件
.${file.extension}
2021-03-09 --
 
附件
.${file.extension}
2021-03-09 --
 
附件
.${file.extension}
2021-03-09 --
 
附件
.${file.extension}
2021-03-09 --
 
附件
.${file.extension}
2021-03-09 --
2.1 分词
文档
.pdf
2021-03-10 5.88MB
2.2 中文自然语言处理
附件
.${file.extension}
2021-03-02 --
 
附件
.${file.extension}
2021-03-02 --
 
附件
.${file.extension}
2021-03-02 --
 
附件
.${file.extension}
2021-03-02 --
 
附件
.${file.extension}
2021-03-02 --
2.3 机器学习复习
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
 
附件
.${file.extension}
2021-03-10 --
3.1 机器学习与自然语言处理基础
文档
.pdf
2021-03-25 8.34MB
3.2 分类评估方法
文档
.pptx
2021-03-25 9.22MB
 
附件
.${file.extension}
2021-03-25 --
 
附件
.${file.extension}
2021-03-25 --
 
附件
.${file.extension}
2021-03-25 --
 
附件
.${file.extension}
2021-03-25 --
 
附件
.${file.extension}
2021-03-25 --
3.3 线性回归
附件
.${file.extension}
2021-03-12 --
 
附件
.${file.extension}
2021-03-12 --
 
附件
.${file.extension}
2021-03-12 --
3.4 逻辑回归
附件
.${file.extension}
2021-03-12 --
 
附件
.${file.extension}
2021-03-12 --
 
附件
.${file.extension}
2021-03-12 --
4.1 自然语言模型
文档
.pdf
2021-03-23 3.00MB
4.2 词向量
文档
.pdf
2021-03-25 877.31KB
 
文档
.pptx
2021-03-25 2.35MB
5.1 卷积神经网络
文档
.pptx
2021-04-06 81.86MB
5.2 pytorch模型训练流程
文档
.pdf
2021-04-06 609.72KB
6.1 循环神经网络
文档
.pptx
2021-04-06 35.68MB
6.2 NER
文档
.pptx
2021-04-13 58.30MB
7.1 知识点回顾
文档
.pptx
2021-04-27 1.30MB
8.1 第二次作业
文档
.pptx
2021-04-27 20.82MB
9.1 seq2seq
文档
.pptx
2021-04-27 67.43MB
10.1 Attention与Transformer
文档
.pptx
2021-05-11 52.94MB
11.1 迁移学习与预训练模型
文档
.pptx
2021-05-18 34.95MB
提示框
取消 进入课程
提示框
确定要报名此课程吗?
确定取消

京ICP备10040544号-2

京公网安备 11010802021885号