个人介绍
大语言模型与经济学研究 湖南大学

主讲教师:肖皓

教师团队:共3

  • 肖柏高
  • 孙天宇
  • 肖皓
大语言模型课程简介 本课程聚焦于当下人工智能领域的前沿技术 —— 大语言模型,旨在为学员打造从理论基础到实践应用的全方位学习体验,帮助学员深入理解并熟练掌握大语言模型的核心知识与技能。 课程内容丰富且系统,从大语言模型的发展脉络入手,详细剖析其背后的技术原理,涵盖从早期的统计语言模型到如今先进的大语言模型的演进历程,让学员清晰把握技术发展的趋势。深入讲解大语言模型的关键技术,如规模扩展、数据工程、高效预训练等,揭示模型强大能力的实现机制。同时,课程对模型训练的各个环节进行细致拆解,包括数据准备、模型架构设计、预训练任务选择、优化参数设置等,使学员具备独立进行模型训练和优化的能力。在微调与对齐、模型使用、评测与应用等方面,课程也提供了全面且深入的知识讲解和实践指导,让学员能够根据不同的场景需求,灵活运用大语言模型技术解决实际问题。 教学过程中,采用理论讲授、案例分析与实践操作相结合的方式。理论讲解注重深入浅出,将复杂的技术概念和原理以通俗易懂的方式呈现给学员;案例分析环节引入大量实际应用案例,从自然语言处理到信息检索,从医疗到教育等领域,帮助学员更好地理解大语言模型在不同场景下的应用逻辑和价值;实践操作环节安排丰富的实验和项目,让学员在实际操作中巩固所学知识,提升动手能力和解决实际问题的能力。 通过本课程的学习,学员将收获扎实的大语言模型理论知识,掌握模型训练、优化、应用和评估的核心技能,能够在相关领域的研究和开发工作中发挥重要作用。无论是希望深入探索人工智能技术的科研人员,还是渴望将大语言模型应用于实际业务的开发者,都能从本课程中获得宝贵的知识和经验,为在大语言模型领域的职业发展和技术创新奠定坚实的基础。
学校: 湖南大学
开课院系: 经济与贸易学院
课程编号: ET06084
学分: 0
课时: 0

大语言模型课程大纲

一、课程简介

本课程围绕大语言模型展开,全面介绍其技术体系。通过理论讲解、案例分析与代码实践,帮助学员掌握大语言模型从基础原理到应用评测的核心知识与技能,为从事相关研究或开发工作奠定坚实基础。

二、课程目标

  1. 让学员深入理解大语言模型的发展历程、技术原理和关键技术。

  2. 帮助学员掌握大语言模型的训练、微调与对齐方法,具备实际操作能力。

  3. 使学员熟悉大语言模型的应用场景,能够在不同领域进行应用开发和优化。

  4. 培养学员对大语言模型技术的研究兴趣,提升其解决实际问题的能力和创新思维。

三、课程内容

(一)背景与基础知识(6 学时)

  1. 语言模型发展历程(2 学时)

    • 统计语言模型:原理、应用及局限性

    • 神经语言模型:分布式词表示、代表性模型及贡献

    • 预训练语言模型:架构与训练创新、典型模型对比

    • 大语言模型:概念、涌现能力及与传统模型差异

  2. 大语言模型能力特点(1 学时)

    • 知识储备:世界知识学习与应用

    • 任务解决能力:通用任务求解的原理与表现

    • 推理能力:复杂任务推理的机制与效果

    • 指令遵循与对齐能力:实现方式及重要意义

    • 工具使用能力:拓展能力的途径与应用场景

  3. 大语言模型关键技术概览(1 学时)

    • 规模扩展:扩展法则、模型架构的可扩展性

    • 数据工程:数据采集、清洗与利用效率提升

    • 高效预训练:分布式训练算法、优化技巧

    • 能力激发:指令微调、提示策略的应用

    • 人类对齐:对齐标准、常用算法介绍

    • 工具使用:工具调用的实现方式与效果

  4. 大语言模型对科技发展的影响(1 学时)

    • 对人工智能领域的变革:研究方向与范式转变

    • 在多领域的应用:自然语言处理、信息检索等领域的应用实例

    • 对科研范式和产业的影响:推动科研与产业发展的具体表现

  5. 大语言模型资源(1 学时)

    • 公开模型与 API:常用开源模型、闭源模型 API 介绍

    • 数据集:预训练、微调数据集的类型与应用

    • 代码库:主流代码库的功能与使用方法

(二)预训练(10 学时)

  1. 数据准备(3 学时)

    • 数据来源:通用与专用文本数据介绍

    • 数据预处理:质量过滤、敏感内容处理、去重等技术

    • 词元化:常见分词方法的原理与应用

    • 数据调度:混合策略与课程设计

  2. 模型架构(3 学时)

    • Transformer 模型:结构、组件及工作原理

    • 详细配置:归一化、激活函数等配置要点

    • 主流架构:编码器 - 解码器、因果解码器等架构特点

    • 长上下文模型:扩展位置编码、调整上下文窗口的方法

    • 新型模型架构:基于状态空间模型的新型架构介绍

  3. 模型预训练(4 学时)

    • 预训练任务:语言建模、去噪自编码等任务类型

    • 优化参数设置:批次大小、学习率等参数调整策略

    • 可扩展训练技术:3D 并行训练、零冗余优化器等技术应用

    • 模型参数量计算与效率分析:参数量、运算量、训练时间及显存估计方法

    • 预训练代码实践:基于框架的预训练代码示例与操作

(三)微调与对齐(8 学时)

  1. 指令微调(4 学时)

    • 指令数据构建:基于 NLP 任务、日常对话等数据的构建方法

    • 训练策略:优化设置、数据组织形式

    • 参数高效模型微调:低秩适配等微调方法介绍

    • 代码实践与分析:指令微调及 LoRA 微调的代码实现与实验分析

  2. 人类对齐(4 学时)

    • 背景与标准:人类对齐的重要性及常用标准

    • 基于人类反馈的强化学习:RLHF 的原理、关键步骤及数据收集方法

    • 非强化学习的对齐方法:监督对齐算法等介绍

    • 对比分析:监督微调与强化学习对齐算法的优缺点

(四)大模型使用(8 学时)

  1. 解码与部署(3 学时)

    • 解码策略:贪心搜索、随机采样等策略介绍

    • 解码加速算法:提升解码效率的方法

    • 低资源部署策略:量化技术、模型压缩方法

  2. 提示学习(2 学时)

    • 基础提示:人工提示设计与自动优化方法

    • 上下文学习:学习形式、示例设计及底层机制

    • 思维链提示:基本形式、优化策略及应用

  3. 规划与智能体(3 学时)

    • 基于大语言模型的规划:整体框架、方案生成与反馈获取

    • 基于大语言模型的智能体:智能体构建、多智能体系统及典型应用

    • 关键技术问题:当前面临的技术挑战及解决方案探讨

(五)评测与应用(8 学时)

  1. 评测(4 学时)

    • 评测指标与方法:常用指标、评测范式介绍

    • 能力评测:基础与高级能力评测的内容与方法

    • 公开综合评测体系:主流评测体系介绍与应用

    • 评测代码实践:使用代码进行模型评测的示例

  2. 应用(4 学时)

    • 在研究领域的应用:自然语言处理、信息检索等领域的应用案例

    • 在专业领域的应用:医疗、教育、法律等领域的应用实践

四、课程总结(2 学时)

  1. 课程回顾:各章节重点知识回顾与总结。

  2. 技术挑战与研究趋势:大语言模型当前面临的挑战及未来研究方向探讨。

  3. 课程项目展示与交流:学员展示课程项目成果,进行交流与分享。

五、教学方法

  1. 课堂讲授:通过 PPT、板书等形式,系统讲解大语言模型的理论知识和技术要点。

  2. 案例分析:结合实际案例,分析大语言模型在不同场景下的应用和效果,加深学员理解。

  3. 代码实践:安排实验课程,让学员在实践中掌握大语言模型的训练、微调、评测等操作技能。

  4. 小组讨论:组织学员对特定话题进行小组讨论,促进学员之间的思想碰撞和合作学习。

六、考核方式

  1. 平时作业:布置与课程内容相关的作业,考查学员对知识点的掌握和应用能力,占总成绩 30%。

  2. 实验报告:根据实验课程完成情况,撰写实验报告,考核学员的实践操作和分析能力,占总成绩 30%。

  3. 课程项目:要求学员完成一个大语言模型相关的项目,综合考查学员的知识运用和创新能力,占总成绩 40%。


肖柏高

职称:教师

孙天宇

职称:教师

肖皓

职称:教师

单位:湖南大学

部门:非洲研究院

提示框
取消 进入课程
提示框
确定要报名此课程吗?
确定取消

京ICP备10040544号-2

京公网安备 11010802021885号