计算机视觉目标检测技术及应用
主讲:徐慧英 教师团队:共4 人
课程介绍
1. 课程简介 本课程系统讲解计算机视觉核心任务——目标检测的理论、技术与前沿进展。课程将从经典两阶段与单阶段检测器(如Faster R-CNN、YOLO系列)的基石原理出发,深入剖析当前研究热点,包括实时高精度检测、小目标检测、多模态融合、Transformer与Mamba等新架构的应用,以及视频目标追踪等高级任务。通过理论与实践相结合,培养学员解决工业级视觉检测问题的综合能力。 2. 课程目标 完成本课程后,学员将能够: 深入理解 目标检测的基本范式、关键技术(如锚框、NMS、特征金字塔)及其演变脉络。 掌握原理 主流及前沿检测模型(如YOLOv5/v10, Swin Transformer, DETR)的核心架构与设计思想。 具备能力 针对特定应用场景(如航拍图像、遥感影像、视频流)选择合适的模型并进行优化、部署。 跟踪前沿 洞察目标检测领域的最新研究趋势,并具备阅读相关学术论文的能力。 3. 课程特色 脉络清晰:梳理从YOLOv1到YOLOv10的技术演进史,揭示性能提升背后的核心驱动力。 前沿深度:不局限于经典模型,深度解读如SwinFIR、MambaVision、ODTrack 等前沿工作,涵盖超分辅助检测、状态空间模型、在线跟踪等交叉方向。 问题导向:聚焦实际应用中的核心挑战,设有“小目标检测”、“模型轻量化”、“多模态融合”等专题模块,讲解如ESOD、SuperYOLO、RemDet、Mamba-YOLO、Equivariant Fusion 等针对性解决方案。 实践赋能:结合主流的MMDetection 工具箱和YOLOv5 框架,通过“口罩检测”等实战案例,完成从数据准备、模型训练、调优到可视化分析的全流程实践。 4. 课程大纲 模块一:基础与范式:目标检测任务定义、评价指标、两阶段与单阶段检测器经典模型剖析。 模块二:YOLO王朝演进:从YOLOv1到YOLOv10的架构革新与设计哲学深度解读。 模块三:工业实战:基于YOLOv5和MMDetection的完整项目实战(数据、训练、调试、部署)。 模块四:前沿专题: 实时与轻量化检测(如PKINet、FBRT-YOLO) 小目标与高分辨率检测(如ESOD、Towards Precise Supervision) 多模态与上下文感知检测(如SuperYOLO、Context Modulated) Transformer与新兴架构(如Swin Transformer、MambaVision) 视频目标追踪(如MCITrack、ODTrack) 5. 面向群体 计算机视觉领域的研究生、高年级本科生。 希望系统提升目标检测技术深度和广度的算法工程师、研发人员。 对人工智能和计算机视觉有浓厚兴趣,具备一定深度学习基础的技术爱好者。查看更多
教师团队