1
工业机器视觉:基于灵闪平台的开发及应用
1.12.1.1 10.1.1 图像分类与检测
10.1.1 图像分类与检测

图像分类问题是用某种类别名称来描述图片,作为最简单的图像理解任务,一般是判断图片中是否含有某一类东西,最常见的图像分类问题是手写数字分类。而目标检测则是在分类的基础上还需要得到物体在图片上的位置。图像分类与检测算法广泛应用于人脸识别、车牌检测等,渗透到人类生活的方方面面。

目标分类问题是目标检测的开端。一般的算法流程是,被测图片首先经过一个特征提取器,然后输出到一个分类器,经过分类输出图像的类别。目标检测的思路则是先在图片上使用卷积神经网络作为特征提取器提取原始图像中的特征信息,然后根据区域建议网络判断是否包含感兴趣的物体,最后通过判别器根据前两步得出区域及物体的类别。

图10-1是kaggle比赛中的图像分类数据集,也是图像分类的理想结果,图10-2是目标检测的效果图。

图10-1 cifar10数据集示意图

图10-2 目标检测效果图

常用的图像分类算法有支持向量机、最近邻分类、朴素贝叶斯分类器,深度学习算法有VGG(Visual Geometry Group)、GoogleNet、ResNet(Residual Network)、Inception模块等。

目前一般使用深度学习算法来解决目标检测任务。深度学习算法主要分成两大类:一类是两阶段(Two-Stage)网络,如R-CNN、Fast-R-CNN、Faster-R-CNN,这类网络精度比较高;一类是单阶段(One-Stage)网络,如YOLO、SSD、SqueezeDet以及Detect Net,这类网络的优点是速度快,比较适合移动端。